1 / 17
文档名称:

Python数据分析与可视化习题答案.pdf

格式:pdf   大小:1,692KB   页数:17页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Python数据分析与可视化习题答案.pdf

上传人:青山代下 2024/5/21 文件大小:1.65 MB

下载得到文件列表

Python数据分析与可视化习题答案.pdf

相关文档

文档介绍

文档介绍:该【Python数据分析与可视化习题答案 】是由【青山代下】上传分享,文档一共【17】页,该文档可以免费在线阅读,需要了解更多关于【Python数据分析与可视化习题答案 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。:..第一章1、阐述统计分析与数据挖掘的特点。传统的统计分析是在已定假设、先验约束的内情况下,对数据进行整理筛选和加工,由此得到一些信息。数据挖掘是将信息需要进一步处理以获得认知,继而转为有效的预测和决策。统计分析是把数据变成信息的工具,数据挖掘是把信息变成认知的工具。2、数据分析的基本步骤包括哪些?(1)数据收集;(2)数据预处理;(3)数据分析与知识发现;(4)数据后处理。3、相比R语言、MATLAB、SAS、SPSS等语言或工具,Python有哪些优点?(1)Python是面向生产的;(2)强大的第三方库的支持;(3)Python的胶水语言特性。第二章选择题1、python之父是下列哪位?(A)A、吉多范罗苏姆B、丹尼斯里奇C、詹姆斯高林思D、克里夫默勒2、python的缩进功能有什么作用?(C)A、增加代码可读性B、方便放置各类符号C、决定程序的结构D、方便修改程序3、python的单行注释通过什么符号完成?(B)A、双斜杠(//)B、井号(#)C、三引号(‘’’)D、双分号(;;)4、以下选项中,Python数据分析方向的库是?(C):..A、PILB、DjangoC、pandasD、flask5、以下选项中,Python网络爬虫方向的库是?(D)A、numpyB、openpyxlC、PyQt5D、scrapy对错题1、winpython会写入windows注册表(F)2、python与大多数程序设计语言的语法非常相近(T)3、Python的缩进是一种增加代码可读性的措施(F)4、PANDAS是一个构建在Numpy之上的高性能数据分析库(T)5、Jupyter是一个交互式的数据科学与科学计算开发环境(T)填空题1、python中的多行注释使用三引号/’’’表示。2、pandas能对数据进行排序、分组、归并等操作。3、Scikit_learn包括多种分类、回归、聚类、降维、模型选择和预处理的算法。4、Matplotlib是一个绘图库。5、将Ipython项目中与其程序设计语言无关的部分独立出来形成的新项目是Jupyter。:..第三章选择题1、下列不是集中趋势的主要测度的是?(D)A、均值B、中位数C、众数D、方差2、下列不是离散程度的主要测度的是?(D)A、极差B、方差C、标准差D、中位数3、下列不属于数据质量的评估标准的是?(C)A、完整性B、一致性C、可控性D、及时性4、下列不属于噪声数据处理方法的是你?(B)A、分箱技术B、同化技术C、聚类技术D、回归技术5、下列不属于特征提取方法的是?(B)A、主成分分析B、多重判别分析C、独立成分分析D、线性判别分析对错题1、数据库中不含缺失值的变量被称为完全变量(T)2、噪声是指被观测变量的随机误差或标准差(F)3、一致性是指数据是否合乎规范,数据内的数据是否保持一致的格:..式(T)4、及时性是指数据产生到可以查看的时间间隔,也叫数据的延时时长(T)5、特征构建是指从预处理的数据中人工构建新的特征(F)填空题1、数据分析需要特别关注集中趋势、离散程度两点。2、一般可以通过数据统计中的记录值和唯一值两个值来评估数据质量的完整性。3、数据质量是数据分析结果的有效性和准确性的前提保证。4、异常数据如果没哟规律可循几乎不可能被还原,只能将其过滤。5、特征提取是在原始特征的基础上,自动构建新的特征,将源石特征转换为一组更具物理意义、统计意义或者核的特征。第四章选择题:1、关于NumPy说法不正确正确的是(D)A、NumPy是Python处理数组和矢量运算的库。B、NumPy是高性能计算的基础。C、NumPy是数据分析的基础。D、Pandas、scikit-learn和Matplotlib是NumPy的基础2、关于ndarray对象说法不正确正确的是(D)A、Ndarray对象指的是多维数组对象。B、Ndarray对象是NumPy中很重要的对象。C、Ndarray保存的是同一类型的对象。D、Ndarray的访问方式不同于列表。3、下列哪些不是描述ndarray对象的属性(C)A、shapeB、ndimC、array:..D、size4、创建单位矩阵,对角线元素为1,其余为0需要用到下列哪个函数(D)A、onesB、ones_likeC、empty_likeD、eye、identity5、对下列函数说法正确的是(B)A、reshape会修改原adarray对象B、reveal不会修改原adarray对象C、T会修改原adarray对象D、resize不会修改原adarray对象判断题1、float16为半精度浮点数。(对)2、float128为双精度浮点数(错)扩展精度plex128(c16)使用两个双精度浮点数表示的复数。(对)4、empty指定shape,,创建新数组,且填充为0(错)不填充5、size指ndarray对象的维度。(错)元素个数填空题1、代码中用“”指代NumPy。2、查询某个ndarray对象的dtype属性,会返回一个(dtype)类型的对象。3、T函数返回原ndarray对象的(转置)4、布尔值的字节长度为(1)5、ndim指ndarray对象的(维度)。第五章一、()AAdisc={'1':1,'2':2,'3':3}obj_c=Series(disc,index=['1','2','3'])Bdisc={'1':1,'2':2,'3':3}obj_c=Series(disc,index=[1,2,3])Cdisc={'a':1,'b':2,'c':3}obj_c=Series(disc,index=['1','2','3'])Ddisc={'a':1,'b':2,'c':3}obj_c=Series(disc,index=[1,2,3])()D:..()AAdrop,axis=0Bdrop,axis=,以下哪一项针对时间间隔数据()DAInt64IndexBMultiIndexCDatetimeIndexDPeriodIndex5.“groupby”包括“________”3个阶段()AAsplit-binebine-applyCcombine-apply-splitDcombine-split-apply二、。。True:..、差、交的操作。,pandas自动创建一个1–n的序列作为索引。,能够自动进行数据对齐的操作。True三、。(SeriesDataFrame)[1]:obj_a=Series([1,2,3,4])In[2]:[2]:Int64Index([0,1,2,3])In[3]:[3]:array([1,2,3,4])(indexvalues),iloc函数接收Index对象的________。(标签位置);________函数会将数据对象分成多个组,然后对每个组调用传入的函数,最后将其组合到一起。(aggapply);________对象产生的是扩展窗口;________对象产生的是指数加权窗口。:..(RollingExpandingEWM):..第六章一、()()()DADijstraBAprioriCFP-()AP(B|A)BP(A∩B)CP(B)DP(B|A)/P(B)()A分类分析B关联分析C聚类分析:..回归分析二、。,针对训练集,将其投影到一条直线上,使得同类样本点尽可能接近,异类样本点尽量远离。。、相关方向和相关强度,并建立数学模型来进行预测。。True三、:________。(p(y|x)=(p(x|y)p(y))/(p(x)))。(生成频繁项集生成强规则):如果一个集合是频繁项集,则它的所有________都是频繁项集;Apriori算法定律2:如果一个集合不是频繁项集,则它的所有________都不是频繁项集。(子集超集):..,如果穷举项集的所有组合,并测试每个组合是否满足条件。那么对于一个元素个数为n的项集,所需要的时间复杂度为________。(O(2n)):________和________。(关联分析聚类分析):..一、单选题1、在支持向量机分类方法中,在拟合以后,可以通过以下哪一个参数获取支持向量的索引()BAsupport_vectors_Bsupport_Cn_supportD以上均不是2、下列能够实现多元分类的是()DASVCBNuSVCC高斯过程分类D以上均是3、下列说法不正确的是()AAscikit-,,scikit-learn也实现了两种邻回归,KNeighborsRegressor与RadiusNeighborsRegressor分别基于每个查询点的k个最近邻、每个查询点的固定半径内的“邻居”数量实现4、下列关于k均值下列说法不正确的是()CA两种k均值算法在使用时都需要通过n_clusters参数指定聚类的个数。B给足够多的时间,k均值算法总能够收敛,但可能得到的是局部最小值。,通过n_jobs参数能指定该模型使用的处理器个数。若为正值,则使用“n_jobs”个处理器,-3代表使用全部处理器,-2代表除了两个处理器以外全部使用,-1代表除了某个处理器以外全部使用。、下列关于聚类说法不正确的是()CA在谱聚类中,可以设置assign_labels参数以使用不同的分配策略。B在层次聚类中使用n_clusters参数可以指定聚类个数,linkage参数用于指定合并的策略,plete、averageCDBSCAN的核心概念是CoreSamples,即位于高密度区域的样本,其中较小的min_samples:..esp表示形成聚类的密度较高。D在BIRCH中,有两个重要的参数:branching_factor(分支因子)和threshold(阈值),分支因子限制了一个节点中的子集群的数量,阈值限制了新加入的样本和存在于现有子集群中样本的最大距离。二、对错题1、在逻辑回归中,saga求解器基于随机平均梯度下降算法,其在大数据集上的收敛速度更快。()错2、在最近邻分类方法中,KNeighborsClassifier是基于每个查询点的固定半径r内的邻居数量实现,其中r是用户指定的浮点数。()是k,是数量,是整数,错3、MultinomialNB、BernoulliNB、GaussianNB还提供了partial_fit方法,该方法能够动态地解决加载大数据集的问题。与fit使用方法相同,操作比较简单。,错,与fit使用方法不同4、岭回归从本质上来说也是最小二乘法,只不过是通过对系数的大小施加惩罚来改进。对5、Mean-Shift算法不是高度可扩展的,因为在执行算法期间需要执行多个最近邻搜索。因为当质心较少时,会停止迭代,所以此算法不收敛,错,是收敛的三、填空题1、scikit-learn是SciPy中一个非常著名的分支,scikit-learn所支持的算法、模型均是经过广泛验证的。在本章的学****中,主要介绍了___________、______________、__________等3大类。2、在随机梯度下降分类方法中,,可以通过loss函数来设置损失函数,要软件间隔对应向量机、平滑Hinge或逻辑回归,loss的值应分别选用__________、__________、____________。3、目前,MLPClassifier只支持____________函数,通过运行_________方法进行概率估计,MLP算法使用的是__________传播的方式。4、Scikit-learn支持高斯朴素贝叶斯、多项分布朴素贝叶斯与伯努利朴素贝叶斯算法,分别由____________、_____________、________________实现。:..、AffinintyPropagation类中,若要设置相似度度量方式,设置阻尼因子,设置向量,代表对各个点的偏好应该要分别设置____________、__________________、_______________等参数。答案:1、分类方法;回归方法;聚类方法2、hinge;modified_huber;log3、交叉熵损失函数;predict_proba;反向传播4、、、、Affinity、damping、preference:..一、单选题1、在使用savefile函数将生成的函数图像保存为图片时,可以使用下列哪个参数来指定图片清晰度()AAdpiBbbox_inchesCtightDaxes2如下图所示,In[3]表示的意思是:()BAfigure对象中的subplot布局为2×2,选中了索引为1的subplotBfigure对象中的subplot布局为2×1,同时分别选中了索引为1和3的subplotCfigure对象中的subplot布局为2×3,选中了索引为1的subplotDfigure对象中的subplot布局为2×2,选中了索引为3的subplot3、代码“(t,s,color=’k’,linestyle=’-’”的意思是()AA以t为横轴,s为纵轴,画函数图像,线条类型为虚线B以s为横轴,t为纵轴,画函数图像,线条类型为虚线C以t为横轴,s为纵轴,画函数图像,线条类型为实线D以s为横轴,t为纵轴,画函数图像,线条类型为实线4、如下图所示,请问哪一行代码创建了两个柱状图()BAIn[4]BIn[5]BIn[6]DIn[7]5、在柱状图设计中,为了设置颜色的透明度可以设置哪个函数的哪个参数()D:..、对错题1、一个figure对象只能建立一个axes,一个axes中能够建立多个subplot()错误2、minortick比majortick更短,而且显示具体的坐标值()错误3、为了让直方图的条纹面积为1,可以为axes,hist函数设置参数density=true()对4、使用pylot进行3D图表的绘制,需要创建axes时设置projection为3d对5、,shadow表示百分比数值的显示格式()错三、填空题1、如果我们要建立一个figure对象,让它拥有2×2的axes布局,可以输入以下代码____________________________________。,axes=(2,2)()2、构建图表的主要步骤包括_____________、_____________、_____________、____________。参考答案:准备数据;生成图表对象并将数据数据传入;调整图表装饰项;3、如下图所示,添加箭头尖端的位置为____________;注释文字位置为_______________;:..参考答案:(16,27);(16,22)4、在绘制饼图时,,其中参数labels,sizes,explode分别代表_____________;____________________;______________。参考答案:饼图中分区所代表的的含义;每个分区各自的面积占比,每个分区相对中心的偏移值5、在绘制表格时,,还可以通过________、_________来设置行标签和列标签。rowLabels;colLabels