1 / 14
文档名称:

数据分析.pptx

格式:pptx   大小:913KB   页数:14页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

数据分析.pptx

上传人:春哥知识店铺 2021/9/6 文件大小:913 KB

下载得到文件列表

数据分析.pptx

相关文档

文档介绍

文档介绍:数据分析
主要内容
行列处理
行、列数据重要性的区别(针对机器学****br/>行:一个样本数据
列:所有样本的一个特征数据
删除行数据:不影响其他样本
删除列数据:影响所有样本
列数据重要度远远大于行数据重要度
大部分处理操作集中于列数据处理
列处理
重命名列标签(或列索引)
rename():重命名一个或者多个列标签
columns:同时重命名所有列标签
删除列
drop():删除一个或多个列,注意其的inplace参数的用法
新建列
data[‘新列标签’] = xxx:Pandas会自动判断是否需要创建一个新列
日期数据处理
datetime64:日期时间数据类型,提供了了丰富的针对日期时间的操作。
原始数据DateTime:()
常用日期时间处理
获取相关信息:.,.,.()
加减操作:获取5天之前的日期,获取13:00之后15分钟的时间
排序操作:支持按大小排序
索引
注意区分索引与下标
打印DataFrame数据的时候,不会显示下标。
索引的作用
提供快速访问行列数据的机制
提升数据查询、操作的性能
支持数据自动对齐功能
支持数据联接等复杂数据操纵功能
索引
常见类型数据均可以被设为索引,如数值类型、字符串类型、日期时间类型等。
设置索引:set_index()
单级索引、多级索引
基于索引的查询
单级索引查询
列数据:data[‘A’]
行数据:[0][‘0’]
多级索引查询
查询代码:
多级索引查询示例
建议严格按照以下代码格式编写多级索引查询代码
index1 = 'Guangzhou'
index2 = '2013/7/1'
[ (index1, index2), ] #注意使用元组表示多级索引:('Guangzhou', '2013/7/1’)。
如果涉及切片:
idx =
index1 = 'Guangzhou'
index2 = slice('2013/7/1', '2013/7/10')
index = idx[index1, index2]
[ index, ]
idx =
index1 = ['Guangzhou', 'Shanghai']
index2 = slice(None)
index = idx[index1, index2]
[ index, ]
统计分析
统计分析的重要性:隐藏过多的数据细节,发现隐含的规律
如何比较A和B在同一门课的学****效果?如何比较班级A与班级B在同一门课的学****效果?
常见的统计分析查询
一年中最热的月份
2000-2020年年均气温数据
最低气温与最高气温
按气温高低排序