1 / 20
文档名称:

[全]python数据分析,网络评论量可视化分析.docx

格式:docx   大小:1,339KB   页数:20
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

[全]python数据分析,网络评论量可视化分析.docx

上传人:1393380**** 2020/12/9 文件大小:1.31 MB

下载得到文件列表

[全]python数据分析,网络评论量可视化分析.docx

文档介绍

文档介绍:python数据分析,网络评论量可视化分析
利用网络爬虫,爬取糗事百科的段子信息和用户信息,通过pandas数据清洗后,利用pyecharts库,做可视化分析。
1、数据来源
import numpy as npimport pandas as pdimport pyecharts
data1 = (open('',encoding='utf-8'))
() #爬取糗事百科的段子信息
各字段id 、sex 、age、 laugh、 comment、content的含义分别为用户ID、性别、年龄、好笑数、评论数、用户URL、段子内容。
data2 = (open('',encoding='utf-8'))
() #对应的用户信息
其中fans、 topic、 qiushi 、comment_1 、favour、 handpick、 martial_status 、constellation 、profession、 home 、qiushi_age、user_url 字段分别代表的含义为粉丝、关注、段子数量、评论量、笑脸、糗事精选、婚姻状况、星座、职业、家乡、用户URL。
2、问题研究
段子的评论量和点赞数
用户的男女分布;
用户的星座和地区分布。
数据清洗
() #查看数据情况、检查是否具有缺失值
可以看出Usuer_url 具有缺失值。
data1['age'].unique() #查看唯一值
查看缺失值可以看到,在年龄中有不详的数据。
data1['age'].replace('不详',0,inplace=True) #将不详的数据替换为0数据
data1['age'] = data1['age'].astype('int64') #将age字段转换为int数据类型
data1['age'].replace(0,int(data1[data1['age']!=0]['age'].mean()),inplace=True) #用平均值替换0值
data1['age'].unique() #查看唯一值
替换后的唯一值。
#查看数据类型
() #数据情况
().sum() #查看是否具有缺失值
查看缺失值发现,前几个用户字段都有5个缺失值。
(inplace=True) #()
删除缺失值。
data2['fans'] = data2['fans'].astype('int64')
data2['topic'] = data2['topic'].astype('int64')
data2['qiushi'] = data2['qiushi'].astype('int64')
data2['comment_1'] = data2['comment_1'].astype('int64')
data2['favour'] = data2['favour'].astype('int64')
data2['handpick'] = data2['handpick'].astype('int64') #转换数据类型
data2['province'] = data2['home'].('· ').str[0] #字符串处理,新加一列,()
data2['qiushi_age'] = data2['qiushi_age'].('天') #用户年龄删除“天”后,转化为int类型
data2['qiushi_age'] = data2['qiushi_age'].astype('int64')
()
3、数据探索
laugh_sort = (by = 'laugh',ascending=False)[0:10]
laugh_sort
对laugh字段排序,选取前十条搞笑的数据。
bar = ('搞笑段子用户排名') #绘制好笑数前十的用户柱状图
attr = list(laugh_sort['id'])v1 = list(laugh_sort['laugh'])
('搞笑数',attr,v1,is_label_show=True, #is