文档介绍：python数据分析，网络评论量可视化分析
利用网络爬虫，爬取糗事百科的段子信息和用户信息，通过pandas数据清洗后，利用pyecharts库，做可视化分析。
1、数据来源
import numpy as npimport pandas as pdimport pyecharts
data1 = (open('',encoding='utf-8'))
() #爬取糗事百科的段子信息
各字段id 、sex 、age、 laugh、 comment、content的含义分别为用户ID、性别、年龄、好笑数、评论数、用户URL、段子内容。
data2 = (open('',encoding='utf-8'))
() #对应的用户信息
其中fans、 topic、 qiushi 、comment_1 、favour、 handpick、 martial_status 、constellation 、profession、 home 、qiushi_age、user_url 字段分别代表的含义为粉丝、关注、段子数量、评论量、笑脸、糗事精选、婚姻状况、星座、职业、家乡、用户URL。
2、问题研究
段子的评论量和点赞数
用户的男女分布；
用户的星座和地区分布。
数据清洗
() #查看数据情况、检查是否具有缺失值
可以看出Usuer_url 具有缺失值。
data1['age'].unique() #查看唯一值
查看缺失值可以看到，在年龄中有不详的数据。
data1['age'].replace('不详',0,inplace=True) #将不详的数据替换为0数据
data1['age'] = data1['age'].astype('int64') #将age字段转换为int数据类型
data1['age'].replace(0,int(data1[data1['age']!=0]['age'].mean()),inplace=True) #用平均值替换0值
data1['age'].unique() #查看唯一值
替换后的唯一值。
#查看数据类型
() #数据情况
().sum() #查看是否具有缺失值
查看缺失值发现，前几个用户字段都有5个缺失值。
(inplace=True) #()
删除缺失值。
data2['fans'] = data2['fans'].astype('int64')
data2['topic'] = data2['topic'].astype('int64')
data2['qiushi'] = data2['qiushi'].astype('int64')
data2['comment_1'] = data2['comment_1'].astype('int64')
data2['favour'] = data2['favour'].astype('int64')
data2['handpick'] = data2['handpick'].astype('int64') #转换数据类型
data2['province'] = data2['home'].('· ').str[0] #字符串处理，新加一列，()
data2['qiushi_age'] = data2['qiushi_age'].('天') #用户年龄删除“天”后，转化为int类型
data2['qiushi_age'] = data2['qiushi_age'].astype('int64')
()
3、数据探索
laugh_sort = (by = 'laugh',ascending=False)[0:10]
laugh_sort
对laugh字段排序，选取前十条搞笑的数据。
bar = ('搞笑段子用户排名') #绘制好笑数前十的用户柱状图
attr = list(laugh_sort['id'])v1 = list(laugh_sort['laugh'])
('搞笑数',attr,v1,is_label_show=True, #is