1 / 43
文档名称:

2021年2021年度北京民宿数据分析讲义.ppt

格式:ppt   大小:8,584KB   页数:43页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2021年2021年度北京民宿数据分析讲义.ppt

上传人:梅花书斋 2021/1/25 文件大小:8.38 MB

下载得到文件列表

2021年2021年度北京民宿数据分析讲义.ppt

文档介绍

文档介绍:1 提出问题
*
北京民宿数据分析
*
1 内容
获得北京特色住宿相关的数据,数据信息包含民宿数量,主要分布的区域,住客打分,住客点评量,价格,距离中心区公里数等。
2 工具
市场上没有“现成”的数据,该怎么办?这是面临的第一个难题,后来仔细想想,解决这个难题有3个方法:
A 请专业编程人员爬取数据 B用简单易上手的爬虫软件 C手抄
第一个得花钱,不考虑;第三个得吐血,不考虑。于是选了第二个方法,自学爬虫软件。先后分别用集搜客和八爪鱼爬取数据,相比较八爪鱼更简单。
3 网站
选好了工具,现在要确定从哪个网站进行爬取。分别研究了缤客、携程、去哪儿、Airbnb等,最终选择途家,网站的定位与研究主题一致。
缘起
闺蜜要来北京啦,我要综合分析北京特色民宿和酒店为朋友们
安排一个难忘的“one night in Beijing”
*
北京民宿数据分析
*
一、提出问题
,哪些民宿最集中?通州北关和百子湾,哪个周围民宿最多?
,不同类型的民宿面积多大?海淀的复式面积多大?东城区的四合院面积多大?朝阳的公寓面积多大?
,哪些以情侣为主,哪些以家庭为主?
看完这篇文章,你就可以来北京投资民宿
*
北京民宿数据分析
*
2 数据获取
*
北京民宿数据分析
*
二、数据获得
爬取字段包括:房源描述、区域、商圈、离最近商圈距离、格局、户型、面积、宜住人数、床数、住客评分、住客点评数、价格
共12个字段,3000多条数据集
八爪鱼规则制定
*
北京民宿数据分析
*
数据搜集器:八爪鱼
八爪鱼爬取过程截图
二、数据获得
*
北京民宿数据分析
*
3 数据清洗
*
北京民宿数据分析
*
重新命名。标题呈现“字段_文本”,“字段_链接”等字样,与主题无关,删除字样,依次改为和内容相关的标题。
三、数据清洗
(一)理解数据
*
北京民宿数据分析
*
取子集。原始数据也称作“dirty data”,大量信息是我们不需要的,例如网络链接这列和空白列等,均删除,也可以选择将其隐藏。
三、数据清洗
(一)理解数据
*
北京民宿数据分析
*
删除重复。完成理解数据后,进行重复数据的删除。选择整个数据表格,点击“数据”-“删除重复项”,我们找到386个重复数据,将其删除,剩余2824条有效数据。
三、数据清洗
(二)删除重复项
*
北京民宿数据分析
*