1 / 14
文档名称:

使用python抓取及分析互联网数据.pptx

格式:pptx   大小:1,164KB   页数:14页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

使用python抓取及分析互联网数据.pptx

上传人:wz_198613 2017/6/22 文件大小:1.14 MB

下载得到文件列表

使用python抓取及分析互联网数据.pptx

文档介绍

文档介绍:使用python抓取及分析互联网数据
计算士
介绍: 集智俱乐部,英文名:Swarm Agents Club,简称“SA Club”,成立于2008年,是一个从事学术研究、享受科学乐趣的探索者的团体。它倡导以平等开放的态度、科学实证的精神,进行跨学科的研究与交流,力图搭建一个中国的“没有围墙的研究所” 我们的口号: 让苹果砸得更猛烈些吧! 我们的使命:  营造自由交流学术思想的小生境,孕育开创性的科学发现 网址: rma/ 豆瓣小站:http://site./swarmagents/ 活动地点: 叁号会所 (北京市海淀区北三环联想桥向西300米过街天桥中航工业青云大厦) 集核成员: Jake,Miner, 果蝇小姐, 老何, 王东, xudong, sendlee
1.  Scraping and analyzing webpages: collecting website statistics from Google and Alexa
2.  Connecting APIs: Google API, YouTube Data API, *** API, and Alchemy API
3. Browser automation: collecting the historical viewing records of YouTube videos
非常不方便的原始工作环境
http://code./p/pythonxy/
建议使用一个可以实时测试代码片段的工作平台
任务:从Alexa上抓取美国排名前25的网站,并获得这些网站彼此之间的点击流
步骤:1. 分析网页
网页分析工具:Chrome自带的鼠标右键
Inspect element选项或者Firefox的firebug插件
任务:使用AlchemyAPI侦测网站的语言
/
YouTube Data API:已经提供好python接口