1 / 18
文档名称:

大数据分析项目.docx

格式:docx   大小:1,551KB   页数:18页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据分析项目.docx

上传人:艾米 2022/11/26 文件大小:1.51 MB

下载得到文件列表

大数据分析项目.docx

相关文档

文档介绍

文档介绍:该【大数据分析项目 】是由【艾米】上传分享,文档一共【18】页,该文档可以免费在线阅读,需要了解更多关于【大数据分析项目 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。大数据分析项目
公司简介:
智友是一个年轻的文化品牌,旗下有多个互联网产品线,覆盖生活方式、音乐、创意,时尚等多个领域。
致力发展为最大的年轻人文化出版与发行渠道,挖掘文化领域的年轻力量。旗下产品音乐软件“xxx”是时下最流行的音乐App,首创弹幕评论交友,独特3D音乐颠覆你的听觉体验。上线短短数月就受到了百万音乐发烧友的喜爱和追捧,苹果商店音乐免费榜长期稳居前五。
项目需求:
用户画像,根据听歌风格,每天在线时间,用户收藏了哪些歌曲,总是跳过播放哪些歌曲,来给用户打标签。
,每类歌曲新增数。

,MV的数量。
,MV的收听和点击率情况进行分析统计。


,android,ios占比度。
,来决定公司需要引进哪些类型的歌曲。
,统计用户圈中讨论最多的热词。

项目架构:
从手机客户端APP,PC,网页中收集用户信息,听歌信息,上传的歌曲。
通过kafka推送给mr或spark清洗。
重用kafka作为缓存,缓存把数据存储到HDFS上。
通过hive进行分析计算。
计算结果保存到hbase和mysql中。
HBase中的数据可以做用户推荐,热度排行,mysql可以共用户查看个人资料和好友信息,等级等。
需求设计:
从埋点日志导出用户听歌信息,用spark清洗出用户听了哪些歌曲,收藏了哪些歌曲,整理出用户喜好的歌曲是哪些风格,把这些风格写到mysql用户信息表相关联的用户歌曲风格表里。
用HIVE对HDFS上的每天上线的歌曲做分类统计每类新增数量。
从mysql查看用户的喜好歌曲标签,然后在歌曲库中找到对应的分类歌曲推荐给用户。
利用spark把用户上传的歌曲从HDFS上导入进来进行一个求和操作,把结果直接导入hbase中。
从mysql中的用户注册表中通过注册时间过滤出今天注册的用户,然后进行求和操作,在今天注册的用户中按照字段“会员”条件查找会员用户求和。
设计实现:

从HDFS里导入hive每天分类好的歌曲
每日新增歌曲数量表
字段中文名
字段英文名
字段类型
Id
编号
Int
songName
歌曲名
String
singername
歌手名
String
Style
曲风
String
Date
时间
String
1,演员,薛之谦,流行,2016-3-20
2,告白气球,周杰伦,流行,2016-3-20
3,成都,赵雷,流行,016-3-20
4,espanacani,andrerieu,古典,2016-3-20
5,小桃红,汤旭,民谣,2016-3-20
6,everything,wrld,嘻哈,2016-3-20
7,wake,free,摇滚,2016-3-20
8,长安长安,郑钧,摇滚,2016-3-20
9,loveisakiller,vixen,摇滚,2016-3-20
10,Iremember,dokken,摇滚,2016-3-20
在HIVA下建一个歌曲表
Createtablemusic_160320(idint,songNamestring,stylestring,singerNamestring,datestring)rowformatdelimitedfieldsterminatedby‘,’;
Loaddatainpath‘NewMusic/music_160320/’intotablemusic_160320;
Hive>selectstyle,count(*)frommusic_160320groupbystyle;
结果为
Stylecount
流行,3
古典,1
民谣,1
嘻哈,1
摇滚,4
分析APP埋点信息
Json数据结构()
{"imei":"864874020839760","phonetype":"huaweip6","phonesystem":"","user_name":"周一懵然状","like_music":"我是不是该安静的走开,真的爱你,灰色轨迹"}
{"imei":"864874020839761","phonetype":"huaweip6","phonesystem":"","user_name":"bigbaby","like_music":"Laserlife,简单爱,演员,最冷的一天"}
{"imei":"864874020839762","phonetype":"huaweip6","phonesystem":"","user_name":"1993058","like_music":"最好的我,北国,少年游"}
{"imei":"864874020839764","phonetype":"huaweip6","phonesystem":"","user_name":"小于一","like_music":"imagine,respect,heyjude"}
{"imei":"864874020839765","phonetype":"huaweip6","phonesystem":"","user_name":"thewho","like_music":"misty,youreyes,alliwant"}
用spark清洗:
Varmeidian=("hdfs://jun110:9000/user/spark/")
Varqingxi=(”user_name”,”like_music”)
("hdfs://jun110:9000/user/spark/qingxi","json")
json转化成CSV格式的文件:
周一懵然状,我是不是该安静的走开,真的爱你,灰色轨迹
Bigbaby,Laserlife,简单爱,演员,最冷的一天
1993058,最好的我,北国,少年游
小于一,imagine,respect,heyjude
thewho,misty,youreyes,alliwant9