1 / 12
文档名称:

毕设中期报告ppt.ppt

格式:ppt   大小:242KB   页数:12页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

毕设中期报告ppt.ppt

上传人:endfrs 2017/11/23 文件大小:242 KB

下载得到文件列表

毕设中期报告ppt.ppt

文档介绍

文档介绍:网络热点信息的监测与发现研究
专业:数字媒体
班级:0305100103
姓名:丁云翔
导师:吴锋

自2014年2月完成开题报告以来,按照开题报告中的计划展开研究。在导师的指导下,毕设的研究工作进展比较顺利,先将这一段时间的情况做一个介绍。自开题报告以来我学****了一些算法及有关知识,具体内容如下:
在前期完成了以下工作
(1) 查阅了许多相关文献资料,已经完成需求分析;
(2) 完成数据的采集分析,功能概述的详细设计;
(3) 完成大部分数据搜集、分析;
(4) 对HTML、CSS与PHP数据库开发进行了一定的学****通过对这些知识的重新温故和学****对后面所要完成的任务更加清晰。
(5)对层次分析法的理解和学****br/>本系统的具体模块
先介绍一下两个大模块:网络微博获取模块和数据处理分析模块
在网络微博获取中,主要要实现的对网络微博信息的获取,类似网络爬虫
在数据分析模块中,主要实现对获取的数据进行各个关键词分类、分析,同时通过对其热度计算进行排序。
文本数据挖掘处理
网络信息挖掘是从大量训练样本的基础上得到数据对象间的内在特征,并以此为依据进行有目的的信息提取。网络信息挖掘技术沿用了Robot、全文检索等网络信息检索中的优秀成果,同时以知识库技术为基础,综合运用人工智能、模式识别、神经网络领域的各种技术。应用网络信息挖掘技术的智能搜索引擎系统能够获取用户个性化的信息需求,根据目标特征信息在网络上或者信息库中进行有目的的信息搜寻。
对于微博的文本数据挖掘,包括数据获取、预处理、数据转换。
文本数据挖掘处理结构(微博数据挖掘处理)
当前进展
通过对采集的数据(——)进行分析得到对于是否为微博热点信息的主要特征指标。包括认证信息、粉丝、评论、转发,四个指标属性。
对各个指标的确立分类、分析。V的分类,微博信息采集(转发、评论)拟定一个微博热度公式模型、对此微博的态度,对此微博的情绪
对V认证信息的分类
对对此微博态度的分类
对此微博情绪的分类
上述各项内容在数据采集以及分析上已基本完成,同时对于数据采集后的数据处理正在进行。

(1) 目前数据的采集依靠的是人工采集和网络爬虫(来自网络)并非自己的程序系统,目前参照网络爬虫正在设计设和自己的网络爬虫以便更快速方便的获得数据。
(2)数据挖掘后续工作的遇到阻碍,进展较慢。
(3)需要更多的数据来拟定公式,目前对于拟定
公式数据量不够容易出现错误

(1) 进一步理解望楼爬虫工作原理结合自己所需内容设计爬虫;
(2) 多参阅一些有关书籍、文献,多运用有关方面的知识,进一步完善数据的分析处理得到公式模型。