1 / 28
文档名称:

舆情卫士监测平台技术方案.doc

格式:doc   大小:698KB   页数:28页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

舆情卫士监测平台技术方案.doc

上传人:薄荷牛奶 2018/9/6 文件大小:698 KB

下载得到文件列表

舆情卫士监测平台技术方案.doc

相关文档

文档介绍

文档介绍:舆情卫士监测系统
技术方案
中国移动通信集团安徽省有限公司安庆分公司
2017年5月
目录
1 总体需求 3
建设目标 3
功能需求 3
互联网海量信息采集子系统 4
海量信息存储子系统 4
海量信息检索子系统 5
互联网云数据分析处理子系统 5
性能需求 6
其他需求 6
2 技术方案 7
翼腾云计算概述 7
总体设计概述 9
系统架构图 11
业务流程图 13
数据中心简介 14
16
16
18
19
21
22
24
26
27
手机舆情 28
总体需求
建设目标
建设****舆情监测系统,其实质在于利用信息化技术,建立专业的网络信息监测与管理平台,及时、全面、准确收集、分析互联网上一切与教育领域所相关的信息,进而做好研判和处置工作,健全制度、完善机制,及时了解把握情况,准确判断舆情发展趋势,掌握工作的主动权。
建设****舆网络舆情监测系统,以达到舆情监测与分析应对工作全面覆盖、有序管理、多方联动的效果。提高师范大学网络舆情突发事件的应急处置水平,明确网络舆情突发事件预防、预警、应对的程序,使得可及时、准确发布有关信息,澄清事实,引导舆论,妥善处理。
功能需求
大数据时代,面对海量的互联网数据,要充分挖掘并分析出有用的舆情信息,单纯靠小规模的舆情系统软件已不足以满足要求。必须要能够利用大数据技术,建立起海量数据中心级别的舆情数据中心,才可以支撑越来越庞大的舆情管理与应用。数据中心建设应广泛采用集群应用、分布式数据存储、分布式计算等云技术。可提供PB级的海量数据存储能力,能够利用云数据分析技术进行深度比对、关联、分析和挖掘,实现网上信息的快速发现。
互联网海量信息采集子系统
网络媒体形式全,可以对各类网络媒体进行监测:
1)门户网站:系统可采集以媒体发布为主的新闻网站的信息;
2)论坛:各种形式的BBS、贴吧、论坛、社区;
3)博客:各博客网站的博客信息;
4)微博:各微博网站信息监测;
5)电子报:各类报纸的电子报的信息监测;
6)问答:对问答类网站的采集;
7)视频:对视频网站文字信息的采集;
8)WAP:对WAP网站信息的采集;
9)搜索引擎:对搜索引擎信息的聚合;
10)微信公众账号采集。
海量信息存储子系统
实现海量采集文章数据(高并发)存储和相关的查询统计业务(如历史文章查询),并解决存储服务的长期运营的高可用性问题。
可存贮至少三个月的历史数据;
可通过统一的系统界面监测所有服务器的运行状况,及时发现并处理出现的任何状况;
具有完整的容灾备份方案。
海量信息检索子系统
采用分布式并行计算搜索框架,能对T级以上索引提供7*24小时搜索服务。采用群集服务多服务器同时搜索数据,有效提高检索速度,可以达到每秒处理100万次的搜索速度。
互联网云数据分析处理子系统
信息及数据处理主要是针对采集入库后的数据进行整理、处理。主要技术和功能包括:
(1)漏斗式过滤技术:
采用漏斗式多重过滤技术,逐层过滤掉无关干扰信息,呈现给用户精准的舆情信息和热点资讯。
(2)中文分词:
采用基于自然语言处理技术的中文分词技术,对全文做文本处理,为舆情分类、专题聚类、自动摘要、语义分析、检索等提供基础。
(3)要素分析
对所有采集信息,在抽取标题、来源网站、来源频道、发布人、发布时间、链接、正文、图片等元素后,形成结构化数据存储于舆情库中。
(4)数据挖掘:
关键词是本系统筛选舆情信息的主要规则,此外还采用数据挖掘措施分析出重要舆情信息和有价值的敏感信息,例如:
1)分析出舆情高发网站及频道;
2)分析出舆情高发人群;
3)推荐网民关注度高的舆情;
4)筛选新词、热门话题;
5)关联性分析:
采用智能关联技术将与一条新闻相关的新闻、论坛评论、博客评论等信息关联到一起,帮助用户多方位地了解新闻事件的进展和其他报道情况,以及相关的网民评论等信息,全面地掌握各种相关信息。
性能需求
常规监测信息源数量3万个以上;
日均采集信息量300万条以上;
信息采集效率在30分钟以内;
数据中心数据可提供PC端、移动端等不同方式的信息检索,检索效率在5秒钟以内;
其他需求
可针对客户要求给出详细的硬件配置方案;