1 / 6
文档名称:

基于若干技术的舆情监控系统的设计与实现.doc

格式:doc   大小:107KB   页数:6页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于若干技术的舆情监控系统的设计与实现.doc

上传人:lxydx666 2017/2/18 文件大小:107 KB

下载得到文件列表

基于若干技术的舆情监控系统的设计与实现.doc

相关文档

文档介绍

文档介绍:1 基于若干技术的舆情监控系统的设计与实现[ 摘要] 通过有针对性地对互联网信息进行过滤、整理、分析,及时发现危害国家安全、扰乱社会秩序、图谋实施犯罪等有价值的信息, 从而及时预防、制止不法活动的发生, 有效打击犯罪, 为人民生活创造良好的社会环境。本文着重对舆情系统中相关技术进行细致的研究, 实现网络舆情的系统监控, 及时准确地有针对性的获取相关信息, 从而发现、掌握特定的动态信息,为国家决策部署提供有力的依据。[ 关键词] 爬虫;中文分词;信息指纹;信息抽取中图分类号: 文献标识码:A 文章编号: 1009-914X ( 2015 ) 05-0128-01 引言随着网络技术的推陈出新,除了网络新闻、网络论坛等传统应用外, 又出现了博客(含微博) 、维基、聚合新闻、等新形态的信息交互模式。范围广、交互性强、更新速度快的互联网传播从根本上改变了传播者与受传者之间的关系, 是对传统新闻媒介的传播模式的解构和颠覆。互联网信息内容庞杂多样,既有大量进步、健康、有益的信息,也有不少反动、迷信、黄色的内容。互联网作为一块正在加速膨胀的思想阵地, 加上其虚拟性、隐蔽性、发散性、渗透性和随意性等特点, 越来越多的人们愿意通过这类渠道表达自己的个人想法,因此网络舆情的爆发将以“内容威胁”的形式逐渐对社会公共安全形成威胁。有关如何控制、规范互联网信息,成 2 为技术难点。 1. 舆情监控系统架构设计 舆情监控系统工作流程 1、给爬虫配置爬取网站的地址、爬虫参数,如: 要爬取的网站入口、轮循间隔、爬取线程、爬取深度等参数。 2 、爬虫根据地址爬取数据,这时的数据缓存在爬虫服务器中,成为待处理数据。 3 、中文分词 4 、信息抽取 5 、提取信息指纹去重 6 、语意指纹提取 7 、摘要生成 8 、索引入库 9 、聚类、趋势分析 10 、提供 WEB 、提供客户检索服务 舆情监控系统架构信息层:分布在境内外的互联网信息。如: QQ 群、动态网、新闻、博客、论坛。采集层: 爬虫通过分布式并发采集、多线程采集快速采集互联网舆情信息。加工层: 分词、信息抽取、提取信息指纹去重、语意指纹提取、摘要生成。 3 数据存储中心:海量信息分布式存储和并发存取。用户层:提供模糊检索、高级检索等多种特征检索、智能检索方式、聚类和趋势分析。 2. 关键技术实现 爬虫策略的革新本系统采用多种机制革新爬虫工作方法, 要求舆情能在网络舆情产生之后第一时间采集下来。同时采取多种机制保证爬虫爬取数据的完整性, 保证采集数据的完整性,做到不漏采集、不重复采集、避免死链采集,从而保证及时采集。 1 、广度优先采集爬虫支持任意数量和深度的抓取, 采用广度优先策略。广度优先搜索策略是指在抓取过程中, 在完成当前层次的搜索后, 才进行下一层次的搜索。 2 、快速爬取爬虫根据网页链接爬取数据, 通过精确配置爬虫抓取模板参数, 只采集指定层级的网站链接,实现爬虫资源的最大优化。爬虫在数据爬取的过程当中, 可以自定义针对特定站点的爬取多少及爬取的速度进行合理调配,这样,可以最大限度地使资源最大化。 3 、按照模板爬取要求爬虫针对常见的网站论坛使用不同的爬去模板进行爬取数据,有针对性的优化爬虫效率。为了更加合理地使爬虫爬取数据, 针对各不同的站点, 定义了不同级 4 别的爬虫模板,