1 / 7
文档名称:

大数据定向采集技术研究.docx

格式:docx   大小:28KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

大数据定向采集技术研究.docx

上传人:科技星球 2021/12/17 文件大小:28 KB

下载得到文件列表

大数据定向采集技术研究.docx

相关文档

文档介绍

文档介绍:大数据定向采集技术研究
 
 
高国连++祖成浩
[摘 要] 文章研究的网络素材定向采集技术课题包括定制管理、控制服务器、采集器、分析器和上载器五大部分,实现对网站的实时监控和自动采集,根据网站更新频率的变化和系统自身的负载,自动调整采集间隔,对监控站点进行增量采集,过滤垃圾信息,及时高效地采集新出现的网页信息,为业务应用系统提供基础数据。
[关键词] 大数据;出版;定向采集
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 15. 074
[] TP311 [] A [] 1673 - 0194(2017)15- 0162- 03
1 背 景
随着信息时代的到来,互联网技术和移动通信技术的提高和应用普及,人们阅读****惯和环境的明显变化,数字出版开始蓬勃发展。数字出版目前已经成为出版业极其重要的形态,并将继续保持高速发展。数字出版技术的发展,不断推
动着数字出版产业的高速前进。电子书、AR/VR、网络期刊、网络音乐、数字教育、移动出版等数字出版产业形态逐步形成。
数字出版的快速发展,为出版数据定向采集提供了内容基础。在这一背景下,为促进传统出版与新媒体的深度融合发展,出版行业大数据的定向采集将越来越重要。
2 大数据定向采集的技术关键点
由于网络的信息的异构性,在进行互联网信息的采集时,如何采全、采准,并进行规范的整理,具有相当的难度。现有的Web搜索引擎主要采用传统的互联网信息采集技术。传统的互联网信息采集系统追求大的覆盖面,往往包含用户不关心的大量冗余信息,而且存在着效率不高、获得信息分散、数据非结构化等问题。因此,在搜索领域出现了可定制的定向互联网信息采集技术。除了传统的网络爬虫的基本功能外,定向采集技术根据既定的抓取目标,有选择的访问互联网上的网页与相关的链接,并能够对链接以及页面内容进行识别,对网页数据进行分析与抽取。
互联网按网页存在方式可分为“表层网”(Surface Web)和“深层网”(Deep Web)。表层网指传统互联网采集系统可以访问到的页面,以超链接可以到达的静态网页为主构成的Web页面。面向表层网的传统采集技术已经日臻成熟。深层网是指那些不能通过超链接访问而通过动态网页技术访问的资源集合。随着网络技术的发展,深层网中的网络信息已经占据整个网络信息容量的80%,越来越多的论坛回帖、新闻跟贴等互动式的互联网舆情信息采用动态网页发布技术,面向深层网的网络信息采集系统已经成为搜索技术发展的主要趋势之一。
目前,已经有了基于领域知识、基于脚本、基于网页结构分析等动态网页抓取技术,但深层网的采集还面临着许多困难和挑战。
3 大数据定向采集技术研究内容
大数据定向采集技术既能够自动从互联网上采集多种类型的网页数据,也能够根据具体某个主题的特定需要,采集指定范围内的或单条的互联网信息,然后对采集到的内容进行自动消重、提取关键词和摘要信息、自动分析等一系列的处理。
在采集过程中,定向采集技术支持丰富的采集规则并可灵活的设定采集范围。在采集任务调度方面即可设置为定时定点采集、周期性自动下载、多时刻下载,也可以根据网站自身的内容发布规律进行自适应的采集。在内容抽取方面,既可以针对具体的网站内容根据预先定制的数据分析模板进行精确的内容抽取,也可以根据