1 / 23
文档名称:

2021年资源数据采集技术方案.doc

格式:doc   大小:777KB   页数:23页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

2021年资源数据采集技术方案.doc

上传人:梅花书斋 2020/11/3 文件大小:777 KB

下载得到文件列表

2021年资源数据采集技术方案.doc

文档介绍

文档介绍:资源数据采集技术方案企业名称7月二O一十二个月七月目录第1部分概述 5第2部分系统总体框架和技术路线 7第3部分系统设计规范 7第4部分系统具体设计 已经发展成为当今世界上最大信息库和全球范围内传输知识关键渠道,站点遍布全球巨大信息服务网,为用户提供了一个极具价值信息源。不管是个人发展还是企业竞争力提升全部越来越多地依靠对网上信息资源利用。现在是信息时代,信息是一个关键资源,它在大家生活和工作中起着关键作用。计算机和现代信息技术快速发展,成为大家传输信息一个关键桥梁。网络不停发展,伴伴随大量信息产生,怎样在海量信息源中查找搜集所需信息资源成为了我们以后建设在线预订类旅游网关键组成部分。所以,在当今高度信息化社会里,信息获取和信息立即性。而Web数据采集能够经过一系列方法,依据用户爱好,自动搜取网上特定种类信息,去除无关数据和垃圾数据,筛选虚假数据和迟滞数据,过滤反复数据。直接将信息根据用户要求展现给用户。能够大大减轻用户信息过载和信息迷失。系统建设目标在线预订类旅游网是在线提供机票、酒店、旅游线路等旅游商品为主,包含食、住、行、游、购、娱等多方面综合资讯信息、全方位旅行信息和预订服务网站。假如用户要搜集这一类网站相关数据,通常做法是人工浏览网站,查看最近更新信息。然后再将之复制粘贴到Excel文档或已经有资源系统中。这种做法不仅费时费力,而且在查找过程中可能还会遗漏,数据转移过程中会犯错。针对这种情况,在线预订类旅游网信息自动采集系统能够实现数据采集高效化和自动化。建设标准建设标准因为在线预订类旅游网数据采集包含方面多、数据量大、采集源数据结构多样化特点。所以,在进行项目建设过程中,应该遵照以下标准:可扩充性依据实际要求,系统可被方便地载减和灵活扩展,使系统能适应改变和新情况。能够实现模块等级动态扩展,而且是运行时。所谓运行时模块动态扩展,比如说你需要增加部分新功效,你能够将新开发类和文件根据Bundle进行组织,然后直接扔到运行时环境下,这些功效就能够用了。所以系统不会受技术改造而重新做出调整。创新性软件投资要考虑到以后发展,不能使用落后产品和技术,避免投资浪费;在系统软件选型、开发技术上,达成中国外优异水平。规范性和标准性整个设计方案从网络协议、操作系统到各个设计细节,应该全部遵照通用国际或行业标准,符合国家相关标准规范。低耦合性采集系统和其它系统相互间相对独立,直接进行数据库入库、sql同时或基于txt/xml数据交换,确保整体系统低耦合性。高效性在底层技术实现上采取java语言,跨平台,跨数据库,运行效率卓越。安全、稳定、正确、立即性采取优异算法,采取多个子系统和工具组成一个安全、稳定、正确、立即处理方案。方案在总体设计上遵照稳定、开放、可扩展、经济、安全标准,从而使整个方案组成合理,技术优异,易于扩展,既能满足目前业务数据处理要求,又能符合长久发展需要。易操作和易维护标准整个系统易于维护,轻易操作,易学,易用,完全经过WEB方法完成,降低维护技术难度,也降低了人为隐患发生。参考资料和标准关键参阅并依据以下部分参考资料及标准:《中国项目管理知识体系》(C-PMBOK),.5GB/T1526-1989《信息处理数据步骤图、程序步骤图、系统步骤图、程序网络图、系统资源图文件编制符号及约定》GB/T8566-1995《信息技术软件生存期过程》GB/T8567-1988《计算机软件产品开发文件编制指南》GB/T9385-1988《计算机软件需求说明编制指南》GB/T13702-1992《计算机件分类和代码》GB/T11457-1995《软件工程术语》系统总体框架和技术路线网络信息资源采集系统是一套功效强大网络信息资源开发利用和整合系统,可用于定制跟踪和监控互联网实时信息,建立可再利用信息服务系统。能够从多种网络信息源,包含网页、BLOG、论坛等采集用户感爱好特定信息,经自动分类处理后,以多个形式提供给最终用户使用。系统应用架构网络蜘蛛:根据指定规则抓取网站数据。数据分析:分析从网络蜘蛛来数据,过滤掉我们不需要信息。数据解析:依据指定资源格式(字段)定义,进行数据库字段等级解析。分组分析:依据不一样网络资源类型进行分类,并以多个存放方法进行存放。系统层次架构整个系统分为四层,分别为:数据层:数据层负责存放抓取来多种信息及数据,这里面包含网页、文档、关系型数据、多媒体数据等。支撑层:支撑层提供了关键硬、软件支撑系统,包含应用服务器、WEB服务器、规范接口等规范支撑系统。应用层:在应用层关键提供网络资源采集、数据转换、分析、处理、导出、公布、采集监控、消息通知、登