1 / 15
文档名称:

资源数据采集技术方案要点.docx

格式:docx   大小:100KB   页数:15页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

资源数据采集技术方案要点.docx

上传人:zyl 2022/8/12 文件大小:100 KB

下载得到文件列表

资源数据采集技术方案要点.docx

文档介绍

文档介绍:Company number:【WTUT-WT88Y-W8BBGB-BWYTT-19998】
资源数据采集技术方案要点
资源数据采集
技术方案
公司名称
2011年7月
二O一一年七月
目 录
同的网络资源类型进行分类,并以多种存储方式进行存储。
系统层次架构
整个系统分为四层,分别为:
数据层:数据层负责存储抓取来的各种信息及数据,这里面包括网页、文档、关系型数据、多媒体数据等。
支撑层:支撑层提供了关键的硬、软件支撑系统,包括应用服务器、WEB服务器、规范接口等规范支撑系统。
应用层:在应用层主要提供网络资源采集、数据转换、分析、处理、导出、发布、采集监控、消息通知、登录验证、任务计划、认证码识别等服务。
表现层:表现层通过浏览器等方式,为用户提供多样化的信息服务。
关键技术与路线
为了充分满足本项目的建设:我们采用先进、主流、可靠、实用、性价比好的三层架构体系,充分考虑今后纵向、横向扩张能力。采用构件化和面向对象技术,使系统具有灵活的扩展性和良好的移植性。
J2EE规范体系
从软件层次上看,我们采用了典型的J2EE三层架构体系,即应用—支撑—数据三层。简单地说,J2EE(Java[tm] 2 Platform Enterprise Edition)是一个标准中间件体系结构,旨在简化和规范多层分布式应用系统的开发和部署,有了它,开发者只需要集中精力编写代码来表达应用的商业逻辑和表示逻辑,至于其他系统问题,如内存管理,多线程,资源分布和垃圾收集等,都将由J2EE自动完成。
J2EE已经被证明是一个稳定的、可扩展的、成熟的平台,在国内外拥有众多成功的应用实例。J2EE 应用服务器(Application Server)采用目前国际最先进的开发理念、拥有许多适合基于Internet应用需求的特点:
三层结构体系——最适合Internet环境,可以使系统有很强的可扩展性和可管理性。
面向对象、组件化设计——2EE是一种组件技术,已完成的模块能方便的移植到其它地方,可以提高开发速度,降低开发成本。
基于JAVA完全跨平台特性——与平台无关,适应Internet需要,并能得到大多数厂商支持,用户可根据需要选择合适的服务器硬件和数据库。并且如果需要更换系统平台时,J2EE也能方便的进行移植。
把J2EE三层架构软件体系引用到资源采集系统,将大大提高系统的可移植性、可伸缩性和可扩展性。
XML技术
XML(eXtensible Markup Language,可扩展标记语言),是当前最热门的网络技术之一,被称为“第二代Web语言”、“下一代网络应用的基石”。自它被提出以来,几乎得到了业界所有大公司的支持。XML具有卓越的性能,它具有四大特点:
优良的数据存储格式
可扩展性
高度结构化
方便的网络传输
以XML技术作为支持,为用户自定义应用界面和业务数据结构,并将其与底层数据库定义格式、界面标准输入、输出的接口转换作了实现,可实现分布式、异构应用系统之间的数据交换。
我们将在本项目中主要以XML为存储方式,方便扩展和数据分析。
技术
,是相对(2003年以前的互联网模式)的新的一类互联网应用的统称,是一次从核心内容到外部应用的革命,是依据“六度分隔”(注:由美国哈佛大学社会心理学教授斯坦利·米尔格兰姆发现的,你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。)、XML、AJAX等新理论和技术实现的互联网新一代模式。由单纯通过网络浏览器浏览html网页模式向内容更丰富、联系性更强、工具性更强的互联网模式的发展已经成为互联网新的发展趋势。 到的转变,具体的说,从模式上是单纯的“读”向“写”、“共同建设”发展;由被动地接收互联网信息向主动创造网络信息迈进。运行机制上,由“Client Server”向“Web Services”转变;作者由程序员等专业人士向全部普通用户发展;应用上由初级的“滑稽”的应用向全面大量应用发展。采用创新的Ajax技术,同等网络环境下,页面响应时间最高减少90%。
系统集成API
XML文档结构在很多方面可以方便地反映对象的结构,这也是其适合面向对象的软件技术的一个关键点。使用XML对数据源的数据进行处理,它起着接口层或者封装的作用,这样不同的应用程序之间,不同的操作系统之间,不同的数据库之间都可以交换数据。使用XML作为数据交换工具还可以解决异构数据库之间的集成。
对本项目中涉及到的数据采集、转换、分析、处理等问题,我们将开发专用的数据接口,采用XML技术作为数据交换的页面描述规范。
XStream是一个Java和XML相互转换的工具。使用非常的简单,并且可以自定义转换

最近更新

2024年保密员考试题库精品(典优) 35页

2024年公务员考试常识题400道附参考答案(精练.. 112页

2024年县乡教师选调进城考试《教育学》题库附.. 117页

2024年大学计算机基础等级考试题库含答案(考.. 21页

2024年大学计算机考试题库800道含完整答案【必.. 144页

2024年宪法知识竞赛题库含答案(完整版) 49页

2024年政工职称考试题库精品有答案 61页

2024年足球知识题库及参考答案【综合题】 12页

2024年马原复习题400道及答案(典优) 78页

2024年马原试题【夺冠】 79页

2024年马原题库400道(a卷) 78页

中国历史文化知识题库100道带答案(典型题) 14页

全国计算机二级考试试题题库附参考答案(研优.. 95页

全国计算机等级考试(二级)考试题库(培优b卷.. 126页

历史类常识考试100题及答案(易错题) 2页

县乡教师选调考试《教师职业道德》题库含答案.. 43页

县乡教师选调进城考试-教育法律法规题库附参考.. 100页

县乡教师选调进城考试《教育学》题库附答案【.. 116页

县乡教师选调进城考试《教育法律法规》题库【.. 130页

大学生计算机基础考试题库及参考答案(综合题.. 22页

大学计算机基础期末考试题库含完整答案(易错.. 21页

大学计算机基础练习试题精品【含答案】 22页

大学计算机基础考试试题200道附参考答案(培优.. 29页

大学计算机考试试题附答案(巩固) 28页

科普知识竞赛题库100道【必考】 18页

职业教育法考试题库及完整答案【精品】 26页

计算机二级真题题库含答案【黄金题型】 84页

计算机网络复习题精品【全国通用】 29页

马克思主义基本原理概论400道(全优) 74页

湖南省长沙市2023年中考语文试题(含真题解析.. 16页