文档介绍:北京工业大学
硕士学位论文
基于构件技术的信息采集基础开放平台的设计与实现
姓名:毛凌志
申请学位级别:硕士
专业:软件工程
指导教师:张建
20090501
摘要于该模型实现了一套完整的从构件开发、测试、装配、解析的方案,使用混合编提升单机的执行效率,并在此基础上实现一个线程池避免线程频繁创建、销毁带关键词构件技术;软件工厂;信息采集;基础开放平台信息采集基础开放平台是一套采用开源模式,面向信息采集领域的集成开发、部署、运行环境,通过图形化装配构件的方式,自动或半自动的搭建信息采集领域应用。因此这个系统具体的目标是极强的定制性,图形化的方式组装构件快速生产部署领域应用;拥有~套可复用的领域基础构件库,并可根据平台定义的接口规范,扩充丰富构件库;实现海量信息分布式处理,尽可能的提高并行处理的能力;为金融预测、数据挖掘、信息检索等前沿领域提供支撑。本文的主要工作体现于借鉴传统产业基于标准件的产业化、工业化的思想,提出基于构件技术面向特定领域的软件工厂模型,促进平台形成规模经济,并基程的方式在平台中嵌入疟居镅宰龉辜芭涞那帕海擞猛夹位缑娲庸辜库中选择构件装配生产新的领域应用;使用开源框架作为萜骷泄理构件实例对象;运用技术实现多机分布式并行能力并使用多线程技术来的系统开销;使用机制提升前端控制台的扩展性;设计实现了一套任务轮询、调度、反馈、异常、宕机的处理机制。本文的难点在于设计一套构件的接口规范及构件组装的解析机制,解耦构件之间依赖,使构件具有较强的复用性能应用于不同的上下文中。经过实验验证,基于构件技术的信息采集基础开放平台,具有灵活、快速生产信息采集应用,多机高效并发执行海量任务的特点,已申请获得软件著作权羌呛。
。,琫,琩琽瑃,—甌,;,籱,,;,瑂。。;;猼猘,,;瑂甌北京搜程硕学位论丈籱
一..一一曼鼍曼曼皇量皇曼曼曼皇皇鼍曼舅曼曼曼皇曼曼曼曼曼曼量曼曼鼍毫曼舅曼皇曼鼍皇曼量量曼事事炕柿—向.,.。産,,。,;;
签名:抛导师签名:驻鹦签名:翘妊啉独创性声明关于论文使用授权的说明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研本人完全了解北京工业大学有关保留、使用学位论文的规定,即:学校有权究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京工业大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。保留送交论文的复印件,允许论文被查阅和借阅:学校可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。
第绪论工程背景平台,为用户提供快速组成生产领域应用有现实意义。应烟海的信息海洋中迅速而准确地获取自己最需要的信息,变得非常困难,这种现纪年代起人们就开发了诸如燃焖鞴ぞ撸甏又出现了以酷讯、去哪儿为代表的生活搜索引擎,还有以琅琅比价图书网为代表的专业比价搜索引擎。众多的通用搜索引擎、垂直搜索引擎以及竞争情报系统、分布于各种商业、金融、社区的这些网站构成的网络,成为了获取有价值信息的基础,在知识经济时代运用信息资源进行知识创新、管理创新是增强组织竞争力的有效手段,因此构建一个采用开源模式基于构件技术的信息采集基础开放随着在全球三网缧磐⒐悴サ缡油⒓扑慊【咳诤系拇笄魇葡拢息资源的过度膨胀改变了传统人们获取有价值信息的方式和方法。从年分蘖W游锢硌芯克科学家蟍】开发了万维网之后互联网蓬勃发展,⒁约负渭妒龀ぃ性嚼丛蕉嗟娜私其视为极具商业价值的信息源。然而汹涌而来的信息也使人无所适从,想从浩如象被称为“信息泛滥”、“信息爆炸”。【扛葜泄チM信息中一年月日发布的《第次中国互联网络发展状况统计报告》显示,截至年底,中国的网站数,即域名注册者在中国境内的网站数ㄔ诰衬诮尤牒途惩饨尤达到万个,中国网页总数超过诟觥由于且桓隹7判浴⒍院鸵旃剐缘娜蚍植际酵纾佣龆顺现在网页中的文本信息没有固定的结构,组织也欠规整,人们很难准确快捷的得到自己所需的内容加以利用或二次利用,为了解决“信息爆炸侍猓中期起出现了阉饕婕际酰7⒘薡等搜索引擎;进入世纪以来内容管理系统均依赖于背后的海量信息的采集、抽取技术。所谓的信息采集一般是指从异构的分布式信息源环境中,根据特定的需求,分析、提取相关的数据信第滦髀
构件技术目前被作为软件复用【俊】【考敖饩鋈砑;】【、提高生产效率和质开涮恐鸾コ晌R恢殖墒斓纳J健4闞信息采集、抽取技术为核心的高科技企业。这一概念以来经历了传统软件工程、面向对象软件工程、面向过程工程、面向构能力和复用程度,构件技术恰恰能够很好的提升软件复用的粒度,提升软件的柔性。追溯历史,面向构件的技术理念渊源