文档介绍:摘要由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户,他们通过传统的综合搜索引擎,在这些海量的信息中,搜索一个准确的信息已非常困难,而使用通用的搜索引擎则搜索到很多无关的信息。要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点。本文通过研究背景的分析提出了一种“二次主题漂移”检索模式。详细介绍了全文检索与语义检索技术,为后面的研究奠定技术基础,提出了基于惴ǖ挠镆寮焖骷际跏迪址椒ā8据惴ǎ菇艘桓鍪笛橄低忱囱橹算法处理大规模文档的能力,同时利录,来进一步验证“二次主题漂移”技术的可行性。最后介绍了基于形呐┮低乘阉飨低车纳杓朴胧迪郑ㄏ低车慕峁褂牍δ芤约笆导试行的情况。本文的主要成果:芯坎⑹导岸沃魈馄啤奔焖髂J剑梢杂行岣哂没Ъ焖饔τ玫奶逖椤芯糠治鰏算法,找出了该算法在教ㄉ系脑诵衅烤保⑻岢隽诵阅芨慕的具体方法。菇嘶趕算法的中文农业信息检索实验系统,验证大规模文档集惴ǖ可行性和“二次主题漂移”模式的可行性。杓撇⑹迪至艘桓龌趕中文农业网页搜索系统。关键词:沃魈馄疲畔⒓焖
蛔、鑞∞樱瑃瞖腓,琫恤蝒舗叫耹鷆臿咖汛,辪撕蛆试謉耹衐簅鶳籵粕Ⅱ研癲血,∞伊,“仃瑃,砍猧甜’山订鐂,瓼,”.血Ⅱ騩.】“’廿琲:絜“.瑁皌:Ⅱ
騝Ⅱ删’胁英文缩略表英文缩写英文全称綼中文名称”輕Ⅺ咀一玹み祇应用程序接口异步与浏览器朋&务器组件对象模型服务器脚本超文本标记语言超文本传输协议互联网信息发布服务信息检索潜在语义索引奇异值分解半离散矩阵分解统一资源定位器緀琒琒,窖“】—騩
裟浆时间:碲旅奖孚也闯净时问:渺‘年/月时间纱饰辍卧拢嗳独创性声明关于论文使用授权的声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得中国农业科学院或其他教育机构的学位或证书而使用过的材料。与我一同工作过的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。研究生签名本人完全了解中国农业科学院有关保留、使用学问论文的规定,即:中国农业科学院有权保留送交论文的复印件和磁盘,允许论文被查阅和借阅,可以采用影印、缩印和扫描等复制手段保存、汇编学位论文。同意中国农业科学院可以用不同方式在不同媒体上发表、传播学位论文的全部或部分内容。C艿难宦畚脑诮饷芎笥ψ袷卮诵研究生签名:导师签名:
第一章引言研究背景搜索引擎是为解决用户要在信息海洋里查找信息困难这个问题而出现的技术,己成为互联网上非常重要的网络导航服务。目前,嫌涤谐亿的静态网页。而当前的通用搜索引擎所能检索的网页一般不超过ソ%,即使是用户最多的,其检索的网页也只在亿左右。另一方面,、Ⅳ技术的发展使更多的网页以动态形式存在,形成所谓的隐藏网,据估计这部分的信息是整个静态占涞倍以上,而且有递增的趋势。由于搜索引擎在誱中所具有的重要地位,它一直就是用户关心的热点之一,也是备家相关公司全力开发的技术焦点。根据中国互联网络信息中心月发布的第次《中国互联网络发展状况统计报告》,目前,国内上网用户总量已达到冢凇坝没ЬJ褂玫耐绶瘢δ堋中,“搜索引擎”以,サ难≡“浏览新闻”%“用户在互联网上获取信息”的最常用的方法%2唤鲈谥泄叛凼澜纾チM阉饕滴褚渤氏殖鰍强劲的增势。根据石城研究机构的预测,年,全球收费搜索服务市场的规模将达到亿美元,而在未来三年内,市场规模每年将以%的速度增长樾∥模。由于我国数字鸿沟的存在,农业信息的获得非常困难,特别是急需农业科技信息和市场信息的企业、部门、农户,他们通过传统的综合搜索引擎,如、百度等,并不能迅速找到自己想要的信息。据不完全统计,在农业领域现有各种网站约蚋觯婕芭⒘帧⒛痢⒂妗⑺气象、农垦、乡镇企业、及其他农业部门,网页共计蚱#谡庑┖A康男畔⒅校阉饕桓准确的信息已非常困难,而使用通用的搜索引擎则搜索到很多无关的信息,其根本原因在于网站中的大量信息是以非结构化的形式存在,要实现信息的精确搜索,就需要研究专业的搜索引擎。因此,针对于中文农业网页,研发专业化的搜索引擎,实现农业信息的精确搜索是本文研究的出发点之一。“国家农业科学数据中心”是由国家科技部“科学数据共享工程”支持建设的数据中心试点之一,由中国农业科学院农业信息研究所主持建设。农业科学数据中心是以满足国家和社会对农业科学数据共享服务需求为目的,立足于农业部门,以数据源单位为主体,以数据中心为依托,通过集成、整合、引进、交换等方式汇集国内外农业科技数据资源,并进行规范化加工处理,分类存储