文档介绍:华东师范大学硕士学位论文
摘要
随着信息化的高速发展,信息量正以指数规律迅猛增长,互联网已经成为人
类最重要的海量信源,“信息迷航”和“信息过载”已经成为日益严重的问题。
基于的各类搜索引擎应运而生并得到了迅速发展。,韧
用搜索引擎功能虽然非常强大,但是当使用它们来检索某些特定专业的信息时,
通用搜索引擎系统就有些力不从心。
面向主题的搜索弓媸且恢址掷嘞钢戮贰⒏录笆钡乃阉饕妗K孀
信息的爆炸增长以及信息多元化的发展,主题搜索引擎正成为研究热点
与发展趋势。
本文就面向主题搜索引擎的关键技术进行了研究,并提出了一种基于
面向主题搜索引擎解决方案,研究实现了求职帮助信息主题搜索引擎。
本文的主要叙述过程如下:
首先,叙述了搜索引擎的发展背景和发展现状及特点,回顾了搜索引擎的发
展历史,比较了通用搜索引擎和主题搜索引擎的区别,体现了主题搜索引擎在专
业搜索方面的优势。
其次,对面向主题搜索引擎的关键技术分三大模块即:主题信息抓取、索引
和检索进行了深入分析和研究。研究了主题机器人与普通机器人的区别和搜索策
略。重点研究了基于的全文索引引擎工具包,分析了与传统
数据库相比的不同之处,体现了利用进行索引和检索的高效性、准确性。
然后,基于以上关键技术,提出了求职帮助信息主题的搜索引擎设计方案。
包括系统设计思想,技术策略,结构框架,开发环境等。
接着,将设计付诸实践。详细介绍了基于的应聘帮助信息主题搜索
引擎的具体实现过程。并对系统运行情况和结果进行了展示。
最后,对论文的各项工作进行了总结,并指出了今后发展方向和进一步的工
作,以便以后不断更新和完善。
基于的求职帮助信息主题搜索引擎系统,保证了对求职帮助信息的
完全收录与及时更新,避免了强大的搜索噪音,提高了检索效率,能快、全、准
地提供专题信息查询。
本论文的主要研究内容:
芯糠治隽送ㄓ盟阉饕婧椭魈馑阉饕娴墓丶际酢
訟全文索引引擎工具包进行了深入剖析,比较了检索
和传统数据库检索的异同,以及中文切分词技术。
诜治鲅芯苛酥魈馑阉饕婀丶际醯幕∩希岢隽饲笾鞍镏畔⒅魈獾
搜索引擎设计方案。
华东师范大学硕士学位论文
钊肫饰隽嗽谏杓剖迪种性擞玫墓丶际酰⒃谄饰龅幕∩辖辛死┱辜
二次开发,设计实现了基于的应聘帮助主题搜索引擎。
【关键词】面向主题搜索引擎、、信息索引
【论文类型】应用研究
Ⅱ
华东师范大学硕士学位论文
,
甆琁
.
甐
瓵
, ,
, 瑃
.
,
.
瑃
,
—.
瑃
, ,
,
猻. 一
:
琲
. 琣
. —
, ,
曲.
琤, —
琲
, .
—.
, ,
华东师范大学硕士学位论文
第一章绪论
引言
蛭是全球性的网络信息系统。在最近这些年
里,玫搅顺ぷ愕姆⒄梗唤龀晌F笠当夭豢缮俚淖槌刹糠郑⑶铱J甲
进千家万户。年略诓ㄊ慷倬傩械牡届搜索引擎年会的会议报告指出
当时的网页数目己经超过了亿V腘英国网络统计机构崭胀
成了最新的互联网调查,结果显示到年罩梗チM弦还灿
个网站。而单是在年抡庖桓鲈吕铮澜缟系耐臼烤驮龀ち
蚋觥6月所得的调查结果为万个,这说明了互联网上的
网站数量在过去的昀锞鸵丫艘环龀は嗟本H恕
谥泄姆⒄顾俣纫彩志H恕8輈泄チM缧畔⒅行
年辗⒉嫉淖钚碌摹吨泄チM绶⒄棺纯鐾臣票ǜ妗贰刂
年眨夜袢耸锏搅万人,
其中宽带上网网民人数为万人,在所有网民中的比例接近。我国网站总
数达到了个,其中今年上半年增长了蚋觯绻食隹诖碜芰吭
随着网络覆盖范围的不断扩大以及网络技术的发展,存在于网络上的信息资
源飞速传播并迅速增长。数量巨大的网络信息资源来源于各行各业,包括不同学
科、不同领域、不同地区、不同语言的各种信息,。其内容是非常丰富的,并且以
文本、图像、音频、视频、数据库等多种形式存在。网络信息分布具有很大的自
由度和随意性,缺少质量控制和管理机制,使得网络信息繁杂、混乱,质量良莠
不齐,安全存在隐患,给用户选择、利用网络资源带来了障碍。
选题背景和研究意义
.√獗尘
随着科技与时代的发展,已经成为我们学习和工作的重要工具,与
我们的生活密不可分。互联网上的信息数以亿计,如何在这浩如烟海的世界中找
到自己想要的信息已经成为互联网技术的一个非常重要的研究课题。为了帮助用
户找到自己需要的信息,各种搜索引擎应运而生。
搜索引擎是一种用于帮助没Р檠畔⒌乃阉鞴ぞ撸砸欢ǖ牟
略在兴鸭⒎⑾中畔ⅲ孕畔