文档介绍:摘要现方法,建立一个智能化、专业化、小型化的人一机互动式搜索引擎,并通过谌止K饕暮河锓执省Mü訮语料的分析,总结汉语构词索引深度的问题,提出并实现三字哈希索引的汉语分词词典机制,并从理论和特征,依此抽取包含高类别特征信息的未登陆词。识别结果用于主题扩展,取随着畔⒌闹甘对龀ぃ绾慰焖佟⒆既返卮雍A康幕チM畔⒆试中获取所需信息已经成为困扰人们的一大难题。论文研究主题畔⑼萍黾际酰凑攵宰ㄒ档男畔⑺鸭棵懦て谑时收集互联网某一领域或某一学科动态信息的实际需求状况,提出跟踪用户浏览记录,主动推荐主题信息的主动式信息服务设计方案,并探讨相关技术及实理论分析和实验结果证明了系统性能的优越性。围绕主题畔⑼萍鱿低成杓疲畚牡闹饕9ぷ靼ㄒ韵录父龇矫妫形腤曲新闻页面正文的精确抽取。在分析语法结构及国内外知名中文新闻门户网站的页面特征的基础上,提出规则与统计相结合的中文新闻页面正文抽取方法。论文在对新闻页面进行严格界定之后,制定了~系列提取规则,详细阐述了正文抽取方法,并以国内外知名新闻门户网站随机抽取的大量页面为实验数据验证了方法的优越性。特点,得出三字索引具有最好的分词效率;通过字串三态标记的方式,解决了实验两方面证明了方法的优越性。诜掷嗥拦赖奈吹锹酱适侗稹T诜治鼋杓钟形吹锹酱适侗鸱椒ǖ幕础上,提出并设计了基于分类效果评估的未登陆词识别算法。该算法先采用传统的统计方法查找固定字串,然后采用机器学习方法,评估字串对类别的表现得了良好效果。魈釽动态信息推荐系统设计。论文从用户需求出发,着眼于解决实际问题,搭建了一个面向中文动态新闻信息的小型化、专业化、智能化的搜索引擎,并给出了系统及分系统的实现架构和具体实现方法。此外,论文也对超链接分析、文本分类、信息过滤等技术进行了分析与探讨。关键词:搜索引擎信息推荐正文抽取主题跟踪相关度三字哈希
知识水坝***@pologoogle为您整理
知识水坝***@pologoogle为您整理
.猦甓挑嚣:掣Ⅲ痺冒征:盎‘,咖㈣,保瑃’酗猯怀鶲曲印撕,如癱,··瑃,瑃虹
研究现状展智能化、专业化的搜索引擎,即把基于关键词匹配搜索转变为基于主题概念以、搜狗、4淼牡谌阉饕妗!H艘别等诸多信息处理领域。主题杉惴ㄑ芯肯肿以、4淼牡诙阉饕嬉谰莼魅胱ト⌒畔ⅲ捎霉键词检索,是建立在超链接分析基础上的网页搜索,其信息服务深入、集中、更加专业化。第二代搜索引擎是目前信息检索领域的主流信息检索工具,尤其对搜索某一主题或者某一学科领域的畔⒎⒒幼偶V匾5淖饔谩无论是第一代搜索引擎还是第二代搜索引擎,都存在二大问题:一是检全率不高;二是检准率太低。为了提高信息检索的检准率和检全率,人们渴望发搜索,满足用户个性化、专业化信息检索需求。机互动式检索机制,在用户输入一个查询词时,尝试理解用户可能的查询意图,给出多个主题的搜索提示,引导用户快速准确地定位自己所关注的内容。第三代搜索引擎成为搜索引擎的发展趋势和重点研究对象。现有的搜索引擎的信息服务方式都是基于关键词检索的被动式信息服务模式,而且信息源都是基于整个的,对硬件环境有着特殊的要求,查全率查准率不高。为了解决用户对特定网站某一主题信息实时搜集的需求状况,论文提出了主题畔⑼萍黾际跹芯浚淠康氖窃谌艘换换サ幕∩希通过跟踪用户的浏览记录,获取用户的主题偏好,建立一个小型化、专业化的信息搜集系统,实时推荐主题信息。论文针对国内外知名中文新闻门户网站,研究主题畔⑼萍黾际酰涉及主题趁娌杉页面正文抽取、汉语分词、文本分类、未登陆词识主题搜索引擎的任务是在尽可能短的时间内,采集尽可能多的主题相关网页。采集的过程中,采集器从恿欣锇此承蛉〕鯱,获取其所指向的页面,然后从已获取的页面中提取出新的⒔羌绦此承蚍湃氲酱集恿兄小H绾谓魈庀喙囟却蟮腢排列在队列的前面,
序方法,将影响到采集的质量与速度谛>。—值与猯档谋壤J笛橹っ鳎琍荱队列排序的最好依据,它揭示了涞南嗷ス叵怠D壳爸髁魉阉饕鍳目前有多种呐判蚍椒ǎ凑账捎玫牧煊蛑J逗推兰哿唇蛹壑捣椒的不同,可分为两大类:趙结构评价蚏直鹛岢隽恕癰猯“猯和“”三种不同的判蛞谰荨撬有指向一个牧唇邮浚翟酱骍集中性越强;是网页使用的就是技术。但是技术需要网页之间相关链接的信息,否则就无法计算出的值。仍赨的排序中使用了底魑2问谰荩有较好档腢是采集的较佳起点,能引导采集更多的主题相关网页。与相似,⑿值芙诘恪⒆咏诘才是相关网页,所包含的哂薪细叩闹魈庀喙匦浴等也认为如果位于同一父节点下的大量兄弟网页是主题相关的,那么位于该父节点下的其他网页主题相关性的可能性就非常高。普庵中值芡持涞墓叵为同引用性猚。谀谌菹嗨贫绕兰热颂岢龅摹癝—”算法在挠畔热ḿ扑闶笨虑了超链描述文字的提示作用,同时