1 / 53
文档名称:

垂直搜索引擎的研究.pdf

格式:pdf   页数:53页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

垂直搜索引擎的研究.pdf

上传人:cxmckate6 2016/1/2 文件大小:0 KB

下载得到文件列表

垂直搜索引擎的研究.pdf

相关文档

文档介绍

文档介绍:uracyandcoverageislow,paidbackthecontentisnotdetailedenoughandtoomuchnoise,maintainahugeindexlibraryofwebpagesisespeciallydifficult,,accurate,:,includingsystemarchitecturewhichincludingawebspider,indexer,crawler,andUSerinterfaceandthemesdistributingfeatures,,andthesubjectofdetermination,collectionandpurificationofthebasicwebandalsoSOoperatingprinciple,optimizeandimplementanalgorithmforeliminationofduplicatedpages·,Mainlyimplementinglucenedevelopmentkit,WebspidertoachieveresolutionofthevarioUStypesofdocuments,includingtext,html,Word,pdfandotherformats,byparsingthedocumenttoextractthetopic-relatedinformation,andthepageachievemodulesincludingtheChinesewordsegmentation,-,reproducedledtosuchastheemergenceofthesamecontentatdifferentweburl,SOtherewillbealotofduplicatecontent,Theimprovedalgorithmofthispaperusethemaincodeandsecondarycodetoachieve,,secondarycodeidentifythecontentsofthewebpage,:Chinesesegmentatingword,lucene,featureseries,eliminationofduplicatedpages独创性声明本人声明,所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作