1 / 56
文档名称:

博客检索的关键技术研究-计算机科学与技术专业毕业论文.docx

格式:docx   大小:902KB   页数:56
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

博客检索的关键技术研究-计算机科学与技术专业毕业论文.docx

上传人:wz_198613 2018/9/8 文件大小:902 KB

下载得到文件列表

博客检索的关键技术研究-计算机科学与技术专业毕业论文.docx

文档介绍

文档介绍:Classified Index: .:
Dissertation for the Master Degree in Engineering
RESEARCH ON KEY TECHNOLOGIES OF BLOG SEARCH
Candidate:
Li Bo
Supervisor:
Prof. Wang Xiaolong
Academic Degree Applied for:
Master of Engineering
Specialty:
Computer Science and Technology
Affiliation:
School puter Science and Technology
Date of Defence:
June, 2009
Degree-Conferring-Institution:
Harbin Institute of Technology
摘要
随着互联网迈向 Web 时代,博客以极快的速度融入到社会生活中,成为互联网的基础服务之一。博客迅猛发展,博客数量爆炸增长,在为人们带来丰富信息的同时也带来了难以寻找有用信息的烦恼,使博客检索和分类技术的研究价值日渐凸显。本文正是在这种背景下,对博客检索的关键技术展开了研究,主要研究内容包括以下几个方面。
第一,本文在归纳分析经典搜索引擎架构模型的基础上,结合博客的特点设计了适合博客检索需求的搜索引擎系统架构。
第二,本文讨论包括网页搜集、网页信息抽取、中文分词、索引、检索和用户接口在内的一系列搜索引擎系统主要研究内容,并根据博客特点加以改进、优化。例如:使用博客 URL 过滤规则对非博客网页和非博客文章网页过滤;利用博客域名多使用虚拟主机技术的特点改进博客域名解析和 DNS 缓存;根据博客网页结构特点实现高效、准确的博客正文、标题和作者等信息的抽取;针对博客搜索的定位优化中文分词词典,加入计算机、软件、网络、电子术语等 IT 领域专业词典,还针对博客语言特点增加网络流行新词词典,提高检索的准确率;修改开源全文检索工具包 cLucene,使其更好的支持中文处理,完成倒排索引和检索工作。
第三,本文提出利用博客标签和正文信息融合的博客文本分类算法。由于博客文本的内容、风格缺乏规范性,加上在领域内分类,分类粒度小,为自动文本分类增加了难度。博客作者通常为文章指定一个或多个标签,标签在很大程度上概括了文章涉及的内容,对博客文本分类有重要的作用。本文根据博客文本标签这一特点,提出了两种标签信息和正文信息融合的博客文本分类算法。实验结果表明,标签信息有效提高了博客文本分类的效果。
关键词 搜索引擎;文本分类;博客;博客搜索
I -
Abstract
As the moves into Web era, blog is integrating into the social life at a very high speed and ing one of the -based infrastructure services. The rapid development of the blog service brings not only a wealth of information resources but also the difficulty to find useful information. Blog search and classification are showing their great research value. In such a context, this paper presents the research on key technologies of blog search engine.
Firstly, this paper analyses the classic model of the search engine and designs the system architecture of blog search engine.
Secondly, this paper discusses a series of studies on search engine system, and improves them according to the characteristics of blog, including web pages collection, web page information extraction, Chinese word segmentation, indexing

最近更新

高性能橡胶复合材料-第2篇 36页

绿色项目管理人才培养 38页

2025年宁河县幼儿园教师招教考试备考题库附答.. 31页

航空安全管理体系评估 35页

风光互补发电技术-第4篇 35页

2025年安徽第二医学院马克思主义基本原理概论.. 12页

联邦学习在隐私保护下的应用研究 38页

绩效考核对员工行为影响 35页

2026年龙年龙凤胎姓邢起名 4页

肿瘤药物靶点筛选 39页

高斯整数性质分析 35页

2026年龙年纪念币二次预约兑换数量 4页

2025年宝鸡中北职业学院单招综合素质考试题库.. 42页

2025年容县招教考试备考题库及答案解析(夺冠.. 31页

2025年宿州职业技术学院马克思主义基本原理概.. 12页

高效割草算法研究 35页

2025年射阳县幼儿园教师招教考试备考题库及答.. 30页

2025年屯昌县幼儿园教师招教考试备考题库含答.. 30页

2025年山东理工大学马克思主义基本原理概论期.. 13页

2025年山东轻工职业学院单招职业倾向性测试题.. 44页

2025年山西电子科技学院马克思主义基本原理概.. 13页

2025年山西运城农业职业技术学院单招职业技能.. 45页

2025年巫溪县幼儿园教师招教考试备考题库附答.. 30页

2025年平武县幼儿园教师招教考试备考题库带答.. 30页

2025年广东东软学院马克思主义基本原理概论期.. 13页

2025年广东省潮州市单招职业倾向性测试题库附.. 44页

2025年广州南洋理工职业学院马克思主义基本原.. 12页

2025年广西水利电力职业技术学院马克思主义基.. 13页

2025年广西科技职业学院单招职业倾向性考试题.. 43页

2025年康乐县招教考试备考题库带答案解析 30页