文档介绍：砖棠却奄天莘硕士研究生学位论文题目:亘自堑回塑堡丝塞奎麴堡苤塑丕笙数送盐皇塞理业::姓导号:量齉名:王宝龙院:年日
蔻鬷
:鸵星:同期:鸵丝日期:釜灰厶丝日期:杏,名保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论独创性虼葱滦声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人承担一切相关责任。关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期问论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笞袷卮斯娑文注释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:
面向新闻领域的文本数据获取系统的设计与实现摘要文本的自动分类是在对文本内容分析的基础上把文本分配给一个或多个预定的类别。在信,伺蛘秃托畔⒃慈绱硕嘌氖贝低,信息质量也得不到保证。因此,快速、有效地获取主题相关信息并进行分类存储已成为目前信息处理研究的热点。本文从信息管理系统的角度介绍了面向新闻领域的文本数据获取系统的设计和实现,该系统集成了信息管理与信息获取。一方面,系统提供了友好的新闻信息的管理界面,另一方面,系统提供了一种新闻文本信息的自动获取功能,可自动从网络抓取新闻信息并归类存储。本文在研究网络爬虫技术、网页过滤技术,文本表示方法,中文文本分类方法的基础上,介绍了谋拘挛判畔⒆远袢」δ艿设计和实现。爬虫程序把从新闻网站抓取的新闻信息以文本的形式保存到本地的存储器中,然后系统采用特定的网页内容提取技术从抓取的文本网页中提取新闻内容,得到新闻的标题和正文信息等,最后使用特定的文本特征提取技术提取新闻的特征信息,并使用基于贝叶斯的分类算法对提取的文本新闻信息进行类别映射。本文从需求分析、设计和编码实现等方面对系统进行了介绍,并对实现中使用的相关技术进行了分析。最后本文阐述了系统的测试,关键词:网络爬虫中文分词网页内容提取文本特征文本分类人工搜索来获取信息,其操作过程已变得非常繁琐,其速度和效率极并对测试结果进行了分析。
锄簅鷇琽姗,產,.,瓼琣琤...
簑,,,,.
目录第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯文本数据获取系统的现状及其发展方向⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯课题的提出及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本论文的研究任务⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文的组织⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第二章研究综述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯技术的简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯关键技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯结构分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.韵蟪志没际酢文本分类概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯谋痉掷嗟闹匾R庖濉文本分类技术研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.!第三章系统的需求分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯系统需求分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯各系统间的关系⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第四章面向新闻领域的文本数据获取系统的设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯~系统的总体设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...?椤系统的详细设计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...挛殴芾沓绦蚰????∧???椤刀、结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯,⒔帷.
.迪炙得鳌系统数据库设计