1 / 39
文档名称:

首都师范大学计算机科学与技术专业学士学位论文.docx

格式:docx   大小:308KB   页数:39
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

首都师范大学计算机科学与技术专业学士学位论文.docx

上传人:xiaodengyou 2018/5/2 文件大小:308 KB

下载得到文件列表

首都师范大学计算机科学与技术专业学士学位论文.docx

相关文档

文档介绍

文档介绍:基于Web的文本分类挖掘的研究
中文提要

互联网现在已经成为一个巨大的信息源,如何让互联网信息更好地为人类服务,如何快速、准确获取所需信息,是我们面临的一个重要课题。因此,基于Web的网络信息处理成了当前的研究热点,其中,Web上的文本分类方法的研究是网络数据挖掘的研究重点之一。
本文介绍了数据挖掘,Web挖掘和文本分类的理论,对Web数据的特点作了分析,比较了HTML与传统数据的区别,分析了文本分类的几种算法,重点研究了朴素贝叶斯分类算法和算法改进的具体过程。尝试利用HTML标记权重来改善朴素贝叶斯算法的条件独立假设的不足。简述了现有的对网页的标记过滤的知识,并利用标记中的有用信息结合文本分类算法进行文本分类。最后,针对改进的分类器的在精确率上不太理想的特点,对本课题下一步要研究的内容进行了总结,并提出了自己的一些看法。
关键词
Web挖掘朴素贝叶斯数据挖掘文本分类网页标记
Research of Text Classification Mining based on WEB
ABSTRACT
has e a great information source. It is an important issues for us to confront that how to make the information serve people better and how to obtain the information quickly and accurately. Nowadays the Research of information processing based on web is a hotspot. The text categorization of web has became more important than the other research of web mining.
The theoretical development of data mining, Web mining and text classification are introduced, analyzes the feature of Web pares with the other datanaive bayes classifier . Analyzes some arithmetics of text categorization and the concrete process of the improvement of arithmetic in naive bayes classifier are put emphasis on. This thesis tries to make use of HTML tags to improve the arithmetic of naive bayes classifier whose bug is its hypothesis. In the practice of the classifier ,the thesis summarizes the method which can leach HTML tags,then tries to use the information from the tags and the text categorization arithmetic to classify the text.
Finally, the precision of the classifier which has been improved is not ideal, so the next contentsof this subject are summarized and some one's own views are also presented.
Xu Ying
Directed by Liu Li-zhen
Key word
WebMining Naïve Bayes Data Mining Text categorization HTML tags
目录
中文提要 1
外文提要 错误!未定义书签。
第一章 绪论 4
选题背景及意义 4
数据挖掘 4
Web挖掘 5
Web挖掘的研究现状与发展 8
本文的主要研究内容与组织结构 9
第二章 基于Web的文本分类挖掘 9
引言 9
Web文本的预处理 10
Web文本数据采集 10
文本分词 10
文本特征库 11
文本

最近更新

2025年上海立信会计金融学院马克思主义基本原.. 13页

2025年中国工程物理研究院职工工学院马克思主.. 13页

钢铁废料循环利用技术优化 35页

过渡金属纳米颗粒催化 35页

2025年云南水利水电职业学院单招职业倾向性测.. 44页

2025年仰恩大学马克思主义基本原理概论期末考.. 13页

2025年克拉玛依职业技术学院单招职业适应性考.. 43页

2025年冀中职业学院马克思主义基本原理概论期.. 13页

2025年前郭尔罗斯蒙古族自治县幼儿园教师招教.. 31页

2025年南京体育学院马克思主义基本原理概论期.. 13页

2025年南昌县幼儿园教师招教考试备考题库带答.. 30页

2025年厦门安防科技职业学院马克思主义基本原.. 13页

绿色再生橡胶生产技术 36页

2025年四川城市职业学院马克思主义基本原理概.. 12页

2025年天津国土资源和房屋职业学院单招职业倾.. 44页

耐药机制牙周感染 35页

2025年宁夏大学马克思主义基本原理概论期末考.. 13页

2025年宣汉县幼儿园教师招教考试备考题库含答.. 30页

绿色纤维在医疗行业的应用前景 21页

2025年山阴县招教考试备考题库附答案解析(夺.. 31页

2025年广元职工医学院马克思主义基本原理概论.. 13页

2025年应县招教考试备考题库含答案解析(必刷.. 30页

2025年怀集县幼儿园教师招教考试备考题库附答.. 31页

2025年景德镇陶瓷职业技术学院马克思主义基本.. 12页

2025年永善县招教考试备考题库及答案解析(必.. 31页

2025年江西制造职业技术学院单招职业倾向性测.. 42页

2025年沙洲职业工学院单招职业倾向性测试题库.. 44页

2025年泉州华光职业学院单招职业技能测试题库.. 46页

2025年浙江海洋大学东海科学技术学院马克思主.. 12页

2025年湖南高尔夫旅游职业学院单招职业倾向性.. 44页