文档介绍:基于信息熵的甧畔⒊槿〖际跹芯广东工业大学硕士学位论文张奇盎志垒教授盐簋机软件与理论盐笠扭堂瞳分类号:密级:学校代号:学号:ぱ妒指导教师姓名、职称:专业或领域名称:学生所属学院:论文答辩日期:年
煳聊篫:.珿,甊.
摘要互联网的高速发展导致网络上出现了大量的牡担艺飧鍪只乖诳焖成为人工智能和互联网研究中的一个重要课题。畔⒊槿〉娜挝癖闶谴覹文源将能有效地提高以网页分类聚类、信息检索、问答系统、诰虻认低车男阅堋网页为用户提供了众多的信息,其中夹杂着大量的噪声信息,如由机器自动生息被分为核心信息、冗余信息和隐藏信息,畔⒊槿〗;扇コ持械词并统计其分布情况,利用本文提出的不同信息熵计算标准包括平均熵标准增长。然而由于畔⒌囊旃剐院投浠裕烤薮蟮腤资源往往导致用户无法快速捕捉其中的有用信息。如何从庞大的互联网资源中及时准确地对信息进行过滤、抽取出对用户有用的知识以形成一个统一的知识库便于查询检索,已经档中抽取出用户感兴趣的信息。畔⒊槿∫园虢峁够腤文档作为输入,从海量的牡抵械奈扌信息中抽取出用户所需要的信息,并将抽取出来的信息以结构化的形式存入数据库中以便用户检索和分析处理。而这些抽取出来的信息,由于去除了噪声,作为信息成的隐藏信息和由人工手动添加的冗余信息,而仅有部分信息即核心信息是用户所关心的。大量的噪声信息给畔⒊槿〈戳死选T诒疚闹校琖文档中的信噪声信息,包括冗余信息和隐藏信息。本文利用网页信息在网页集中所呈现分布特点,结合鹘峁褂胪臣评砺郏提出了基于信息熵的畔⒊槿》椒ǎ芄蛔远侗鸪鲈肷畔ⅲ⒈A艄丶信息。该方法将网页解析成饕匀コ匦畔ⅲ诙砸蹲咏诘愕奈谋窘蟹土:响乇曜直鸺扑愠龈饕蹲节点的平均熵和联合熵,从而得到叶子节点担蝗缓蟀碊树结构对叶子节点进行分块聚集,向上递归求得标签的值,并以此作为阈值区分噪声与非噪声。为了验证方法的有效性,我们在多个国内外知名网站的网页集上进行实验,并与其它一些方法作对比,实验结果表明本文方法具有较好的抽取效果。关键词:畔⒊槿。恍畔㈧兀篋树
瓾瑃瑆琺琣琒玝琣琣,,,.,瑆
;:,琧瑃;,,.琒猲甀—籺
目录研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.本文研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文组织⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.畔⒊槿》⒄估贰畔⒊槿∑兰郾曜肌畔⒊槿∠⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯..牡抵械脑肷畔ⅰ信息熵概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..畔㈧⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第二章畔⒊槿〖际醺攀觥第三章牡涤胄畔㈧亍摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。籌录⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯.⋯⋯⋯.⋯⋯⋯⋯.⋯.⋯.⋯⋯⋯⋯⋯⋯⋯⋯广东工业大学硕士学位论文縖甀⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
牡抵械男畔㈧亍本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.数据集描述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.疚某槿》≡袷笛椤本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第四章基于信息熵的槿》椒ā第五章实验与结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.结论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..目录.
参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯攻读学位期间发表的论文⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯学位论文独创性声明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯至谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.广东工业大学硕士学位论文
⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯............................................。......⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.⋯⋯.⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯