文档介绍:�万方数据
基于词汇链的中文新闻网页关键词抽取方法������1谢飞��吴信东��������chains��The����������狣��”�������琀��Technology��Hefei������50405��USA)University��Hefeitext��and��23����1��模式识别与人工智能1(��������������������������������230009)3(����������������������������������230061)摘要词汇链是一种词语间语义关系引起的连贯性的外在表现,,结合词频特征、,,,关键词抽取,歧义消解,语义相似度中图法分类号���”,�Extraction��Ambiguity女国家自然科学基金资助项目�������收稿日期:��—�—�;修回日期:��—�—�作者简介胡学钢,男,��年生,教授,博士,主要研究方向为数据挖掘、机器学****知识工程.���:�������甧�.�.李星华,男,��年生,硕士,,男,��年生,讲师,博士研究生,,男,��年生,教授,博士生导师,主要研究方向为人工智能、��2����狦��,�Xing��Hual��XIEScience��Unh,ersityVermont��Burlington��VT�������text��Basedresolution��a����,����features��Thearticles��The�����.���琄��������,����No��1Science��University
�万方数据
引言2������������提出的利用《知网》计算词语间相似度的方法,这是�,对这些网页进行关键词抽取,,,可概括为三类主要方法:基于统计信息的方法、、通用性强,但抽取关键词的准确率低,如词频⋯、����������旧’、字同现口�⒋使蚕諬���—Gram"o����������������1����������������������库上的机器学****抽取关键词方法也被普遍采用,如����������������"J������NaiveBayes����������9J������SVM��������}0f������������������������o����������������������������������������类问题,训练时通过提取关键词特征构造关键词抽取的分类模型,