1 / 4
文档名称:

半结构化数据的形式化描述及数据抽取方法研究.pdf.pdf

格式:pdf   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

半结构化数据的形式化描述及数据抽取方法研究.pdf.pdf

上传人:ying_zhiguo03 2015/9/9 文件大小:0 KB

下载得到文件列表

半结构化数据的形式化描述及数据抽取方法研究.pdf.pdf

文档介绍

文档介绍:第 30卷第 4期计算机应用与软件 Vol
2013年 puterApplicationsandSoftware
半结构化数据的形式化描述及数据抽取方法研究
李亚红1 赵冬玲2
1(南阳理工学院计算机与信息工程学院河南南阳 473004)
2(济源职业技术学院河南济源 454650)
摘要半结构化数据的形式化描述和信息抽取是解决用户查询和信息获取的核心问题。随着信息资源的多样化和快速膨胀,
现有的描述和抽取方法存在召回率和查准率低等缺陷。为解决此问题,提出一种新的半结构数据形式化描述方法,重新定义领域概
念集和领域知识集,并在此基础上给出领域概念集、领域知识集的构建过程,包括领域概念的自动抽取、领域知识集关系自动构建和
相似度算法描述。实验结果表明,所提出的描述方法比现有方法具有更高召回率和查准率,具有很好的可行性和有效性。
关键词半结构数据形式化描述领域概念集领域知识集数据抽取
中图分类号 TP392 文献标识码 A DOI:.1000
RESEARCHONFORMALDESCRIPTIONOFSEMISTRUCTURED
DATAANDDATAEXTRACTIONMETHOD
LiYahong1 ZhaoDongling2
1(puterandInformationEngineering,NanyangInstituteofTechnology,Nanyang473004,Henan,China)
2(JiyuanVocationalandTechnicalCollege,Jiyuan454650,Henan,China)
Abstract Formaldescriptionanddataextractionofsemiess.
Alongwiththeinformationresourcesdiversificationandrapidexpansion,existingdescriptionandextractionmethodhavethedefectsinlowre
,anewformaldescriptionmethodofsemistructuredataisprovidedinthispaper,thedo
,theconstructionprocessofdomainconceptsetanddomainknowl
edgesetaregiven,includingdomainconceptautomaticextraction,onstructionandthesimilarityalgorithm
,andhasverygood
feasibilitya