文档介绍：第 26卷第 12期计算机应用与软件 Vol
2009年 puterApplicationsandSoftware
基于 DTA的信息抽取技术研究
谭鹏许1 张来顺1 滕婕2
1(解放军信息工程大学电子技术学院河南郑州 450004)
2(华东师范大学上海 200241)
摘要针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机 DTA(deterministictreeautomaton)的信息抽
取技术。其核心思想是通过将 HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽
取。该方法充分利用了 HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实
验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。
关键词树自动机信息抽取 HTML
ONINFORMATIONEXTRACTIONTECHNIQUEBASEDONDTA
TanPengxu1 ZhangLaishun1 TengJie2
1(InstituteofElectronicTechnology,ThePLAInformationEngineeringUniversity,Zhengzhou,450004,Henan,China)
2(EastChinaNormalUniversity,Shanghai200241,China)
Abstract Inlightofthedeficiencyofexistinginformationextractiontechniquesbasedonwebpagestructure,inthispaperweproposean
informationextractiontechniquebasedondeterministictreeautomata(DTA).ThecoreideaofitistotransformtheHTMLdocumenttobina
rytree,
binesconventionalinformationextractioninsinglestructureroutewithgrammarinferencere
,paring
withothersimilarextractionmethods.
Keywords Treeautomata Informationextraction HTML
0 引言 1 树与树自动机
随着及其技术的迅速发展,Web已经成为当今最树
庞大的信息库。然而 Web页面中通常含有很多用户并不关心在本文中,假设有一个标签的集合 T,在集合中,标签与标
的信息,如广告链接、导航栏和版权信息等,如何从 Web页面签之间存在上下级关系(即标签的秩为自然数,秩为孩子结点
中抽取出有用的信息