1 / 32
文档名称:

CRF 工具包使用介绍.ppt

格式:ppt   大小:1,399KB   页数:32页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

CRF 工具包使用介绍.ppt

上传人:sanshenglu2 2021/1/18 文件大小:1.37 MB

下载得到文件列表

CRF 工具包使用介绍.ppt

文档介绍

文档介绍:*
CRF++工具包使用介绍
*
工具简介
CRF++ 是一个可用于分词/连续数据标注的简单、可定制并且开源的条件随机场(CRFs)工具。
CRF++是为了通用目的设计定制 ,并将被用于自然语言信息处理 (NLP)的各个方面 ,诸如命名实体识别、信息提取和语块分析。
*
工具简介
工具包地址:
工具包包括Linux环境下的源代码和Windows下的可执行程序。
使用C++编写。
CRF++- 2010-05-15
CRF++-(源码) 2009-05-06
*
工具的使用方法
1)安装
编译环境
Microsoft Visual Studio C++ 2010
*
工具的使用方法
2)使用
()训练和测试文件的格式
*
工具的使用方法
以BaseNP(基本名词短语识别)为例
训练例句如下
Confidence in the pound is widely expected to take another sharp dive if trade figures for September , due for release tomorrow , fail to show a substantial improvement from July and August 's near-record deficits .
测试例句如下
Rockwell International Corp. 's Tulsa unit said it signed a tentative agreement extending its contract with Boeing Co. to provide structural parts for Boeing 's 747 jetliners .
*
工具的使用方法
训练和测试文件必须包含多个tokens,每个token包含多个列。token的定义可根据具体的任务,如词、词性等。每个token必须写在一行,且各列之间用空格或制表格间隔。
一个token的序列可构成一个sentence,sentence之间用一个空行间隔。
最后一列是CRF用于训练的正确的标注形式。
*
工具的使用方法
BaseNP训练文件格式
*
工具的使用方法
BaseNP测试文件格式
特别的,sentence间用一空行间隔。
例子每个token包含3列,分别为词本身、
词性和BaseNP标记(B、I、O)。
注意:如果每一个token的列数不一致,
系统将不能正确运行。
*
工具的使用方法
()准备特征模板 使用该CRFs工具的用户必须自己确定特征模板。 模板文件中的每一行代表一个template。每一个template中,专门的宏%x[row,col]用于确定输入数据中的一个token。row用于确定与当前的token的相对行数。col用于确定绝对行数。