1 / 10
文档名称:

annotationgCorpus 语料库标记与标注 语料库研修PPT[精].ppt

格式:ppt   大小:221KB   页数:10页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

annotationgCorpus 语料库标记与标注 语料库研修PPT[精].ppt

上传人:yixingmaoh 2018/2/1 文件大小:221 KB

下载得到文件列表

annotationgCorpus 语料库标记与标注 语料库研修PPT[精].ppt

文档介绍

文档介绍:语料库标记与标注
李文中
2012
推荐阅读:
《语料库应用教程》“元信息标注”,-44
定义:标记(Markup)
为语料库记录并添加外部信息
文本即数据(text as data)
元数据(meta data)
元元数据(meta meta-data)
标记语言:XML
成对的标签
开始标签:<>
关闭标签:</>
定义: 标注
Corpus annotation is the process of adding information to a corpus(语料库标注即为语料库添加信息的过程)(Hunston, 2002:79)
This information is designed to interpret the corpus linguistically (该信息用于对语料库的语言学解释)(Leech, 1997:2)
The term ‘annotation’ is used to cover tagging, parsing and other forms of annotation (语料库标注包括赋码、句法分析、及其他形式的标注)
Grammatical markup: part-of-speech markup 词性标注
词性标注由赋码器软件自动为每一词形赋词性码
CLAWS tagger
Tree tagger
BFSU Standord POS Tagger
Hands-on practice
Metadata encoder:
file:\\Tools\02标注工具\Metadata_Encoder
Tree tagger:
file:\\2012workshop\Tools\02标注工具\treetagger
Powergrep
Tag retrieval using Regex
retrieve data
<author></author>
words and their POS
(Adj)+ N
Thanks for attention!
Dr. Li Wenzhong
@
中国外语教育研究中心