1 / 24
文档名称:

新词发现找出组成新词的字符串.ppt

格式:ppt   页数:24
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

新词发现找出组成新词的字符串.ppt

上传人:fxl8 2013/4/16 文件大小:0 KB

下载得到文件列表

新词发现找出组成新词的字符串.ppt

文档介绍

文档介绍:New Words Detection in Chinese Text
2017/11/13
1
Li Baoli, ICL, Peking University
Outlines
Definition
Difficulties
Approaches
Summary
2017/11/13
2
Li Baoli, ICL, Peking University
Definition
新词发现:找出组成新词的字符串;确定其句法、语义类别;
新词:在某(个、类)语汇中出现的、存在于某个时间段的、未被收录于现有词典的词语;
参照物:某一词典、一些词典或所有现有词典;
语汇:1991年——2000年十年的《人民日报》、1998年全年的《人民日报》、一篇文档;专业文献集合(如信息科学技术),专业术语也是一种新词;
时间段:出现在某一时间段内或自某一时间点以来所首次出现
2017/11/13
3
Li Baoli, ICL, Peking University
Categories of New Words
Syntactical Function
Noun:斑竹、大虾、面瓜、菜鸟、美眉、陶吧、911、九一一、北航空难、
Verb:打的、埋单/买单
Adjective:酷、小资、爽
。。。。。。
Semantic
时间、地名、人名(拉丹)、组织机构名(基地)、
商标、公司名、电话号码、电子邮件地址等等
Domain or Subject
信息技术(话题识别与跟踪、信息抽取)
政治(三个代表、十六大)
经济(牛市、熊市)
。。。。。。
2017/11/13
4
Li Baoli, ICL, Peking University
Definition Given by Chen Keh-Jiann
A word is considered as an unknown word, if neither it is in the CKIP lexicon nor it is identified as foreign word (for instance English) or a number. [3]
One question?
外来词(如英文单词、不同編碼的漢語詞語)是否也是一种新词?如,“让我look一下”、“我们都应当讲禮貌”
2017/11/13
5
Li Baoli, ICL, Peking University
Difficulties (1/2)
汉语文本中,词与词之间没有空格符分隔;
某些词语数量巨大,无法枚举,难以全部收录在词典中;
没有简单的规则能够覆盖各种类型的新词;
新词首次出现后往往采用缩写形式;
2017/11/13
6
Li Baoli, ICL, Peking University
Difficulties (2/2)
目前的自然语言处理技术往往以单句作为一个处理单位,不保留篇章信息;
“而更令现代人自信的是对质量的有效控制,”
表达形式多样(全称与简称(IBM与国际商用机器公司),译词选择不同);
“贝克汉姆——碧咸、拉登——拉丹——本拉登”
在短的文本中进行的联机识别尤其困难,因为简单的统计方法很难识别出低频的新词;
2017/11/13
7
Li Baoli, ICL, Peking University
An Sample Text
一个11岁学生写的“字母+数字+汉字”的大杂烩日记:
“昨晚,我的JJ(姐姐)带着他的青蛙(丑陋的)BF(男朋友)到我家来吃饭。在饭桌上,JJ的BF一个劲儿地对我妈妈PMP(拍马屁),说她年轻的时候一定是个漂亮MM(美眉)。那酱紫(样子)真是好BT(变态),7456(气死我了)……”
2017/11/13
8
Li Baoli, ICL, Peking University
Evaluation Results
1995年、1998年863项目汉语文本自动切词评测:
中国人名:召回率68%、准确率91%(F-1指数=78%)
中国地名:召回率60%、准确率69%(F-1指数=64%)
外国译名:召回率78%、准确率82%(F-1指数=80%)
AVERAGE: 74%
MUC中关于中文命名实体的评测:
MUC6(1995年9月)系统的F-1指数<85%
MUC7(1998年4月)系统的F-1指数<91%
2017/11/13
9
Li Baoli, ICL, Peking University
Approaches
静态识别技术
确定词表、(特定类型的)搭配抽取,标准(),方法(频率、期望方差、假设检验(t-test、chi-square test)、