文档介绍:自然语言处理的新策略
--微软亚洲研究院自然语言处理项目
周明
微软亚洲研究院,北京,中国
1 NLP 主要思想【1】
利用互联网、 和社会关系网络,可有效地支持自然语言处理的研究。互联网已
经成了最大的数据资源和最大的人际关系网络。 通过众包方式,可以建立庞大的数
据库和知识库,并且进行低成本的标注。社会关系网络给我们提供了用户个性化的信息,其
朋友关系也有助于提高文本处理和搜索的相关性。
在这样的时代下,过去的自然语言处理的方法(我们称之为 )需要重新调整。
的特点是对每一项单元技术(譬如分词、实体抽取、句法分析、双语词汇对齐等)
作深加工以追求局部技术的完美,但是不太考虑该项技术在整个应用系统里面和其他技术配
合从而得到系统级的最优。有很多研究片面追求方法的新颖性(哪怕很细小)以便助于发表,
但是忽略了方法的简单可靠以支持可规模化。有很多研究针对预先规定的数据集合进行训练
和测试,但是却无法适用于大规模的真实场景。很多研究囿于小的实验环境确不考虑用户需
求和市场因素。我认为有必要适当调整以往的重算法轻数据,重单元技术轻系统,重新颖轻
实用,重研究轻用户体验,重实验轻推广,重开发轻商业运营的做法。作为在研究方法论上
的一个尝试,我们提出了 。其核心思想如下:
第一,把互联网当成一个研究平台,在其上进行数据获取、模型训练、实施、与用户互
动[3]。同时,把自然语言研究和用户需求和市场因素适度地联络起来,争取互动。为此,
我们倡导利用互联网的海量数据来支持各类应用。互联网的各类数据,包括网页数据、论坛、
博客、社区问答、用户标签、搜索日志和网络服务日志都需要充分地利用起来。
第二,呼吁快速实施。系统在雏形阶段就需考虑尽快投放使用以便根据用户反馈改善功
能并且完备界面设计。对搜索而言,可以根据用户日志优化问题理解并改变排序的权重。
第三,充分利用社区问答、维基百科和用户标签加强训练和测试。
第四,要加强多学科的交叉,数据挖掘,机器学习,搜索、广告、人机交互、互联网经
济学和社会学和自然语言处理充分交融。
第五,建立大规模的数据处理平台以支持网络挖掘、信息抽取、模型训练和系统实施。
下面介绍几项我们在微软亚洲研究院从事的基于 策略的研究,供大家体会
的主要思路。
2 微软对联(http://duilian.)
“微软对联”是由微软亚洲研究院自然语言组研究开发的
计算机自动对联系统,也是世界上第一套人工智能自动对
联系统。具体而言,用户给定上联,然后系统自动产生下
联;或者用户也可通过交互手段优选字词来生成满意的下
联。本项技术可以用于在线数字游戏,以及服务于中小学
以及外国人的智能汉语教学。
目前我们的系统支持复字联,拆字联和同音异字联。比如,“烟掩檐上燕”。同时支持
人名联。比如您可以在上联中嵌入您的名字,看看我们的系统能对出一个什么样的人名来?
您也可以在上下联中分别输入您和您爱人的名字,看看系统会生成什么样的横批?
本研究通过网络挖掘获取大规模的对联和诗词语料,然后通过统计机器学习方