文档介绍：博客掘金
吕吉尔/编译
在“世界最乏味博客”网站上,最近有一篇博文是这样开头的:“我注意到门垫有点歪斜,因此就俯身把它拨正。”这篇博文虽然看似乏味且带有讽刺意味,但科学家们却惊讶地发现,从单调乏味的博客空间里确实能淘取一些有用的信息。
美国南加州大学创新技术研究院的安德鲁·戈登(Andrew Gordon)博士及其同事一直在尝试探索计算机识别因果关系研究。计算机并不善于处理因果关系,虽然它们能识别特定的事件,但要厘清事件之间的关系却颇有困难。尤其是用计算机来分析人类经验时,情况更是如此。
但事实证明,计算机能通过阅读个人博文学到许多有关因果关系的知识。每天大约会有百万篇用英语撰写的博文,其中大部分是对时事新闻、活动计划或个人生活感悟的评论。大约5%的博文是以故事形式讲述最近发生在博主身上的事件。
为了让计算机系统能从博客中学到东西,戈登研究小组采取了以下两个步骤。第一步是让人们将成千上万篇博文标记为“故事”或“非故事”。与其他形式的语篇比较,人们在讲故事时会以不同的频率使用不同的词语。戈登指出,通过统计有标记博文中的不同词类——如代词(我、她、我们)和过去式动词(去过、说过、想过)——的使用频率,就有可能区分上述两类不同的博文,无论故事的实际内容是什么,计算机系统就能够浏览别人的博文,并分析出是属于叙事的还是非叙事的。
第二步是教会计算机系统识别因果关系。戈登和他的学生们随机阅读了数千篇博文,并特别指出与因果关系有关联的措辞(比如,“我做了X,因此Y接着发生了”),便于计算机领悟。计算机识别出博文中的这些措辞就能够找出那些包含原因和结果的句子——例如“我猛踩刹车,最终却还是一头撞上了前面的汽车”,或“医生责备我摄入脂肪太多,有患心脏病的危险”,并将它们分门别类。
该项研究的指导思想是最终产生一个能每天收集汇总大量有关个人生活统计数据——无法从其他任何来源获取的信息——的系统。戈登最终期待这种对博客上个人故事的分析能够像谷歌上的“流感