文档介绍:
。这种方法在上个世纪70年代逐渐被证明是不可行的。
与此同时,著名计算机科学家贾里尼克和他领导的实验室,发明了用统计学处理自然语言的方法,大大提高了语音识别的识别率和识别规模。
他们的方法主要用了马尔科夫假设, 这个假设是说,假定一个句子里每一个词出现的概率,只和前一个词有关,就好比涨停这个词,最有可能出现在股票之后。
那么,只要给计算机量足够大的机读文本,计算机就能算出来,在一个特定词后面出现某个词的概率。这样,只要把一句话里所有词出现的概率相乘,就是这个句子出现的概率了。概率最大的句子,就是我们需要的正确句子。
在解决问题时,过度地注意模仿却不懂变通,也是导致失败的重要原因。就像当年人们最开始制造飞机时,总是想把飞机的机翼设计成鸟的翅膀,但是最后莱特兄弟制造出来的第一架飞机,靠的不是仿生学,而是空气动力学。
所以说,不被事情的表面现象迷惑,是一种很重要的能力,而数学就能帮我们跳出表象,抓住事物发展背后的逻辑。
2
数学的一致性体现着数学之美
余弦定理是一个揭示三角形边角关系的重要数学定理,使用余弦定理,就可以仅凭三角形两个边的向量,计算出这两个边的夹角。
科学家为了让计算机能处理人类的语言,要先把新闻里的文字变成一组可以计算的数字,再设计一个算法,这样就能让计算机通过余弦定理,来算出任意两篇新闻的相似性,从而确定新闻的分类。
新闻里的词分为实词和虚词,之乎者也的这种虚词对判断新闻分类无益,就不考虑,而股票利息这种实词,对判断新闻分类很有帮助,是我们关注的重点,我们就要用这些实词计算出一则新闻的特征向量。
只要给每一则新闻都计算出其独特的特征向量,再根据每一类新闻经常出现的词的特征,就可以判断出任意一条新闻的分类。
在新闻分类的工作中,计算机不需要去理解每篇新闻,只要找到同一类新闻的相似点就可以了,用余弦定理就能搞定,这就证明了数学的一致性。
虽然事物发展千变万化,但处理它们的数学模型却是相似、甚至相同的。这种一致性,就是一种数学之美。
3
数学的妙处就是,
一个好方法,常常也是最简单明了的方法。
现在我们每个人几乎每天都会用到搜索引擎,它可以在极短的时间内搜索到大量你需要的网页,这背后的关键就是数学。搜索引擎背后的基本数学原理,其实特别简单。
二进制是世界上最简单的计数方法,因为二进制只有0和1两个数字,并且二进制还可以表示逻辑里的是和非。
布尔运算,就是一种针对二进制的运算,它是19世纪英国的一名名叫布尔的数学家发明的,基本的运算只有与或非三种,非常简单。
搜索引擎会把用户查询的语句,转换成布尔运算的算式,看看搜索关键词有没有出现在这个网页,1就代表出现,0就代表没出现。
这样一来,每个网页就会转换成一个数字。最后只要把显示为1的网页拿出来,就是你要的搜索结果了。计算机做布尔运算的速度非常快,所以搜索引擎可以轻松地在很短的时间里搜索出大量网页。
牛顿曾经说过,真理在形式上从来都是简单的,而不是复杂和含混不清的。数学之美也体现在这里,如果你能拿数学工具来解决问题,那么不管你的方法有多复杂,这里面的基本思想都应该是简单的。
4
两位数学信息科学大师的数学思维
第 7 页