文档介绍：《数学之美》读书笔记
　　《数学之美》读书笔记
　　《数学之美》是一本领域相关的数学概念书，生动形象地讲解了关于数据挖掘、文本检索等方面的基础知识，可以作为数据挖掘、文本检索的入门普及书。另外，就像作者吴军老师提到的，关键是要从中学到道----解决问题的方法，而不仅仅是术。书中也启发式的引导读者形成自己解决问题的道。
　　下面记录一下自己读这本书的一些感想：
　　第一章《文字和语言vs数字和信息》：文字和语言中天然蕴藏着一些数学思想，数学可能不仅仅的是一门非常理科的知识，也是一种艺术。另外，遇到一个复杂的问题时，可能生活中的一些常识，一些简单的思想会给你带来解决问题的灵感。
　　第二章《自然语言处理----从规则到统计》：试图模拟人脑处理语言的模式，基于语法规则，词性等进行语法分析、语义分析的自然语言处理有着很大的复杂度，而基于统计的语言模型很好的解决了自然语言处理的诸多难题。人们认识这个过程，找到统计的方法经历了20多年，非常庆幸我们的前辈已经帮我们找到了正确的方法，不用我们再去苦苦摸索。另外，这也说明在发现真理的过程中是充满坎坷的，感谢那些曾经奉献了青春的科学家。自己以后遇到问题也不能轻易放弃，真正的成长是在解决问题的过程中。事情不可能一帆风顺的，这是自然界的普遍真理吧！
　　第三章《统计语言模型》：自然语言的处理找到了一种合适的方法---基于统计的模型，概率论的知识开始发挥作用。二元模型、三元模型、多元模型，模型元数越多，计算量越大，简单实用就是最好的。对于某些不出现或出现次数很少的词，会有零概率问题，这是就要找到一数学方法给它一个很小的概率。以前学概率论的时候觉的没什么用，现在开始发现这些知识可能就是你以后解决问题的利器。最后引用作者本章的最后一句话：数学的魅力就在于将复杂的问题简单化。
　　第四章《谈谈中文分词》：中文分词是将一句话分成一些词，这是以后进一步处理的基础。从开始的查字典到后来基于统计语言模型的分词，如今的中文分词算是一个已经解决的问题。然而，针对不同的系统、不同的要求，分词的粒度和方法也不尽相同，还是针对具体的问题，提出针对该问题最好的方法。没有什么是绝对的，掌握其中的道才是核心。
　　第五章《隐马尔科夫模型》：隐马尔科夫模型和概率论里面的马尔科夫链相似，就是该时刻的状态仅与前面某几个时刻的状态有关。基于大量数据训练出相应的隐马尔科夫模型，就可以解决好多机器学习的问题，训练中会涉及到一些经典的算法(维特比算法等)。关于这个模型，没有实际实现过，所以感觉好陌生，只是知道了些概率论讲过的原理而已。
　　第六章《信息的度量和作用》：信息论给出了信息的度量，它是基于概率的，概率越小，其不确定性越大，信息量就越大。引入信息量就可以消除系统的不确定性，同理自然语言处理的大量问题就是找相关的信息。信息熵的物理含义是对一个信息系统不确定性的度量，这一点与热力学中的熵概念相同，看似不同的学科之间也会有着很强的相似性。事务之间是存在联系的，要学会借鉴其他知识。
　　第七章《贾里尼克和现代语言处理》：贾里尼克是为世界级的大师，不仅在于他的学术成就，更在于他的风范。贾里尼克教授少年坎坷，也并非开始就投身到自然语言方面的研究，关键是他的思想和他的道。贾里克尼教授治学严谨、用心对待自己的学生，对于学生的教导，教授告诉你最多