文档介绍：，我爱孝感，孝感第一生活门户，提供最有价值的孝感新闻、孝感分类信
息、孝感论坛、孝感教育、孝感招聘、孝感人才孝感社区、孝感人家、孝感家政等信息，为
孝感否有重复的字符串，如果有，就抛弃
多余的，只保留一个，接着判断是否有英文或者数字，如果有的话，把英文或者
数字当作一个整体保留并把前后的中文切开。
接着该干什么呢？该考虑分词的问题了。
二、中文分词
首先，讲讲百度的分词时机或者条件问题，是否是个中文字符串百度就拿来切一
下呢？非也，要想被百度的分词程序荣幸的切割一下也是要讲条件的，哪能是个
字符串就切割啊？你当百度是卖锯条的么？
那么什么样的字符串才满足被切割的条件呢？简单说来，如果字符串只包含小于
等于 3 个中文字符的话，那就保留不动，当字符串长度大于 4 个中文字符的时候，
百度的分词程序才出马大干快上，把这个字符串肢解掉。
怎么证明呢？我们向百度提交“电影下载”，看看返回结果中标为红字的地方，
不难看出来，查询已经被切割成<电影，下载>两个单词了，说明分词程序已经
开工了，如果是比 4 个中文字符更长的字符串，那分词程序就更不客气了，一定
大卸八块而后快。我们来看看三个字符的情况，提交查询“当然择”，看起来
这个查询不伦不类，那是因为我希望看到这个字符串被切分为<当然，择>，返回
结果 365 篇相关页面，翻到最后一页，发现标红的关键字都是” 当然择”连续
出现的情况，好像没有切分，但是还不确定，那么再提交人工分好的查询“当然
择”看看，返回结果 1，090，000 篇，基本上可以确定没有进行分词了，当然
另外一种解释是：对于三个字符先切分，然后将切分后的结果当作一个短语查询，
这样看到的效果和没有切分是相似的。
但是我倾向于判断百度对于少于 3 个字符的串没有切分，奥卡姆不是说了么“，我爱孝感，孝感第一生活门户，提供最有价值的孝感新闻、孝感分类信
息、孝感论坛、孝感教育、孝感招聘、孝感人才孝感社区、孝感人家、孝感家政等信息，为
孝感人民服务，让孝感人民更爱孝感。
链接出售、链接购买；创联智胜为站长打造高质量网站
无必要，勿增实体”，干吗做无用功呢。那么如果没有切分，会有一个随之而来
的问题，怎么从索引库里面提取未切分的字符串呢？这牵扯到索引的问题，我
觉得百度应该采取了两套索引机制，一种是按照单词索引，一种是按照 N-GRAM
索引，至于索引的具体问题，以后在详细论述。
下面我们看看百度是采取的何种分词算法，现在分词算法已经算是比较成熟了，
有简单的有复杂的，比如正向最大匹配，反向最大匹配，双向最大匹配，语言模
型方法，最短路径算法等等，有兴趣的可以用 GOOGLE 去搜索一下以增加理解。
这里就不展开