1 / 9
文档名称:

百度(baidu)分词算法分析.pdf

格式:pdf   大小:192KB   页数:9页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

百度(baidu)分词算法分析.pdf

上传人:文库旗舰店 2022/6/16 文件大小:192 KB

下载得到文件列表

百度(baidu)分词算法分析.pdf

文档介绍

文档介绍:,我爱孝感,孝感第一生活门户,提供最有价值的孝感新闻、孝感分类信
息、孝感论坛、孝感教育、孝感招聘、孝感人才孝感社区、孝感人家、孝感家政等信息 ,为
孝感否有重复的字符串,如果有,就抛弃
多余的,只保留一个,接着判断是否有英文或者数字,如果有的话,把英文或者
数字当作一个整体保留并把前后的中文切开。
接着该干什么呢?该考虑分词的问题了。
二、中文分词
首先,讲讲百度的分词时机或者条件问题,是否是个中文字符串百度就拿来切一
下呢?非也,要想被百度的分词程序荣幸的切割一下也是要讲条件的,哪能是个
字符串就切割啊?你当百度是卖锯条的么?
那么什么样的字符串才满足被切割的条件呢?简单说来,如果字符串只包含小于
等于 3 个中文字符的话,那就保留不动,当字符串长度大于 4 个中文字符的时候,
百度的分词程序才出马大干快上,把这个字符串肢解掉。
怎么证明呢?我们向百度提交“电影下载”,看看返回结果中标为红字的地方,
不难看出来,查询已经被切割成<电影,下载>两个单词了,说明分词 程序已经
开工了,如果是比 4 个中文字符更长的字符串,那分词程序就更不客气了,一定
大卸八块而后快。我们来看看三个字符的情况,提交查询“当然择”,看起 来
这个查询不伦不类,那是因为我希望看到这个字符串被切分为<当然,择>,返回
结果 365 篇相关页面,翻到最后一页,发现标红的关键字都是” 当然择”连续
出现的情况,好像没有切分,但是还不确定,那么再提交人工分好的查询“当然
择”看看,返回结果 1,090,000 篇,基本上可以确定没有进行 分词了,当然
另外一种解释是:对于三个字符先切分,然后将切分后的结果当作一个短语查询,
这样看到的效果和没有切分是相似的。
但是我倾向于判断百度对于少于 3 个字符的串没有切分,奥卡姆不是说了么“,我爱孝感,孝感第一生活门户,提供最有价值的孝感新闻、孝感分类信
息、孝感论坛、孝感教育、孝感招聘、孝感人才孝感社区、孝感人家、孝感家政等信息 ,为
孝感人民服务,让孝感人民更爱孝感。
链接出售、链接购买;创联智胜为站长打造高质量网站
无必要,勿增实体”,干吗做无用功呢。那么如果没有切分,会有一个随之而来
的问 题,怎么从索引库里面提取未切分的字符串呢?这牵扯到索引的问题,我
觉得百度应该采取了两套索引机制,一种是按照单词索引,一种是按照 N-GRAM
索引, 至于索引的具体问题,以后在详细论述。
下面我们看看百度是采取的何种分词算法,现在分词算法已经算是比较成熟了,
有简单的有复杂的,比如正向最大匹配,反向最大匹配,双向最大匹配,语言模
型方 法,最短路径算法等等,有兴趣的可以用 GOOGLE 去搜索一下以增加理解。
这里就不展开