1 / 9
文档名称:

百度baidu分词算法分析.doc

格式:doc   大小:125KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

百度baidu分词算法分析.doc

上传人:taotao0c 2019/10/9 文件大小:125 KB

下载得到文件列表

百度baidu分词算法分析.doc

相关文档

文档介绍

文档介绍:百度(baidu)分词算法分析————————————————————————————————作者:————————————————————————————————日期: 百度(baidu)分词算法分析baidu分词算法分析之一来自:中科院软件所作者:张俊林查询处理以及分词技术随着搜索经济的崛起,人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业,会根据搜索引擎的知名度以及日流量来选择是否要投放广告等;作为普通网民,会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料;作为技术人员,,又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据,以及大量等待去费力挖掘的金矿。但是,如何设计一个高效的搜索引擎?,比如查询处理,排序算法,页面抓取算法,CACHE机制,ANTI-,作为商业公司的搜索引擎服务提供商比如百度,,通过向黑盒提交输入,,而百度作为一个典型的中文搜索引擎一直强调其”中文处理”:查询处理/,搜索引擎一般在接受到用户查询后要做一些处理,?,比如”信息检索理论工具”.那么搜索引擎首先做的是根据分隔符比如空格,标点符号,将查询串分割成若干子查询串,比如上面的查询就会被解析为:<信息检索,理论,工具>三个子字符串;这个道理简单,,搜索引擎怎么处理呢?比如查询”理论工具理论”,百度是将重复的字符串当作只出现过一次,也就是处理成等价的”理论工具”,而GOOGLE显然是没有进行归并,?我们可以将”理论工具”提交给百度,返回341,000篇文档,,我们提交查询”理论工具理论”,在看看返回结果,仍然是那么多返回文档,当然这个不能说明太多问题,那看看第一页返回结果的排序,看出来了吗?顺序完全没有变化,而GOOGLE则排序有些变动,这说明百度是将重复的查询归并成一个处理的,而且字符串之间的先后出现顺序基本不予考虑(GOOGLE是考虑了这个顺序关系的).,搜索引擎是怎么处理的?比如查询”电影BT下载”,百度的方法是将中文字符串中的英文当作一个整体保留,并以此为断点将中文切分开,这样上述的查询就切为<电影,BT,下载>,不论中间的英文是否一个字典里能查到的单词也好,还是随机的字符也好,,你用查询”电影dfdfdf下载”,,一切很简单,也很清楚,百度怎么处理用户查询