1 / 3
文档名称:

策先生:浅谈SEO中关键词分词技术.doc

格式:doc   大小:28KB   页数:3页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

策先生:浅谈SEO中关键词分词技术.doc

上传人:liwenfei1314 2018/1/9 文件大小:28 KB

下载得到文件列表

策先生:浅谈SEO中关键词分词技术.doc

相关文档

文档介绍

文档介绍:背景资料:
策先生——策恩“世界名鞋淘宝客”推广大赛特约评委
曾于第一季推广大赛期间对参赛选手表现进行每周精简点评,专治疑难杂症,为一众参赛选手所知晓。为人低调且神秘,专注网站推广数年。现任第二季策恩“世界名鞋淘宝客”推广大赛评委,行踪不甚明朗。
说到中文分词,我觉得只要从事“英文SEO亿推”工作有关的朋友都应该深刻理解这一知识,理解搜索引擎是如何识别词与词之间的关系,如何判别语句的含义的。因为您只有充分的了解、贯穿应用中文分词才可以在关键词收集、分析、布局,包括标题的攒写做得更加得心应手,才会写出更加出色的软文。中文分词已经是“英文SEO亿推”知识中的核心知识。
“英文SEO亿推”ER必须要理解搜索引擎是如何工作的这一点尤其重要,也是最基础的。
我们先来了解中文分词的概念,什么是中文分词?
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
目前搜索引擎对于中文分词可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
、基于字符串匹配的分词方法
搜索引擎在接受用户搜索的时候第一个会判断用户搜索的“词”跟数据库里面的“词”是否匹配,匹配度如何来进行扫描;
按照输入的“关键词”或是“句子”不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;
如下:
)正向最大匹配法(由左到右的方向);
例子:策恩“世界名鞋淘宝客”推广大赛。
正向最大切分出的关键词是:策恩、世界名鞋淘宝客、推广大赛(不上图了,大家百度一下,然后查看快照即可)
)逆向最大匹配法(由右到左的方向);这个跟第一点是一样的分词方式,只是关键词的前后顺序换过来,在搜索引擎数据库查询得到的结果是一样的。
)最少切分(使每一句中切出的词数最小);
例子:策恩“世界名鞋淘宝客”推广大赛
最少切分出来的词是:策恩、世界、名鞋、淘宝客、推广、大赛;
)双向最大匹配法(进行由左到右、由右到左两次扫描)
、基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。这种方法一直对抗着长期伪原创的做法,在年一般的换换同义词,近义词的伪原创百度会收录,到了年伪原创的幅度需要做到更大才可以有效,在今年的六月底,百度的一次大更新过后,很多同学发现原来的采集的站,或是伪原创力度不大的网页内容被百度大量的放出来,不在收录,说明百度这一分词技术方法越来越成熟,越来越完善了。伪原创也是越来越难了。
、基于统计的分词方法
从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。搜索引擎通过这一方法在“下拉框”或是“相关搜索”中可以充分提现出来。最近几年大家发现很多网络公司有一项业务是【刷百度相关关键词】,当用户输入某个关键词的时候,我们可以做到指定在百度下拉框出现自己想要的关键词,利用的就是这个基于统计的分词原理。
最后说下关键词在标题的应用,理解中文分词与网站标题的关系。
、搜索词与