1 / 57
文档名称:

互联网垃圾页面及垃圾页面处理技术(下).pdf

格式:pdf   大小:3,585KB   页数:57页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

互联网垃圾页面及垃圾页面处理技术(下).pdf

上传人:文档大全 2020/7/28 文件大小:3.50 MB

下载得到文件列表

互联网垃圾页面及垃圾页面处理技术(下).pdf

相关文档

文档介绍

文档介绍:SearchEngineNewsReview(–May17,2010)后谷歌时代的中国搜索市场在中国,我们继续维护着所建立的商业关系,开发中心也在继续运营EricSchmidt,GoogleCEOSearchEngineNewsReview(–May17,2010)搜索引擎流量引导在市场份额不断流失长达一年之久后,雅虎在美国搜索市场的份额终于有所回升,%%由于添加了这项新的自动搜索功能,。―搜索引擎技术基础”课程讲义去伪存真:互联网垃圾页面及垃圾页面识别技术(下)对垃圾信息的处理能力,是搜索引擎的核心竞争力。如果搜索引擎不能打赢与垃圾信息的这场技术战争,搜索产业就会被垃圾信息摧毁。——百度公司应对“全民医药网”反垄断诉状的声明刘奕群清华大学计算机系智能技术与系统国家重点实验室2010/05/11—2010/05/18什么是垃圾页面•垃圾页面的定义–Webspamaredesignedtoget―anunjustifiablyfavorablerelevanceorimportancescore‖fromsearchengines.()–垃圾页面是那些通过不正当的手段获取搜索引擎中不应有的较高排名的网页垃圾网页制作者的自白•关于垃圾网站如何搞钱这件事–Zzfrom人都可以有精力有能力以及有机会做成一个不错的并能赚到钱的正规网站的。大部分人都是想着有什么短平快的项目能马上赚到钱只要能赚钱的东西就是好东西,管他什么垃圾不垃圾的。有人在网上出售一种“网站SEO生成工具”,就是通过关键词自动从网上抓取内容来生成网站的程序生成的速度非常快基本是十分钟一个垃圾站。所以毫不犹豫马上花几百个大元买了一个带收集功能的群发软件,自己收集群发地址,然后再去群发。效果果真是立竿见影,收录速度和数量大幅增加。垃圾网页制作者的自白•关于垃圾网站如何搞钱这件事–Zzfrom法,就是直接在垃圾站上放臵广告,把以前SP的代码放到网站里然后从百度把相关的人抢到我的站来定制SP业务。当然了广告不止这个,还有其他很多,比如弹窗什么的,或者你有本事的话也可以直接用垃圾站做GOOGLE的广告。第二种就是把搞来的流量用301直接跳转到其他网站上去第三种嘛就是放“马”了!如做娱乐类型的垃圾站那么IP的价值就相对较低,1万IP给30元-50元就是不错了。如果是QQ类的站那么1万IP给到80-100元属于正常至于游戏类的网站,那么价格就要高的多了1万IP在100-200元之间都是可以的。提要•垃圾页面的定义•垃圾页面的分类体系•垃圾页面识别技术–垃圾页面识别的效果评价–基于网页内容的垃圾页面识别–基于链接关系分析的垃圾页面识别–基于用户行为特性的垃圾页面识别基于网页内容的垃圾页面识别•堆砌关键词类别(KeywordFarm)热门内容比例可见内容比例关键词压缩比基于网页内容的垃圾页面识别•关键词插入与替换(KeywordWeaving)语言模型方法基于网页内容的垃圾页面识别•***内容隐藏型垃圾网页的识别–***内容隐藏:使用某些基本的***方式(如关键词堆砌、关键词替换/插入)引导用户进行对垃圾网页的访问,但实际呈现给用户的网页内容中则尽量避免出现***内容。–吸引用户与***页面进行交互–服务器端页面内容替换(cloaking)–重定向跳转(redirecting)–脚本与页面浮动框架隐藏(script/iframehiding)