1 / 51
文档名称:

相似项发现.ppt

格式:ppt   大小:3,525KB   页数:51页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

相似项发现.ppt

上传人:daoqqzhuanyongyou2 2019/2/26 文件大小:3.44 MB

下载得到文件列表

相似项发现.ppt

文档介绍

文档介绍:数据挖掘与决策支持教师:徐硕电话:58882498Email:******@@微信号:pzczxs课程网址:?id=course:datamining16年10月19日课程主要内容绪论(Introduction)关联规则挖掘(AssociationRuleMining)相似项发现(SimilarItemFinding)分类及预测(Classification&Prediction)支持向量机及其他(SVMandBeyond)序列标注方法(SequenceLabeling)聚类分析(Clustering)概率主题模型(ProbabilisticTopicModel)调查问卷分析方法(QuestionnaireAnalysis)第三章:相似项发现技术引言基于LSH的文档相似性检测SpotSigs相似性检测案例一:同源新闻稿检测案例二:海量词典相似词条匹配本章小结场景完成问题(1/2)场景完成问题(2/2)200百万图像中最相似的10张图像相似项发现应用:抄袭检测(1/3)文档抄袭检测问题,非常考验文本相似度发现的能力抄袭者可能会从其他文档中,将某些部分的文本据为已用也可能对某些词语,或者原始文本中的句序进行改变尽管如此,最终的文档中可能仍然有50%,基至更多的内容来自别人的原始文档当然,一个复杂的抄袭文档,很难通过简单的字面比较来发现相似项发现应用:抄袭检测(2/3)相似项发现应用:抄袭检测(3/3)相似项发现应用:镜像页面重要或流行的Web站点,通常会在多个主机上,建立镜像以共享加载内容这些镜像站点的页面十分相似,但并不完全相同例如,这些网页可能包含与其所在的特定主机相关的信息,或者包含对其他镜像网站的链接另一个例子:课程网站的互相套用相似项发现应用:同源新闻稿通常一个记者会撰写一篇新闻稿,然后分发到各处比如通过美联社到多家报纸,然后每家报纸会在其网站发布该新闻稿每家报纸会对新闻稿进行某种程序的修改,比如去掉某些段落或者加上自己的内容在新闻稿周围会有各报社自己的LOGO、广告或者指向自己站内其他新闻稿件的链接等但是每家报纸的核心内容,还是原始的新闻稿