1 / 54
文档名称:

相似项发现(3.4-3.6).pptx

格式:pptx   大小:856KB   页数:54页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

相似项发现(3.4-3.6).pptx

上传人:分享精品 2018/4/26 文件大小:856 KB

下载得到文件列表

相似项发现(3.4-3.6).pptx

相关文档

文档介绍

文档介绍:-
文档的局部敏感哈希算法
距离测度
局部敏感函数理论



(完整的相似项发现方法)
文档的局部敏感哈希的产生原因
最小哈希签名仍然无法高效寻找具有最大相似度的文档。
即使文档本身的数目不大,但需要比较的文档对的数目可能很大。
实际中往往需要得到那些最相似或者相似度超过某个下界的文档对,我们只需关注那些可能相似的文档对。
通过LSH我们可以只关注可能相似的文档对,而不需要研究所有文档对。

LSH(locality-sensitive hashing)
一般性做法
对目标项进行多次哈希处理,使得相似项比不相似项更可能哈希到同一桶中。
将至少有一次哈希到同一桶中的文档对看成是候选对(candidate pair),只检查这些候选对之间的相似度。
哈希到同一个桶中的非相似文档对称为伪正例(false positive),希望它们在所有对中所占比例越低越好。
我们也希望大部分真正相似的文档对会至少被一个哈希函数映射到同一桶中。
没有映射到相同桶中的真正相似的文档对称为伪反例(false negative)。
对最小哈希签名矩阵的处理
假设拥有目标项的最小哈希签名矩阵,将签名矩阵划分成b个行条(band),每个行条由r行组成。
每个行条,存在一个哈希函数能够将行条中的每r个整数组成的列向量(行条中的每一列)映射到某个大数目范围的桶中。
可以对所有行条使用相同的哈希函数,但是对每个行条都使用一个独立的桶数组,因此即使是不同行条中的相同向量列也不会被哈希到同一桶中。

12行签名矩阵,分成4个行条,每个行条由3个行组成。

计算文档(或其签名)作为候选对的概率:
假定使用b个行条,每个行条由r行组成,ard相似度为s.
不论常数b和r取值如何,上述形式的概率函数图像大致如图3-7的S-曲线。曲线中上升最陡的地方对应的相似度就是所谓阈值(threshold),是b和r的函数。阈值的一个近似估计值是
b=20,r=5,即签名个数为100,分为20个行条,每行条有5行。
当s=,1-()5=,
[1-()5]20=
1- [1-()5]20=
通过对面向最小哈希签名的LSH采用行条化策略进行处理,使得相似项会比不相似项更可能哈希到同一个桶中( )。

最近更新

高中信息技术教学中视觉素养培养的研究的开题.. 2页

马克思恩格斯道德思想探析的开题报告 2页

食用油产业安全管理研究的开题报告 2页

风障对高速公路桥梁段和路堤段区域气流场的影.. 2页

2024年暑期工个人工作辞职报告优选(3篇) 4页

顶部开孔的地铁隧道火灾烟气扩散特性及控制方.. 2页

韩国文化产业竞争优势分析及对中国的启示中期.. 2页

面对战略消费者的供应链收益共享合约研究的开.. 2页

面向计算机的汉语体验构式语法试验研究的开题.. 2页

面向标识商品的RFID网络情境信息管理研究的开.. 2页

面向低碳目标的城市电网优化规划及决策方法研.. 2页

2024年春节的介绍作文精选31篇 28页

2024年春节工会福利发放方案范文 5页

2024年春季运动会主持词范文汇编6篇 14页

陆生植物气孔发育相关基因的进化研究的开题报.. 2页

2024年春季学习部的部长个人工作总结 10页

阈下知觉对决策的影响的开题报告 2页

微生物学ppt课件第一章微生物细胞 34页

哈师大附中2024届高三第三次模拟考试英语试卷.. 11页

房屋建筑自然灾害综合风险普查工作实施方案 9页

医院培训课件:《压力性损伤的管理》 47页

财产保险公司人伤管理集中管理办法 21页

小学民族团结评选实施方案 5页

电信公司营业班长申报“服务明星”事迹材料 5页

魏书生的教育思想研究 2页

3D包点和值投注表 2页

H8 WIFI 高清1080P移动充电宝摄像机、移动电源.. 14页

人宇特能讲座--张维祥 415页