文档介绍:万方数据
模式无关的社交网络用户识别算法安通学报—第卷第期西交大年月疿叶娜,赵银亮吒,李健误摘要:针对识别社交网络用户时存在的模式不一致问题,提出了基于分块和二部图的用户识别算法。该算法通过将传统分块算法中的属性值精确匹配扩展为无模式信息下的属性值近似匹配,避免了传统用户识别时所需的模式对齐;使用加权二部图及畲笕ㄆヅ渌惴进行源用户档案与待匹配用户档案间的相似度计算,解决了用户档案间属性个数不同及语义语法异构的问题。在社交网站喜杉个用户的公开数据,采用召回率、精确率和综合指标等评价指标对算法进行了实验评估。实验结果表明,所提算法能够不依赖模式信息进行实例级跨系统用户识别,与基于属性值精确匹配的算法相比,所提算法的召回率提高了%~%,:用户识别;二部图;实例匹配;跨系统个性化中图分类号:文献标志码:恼卤嗪牛%一%’.西安交通大学电子与信息工程学院,,西安;靼步ㄖ萍即笱畔⒂:叶娜,女,博士生;赵银亮ㄐ抛髡,男,教授,博士生导师。家自然科学基金资助项目;陕西省自然科学基础研究计划资助项目;西安建筑科技大学青年基金资网络出版地址::∥甧畁///...ǎ琙珺,:.甌.,猰瓻琣;籭;猻收稿日期:——。基金项目:国助项目。网络出版时间:——.:.琗痑,’,甋琗痑,
万方数据
问题定义蜓∮没У蛋讣娜范社交网络为人们的交互提供了新的途径,人们在使用社交网络的同时也在其上留下了大量的个人信息。社交网站:∥畃甤表明,一个用户通常在若干个社交网站上注册以与不同社交网站上的朋友进行交互。集成不同社交网络上的用户信息能够为个性化服务及跨领域推荐提供更全面的用户数据,也是解决冷启动问题囊桓鲋匾M揪丁S没侗鹗侵概卸侠醋粤礁不同系统、具有不同用户模型的用户档案是否描述了现实世界中同一个用户的过程。在不同应用领域,与之等价的术语还有记录链接实体识别取S没侗鸬淖既率是决定跨系统用户信息集成效果的关键因素。目前,在跨系统用户识别技术研究上,现有的方法主要是基于用户的属性特征进行用户相似性判定。每个注册用户都有自己的档案,如果两个用户档案相同或相似,就认为这两个用户是现实世界中的同一个人。研究者们定义了一组标识属性,识别算法将候选用户的每个标识属性的重要性因子进行组合绻掣鲇没ё楹虾蟮闹匾P砸蜃映定阈值,则该用户被视为匹配用户。文献没档案表示为由若干个属性构成的向量,两个用户档案的相似性通过每个属性及其权重的乘积的线性累加和来度量,精确匹配、局部匹配和模糊匹配制配函数被用于度量属性域的相似性,属性权重通过专家直觉及训练得到。尽管该算法能够达到%的准确度,但它所考虑的属性与应用领域紧密耦合,当应用领域改变时,属性的权重必须重新进行训练。研究者们将标签和基于用户名的方法相结合以提高特定环境下用户识别算法的性能‘!N南譋岢了一个用户识别框架,它将来自不同社交网络的用户档案转换为硎荆欢不同类型的用户属性采用了不同的相似性度量,属性的权重可以手动指定,也可以自动计算;如果两个用户档案的相似性得分超过指定阈值,则认为它们代表同一个人。该算法的主要问题是所使用的默认逆功能属性,是用户的邮件地址,而邮件地址属于用户的隐私信息,通常不能被访问。纵观现有方法,主要是基于模式匹配的用户识别,即在进行用户识别时假设所使用的用户属性