1 / 7
文档名称:

无监督消息聚类的制作方法.docx

格式:docx   大小:27KB   页数:7页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

无监督消息聚类的制作方法.docx

上传人:421989820 2022/6/25 文件大小:27 KB

下载得到文件列表

无监督消息聚类的制作方法.docx

相关文档

文档介绍

文档介绍:无监督消息聚类的制作方法
专利名称:无监督消息聚类的制作方法
无监督消息聚类
背景技术:
具有短的消息长度的消息已成为通信的重要形式。一些服务提供通常任何订阅的人都可以获得的短消息。这样可以允许对来自这些服务的短消息捜索相关的内容。以称为簇标记向量。代替使用表示消息簇内所有消息中的所有标记的向量,簇标记向量可以包括仅针对代表数量的标记的非零值。可以根据总出现频率,或基于根据大的文档语料库中标记的出现频率而规范化的
加权出现频率,来选择这些代表性的标记。在许多情况下,仅存储和/或使用标记向量的非零元素是合适的。诸如消息标记向量或簇标记向量的标记向量可以通过任意合适类型的数据格式来表示,该合适类型的数据格式指示存在于消息标记向量或簇标记向量中的标记。例如,存在于向量中的标记的标识符列表可以表示该向量。可选地,标记向量的表示还可以包括存在于向量中的标记的加权因子。该加权因子例如可以指示标记在文档语料库中出现的规范化的可能性。该加权因子还能够可选地指示标记在消息和/或簇中是否出现多次。用于为添加到簇中而评估消息的因子
为了建立消息簇,潜在地可以使用很多因子来评估消息的品质。这些因子可以例如包括消息的总主题或消息中标记的数目。用于确定消息品质的因子可以称为品质特征。可选地,得分以品质特征值的形式与每个品质特征相关联。品质特征值的算数和/或几何和/或对数组合可以用来确定单个消息的品质值。作为对消息执行品质评估的预备步骤,可以对消息进行过滤以分离出任意不适合于进ー步评估的消息。该预备过滤可以用来去除或排除各种消息类型。一个选择是去除源于已知为不期望的域和/或标识符的消息。这样的域和/或标识符可以是已知的垃圾源,或者是已知的色情或***内容源。也会排除包括到这样的域的链接的消息。另ー选择是滤除使用不期望的语言的消息。再一选择是滤除看起来意在针对单个接收者的消息。虽然消息以公开或半公开的方式来发布,但是消息中的ー个或多个标记可以指示该消息实际上是意在针对单个接收者的。又ー选择可以是使用以上特征的ー个或多个,也可能与其他特征结合,来获得消息的垃圾得分(spam score).垃圾得分高于(或低干)阈值的消息会被滤除。对于剩下的消息,可以将垃圾得分作为ー个品质特征值来保留以确定消息的整体品质值。
通过过滤可以去除任意合适数目的消息。通过过滤去除的消息的数目可以是至少占所接收用于评估的消息的约5%、或者至少占约10%、或者至少占约25%、或者至少占约50%。通过过滤去除的消息数目可以为大约95%或更少、或大约75%或更少、或大约50%或更少、或大约25%或更少。可以考虑的另ー个因子是消息内标记的数目。这个也称为消息的标记长度。虽然消息可以具有最大数目的字符,但是ー些消息可以具有比最大数目更少的字符。消息中标记的数目可以是消息品质的指示器。可选地,消息的标记长度可以基于消息中不同的(独持)标记的数目。还可以考虑的其他品质特征涉及消息的特性。ー个特性可以是消息是否已被另ー用户转发或重新发布。在很多情形中,消息可能初始地对所有潜在读者的子集是可获得的。看见消息的第二用户可能选择将该消息转发或重新发布给通常阅读该第二用户的消息的其他用户。当转发或重新发布事件发生时,可以对消息做标志以指示该重新发布。这个可以用作ニ元(binary)的品质特征值以加到消息的得分或品质值。可