1 / 8
文档名称:

搜索引擎学习摘要.docx

格式:docx   大小:104KB   页数:8页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎学习摘要.docx

上传人:niupai21 2022/4/30 文件大小:104 KB

下载得到文件列表

搜索引擎学习摘要.docx

文档介绍

文档介绍:: .


f>
Web交互模块
判断二元连接词结合紧密程度(信息熵)的公式:
具有普遍意义的构词规则,例如“模仿秀”由“动词+名词”组成。
去除规则,符合去除规则的二元连接不算作新词:
例如“数词+量词”的组合。
发现方法:统计的方法和规则的方法结合对每个文档中重复子串组成的候选新词打分,超过阀值的候选新词选定为新词;先对文档聚合聚类,然后从聚合出来的相关文档中挖掘新词;。
常见的未登录词包括:
人名:张三、陈方安生地名:安湖路、龙腾苑四区机构名:泰康人寿、欧姆龙公司译名:安德森可通过匹配规则来识别未登录词。
(动词、名词、代词等)用来描述一个词在上下文的作用。词性标注可以部分消除词的歧义,例如“把”作为量词和作为动词表示的意思不一样。
为了方便指明词的词性,可以给每个词性编码。可参考《PFR人民日报标注语料库》的词性编码表。
词性标注方法:基于转换的学****方法和隐马尔科夫模型。
:基于训练的方法和基于图结构挖掘的方法、基于语义的方法等。
为了调节计算过程中用到的参数,可以建立关键词提取训练库。训练库包括训练文件盒对应的关键词文件。
权重判断:利用TF*IDF公式;利用位置信息;利用一个分段函数;HITS算法;。
例:
对新闻或商品网页分类。例如:新闻是国内新闻还是国际新闻基于内容的个性化新闻推荐。判断用户是否感兴趣垃圾邮件过滤。判断是否垃圾邮件识别网页语言:英语、法语、汉语…判断情感极性:正面、负面、中性

(SVM)“肩宽的人适合穿什么衣服”,如果返回结果中包括“肩宽的人穿什么衣服”或者“肩膀宽的女孩子穿什么衣服好看”,可能是用户想要的结果。

需要对每个文档打分,然后按分值排序,返回一个文档的列表。
对每个文档打分的方法也叫做信息检索模型(InformationRetrievaModel),常用的有如下几种:
基于代数论的IR模型(Algebraicmodels)向量空间模型(VectorSpaceModel)隐含语义模型(LatentSemanticModel)基于概率统计的IR模型(Probabilisticmodels)BM25语言模型(LanguageModel)
对不起,没有结果返回。
单个词的拼写检查从词表中找出错误词对应的最有可能的一个正确词
、实体和关系,被抽取出来的信息以结构化的形式描述,然后存储在数据库中,为各种应