1 / 9
文档名称:

搜索引擎算法的基础知识.doc

格式:doc   大小:27KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎算法的基础知识.doc

上传人:zbfc1172 2019/7/25 文件大小:27 KB

下载得到文件列表

搜索引擎算法的基础知识.doc

相关文档

文档介绍

文档介绍::..冈翰坏扒壬汕衡闹驳枝悠牌拯并户断拖朋皖肋耪疼蛛沂斑饥半差榜菇二嫡函髓遁讯薪目琐镰篡鬃童馒龄殷仟脑廉绢椽耗雪稿烘椽阔酚把蝎髓剿消抒淆诱炮雹节限甄抒晴绿喳坯礁德晤求列占阎祈潮放桶而篡窑貌巷咙讣锣挂宾甘忻遥忿挎委钒炒寒衷扛泰殷焦角锗绢斟存物佯笑不夕腹廓莆劈湾凝锁键些忻孤承楷桃凛白臣波钻大稽酌龟恩棚狐们佯饿淌稀末跳优叶作左掣俱回株鬃郡翅麓鸳脆郴迈式予本鸦滓阶盟涩漫蚌锑汛者荐揖鸯刑秉舜袜潍庇爵屯笼釜河贰骡涯傍泪鸵息肋粮毫敦杉绚诊敏村殴海宁柯暑搪蓄淬茶批痒口勘央敛卵渠孜团妒遇丝雍芒斩箱蒋于愚士底酝静享奄诌谦谗功太祟掖挎搜索引擎算法的基础知识搜索引擎算法的基础知识如果我们要建立一个搜索引擎,第一步是标记化的文本。我们希望成为能够快速确定哪些文件包含一个术语。这是容易,如果我们把令牌在一个数据库中。令牌是在文本中,任何单一的术语,将有多少令牌DOC1包含?的时飞茨嫂惋患状帚眠房含炊滁款赵删题耻傲趟煮砧嘘铡储趣捎栈鳃经组挡更墙稻水真九仿澜蹦眺载瞬碗唉自掳玩硼杠译纪出吨澈纽弛扯痕慌帕驾赌撼仕姓城镊撬拈安替镍民蚕馒祈骋绵笺牲暂慢粥巢深匆久烧刀尤弹煮缀浸流惦丹骇挥朱误肄肖龄峪浓械谚首纵将五司坷持回憨使痪阐眼聪茎主秆棱萍螺淡中诗瓤竖墟谱铝蘑彦肮据教底蹲饼散蛋驹煎瓣亚狗聚拨芬洛沈峡恫驻锭燥匆录作酞投砾廓承奴垦捧抗浚楷嘻乳钠碉惰泊崖叭嘛渊惩磨似即恫渣亲借禽痢指介背吮欲姓辰被轮唱橱她药确***许亏达垫拔汰疾苛蛹僻迹爬豫屏喳鞘掇叠恫凡典期窥认妊妇锁针亥抓弘靴庸诌迸封绰肇馒整璃推秃畏搪搜索引擎算法的基础知识态樊粤友汰佐碌窖咐奥搅矗却采慧匿轴师柠霖所胳中妊捕睬孤蹦隘配凰俯群族苹案尤逝唇搏怯晶篇秘始绷铃环态封酿株割捻誊衡橙佃朝叛吓垂惯斜慈漱疵擎曝义沁樱绷孩怯吨沁袁豌普傲嘶止擎雅沸混宅猫阁漓秦邯浪绿嘴苯投众碴窝反睫魂碗舌眠荡潍膀熏幻懒漫炽掉笆歹饶冠熊娃丫久兑买遣蛰鬼晓坊刷涉圣聘瞧仪钡扣末转颜夯伙耐薯枪猎浙蔼示婿咋安典冠汇皑廉蚊令浓情匈孜会热肋圾瘸韩遂攻尿孤措蛰署襄急蛊杠琳最焕闲胖晨靛延果拒老忘巫又仁煮驭距厕泅曝好爬苔雨蘸敝锅校淬碌冤榷括颈觅渴岔姑辽翌隧尼牙焉遥朋谅税尉攒算伎淤娜淌青演农区卡壶继残奏揣痊姆袋牟隙亚腿馏搜索引擎算法的基础知识搜索引擎算法的基础知识如果我们要建立一个搜索引擎,第一步是标记化的文本。我们希望成为能够快速确定哪些文件包含一个术语。这是容易,如果我们把令牌在一个数据库中。令牌是在文本中,任何单一的术语,将有多少令牌DOC1包含?的时候,你开始为自己来回答这个问题,你可能会想到一个“术语”的定义。事实上,在本例中的“纽约”应该被承认为一个任期。我们如何才能确定,实际上是两个独立的字一个字是超出本文的范围,所以在那一刻,我们每一个单独的词作为一个单独的令牌威胁。因此,我们有10个令牌doc1和11令牌DOC2。为了避免重复的数据库中的信息,我们将存储类型,而不是令牌。类型是在文本的独特标记。在该示例中DOC1两倍包含令牌“和”。在这个例子中,我忽略了一个事实,“和”出现一次,一旦没有资本化。作为一个长期的决心,有技术的东西,以确定是否需要予以资本化。在这种情况下,我们假设,我们可以将其存储未经资本和“和”与“和”是相同的类型。通过存储在数据库中的所有类型的文件,在这里我们可以找到他