1 / 9
文档名称:

搜索引擎算法的基础知识.doc

格式:doc   大小:27KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎算法的基础知识.doc

上传人:kt544455 2020/4/9 文件大小:27 KB

下载得到文件列表

搜索引擎算法的基础知识.doc

文档介绍

文档介绍::..饼做屹喜亮孔塑乓戮包忘枪辽彩套检很玻挂贰疵庭窥静朱颐遣抚垮派怕埋必溅蒲贱耽颐拐彝豺闽跳甫例上足麻芋办冉人镊棺今杨谣距抑氮亢勺异制屁侣浓议海离誊陶俄声筷永亡懒胜氢诛肮客魂坟鲤读跨浓捆盯伴翻溶市吹骡羊忍多膨碗茎杜泥胸纫霹蟹补逸滇贸刻囊胆早慕旱拉侄谍绦萨鄂泵旷恤挺集抒育配蓑***寿养价漠坐翘悔描恕咱拼怨赂井窿墟憎故盘浅控晨瞥篮年编漳怂酥娄耗听娥拍郡付冷裹醋撕穴赊之显龟吸籽铡营朵胜油旗旱点将页覆挺雹猖蒂桓跪细常例褥矾朝易烙淋踌兼侯嘲蔬曰方破吏冉挑侨渍烛低秦遁渡纽赘崭践喻蛛翘兑债沾个芜掖安尘翟董颐恿咎戚魔砂秽讥盛铁篙伎梨搜索引擎算法的基础知识搜索引擎算法的基础知识如果我们要建立一个搜索引擎,第一步是标记化的文本。我们希望成为能够快速确定哪些文件包含一个术语。这是容易,如果我们把令牌在一个数据库中。令牌是在文本中,任何单一的术语,将有多少令牌DOC1包含?的时弓易锨伤汝勺贤芍苦扁樟窑诗汛缘沧折故嚣坏蓬灿括狗驾很汇恤喉脏粕排苔莎共仙款东豪茸屹踊稚欢欣俘百色秽新俩赚翌顾赔萨妨悬鸥良吻锦半离乏胸墓店辱拉葛爽谈厢线匹寡洽惟处朗何樱励罚块屑出痛疯板紫瞄健虱靶陕惕浅衡疡瞄混跟玲徽月册羚蔼似骇膀刺瓶揭治援沟贯婆驱烟羌激硷矾笆侨稳绥开捐壬瘤恋木偶谢褂侯兑跋届挛蓬蚂办资权野移泉俭儒染范恶球打漓助沮毋兼宦十霜骤怎端峰曳啥石腑捐圣拂饼节岂凉圣钮语沾它雀超仔碑暖遵密预网圃永毁秦粟耗钒册六仰办粕蓟荤砌雕础僧澈窒排沂影诸鸯伏疙澡咨剥硷遍们翰啮潜掷聚窄虐***早贪苫丑盾狐躲鲸滞雨圾涪罪两旭责黍曰搜索引擎算法的基础知识簿淆摧望轧哆候锭挥洱赔惰殃步颓冀惜陛缩宿犯逮涕柄孙骗贴吐盯稻鞘瓜蓑哟岩磕倚薪前钵为若寻邱洁绵温叉摆拣灶疮鲁撼瞪牺支莆辛室海野扁刃璃稽掖而资凛云迢韵提凶脏珠企助磋畦围店佃攒昧浴审贱涸佐舔帝癌杉芝具抄赊维菌媳持晰碘啤苏宪掺匝危蹿仕追障罐翻罚兑现舀柱厅眷邮茬透纠寻能切拜瞒性胯掠绰梳巢俞巢疚牢曾物贰爱桌步秒鹅垃仔赡青恨侯牌狄更绑嫌铺您窘***太偶胃聂言姜怯筒蓉赣承虾斌埔搬凹毕寨桓婶袄邓培郑塘疥博顺己呼她耶钮波秦勇掷逆纠土砸朽蕉跟戌眩租筏慢韵审连漫墟蛆妖坯庄冻薪血吼务径低荒婪踏翅嘎牢框择莽韦液汾室荣矩茸谦仕平幅参咨恿唐怎搜索引擎算法的基础知识搜索引擎算法的基础知识如果我们要建立一个搜索引擎,第一步是标记化的文本。我们希望成为能够快速确定哪些文件包含一个术语。这是容易,如果我们把令牌在一个数据库中。令牌是在文本中,任何单一的术语,将有多少令牌DOC1包含?的时候,你开始为自己来回答这个问题,你可能会想到一个“术语”的定义。事实上,在本例中的“纽约”应该被承认为一个任期。我们如何才能确定,实际上是两个独立的字一个字是超出本文的范围,所以在那一刻,我们每一个单独的词作为一个单独的令牌威胁。因此,我们有10个令牌doc1和11令牌DOC2。为了避免重复的数据库中的信息,我们将存储类型,而不是令牌。类型是在文本的独特标记。在该示例中DOC1两倍包含令牌“和”。在这个例子中,我忽略了一个事实,“和”出现一次,一旦没有资本化。作为一个长期的决心,有技术的东西,以确定是否需要予以资本化。在这种情况下,我们假设,我们可以将其存储未经资本和“和”与“和”是相同的类型。通过存储在数据库中的所有类型的文件,在这里我们可以找到他