1 / 62
文档名称:

搜索引擎的日志分析:方法、技术和应用.doc

格式:doc   页数:62
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

搜索引擎的日志分析:方法、技术和应用.doc

上传人:机械CAD论坛 2011/12/26 文件大小:0 KB

下载得到文件列表

搜索引擎的日志分析:方法、技术和应用.doc

文档介绍

文档介绍:摘要
搜索引擎技术的出现帮助为web用户在浩如烟海的福音,目前搜索引擎已经是临的主要困难是检索质量不高,用户满意度不高。
本文试图通过分析“天网”搜索引擎的日志来得到用户访问“天网”系统的一般性规律,并从分析结果出发改造搜索引擎。为此,我们安排了两组实验,一组实验是试探性的,我们统计了用户访问“天网”系统的查询、翻页、点击行为,希望从中得到一些规律;另一组实验是针对性的,我们针对cache系统设计了一组实验,希望能验证cache系统的必要性和可行性,并对cache系统的构成、组织进行模拟测试。通过这些工作,我们发现了用户访问“天网”系统的一些规律,发现了用户的查询词序列、点击url序列、以及索引端的单词访问序列都具有较强的集中性、长期稳定性以及短期相关性,它们从不同角度说明了访问局部性,这个计算机科学中经常讨论的核心现象之一,在海量网络信息环境下的具体体现。
从实验分析结果出发,论文还报告了对“天网”系统三个方面的改进:新增“位置相关性”模块来提高查询质量;改造Cache系统来提高响应速度;增加自动目录导航服务来引导用户,从而全面提高了天网系统的能力和质量。
关键词:搜索引擎,日志分析,位置相关性,目录导航服务
Abstract
Search engine can greatly help web users to quickly discover and locate information on www. Now it has e the second most used service on www. Now primary problems of search engine are low quality of search result, and low satisfaction of users and so on.
This thesis tries to find the general rules of users' access to the Tianwang search engine. We analyzed the log of the Tianwang search engine. There were two groups of experiments, one was exploratory, just generally making statistics about the users’ behaviors of querying, paging, and clicking in the result pages and so on; the other was object-driven, focused on cache system. We tried to validate that cache system is indeed indispensable and feasible. Finally, we found that the sequence of the users’ query words, the pages clicked, and the terms requested to the indexer all possess strong locality.
From the analysis result of experiments, we rebuilt Tianwang System from three aspects. We added position relativity module to improve search quality, reconstructed cache system to reduce response time, and added the service of automate directory navigation to improve the degree of users’ satisfaction.
Keywords: search engine, log analysis, position relativity, directory navigation service

目录
摘要 i
Abstract ii
第一章引言 1
研究背景 1
研究方法 2
本文主要贡献 3
全文组织 4
第二章相关研究 5
搜索引擎 5
搜索引擎发展历史 5
搜索引擎分类 6
搜索引擎发展趋势 8
搜索引擎存在的问题 9
基于Robot的搜索引擎基本原理 1

最近更新

2024年赣东学院马克思主义基本原理概论期末考.. 12页

2024年辽宁理工学院马克思主义基本原理概论期.. 12页

2024年通江县幼儿园教师招教考试备考题库带答.. 30页

2024年郑州亚欧交通职业学院马克思主义基本原.. 13页

2024年鄢陵县幼儿园教师招教考试备考题库附答.. 31页

2024年重庆第二师范学院马克思主义基本原理概.. 12页

2024年长春职工医科大学马克思主义基本原理概.. 13页

2024年阜城县幼儿园教师招教考试备考题库带答.. 31页

2024年陇县幼儿园教师招教考试备考题库带答案.. 31页

2024年集宁师范学院马克思主义基本原理概论期.. 12页

2024年靖宇县招教考试备考题库带答案解析(夺.. 30页

2024年黄河科技学院马克思主义基本原理概论期.. 13页

2024年齐鲁医药学院马克思主义基本原理概论期.. 13页

绿意城市空间下的人文需求与空间营造 35页

高维空间的几何统一研究 35页

股权激励机制优化 35页

2025年上饶卫生健康职业学院马克思主义基本原.. 12页

绿色修复技术研究进展 35页

负载均衡与资源隔离技术 35页

2025年云南三鑫职业技术学院马克思主义基本原.. 12页

高导电性材料的多尺度结构调控 37页

2025年任县招教考试备考题库附答案解析 30页

2025年元江县幼儿园教师招教考试备考题库及答.. 31页

绿色货币政策与能源转型联动机制 35页

2025年内蒙古巴彦淖尔盟单招职业适应性测试题.. 45页

2025年南京传媒学院马克思主义基本原理概论期.. 13页

2025年南和县招教考试备考题库附答案解析 31页

绿色建筑市场竞争力 35页

2025年叙永县招教考试备考题库带答案解析 30页

网络信息流可视化 31页