1 / 30
文档名称:

项目报告.ppt

格式:ppt   页数:30页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

项目报告.ppt

上传人:3099984911 2015/3/24 文件大小:0 KB

下载得到文件列表

项目报告.ppt

文档介绍

文档介绍:软件资源搜索引擎项目报告
WWW小组
(高晓飞孙晓姚霖)
2006-12-24
报告内容
效果演示
项目背景和准备工作
分析设计
解决的问题
以后的工作
总结体会
效果演示
针对关键词的查询
输入关键词,返回所有相关结果
针对软件类别的查询
按照提供的软件分类进行查询
项目背景和相关工作
项目的选题
项目针对的实际问题
完成该项目的相关工作
项目的选题
确定项目方向——针对信息的搜索引擎
以前做过对网页的通用搜索引擎,现在想尝试一下新的方向。
针对网页的搜索引擎发展比较成熟,而针对信息的搜索引擎正在成为热点,而且技术上更有难度。
针对信息的搜索拥有更广的应用前景。
项目的选题
开始的选题——中文Blog搜索引擎
遇到的问题
爬虫的实时性问题
Blog网站对爬虫的限制
自然语言的信息提取
新选题的标准
信息更新不是很快
信息提取相对容易
项目的选题
针对软件资源的搜索引擎
软件资源的更新速度不是太快,我们的爬虫可以跟上更新的速度。
所有的信息是半结构化的,信息的提取比自然语言提取更容易。
在实际中,有比较好的应用。
项目针对的实际问题
下载软件过程中遇到的问题
相似软件很多,不能确定用哪一个
软件更新很快,不知道最新的版本
不同的下载网站提供的软件不同,甚至存在坏链。
项目的相关工作
信息提取
自然语言处理
增量式爬虫的原理
半结构化信息提取
分析设计(1)
项目框架
网络爬虫
半结构化信息提取
查询的预处理