1 / 17
文档名称:

京东搜索原理培训.ppt

格式:ppt   页数:17
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

京东搜索原理培训.ppt

上传人:所以所以 2013/5/23 文件大小:0 KB

下载得到文件列表

京东搜索原理培训.ppt

文档介绍

文档介绍:搜索组部门经理王文峰
wangwenfeng@
京东搜索分享
1、京东搜索原理和结构
2、京东搜索相关性及排序
3、京东搜索功能简介
4、京东搜索后台录入
5、京东搜索评测规范、搜索词及搜索问题提交
内容简介

搜索引擎派出一个能够在网上发现新网页并抓文件的程序,这个程序通常称之为蜘蛛。搜索引擎从已知的数据库出发,就像正常用户的浏览器一样访问这些网页并抓取文件。

蜘蛛抓取的页面文件分解、分析,并以巨大表格的形式存入数据库。

在搜索引擎界面输入关键词,单击“搜索”按钮后,搜索引擎程序即对搜索词进行处理,如中文分词处理,判断是否需要整合类目属性信息,判断是否有拼写错误或错别字等情况。搜索词的处理必须十分快速。

对搜索词处理后,搜索引擎程序从索引数据库中找出所有包含搜索词的商品,并且根据排名算法计算出哪些网页应该排在前面,然后按照一定格式返回到“搜索”页面。
搜索引擎原理
搜索引擎结构
文档
文本提取
索引程序
索引库(Lucene)
搜索查询服务器(Solr)
文件
数据库
爬虫
NBA
搜索
1、搜索相关性
2、搜索排序
3、搜索框下拉词表
4、搜索类目筛选
5、搜索属性筛选
6、相关搜索及纠错
7、分类导航
搜索主要功能
1、仅标题部分、广告词、类目建索引、用户搜索到的商品需在标题中出现
2、按字切词、索引,保证查全率
3、精确匹配与模糊匹配
4、相关性权重涉及因素:词频、词间距、是否有广告词
5、标题中应含有品牌、型号、类别、关键属性、功能、别称等
6、搜索词与类目关系:商品相关性与商品分类、用户点击有关
7、业务原则和用户搜索原则;例如:用户搜索:“篮球”
搜索相关性原理
1、相关性排序计算:标题、类目、属性、销量、评论数、价格等因素的综合
2、交易性排序计算:销量、价格
3、评论数排序计算:好评度、评论数计算
4、时效性排序计算:上架时间
5、综合各种相关性与商品的商业属性综合算出的排序分值。
搜索排序原理
1、销量排序:七日销量,价格权重,好评度
2、价格排序:按照商品的价格进行高低排序
3、好评度排序:好评度、全部评论数综合因素
4、商品上架时间:按照商品上架时间排列
搜索排序筛选
搜索下拉框提示:
数据来源:用户搜索词,搜索日志
排序:按照相关性进行排序
更新日期:每月更新,采销可提供词表
搜索框下拉提示
1、展示二级类目
2、点击进入三级类目,同时在二级类目下搜索
3、按照类目数量排序
4、进入三级类目进行属性筛选
搜索类目筛选