1 / 11
文档名称:

基于词频统计的wap分类器设计与实现.doc

格式:doc   页数:11
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于词频统计的wap分类器设计与实现.doc

上传人:fxl8 2013/4/30 文件大小:0 KB

下载得到文件列表

基于词频统计的wap分类器设计与实现.doc

文档介绍

文档介绍:
基于词频统计的 wap 分类器设计与实现

5
10
15
20
25
30
35
40
摘要:移动互联网时代的到来给人们上网带来了方便,但同时由于互联网信息的多样性,人
们搜索信息时往往会遇到返回的都是一些广告信息,或者是一些与自己搜索毫无关系的信
息,甚至是一些不良信息。为了增强 wap 用户搜索体验,本文基于词频和支持向量机模型
实现了一款 wap 资源分类器,完成了游戏、软件、视频、音频、图片、主题六大类的分类,
最后通过实验结果分析验证,该分类器分类准确率在 90%以上,召回率在 80%以上,通过
本文的 wap 资源分类器大大提高了用户的搜索体验。
关键词:wap;分类器;SVM;机器学习
中图分类号:
Design and Implementation of wap classifier based on word
frequency statistics

Abstract: The arrival of the mobile era has brought to us convenient, but at the same time
due to the diversity of information on the , people search for information is often despair
because of that the search result often has the advertising information, or there is nothing
information could use, even there would be some bad information. To enhance wap users search
experience, a wap resources classifier which is based on word frequency and support vector
machine model pleted in this paper. plete the classification of the game software,
video, audio, images, themes, and the accuracy rate of this wap classifier is more than 90%, the
recall of this wap classifier is more than 80%. The wap resource classification has greatly
improved the search experience for the users.
Keywords: wap; classifier; SVM; machine learning
0 引言
随着嵌入式设备和移动互联网的发展,人们越来越倾向于使用手机等手持设备登陆互联
网,浏览网页,查找资料等。互联网上充斥着各种各样的信息,有些是垃圾信息,有些是广
告信息,更有些是不良信息,这些信息已经影响到了用户的体验,给用户带来了不悦。同时
为了节省流量用户比较偏爱登陆 wap 网站,为了提高用户用手持设备登陆 wap 互联网搜索
的体验,需要设计 wap 资源分类器,通过 wap 资源分类器将 wap 网页分类入库,在用户输
入查询条件时,可以返回相关度比较高的结果,以增加用户体验。目前研究比较多的是基于
web 网页的分类[1],但随着移动互联网的发展,wap 网页分类也越来越受到重视。本文设计
并实现了一款 wap 资源分类器,将 wap 网页分为了游戏、音乐、视频、主题、游戏、图像
六大类。从选取网页特征,到数学建模,训练模型,最后编码实现网页分类器,并进行实验
验证,实验结果显示,该分类器无论是从准确率还是在召回率上看,对提高用户搜索体验,
提供了重要的帮助。

-1-

1 wap 资源分类的整体设计方案
wap 资源分类在搜索中的位置
Wap 资源分类器在搜索引擎的整个流程中处在很关键的位置,首先通过爬虫获取大量
网页数据,选取其中比较有代表性的进行人工标注,对人工标注的页面进行分析提取出 wap
45
50
网页的特征值,建立特征向量表,设计 wap 分类程序。将最终通过分类的 wap 网页建立索
引,入库。客户端通过手持设备进入移动互联网,搜索网页,经过核心词分析,查找库中的
索引,查找成功返回结果给客户端(图 1)。
通过分析分类器在整个搜索引擎中的位置,可