1 / 5
文档名称:

基于搜索引擎和数据挖掘的博客营销.doc

格式:doc   大小:15KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:基于搜索引擎和数据挖掘的博客营销

徐禾芳 何振辉 一、基于搜索引擎和数据挖掘的博客营销模式
博客的影响力越来越大,为企业的营销活动打开了新的一扇窗。基于搜索引擎和数据挖掘的博客营销模式的技术结构,就是结合当今世界上主流的基于搜索引擎和数据挖掘的博客营销

徐禾芳 何振辉 一、基于搜索引擎和数据挖掘的博客营销模式
博客的影响力越来越大,为企业的营销活动打开了新的一扇窗。基于搜索引擎和数据挖掘的博客营销模式的技术结构,就是结合当今世界上主流的搜索引擎技术和数据挖掘技术,提取博客中市场营销所需要的信息。
1.基于搜索引擎和数据挖掘的博客营销模式的应用系统结构
文中给出了网络信息挖掘技术实现的总体流程图, 分别对其中的每个步骤解释如下:
第一步:确立目标样本, 即由用户选择目标文本, 作为提取用户的特征信息。
第二步:提取特征信息, 即根据目标样本的词频分布, 从统计词典中提取出挖掘目标的特征向量并计算出相应的权值。
第三步:网络信息获取,即先利用搜索引擎站点选择待采集站点, 再利用Robot程序采集静态Web页面, 最后获取被访问站点网络数据库中的动态信息,生成WWW资源索引库。
第四步:信息特征匹配,即提取索引库中的源信息的特征向量, 并与目标样本的特征向量进行匹配, 将符合阈值条件的信息返回给用户。
2.基于搜索引擎和数据挖掘的博客营销模式可采用的实现技术
(1)搜索引擎的主要技术。搜索引擎一般由搜索器、索引器、检索器和用户接口4个部分组成。①搜索器:其功能是在互联网中漫游,发现和搜集信息。它要尽可能多、尽可能快地搜集新信息和定期更新旧信息,以避免死联接和无效联接,为此搜索器的实现常采用分布式、并行计算技术,以提高信息发现和更新的速度。②索引器:其功能是理解搜索器所搜索的信息,从中抽取出索引项, 用于表示文档,以及生成文档库的索引表。索引器可以使用集中式索引算法或分布式索引算法。③检索器:其功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。④用户接口:其作用是输入用户查询、显示查询结果、提供用户相关性反馈机制, 分为简单接口和复杂接口两种。
(2)WEB信息挖掘中的关键技术。网络信息挖掘系统采用向量空间模型(Vector SpaceModal, VSM),用特征词条(T1,T2,…,Tn) 及其权值Wi代表目标信息,在进行信息匹配时, 使用这些特征项评价未知文本与目标样本的相关程度。特征词条及其权值的选取称为目标样本的特征提取,特征提取算法的优劣将直接影响到系统的运行效果。一个有效的特征项集应该既能体现目标内容, 也能将目标同其他文档相区分, 因此词条权重的正比于词条的文档内频数, 反比于训练文本内出现该词条的文档频数。
我们再来讨论中文分词处理。首先建立词典库。中文词的切分问题是网络信息挖掘中的一项关键的技术之一,中文不像英文词之间有空格分割,中文词的切分的好坏也就直接影响着主题的提取。《中国分类主题词表》由于其学科体系的完整性和规范性,非常适合于作为词库, 当然对于专业要求较高的数据挖掘,以及在实际使用中出现的不符合要求的地方, 可在该词表的基础上进行扩充

分享好友

预览全文

基于搜索引擎和数据挖掘的博客营销.doc

上传人:住儿 8/4/2022 文件大小:15 KB

下载得到文件列表

基于搜索引擎和数据挖掘的博客营销.doc

相关文档