文档介绍:博士研究生学位论文
题目:
网络资源的名字特征及其在资源组织中的应用研究
姓名: 陈翀 d
学号: 10308852 d
院系: 信息科学技术学院 d
专业: 计算机系统结构 d
研究方向: 搜索引擎与网络信息挖掘d
导师姓名: 李晓明教授 d
二零零八年五月
On the Name Characteristics of
Digital Resources and Their Applications in
anization
Dissertation Submitted to
Peking University
in partial fulfillment of the requirement
for the degree of
Doctor of Philosophy in Science
Chen Chong
(Computer Science and Technology)
Dissertation Supervisor
:
Professor Xiaoming Li
MAY, 2008
版权声明
任何收存和保管本论文各种版本的单位和个人,未经本论文作者同意,不得将本论文转借他人,亦不得随意复制、抄录、拍照或以任何方式传播。否则,引起有碍作者著作权之问题,将可能承担法律责任。
摘要
本文中,网络资源指在含义上相对独立且完整的非网页类互联网信息资源,通常由一到多个文件按照一定的目录结构组织,常见于FTP服务器和P2P系统的节点中。它们广泛分布在互联网上,是网络用户所关心的重要对象。同时,这些网络资源不仅数量巨大,而且发布、传播和共享都比较自由,呈现出“混乱”和“无序”的特点。
广泛收集并重新组织这类网络资源,是许多应用中的一项根本需求。在这项工作中,资源名称是最基本的依据;人们一方面需要根据名称来理解得到的资源,另一方面也要通过对资源命名来标识资源。本文首先考察各类网络资源的命名状况,研究其中蕴含的用户命名行为一般规律;进而研究了如何从资源名中切分出语义片段的方法;并考察了名字信息在资源自动分类中的作用,分析分类性能的影响因素等问题。注意到网络上存在着许多以目录树的形式组织得相当好的资源集合,本文研究了依据目录树信息进行资源整合的效率问题,并针对这类资源整合的任务,设计了一个可扩展性好的资源增量存储与组织方案。作为对上述研究的应用,实现了一个支持海量网络资源存储组织的库藏系统,并为相关领域的研究提供数据和系统平台。
本文主要贡献包括:
考察网络资源命名的无序状况,分析用户对资源命名行为的一般规律。通过考察总体与各类别的名字长度、字符构成、片段频度分布、文件后缀对资源类别的互信息、语义种类及位序关系等方面,分析资源的名字无序混乱表象及所蕴含的规律。例如从字符类型熵来看,资源名是用户表达各种资源相关信息的渠道,而其中娱乐类资源名的字符类型熵大于工作学习类的资源名,这体现了用户对娱乐内容的融入感较强,倾向于参与修改名字来反映自己的意见和评价。从符号的出现上看,用户倾向于将多种意思通过显式或隐式分隔信息浓缩在简短的名字中。这些是本文后续名字切分、资源分类等工作的基础。
基于错误驱动转换学习思想和字符类型突变分割假设,提出一种能对资源名按照语义信息切分、且不依赖于词典的方法。这一研究也适用于其他具有多种文字符号混杂、浓缩表达多种语义类型特点的文本环境。该方法优点是能充分利用上下文特征学习,且不要求大规模训练数据。例如给800个训练样本,
得到的语义片段的切分精度为81%、召回率为83%。所得的切分结果有助于从混乱的原始命名状态中获取对资源描述有用的信息。
提出一种利用资源及其成员的名字所产生的特征进行资源自动分类的方法,研究了特征分布、概率估算、样本数量等因素对分类性能的影响。发现大量低频特征(例如只在一个资源中出现过)对分类正确率的贡献在于帮助合理估算未观测到的特征的概率;因此也得出在低频特征占优、且使用Simple Good-Turing平滑策略下无需进行特征选择的推论。在使用所有特征情况下,总体分类正确率可达80%。还应用该方法实现了一个资源半自动分类工具,在人工给定资源粒度条件下,进行资源分类的时间是基准时间的45%-50%。
针对原始质量较好的资源集合,提出一种利用原始组织知识的目录归并模型整合资源,刻画粗分类和精细检查两阶段工作模式并评估模型效率。粗分类阶段有精度损失,但完成任务的时间为基准做法的1/2a(a为批量处理的资源数,a≥1);精细检查阶段在第一阶段基础上进行,能保证精度无损,且完成任务的时间约为基准做法的1/2。
持续从互联网收集、。通过分