文档介绍:摘要的不同粒度自主选择相应的最适合的特征选择方法。本文还对特征权重的平滑计算方法本文分析了自适应信息过滤中较为典型的不确定信息的学习问题,提出了不充分反检出阈值的优化调整是自适应信息过滤的重点和难点之一。本文对现有的阈值调整方法进行了总结,分析了当前方法中普遍存在的问题,在此基础上,提出了目标函数优化制导的闽值调整方法,把评测过滤系统性能的指标直接作为闺值调整时优化的目标函能的影响,探讨了两种方法出现较大差距的原因,得出了局部目标函数优化的阈僮调整本文提出了反向的信息过滤方法,介绍了反向用户兴趣构造和反向过滤的算法。本以保持准确率和召回率平衡的传统难题,使两项性能指标都能达到较高的水平。本文最后介绍了面向A啃畔⒌奈蚀鹣低常芙崃薟问答系统存在的两大求;提出了自适应的答案信息过滤技术和基于协同过滤思想的自适应答案调整方法,使问答系统的整体性能得到提高。本文的研究成果无论对于~般的信息过滤还是自适应过滤都具有重要的启发意义和实用价值,为大规模高性能信息过滤系统的实现奠定了坚实的基础,提供了可靠保证。关键词:信息过滤,自适应过滤,用户需求,用户兴趣,小样本主题,主题粒度,不确定信息,用户兴趣更新,阈值优化调整,局部目标函数优化,反向过滤本文讨论了知识挖掘中的大规模信息过滤技术及其在蚀鹣低持械挠τ茫信息过滤特别是自适应过滤的若干关键问题进行了深入细致的研究,提出了一体化的高性能信息过滤方法,取得了比目前的信息过滤系统更好的结果。用户需求和用户兴趣是信息过滤的依据和基础,本文介绍了传统的用户需求扩展和用户兴趣构造技术,提出了一种基于二重伪相关文档选择技术的初始用户兴趣构造方法。针对小样本主题没枨难以过滤的问题,本文提出了小样本主题自动判定和优化加强的方法,有效改善了小样本主题的过滤性能。在总结分析了传统的特征选择方法的基础上,本文提出了用户需求粒度驱动的柔性化特征选择方法,将原始用户需求自动划分为粗粒度主题和细粒度主题,根据用户需求馈条件下的自适应学习方法,深入分析和比较了用户兴趣更新中不同的未判定信息处理策略对于过滤性能的影响,找到了一种基于不确定信息的最有效的用户兴趣更新方法。数;同时对全局和局部目标函数的优化策略进行了深入分析,总结了两种方法的优缺点;从多个角度比较了全局和局部目标函数优化制导的阈值调整方法对于过滤系统最终性文把反向过滤的思想引入到通常的正向过滤中来,提出了正向和反向过滤相结合的双向过滤方法,使得识向过滤和反向过滤互为补充、互相改进,从而解决了单一过滤系统难问题:相关文档获取和自适应学习。为了充分利用信息过滤灵活、动态、实时的特点,本文提出了基于信息过滤技术的相关文档获取方法,满足了蚀鹣低车氖毙砸进行‘了研究。方法更适于自适应信息过滤的重要结论。人规模信息过滤技术研究及其往蚀鹣低持械挠τ茫
—,,猻甌猙,“瑃盿“瑃,.甌琣—,
:琾,:甌猙,,,—.珹瑄瑄瑂瑃,人规模信息过滤技术研究及其在蚀鹣低持械挠τ茫,獁.
日期:州、作者签名:诲谨波导师签名:夕可啊飞日期:少。事、占作者签名:诲讫寻声关于论文使用授权的说明独创性声明本人声明我所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方矫,论文中不包含其他人已经发表或撰写过的研究成果。与我‘同工作的同志对本文所做的任何贡献均已在论文中作了明确的说明并表示了谢意。中国科学院计算技术研究所有权保留送交论文的复印件,允许论文被查阅和借阅;并可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存该论文。
第一章信息过滤的研究背景、现状和意义情抒发你的高论,无论以何种方式一文本、声音或者图象:然而另一方面,这种快速、国会图书馆的所有印刷类藏品鯰的万倍。据预测十年内信息海啸将会以指数级的速度膨胀,很多专家认为数字海啸将是新千年最大的技术挑战。代的数字媒体”搜索引擎”,实现对人类知识的普遍访问。从电子出版、互联网站、数字通信、数字广播、遥感遥测到数字图书馆、数字人、数字地球,数字媒体正在引发着不断膨胀的数字海啸。据加州大学伯克利分校的研究估计“全球每年产生非重复的数据,而其中约%是以数字形式存储的”,这个数字是人类有史以来所有印刷资料数据量叮堑鼻巴蛭息总量倍,是对地观测系统磕瓴萘康叮敲拦让为人类服务,是信息时代的巨大挑战。电子邮件甚至是电话会议都已普果的巨大储存库,是一个庞大而又充满着混沌的网络。一方面,它为信息发布者提供了极大的言论自由:你可以非常容易地向整个世界发布你的思想,毫无保留的尽无序的增长对于信息的使用者来说却意味着混乱:很多信息变得稀奇古怪、突然消失或者杂乱无章。因此,我们需要拨开海量信息的重重迷雾,以一种高效的方式