1 / 5
文档名称:

一种基于神经网络的文本切分方法.pdf

格式:pdf   页数:5页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

一种基于神经网络的文本切分方法.pdf

上传人:wh7422 2015/10/10 文件大小:0 KB

下载得到文件列表

一种基于神经网络的文本切分方法.pdf

相关文档

文档介绍

文档介绍:一种基于神经网络的文本切分方法��������陈浪舟黄泰翼��摘要关键词文本切分,�算法��,�文本的自动分割是自然语言处理的一个重要内容,具有广泛的用领域。例如:语言理解,文本的自动分割可以认为是对文本结构的分析,因此对文本的理解有重要意义。文本的自动索引也离不开文本分割,只有将文本按领域分割以后才能从中找出我们所需要的内容。与自动索引相对应,文本分割的另一个用途是文本过滤。现代社会信息高度发达,各种媒体,尤其是在����网上传送的大量文本数据中,不可避免的含有一些糟粕成分,如想将它们自动滤除,也离不开文本分割。因此研究文本分割具有重要意义。本文的研究背景是建立一个适用于语音识别的,领域自适应的统计语言模型。由于我们所处理的语料都是连续无切分标志的文本,囡此首要。任务就是将文本按主题切分为具中科院自动化所模式识别实验室,北京������篶�����文本的自动分割是语言处理中的一个重要内容,它的主要目的是将大量的无分割标志的文本按其主题切分为多段文本,每段文本都围绕一个主题且,段与段之间有明显的主题转换。该技术在语言理解,文本自动索引,语言模型的建立等方面都有重要意义。本文以文本主题转换时的词汇突变为特征,提出了一种基于�算法的文本切分方法.�����,��珺����������������,�本研究得到国家自然科学基金支持��己�����·����.�.��������誴���.�.�.���【������.������������鰁��
的相邻滑动窗口胁跣和�娲��匆欢ǖ牟匠ひ来位���鑫谋玖鳎�渲写翱��耽,�:∥跏跣��谋局魈庾;坏拇驶阃槐湎窒�我们知道,自然语言的任何~段有意义的文本都是围绕一个或者多个主题展开的,跟常都是以文本中词汇的作为判断依据。例如著名的词汇链理论【�浚�褪且谰菸谋局写驶愕�则很小,因此文本在两个领域交接出词汇的变化很大。该方法正是利用这一现象来判断文汇的大量转移。而这种突变正是我们用来进行文本切分的特征。如图��荆�偕栉耷蟹至��谋玖魑!璚¨�¦¨⋯,我们用两个宽度相同有明显主题的段落,然后将这些段落按领域聚类,从而形成领域相关的语料,作为我们建立语言模型的依据。踪文本主题的变化对文本的理解和其他深入处理都具有重要意义。检测文本的主题变化通重复与搭配等关系,形成一条词汇链,进而确定文本的结构。显然该方法可以有效的用于文本切分。但是,单一的词汇链有一个缺点在于它对多个主题同时出现的情况比较瞳难。文献『�提出的用领域相关统计语言模型对文本似然度的变化作为判断文本领域变化的方法虽然有效,但需要一个已经建好的领域相关的统计语言模型,而这种模型的建立需要很大的工作量且正是本文研究的最终目的,因此这种方法的应用也受到限制。文献�】利用文本主题转换时词汇的突变作为依据研究文本切分。由于自然语言在每个不同的领域都有该领域特有的词汇,这些词汇在领域内频繁出现而在领域以外出现的概率本的主体转换。该方法的主要优点是可以处理多主题并发的现象,但在实际应用中常常会受到局部变化的影响形成误判。我们根据实验和对错误的分析,针对这种词汇突变现象,提出了适合与描述其突变特性的特征参数,利用神经网络的学****和自适应能力,以�网作为识别器构造了文本主题变化点的识别算法。自然语言在每一领域都有其高频词,这些高频词具有突发性,即它们在某一特定领域频繁出现而在