1 / 4
文档名称:

基于LZW算法的中文文本压缩算法.pdf

格式:pdf   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于LZW算法的中文文本压缩算法.pdf

上传人:kh6797 2015/9/6 文件大小:0 KB

下载得到文件列表

基于LZW算法的中文文本压缩算法.pdf

相关文档

文档介绍

文档介绍:基于��惴ǖ闹形奈谋狙顾跛惴�������������肖志文陈伟梁久祯雷彬�����瓸��引言�慕�腖�算法思想摘要:本文介绍了一种改进���菅顾跛惴āU攵灾形奈谋镜奶氐悖�疚亩宰值浣�欣┏洌�砑右患�汉字库,预留一定的二级汉字空间,并将字典的存储方法,以及更新方式进行了改进。实验表明这些改进使压缩比有较大的提高。关键词:��谎顾跛惴ǎ恢形奈谋����个字符串�C渴淙搿ǜ鲎址�捅淮�釉贗后,然后在字典中查找�恢灰T谧值渲姓业絀,该过程继续进行。指针;②在下一个可用的字典词条中存储字符串�;③把字符串�ぶ梦猉。解码器输入下一个指针,从字典中取回下一个字符串���阉�闯鍪涑隽髦校��背槌龅谝桓鲎址鸛,在确�憬�Ψ洞笱��碛胄畔⒐こ萄г�����������琍���������琙��������:��籆�������捌溲苌�惴ü钩闪嘶�谧值溲顾跛惴ǖ幕�『偷苯裱顾跞砑�暮诵摹5�牵�形奈谋居钟凶挪�同于西文本文的特性,例如汉字和符号的双字节内码,以及汉字和汉语词出现频率的高度不均匀性等。分析这种特性并据此修正��惴ǎ�涂梢蕴岣叨灾形奈谋疚募�难顾醣取���惴ㄊ紫劝炎帜副碇械乃�凶址�跏蓟�阶值渲小T诒嗦牍�讨校�嗦肫髦鸶鍪淙胱址��刍�梢�直到在某一个点,添加下一个字符�贾滤阉魇О堋U馐北嗦肫髯鋈缦碌牟僮鳎孩偈涑鲋赶蜃址��的字典在解码过程中,解码器输入第一个指针并用其取回一个字典词条���袸写进解码器的输出流中。然后认�不在字典中后,把�存入下一个可用的字典项中,并把�ぶ梦狫。开始下一步解码【�。理论上已经证明,当输入文本是由一稳定的各态经历的码源产生时,��惴ǖ难顾跣Ч�孀攀淙胛谋�的大小增加渐进地趋近最佳压缩���汉语��。����!!#��.。一。。,。构性【�縪首先,汉字的出现频率很不均匀,当字序较少时,汉字字符分布与����������瑃�����/�����:��������甀��������,��,�����瑆�������籆���·���
针对中�奈谋镜奶氐悖�慕�蟮腖�算法称为��,其压缩流程如图��尽1疚亩愿盟惴ǖ母慕�主要有三点:一是对码表初始化字符的划分改进,二是对字典存储方法的改进,三是对字典更新方式的改进。码表初始化字符的划分中文字符的出现频率很不均匀,因此,在基本码集中必须保留��鯝��码表示的字符、��銎渌�偏僻汉字。在编码过程中,一旦二级汉字出现,将其添加到基本码集后的预留位置,并将预留位置的编码添为����ち糁���魑3鱿侄�逗鹤值拇娲⑽恢茫�嗦牒鸵肼氲腖�表项始于��。��对字典存储方法的改进间。对其的改进是设计一颗树,并把它存入节点数组,每个节点包含三个元素:父节点����、当前节分布相近,大于�鼻饔诶肷⒅甘�植迹�笳呤呛河锊煌�肫渌�镏值奶赜邢窒螅�得骱鹤肿制捣植际樟哺�快。另外,有构词能力的现代汉字是��个,可构成���龃剩��渲懈咂倒勾首种挥��个,已占�%。字频统计还表明��个常用字的累计频率已占�.�ィ�渲形J�欢嗟��鲎址�驼甲苁褂么问��/��字符及��个一级汉字,可保证有足够的使用频率【�。但无法避免二级汉字的出现,例如在人名、古籍中的加到输出流中,以便在解码时添加到基本码集后。初始化过程如下。设�狶�表当前项的序号,��代表该项代码。����为当前相继读入的两个一字节符号,���K�杂Φ腁��代