1 / 13
文档名称:

汉字字频统计方法的改进的策略.doc

格式:doc   页数:13
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

汉字字频统计方法的改进的策略.doc

上传人:164922429 2013/11/29 文件大小:0 KB

下载得到文件列表

汉字字频统计方法的改进的策略.doc

文档介绍

文档介绍:汉字字频统计方法的改进的策略
一、汉字字频统计的概念
在汉语汉字的语境下,汉字字频常常简称为字频,汉字字频是汉字使用的一个重要属性。冯志伟指出:“传统的文字学认为,汉字具有形、音、义三个要素,但是,汉字作为记录汉语的符号,它必须作为一种交际工具而存在,在交际过程中,有的汉字使用得多些,有的使用的少些,呈现出一定的统计规律性。因此,从使用的角度来看,汉字还具有第四个要素——字频。”①顾名思义,字频就是字的使用频度。苏培成在《现代汉字学纲要》(增订本)给字频下的定义是:“字频就是汉字的使用频度,是指在一定的历史时期内经抽样取得的文字资料里,每一个汉字的使用次数与抽样资料总字数的比例。”②他所说的“字频”,就是指汉字字频。沙宗元在《文字学术语规范研究》中收了“字频”这个词条,他给出的定义是:“某个汉字在一定语料中使用(出现)的次数与样本总字数(又叫样本容量)之比。”③这个“字频”也指汉字字频。两家的定义大体不错,但表述不够严密。第一,用来作为字频统计的文字资料不一定是经抽样取得的,如《史记》的字频统计这类专书字频统计是根据特定目的选取的,而非“经抽样取得”的。“经抽样取得”不能作为字频统计的必要条件。第二,“总字数”的说法比较含混,应该改作“总字次”。第三,“样本总字数”的“样本”表意不明确。综合学术界的研究,汉字字频可以定义为:个体汉字字符在按特定原则选定的文本中出现的次数与选定文本总字次之比。
对使用中的汉字进行字频统计,并按字频的高低排列汉字的顺序即可以得出汉字的频序,依据频序给汉字分级可以划分出汉字的频级,汉字的频级是对使用中的汉字进行分级的主要依据,对汉字规范、汉字教学及汉字信息处理有重要意义。汉字字频统计是汉字研究中的一项具有实用意义的重要工作。
二、汉字字频统计的主要成果
以往的汉字字频统计与研究取得了重要的研究成果,为汉字的研究与应用作出了重要的贡献。字频统计一般分综合字频统计及分类字频统计两类。其代表性成果主要有以下几项:
现代汉字综合字频统计的主要成果有:1.《汉字频度表》,此表于1976年12月由“七四八”工程查频组完成。本次字频统计使用的语料时间范围为1973-1975年,语料内容包括科学技术、文学艺术、政治理论和新闻通讯四类,统计方式为手工操作。备选语料3亿多字次,选用语料2160多万字次,统计得出6376个字种。2.《汉字频率表》,此表包含在北京语言学院语言教学研究所编的《现代汉语频率辞典》中,1986年6月由北京语言学院出版社出版。本次字频统计使用的语料时间范围较多选用20世纪40年代至70年代的作品,语料内容包括报刊政论文章及专著、科普书刊材料、剧本和日常口语材料和各种体裁的文学作品四类,统计方式采用人工和计算机相结合。选用语料180万字次,统计得出“不同汉字4574个”。(参考该书“前言”和编纂说明)3.《现代汉语字频统计表》,此表由北京航空学院计算机科学与工程系和国家语言文字委员会汉字处研制,于1992年1月由语文出版社出版,出版署名单位是国家语言文字工作委员会和国家标准局。本次字频统计使用的语料时间范围为1977-1982年,语料内容包括自然科学和社会科学两大类,统计方式完全采用计算机自动统计,选用语料13800万字次,抽取出的统计样本语料11873029字次,统计得出汉字7754个。(参考该书说明)4.《报纸、广播电视、网络用字总表》,本表收录在
“中国语言生活状况报告”课题组编《中国语言生活状况报告(2005)》中,《报告》于2006年9月由商务印书馆出版。《中国语言生活状况报告(2005)》是由国家语委首次向社会发布的年度语言生活报告,其中的《报纸、广播电视、网络用字总表》是2005年年度用字字频统计表。该表语料时间范围为2005年,语料介质包括报纸、广播电视和网络,统计手段采用计算机,共选择892034个文本文件,包括732143010字次,统计得出字种数8128个。(该书把字种界定为“这里的字种,指字形不同的汉字。”④)
古代文献使用汉字的综合字频统计成果主要有《古籍汉字字频统计》,该书由北京书同文数字化技术有限公司编写,2008年7月由商务印书馆出版。本书统计的语料为电子版《四库全书》和《四部丛刊》,统计方式完全采用计算机自动统计,使用语料8亿字次,统计得出汉字30127个。(在该书收录的“大规模古籍汉字用字统计报告”中“统计结果汇总与初步分析”一节中介绍该书统计出的总字数时说:“《四库全书》汉字总字数:29088字;2.《四部丛刊》汉字用字总字数:27606字;3.《四库全书》与《四部丛刊》汉字用字合计:30127字。”⑤但是该书《古籍字频统计表》的顺序号的最后一号是30136,比30127多出9个数字。查《古籍字频统计表》中含有部分空格和非

最近更新

2024年腾冲县招教考试备考题库带答案解析(夺.. 30页

2024年茂县幼儿园教师招教考试备考题库附答案.. 30页

2024年蒲县招教考试备考题库含答案解析(夺冠.. 30页

2024年襄阳科技职业学院马克思主义基本原理概.. 13页

2024年西安电力机械制造公司机电学院马克思主.. 12页

2024年费县招教考试备考题库带答案解析(必刷.. 31页

2024年辽宁地质工程职业学院马克思主义基本原.. 12页

2024年那曲县幼儿园教师招教考试备考题库及答.. 31页

2024年郑州铁路职业技术学院马克思主义基本原.. 13页

2024年重庆工商大学派斯学院马克思主义基本原.. 12页

2024年金溪县招教考试备考题库带答案解析 30页

2024年长丰县幼儿园教师招教考试备考题库及答.. 31页

2024年长沙工业职工大学马克思主义基本原理概.. 12页

2024年防灾科技学院马克思主义基本原理概论期.. 12页

2024年陕西学前师范学院马克思主义基本原理概.. 12页

2024年靖西县招教考试备考题库带答案解析(夺.. 30页

2024年驻马店农业工程职业学院马克思主义基本.. 12页

2024年黔西南民族职业技术学院马克思主义基本.. 13页

2025年万载县幼儿园教师招教考试备考题库附答.. 30页

2025年上海中侨职业技术大学马克思主义基本原.. 13页

2025年上海应用技术大学单招职业倾向性测试题.. 43页

2025年上海纺织工业职工大学马克思主义基本原.. 12页

2025年中原科技学院马克思主义基本原理概论期.. 13页

2025年中山职业技术学院单招职业倾向性测试题.. 45页

2025年临猗县幼儿园教师招教考试备考题库带答.. 30页

2025年乐亭县招教考试备考题库带答案解析(夺.. 31页

2025年云南工程职业学院马克思主义基本原理概.. 12页

网络策略路由性能评估 35页

高温高压条件下的探测 35页

2025年兴仁县幼儿园教师招教考试备考题库含答.. 31页