1 / 5
文档名称:

基于中文字符串匹配算法的考试系统.doc

格式:doc   大小:104KB   页数:5页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于中文字符串匹配算法的考试系统.doc

上传人:ying_xiong01 2016/9/25 文件大小:104 KB

下载得到文件列表

基于中文字符串匹配算法的考试系统.doc

文档介绍

文档介绍:基于中文字符串匹配算法的考试系统摘要:串匹配问题是计算机科学研究中比较广泛的问题之一,目前字符串匹配算法主要是针对英文等字符的匹配居多,而针对中文等字符的匹配比较少,本文将针对中文字符匹配的算法进行浅析,提出一种适合中文字符模式近似匹配算法的设计,通过实验证明了该算法的有效性。关键词:串匹配;匹配率;考试系统;中文字符串中图分类号:、文本编辑、移动短消息过滤、信息查询、信息提取等领域都有重要应用,已成为计算机算法设计的一个重要研究课题,本文的研究主要是在考试系统中的中文字符串匹配。在考试系统中,对选择题的答案进行判断时,我们需要的是将考生输入的答案跟标准答案进行匹配即可,匹配函数也较为简单,很多开发软件都自带有相应的功能,可以直接导入答案进行匹配,看串匹配是否完全一致即可判断是否正确。但对中文录入的题型,若简单地比较考生输入的答案与给定的答案是否一致,显然是科学的,在此要求出最大两个中文字符串的最大相似度,在本文中称为最大匹配率,然后根据所求的匹配率来给出成绩。1问题分析及相关研究在对中文字符串进行比较时,不对字符串的顺序进行相应的检查,因此,在对字符串进行比较时,需要对两个字符串用相应的英文字符来进行标识。方法如下:对于给定答案中的中文字符串,用字母来标识每一个中文汉字或词组,对考生输入的字符也进行标识,如果输入的字符在给定的答案中没有出现,则统一用一个英文字符W来标识。但是中文的字符串不像英文字符串,中文字符串,从汉语的表达方式来看,字符串中各个字符与相邻字符关系都是密不可分的,因此利用汉语表达的这个特点,找出了一种更合理的判定两个中文字符串的相似度的方法,并对原有的偏移距离算法做了相应的改进,方法如下:首先,设字符串S1长度为n,字符串S2长为m,ed[i,j]表示偏移距离,定义一个矩阵Emn进行迭代算法编辑如下,其次,初始化:ed[i,0]=i;ed=[0,j]=j;E[i,0]=0;E[0,j]=0;然后通过伪代码进行程序编写,输入字符串A和字符串B,并进行相应的字符偏离误差值进行设置,进行字符的相似匹配率的算法。这样,运行一次偏移距离匹配算法不仅可以得到两个字符串的偏移距离ed[i,j]值,而且可以得到更重要的关于字符串之间相同字符组合单元的信息,因此,这无疑将大大提高对两个字符串相似度判定的精确率。另外,由于在规则匹配过程中,规则字符串长度各不相同,那么偏移距离误差阀值也应当有所不同,因此在本考试系统中,是动态的设定偏移距离误差阀值。在对A、B两字符串进行比较进行求匹配率时,首先要求出两个字符串中相匹配的字符个数。而这里所说的匹配是一种近似的匹配,要求不像完全匹配那样严格。它只要求字符按照一定的顺序来进行匹配,但不要求字符连续匹配,可以间断性的匹配。假如A字符串与B字符串中的字符跳跃性地进行匹配,相匹配的字符数为25,而标准字符串中字符的个数为35,,从这个匹配的情况来看,就涉及到匹配的时间及匹配的准确度。2匹配结果分析比较为了更好的分析匹配效果,下面就实验的情况及结果进行分析对比,实验用的数据是比较规则的字符串,词组相对也比较多,我们从这些数据中随机选取一部分,从语义的理解上对可以匹配的字符进行统计,然后采用传统的偏移距离算法和改进后的偏移距离算法分别对选取