文档介绍:基于相似度模型的自动阅卷算法摘要: 自动阅卷算法一直以来都是各个在线考试系统的重点和难点。这里设计的自动阅卷算法通过解析学生答案中关键字, 并计算这些关键字的排布与答案关键字的排布的相似度,给出一个相对合理的分值。经过反复测试调优,该算法提供的分值已经具有相当好的可参考性。关键词: 自动阅卷; 关键字; 相似度; 可参考性中图分类号: 文献标志码:A 文章编号: 1006-8228 ( 2015 ) 06-45-03 Abstract : Automatic scoring algorithm is always the emphases and difficulties of various online examination systems. The automatic scoring algorithm we designed gives a reasonable score through the keywords analysis of student answer , the similarity calculation between the arrangement of these keywords and the arrangement of answer keywords. After repeated testing and optimizing , the scores provided by the algorithm have been a very good reference. Key words : automatic marking ; key words analysis ; similarity ; reference 0 引言实现自动阅卷需要解决以下几个问题。首先, 计算机应该能够像人一样读懂参考答案和学生答案, 这需要计算机具有一定的常识和领域知识。而计算机并没有主动掌握这些常识和领域知识的能力, 这需要人类把这些知识录入到计算机中去。而知识的录入又涉及到知识的表示问题。其次, 人在阅读语句的时候, 由于其自身所拥有的背景知识, 能够知道语句中哪些是词哪些不是词, 而计算机并没有自动识别句子中的词的功能, 这就需要人工构建相应的词库, 将有可能用到的单词录入到计算机中。这样, 计算机在处理自然语言语句的时候, 可以将语句中若干个字符组成的字符串在词典中进行查询, 如果词典中有这个字符串, 则表明它在自然语言中指的是一个词, 计算机就将其认为是一个词。所以, 计算机还应该具有识别句子中单词的能力,也就是分词的能力。接着, 人在阅卷主观题的时候, 给分的过程包括识别出答案语句中的各个成分的过程, 也就是在一个语句中哪些成分是必须的, 哪些成分是可有可无的。对于句子中必须的成分,把它提取出来作为该句的关键词汇, 对于那些可有可无的成分, 则可以将其忽略不计。计算机若要具有这样的能力, 就需要具有对句子拆分分析的能力, 能够自动分析出句子中的重要成分。最后, 主观题最终分值的确定依托于学生答案跟参考答案之间的相似程度, 学生答案越接近参考答案, 得分越高; 反之, 则越低。而且人在阅卷的时候可以容许学生答案具有一定的随意性, 所以学生答案不一定非要跟参考答案完全一致, 只要意义相近或相同, 表达