1 / 31
文档名称:

第十一章--英语测试.doc

格式:doc   大小:136KB   页数:31页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第十一章--英语测试.doc

上传人:小果冻 2024/4/22 文件大小:136 KB

下载得到文件列表

第十一章--英语测试.doc

相关文档

文档介绍

文档介绍:该【第十一章--英语测试 】是由【小果冻】上传分享,文档一共【31】页,该文档可以免费在线阅读,需要了解更多关于【第十一章--英语测试 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。1第十一章英语测试语言教学和语言测试是学校整个教学过程中相互依赖、相互作用的两个最重要的方面。英语测试是英语教学过程中的一个重要环节,与此同时,英语测试也具有着特殊的意义。首先,外语测试是六十年代初形成的一门新兴学科。它通过研究各种外语考试和测验的内容、方法、命题技巧和对测试的评价及成绩的评估,探讨外语测试的规律。外语测试是一个跨领域的学科,它的理论和应用涉及语言学(理论语言学、应用语言学、心理语言学和社会语言学),外语教学法,心理统计,教育测量和计算机科学等。其次,英语语测试的作用越来越多地被社会化。与测试关系最为密切的领域当然是英语教学,使用测试最为频繁的也是英语教师。但是,随着现代科学技术的开展,英语测试已经现代化,并广泛应用于各种机构的人才选拔与职务晋升等工作中。因此,英语测试的开展及其研究成果引起了广阔外语教师、测试专家、外语科研工作者、甚至一些部门行政管理人员的关注,英语测试的影响已经远远超出了英语教学领域本身。语言测试是教学的产物,自然会受到语言教学的影响,但另一方面,测试也会反过来影响教学。这种反作用,在相关文献中用得最多而且得到比较一致认可的术语是"backwash",即反拨作用或反溅作用,它形象地说明了测试与教学之间的关系。设计科学有效的英语测试会对英语教学起到良性的促进作用,而当测试与教学目标不一致,或当测试被滥用以致于干扰了正常的教学秩序时,就会对教学产生负面的影响。在最近几年我国英语教学改革的许多争论都与英语测试有关,因此,掌握英语测试的根底知识对于英语教师来说是非常重要的。 外语测试的开展 语言测试〔主要指外语测试〕是随着外语教学的出现而出现的,也就是说,有了外语教学也就有相应的外语测试。但是在上个世纪40年代之前,语言测试一直处于一种自发的、分散的状态。在这一阶段,语言学虽然有了一定的开展,但是尚未形成指导外语教学的系统理论,对于外语测试而言,更谈不上有什么科学的理论依据,缺乏明确的指导思想和科学的评价原那么。从20世纪40年代开始,外语测试逐渐从教育测量学中别离出来,成为一门独立的学科。近50年来,外语测试己经形成了多种学派、理论和方法。外语测试的形成、开展和完善同语用学、心理学和教学法密切相关。每一时期流行的语言学流派和教学法流派相应地产生了不同的外语测试理论,并依次经历了别离式测试〔discrete-pointtesting〕、综合性测试〔integrativetesting〕、交际性测试等阶段。3别离式测试是伴随着现代测试理论的开始而产生的,它的理论根底是结构主义语言学和心理测量理论。结构主义语言学派认为语言是一个完整的体系,这个体系有相应的结构,任何一种语言都可以按照结构分解成不同的语言层次和语言单位。在教学中我们可以将语言知识分解成语音、语法、词汇等传授,将语言技能分解成听、说、读、写等进行训练,而语言测试那么可以分项测量以上这些方面的知识和技能。别离式测试具有以下几个主要的特点〔李清华,2001〕:〔1〕测试可按语言结构层次由低到高进行,可以从听、说、读、写等方面测定学生的语言能力;〔2〕一道试题测试一个语言点,因此题项较多,测试内容覆盖面较宽;(3)语言情景无限,但语言成分有限,因此测试语言成分更有效;〔4〕测试精确客观,测试结果便于统计分析各项指标(如,难度、区分度等),最典型的题型是多项选择。 别离式测试一度成为最受欢迎的英语测试方法,但是随着语言学与英语教学研究的不断开展,到了20世纪60年代,它的理论根底以及测试本身开始受到人们的质疑。首先,结构主义语言学理论受到了挑战。Chomsky提出了语言能力〔petence〕和语言行为〔linguisticperformance〕的概念,与此同时,心理语言学也开展起来成为一门独立的学科。语言学理论和心理语言学的研究发现语言结构并不是可以那么容易地层层别离开来,语言技能不能完全被分割成孤立的成分。语言具有生成性和冗余性等根本特征,语言成分的简单相加并不完全等于语言体系的总和。人的人脑先天具有掌握语言的机制,人使用语言是人脑的创造性活动,语言能力包括语言使用者关于语言的全部知识。到60年代后期,社会语言学也开始受到人们的关注,社会语言学强调语言的使用受到人们的社会地位和环境等社会因素的制约,也对外语教学和外语测试产生了很大的影响。与此同时,别离式测试本身也暴露出了一些问题。别离式测试更多地重视语言的形式而轻视语言的运用。多项选择题似乎仅仅考查受试者的鉴别能力,许多学生在考试中得到高分,但是实际的语言使用能力却很低。而且,别离式测试对英语教学也产生了一些负面的影响,学生为了准备考试而沉溺于多项选择题的题海之中,过多的精力被放在了猜题的技巧上面,而无视了语言能力的真正的提高。在此背景之下,人们提出了综合性测试的方法。综合性测试把听、说、读、写等技能综合起来测试,从而衡量学生者的综合语言能力,它同时也强调语境在语言使用中的作用,测试考生在一定语境中使用语言的能力。综合性测试主要题型有完形填空和听写等。综合性测试的提出并没有完全终止别离式测试的使用,许多外语测试都是采用折中的方式,把别离式测试和综合性性测试结合起来使用。Weir(1990:2)总结说“应该成认在实践中无论是采取的测试题型还是评价过程多数测试都含有别离和综合的成分〞。 从20世纪70年代开始,交际教学法开始逐步占据外语教学的主流,外语测试也随之发生了一系列的变化。3Hymes〔1972〕认为,语言的运用涉及到一系列的社会文化因素,语言和文化是紧密联系的。无论是讲话,还是写文章,除了语法正确之外,还要考虑听者和读者的文化背景,考虑别人能否理解,能否接受。与此同时,Halliday也提出了语言的功能作用,即同一句话,在不同的场合之下,会有各种不同的意思,同时会产生不同的效果〔转引自刘润清,韩宝成,2024〕。这些理论使得人们对于语言能力的认识得到了扩展,并提出了交际能力的概念。交际教学法的目标在于培养学生的交际能力,因此对于交际能力的定义就决定着教学与测试的内容。从上个世纪70年代以来,对于交际能力的构成存在着两种相反的观点。第一种观点认为人使用语言,靠的是一种单一的能力,不可划分为多个因素。这就是所谓单一能力假说〔UCH,petencehypothesis〕,这一观点显然与别离式测试不一致的,必需用一种综合性试题。其代表性试题形式是完形填空,还有整段短文听写,短文改错等。但是,单一能力假说很快就被否认了。人们更倾向于认为交际能力是由多种因素构成的,并且这种观点成了主流。持这种观点的学者提出了好几种交际能力的组成模式,其中影响较大的有Canale和Swain〔1980〕模式和Bachman〔1990〕模式。前者认为交际能力包括语法能力、社会语言能力、语篇能力和交际策略能力四个局部。这一模式在80年代很流行,但也有缺陷:第一,它没有明确指出这四种能力之间的关系;第二,它没有得到以后语言测试实践的验证。进人90年代,Bachman〔1990,1991〕municativelanguageability,CLA〕的模式。他认为,语言交际能力就是把语言知识和语言使用的场景特征结合起来,创造并解释意义的能力,它由语言能力、策略能力和心理生理机制三局部组成。语言能力包括语言组织能力和语言使用能力。语言组织能力包含生成或识别语法正确的话语能力、理解话语中主题内容的能力和把话语组织成口语或者书面语篇的能力。语用能力包含在具体的语境中语言的表达能力和解释在语段中符合社会****惯的语用行为。语言能力所涉及的各个方面及其之间的关系可以用图1表示〔刘润清,韩宝成,2024:25〕: Bachman认为Canale和Swain提出的策略能力既不够全面,因为它仅仅将策略能力看作是由于语言能力有限而使交际中断时使用的弥补手段,也没有说明策略能力运作的机制。Bachman的策略能力实际上是人们使用语言进行交际时的心理认知过程,由评估策略、确定目标策略、制订方案策略和执行方案策略。评估策略主要完成这三种功能:第一,评估场景的特征,即找出与某一特定交际目标有关的语言使用的场景持征,以便确定实现这一交际目的是否可行,如果可行,在某一特定场景下到达这一目标需要哪些知识;第二,评估自己是否具备完成上述交际目标所需的知识;第三,评估交际目标实现的程度。Bachman指出,在完成上述功能时,评估策略要使用各种知识和图式。就评估策略的第三种功能而言,如果发现交际目标没有到达,就要从以下一个方面找出原因:第一,语法错误太多;第二,没有正确理解说话者的意图;说出的话与语境不相符;第四,知识图式使用不当或匮乏;第五,由于测试任务太难或其他方面的干扰,感到力不从心,不去积极地完成任务。前三条原因属于语言知识范畴,后两条那么分别属于知识图式范畴和情感图式范畴。确定目标策略主要是决定你要做什么,对考生来讲,需要完成以下任务:;;。对命题人员来讲,那么意味着:;;。制订方案策略的主要功能是:、知识图式和情感图式来完成特定的交际目标;。执行方案策略的功能在于通过适当的心理生理机制把上述方案付诸实施。如在接受性语言使用过程中,要使用听觉和视觉技能等。6 心理生理机制本质上指在语言使用的实施阶段所牵涉的神经的和生理的过程。听和看是不同的,接收和输出也是不同的。在接收性的语言使用中,我们使用听和看的技能;而在输出性的语言使用中,我们使用神经肌肉技能〔如发音器官和手指〕。例如,在考接收性语言时,考生需要使用眼睛和耳朵〔生理的〕,而在处理所听和所看的语言时,那么需要使用大脑〔神经的或心理的〕。同样,在考输出性语言技能时,考生在考虑说什么和写什么时,需要用大脑,而在说和写的时候,那么牵涉到发音器官和手指。Bachman认为,在任何场景下使用语言,这些元认知策略和语言知识的各个方面都是结合在一起互相作用、相互影响的,并且是不可分割的。不难看出,Bachman的语言交际能力模式充分吸取了近年来语言学及应用语言学研究领域的最新成果,对交际能力的构成因素的描述更客观,更全面。它不仅指出交际能力应当包括语言能力、语篇能力和语用能力等范畴,而且还指出它们之间不是一个简单的并列关系,而是一种互动的关系。也就是说,语言的使用是一个动态的过程,各种知识、技能和心理过程交织在一起,相互影响、相互作用。语言测试的目的是测量学生的语言运用能力,根据Bachman的理论,既然在语言运用时,交际能力的各种因素结合为一个整体而起作用,在语言测试中,自然也应该把交际能力的各种因素结合为一个整体加以测试。语言测试的真实性也是过去20年来测试界一直关注的问题。1984年的国际语言测试大会对此进行了专门的讨论。Spolsky〔1985〕总结道:“〔语言测试的〕真实性标准给测试领域提出了语用和伦理的问题。测试材料缺乏真实性对找们根据测试成绩所作出的推论也提出了疑问〞。对于语言测试的真实性,人们对此看法不一。一些人将此定义为“直接性〞,即不通过语言能力的中介表现就能测量考生的语言能力。实际上,语言能力是不能直接考察出来的,因为大脑神经的活动过程无法用试卷来测量。从这个意义上来说,所有的语言测试都是间接测试。另一些人将真实性定义为与现实生活的相似程度。由于现实生活中语言的使用作用变化很大,我们不知道哪种语言任务可以作为真实性的标准。还有人把真实性和测试的外表效度等同起来。这一定义也有问题,因为测试的外表效度完全是由评估者主观决定的。再有,在测试专家看来很真实的试题,在老师、学生或学生家长看来未必真实。针对上述缺乏,Bachman〔1991〕提出应该从情景真实性和交际真实性两个方面来定义测试的真实性。所谓情景真实性,就是指测试方法特征与将来某一特定目的语使用的情景特征相关的程度。也就是说,我们在命制考题时,考试任务的特征必须与将来目的语的使用的情景特征相一致,做到了这一点,考试任务才具有了情景真实性。举例来说,参加商务英语证书〔BEC〕考试的考生在其工作中应当具有与客户用英语就商务活动面对面交谈的能力,该项考试的口试中就安排了考生之间面对面交谈这一活动,因此该口试具有很强的情景真实性。交际真实性是指考生在完成某一测试任务时,其语言能力的哪些方面参与了完成该测试任务的活动,参与的程度如何。与情景真实性不同,交际真实性强调的是考生与测试任务之间的交际关系。Bachman认为,情景真实性和交际真实性只是两个相对的概念,我们只能说某测试的真实性“高〞或“低〞,不能简单地说它“真实〞或“不真实〞。此外,考试的真实性通过直接观察是看不出来的,我们必须考虑考生的有关特征以及具体的语言使用场景。再以BEC考试为例,该考试对那些正在或将要从事商务活动的考生来说,其交际真实性很高,但对在校的师范英语专业学生来讲,其交际真实性就缺乏。 测试的种类 Henning(1987)指出,有多少测试的目的,就会有多少种类型的测试。这话确实很有道理,我们设计任何测试,并非总是按照一种模式,测试的目的不同,试卷的内容和要求也大不一样。按照不同的分类标准,语言测试可以被分为不同的类型。 按照测试的用途划分语言测试根据用途的不同可以分成成绩测试、水平测试、诊断测试和潜能测试。成绩测试〔achievementtest〕以教学内容为根底,目的是要衡量学生对授课内容或是教学大纲要求内容或是教科书及其他资料的掌握程度。一般的随堂测验、期中期末测试多属于这一类测试。我国的高考外语试题严格来讲属于成绩测试,因为它必须参考中学的外语教学大纲:。相比之下,水平考试〔proficiencytest〕不针对教学内容,不考虑考生学过什么内容,也不考虑是怎么学的,而是测试考生的语言能力,看考生是否到达某一水平,从而决定他是否胜任某一任务。如考查被测试人是否掌握进行学术研究所应具备的语言能力。像美国的托福〔TOEFL〕、英国的雅思〔IELTS〕就属于水平测试。诊断测试〔diagnostictest〕用在课程进展一段时间之后,检验学生到目前为止的学****情况,通过评估学生拥有的某一方面的知识,确定修正错误所需要的知识。诊断测试可以考查单个工程〔如被动语态〕,也可以是综合性的。由于考试只限于近期教学内容,所以考试时间不长。诊断测试的目的是为了发现教与学的问题以及学生知识与技能掌握的缺乏之处,以便因人而异,对症下药,调整教学方案,改良教学。潜能测试〔aptitudetest〕用来预测学生的学****潜力和天赋。这种测试在我国使用不太多,在这儿也不多讲,仅举一例。美国的学术潜能测试〔ScholasticAptitudeTest,SAT〕预测高中生在大学的学****能力,由于SAT成绩与考生的大学学****成绩相关系数比较高,很多美国大学在录取招生时都把SAT成绩视作一个重要的判断依据。 按照学****阶段划分 根据学****阶段来分,一个学期之内可以有编班测试、随堂测试、期中测试和期末测试四种。分级测试〔placementtest〕是新生入学后进行的全面考查,目的是帮助教师掌握学生的语言水平,以决定教材的难易、教学进度等问题。有时还会根据学生的水平,将程度相对一致的学生集中在一起学****以做到因材施教。分级测试需要拉开学生成绩的差距,所以一般试题设计的内容比较全面,从易到难的坡度也比较大,以求把学生分数的档次拉开。随堂测试(classroomtests)指每教完一课书之后进行的小型测验。这种测试分量小,时间短,不超过一周的教学内容,形式可以多样:拼写、听写、填空、释义、翻译等,但是,设计这种测试也不是信手拈来,教师应从长方案分课安排保证这一系列的测试有目的性、连续性、系统性。在学期中间停课一周,进行复****然后进行一次比较系统的考试,就是期中测试(mid-termtests)。这种测试不仅让学生在心理上有阶段感、轻松感,而且使学生有时机独立思考,对知识进行系统化。期中测试不仅要表达教学大纲的要求,突出重点工程,还要在随堂测试的根底上,要具有一定的综合性和系统性。期末测试(terminaltests)有三个目的:促使学生稳固所学知识,评价一学期的教学效果,调整下学期的教学安排设计。期末测试的原那么是,以教学大纲为依据,全面反映该学期学生应该掌握的教学内容,但不再严格参考教科书的具体内容,而是变化语言材料来考查学生对所授知识的掌握,同时测试学生解决问题的能力。 按照测试成绩的判别标准划分 从考试成绩判别的标准来看,我们又可把测试分为常模参照性测试和标准参照性测试。常模参照性测试〔norm-referencedtest〕是把某一考生考试的结果与参加同一次考试或同一种类型考试的其他学生的分数作比较,在小规模考试中,常模指同一组学生的平均分数。在大规模的标准化考试中,常模代表不同地区、不同时间参加同一种类型考试(不一定是同一份试卷)的学生的平均水平。这种测试的目的是确定学生在掌握英语知识和运用英语能力上的差异,因此,必须使学生的测试分数档次拉开,然后参照每个学生的成绩把他们区分出好、中、差等,这种考试多用于选拔学生。标准参照性测试(criterionreferencedtests)是以某种特定的语言能力标准作为判别标准的测试。通过这类考试,我们可以了解考生实际运用某种语言的能力,但不将其与其他考生相比较。其目的是根据考生能否令人满意地完成某一项或某些任务而将其进行分类。任务是固定的,只是对考生完成的情况进行评估。原那么上讲所有的考生都通过或一个也不通过都没有关系。 按照试卷的评阅方式划分9 根据试卷的评阅方式,语言测试可分为主观性测试和客观性测试。主观性测试〔subjectivetest〕是指试题的答案比较灵巧,需要阅卷人对考生的作答情况作出主观判断的测试。语言测试中,简述题、翻译题、作文、口试等都属于主观性题目。主观性测试命题比较容易,考生不容易通过猜测得分,而且题目一般要求考生自由地表达思想,所以容易测出考生实际使用语言的能力。但是主观性测试也有明显的缺点。首先,主观题考察的语言现象有限。其次,评分比较困难。例如,对于同一篇作文,让不同的人打分,结果差异可能会很大。与主观性测试相反,客观性测试〔objectivetest〕答案唯一,不受评阅人的影响。多项选择题属于典型的客观性题目。客观性测试的主要优点在于答案固定,评分简单,多数情况下可以使用机器来阅卷,因此能节省大量人力、物力和时间。另外,客观性测试覆盖面一般较大,针对性强,特别适合别离式测试。然而,多数客观性测试只要求学生打勾、填图字母、画圈等,再加上不少猜测因素,无法测量学生实际使用语言的能力,因此,遭到许多人的反对。 测试的要素 衡量一次测试的好坏,主要的标准是测试的效度和信度。效度〔validity〕是看一次考试是否测试了想要测的工程。例如,早期的托福考试用多项选择题的形式测试学生的写作水平,结果发现学生可能做选择题时对时态、主谓一致等内容都似乎掌握了,但到他们真正用英语写作时,问题就都出来了。这就是一个没有测到真正想测内容的例子。正因为此,从1987年起,托福考试增加了一项写作的内容。效度往往要涉及以下几种类型:外表效度、内容效度、编制效度、共时效度和预测效度。外表效度〔facevalidity〕是指卷子首先看上去得让人觉得适宜,尤其是让考生觉得适宜。外表效度高的测试容易引起考生的兴趣。比外表效度更重要的是内容效度〔contentvalidity〕,这个要基于语言教师或测试者的专业判断,他们在自己对语言知识和教学大纲掌握的根底上,判断考卷中是否应该考查的语言要素和技能都有所表达。例如,如果要考查的技能之一是学生的写作技能,而卷子全部由多项选择题组成,可能内容效度就不会太高。编制效度〔constructvalidity〕是说一套测试要以一定的语言行为理论和语言学****理论为依据。内容效度和编制效度联系非常密切。共时效度〔concurrentvalidity〕是将一次测试的结果,同另一次时间相近、公认效度较高的测试的结果相比较而得到的系数。例如,比较在某年元月先后参加了托福考试和清华大学英语水平考试的学生两次考试的成绩,如果得分情况相似,即两组成绩的相关系数较高,那么清华大学英语水平考试就有较高的共时效度。预测效度〔predictivevalidity〕是将一次测试的结果,同后来的测试结果相比较而得到的系数。这涉及到测试的预测能力,即测试结果在多大程度上能预测考生未来的学****成就。类似地,假设参加清华大学英语水平考试的一些学生一段时间后又考了托福考试,如果得分情况相似,即两组成绩的相关系数较高,那么清华大学英语水平考试就有较高的预测效度。9信度〔reliability〕是指测试结果的一致性〔consistency〕。以水平考试为例,如果一项水平考试每年都举行两次,那同一个学生在准备程度相似的情况下,在哪一年或在那一年的哪一次参加考试,对他/她的成绩造成的影响应该可以忽略不计,这项考试的信度才高。同时,从阅卷人因素来看,同一份卷子由不同的阅卷人阅卷所得分数大致相同,或是由同一个人在不同时间阅卷所得分数也大致相同,这项考试的阅卷人信度才高。影响信度的因素很多。例如,有的学生上午考试更能发挥水平,有的学生那么下午考试更能发挥水平,这样,同样的考试究竟是在上午举行还是在下午举行对不同的学生可能就有不同的影响。又如,有的考试需要使用录音机,如果不同考场使用的录音机放音效果不同,甚至同一考场内考生坐的位置离录音机有远有近,都有可能对考生的成绩造成影响。 不过,影响信度最主要的因素有两条:试题的采样和评分。决定测试信度的一个重要因素是试题是否有代表性,覆盖面够不够大。效度主要看工程的内容,信度还要看试题采样的多少。采样越多,信度越高。因为客观测试的试题量一般比主观测试大,所以更有代表性,也更有可能排除各种偶然因素,即信度一般更高。决定测试信度的另一个重要因素是阅卷人因素。如果同一份卷子由不同阅卷人阅卷所得分数区别较大,或是由同一个人在不同时间阅卷所得分数区别较大,这项考试的阅卷人信度显然不高。因为客观测试的评分不太受阅卷人的影响,因此信度较高;而主观测试那么由于评分常常在较大程度上因阅卷人而异,因此难以到达较高的信度。一次好的测试应该既有较高的信度又有较高的效度。效度和信度有着密切的关系,但又不能混淆起来。对测试来说,信度是必不可少的,但信度离不开效度,效度起决定性作用。如果一份试卷信度差,那么必然不可能准确测试出学生对所考查知识和技能的掌握程度,因此效度也差;但一套卷子却有可能完全没有测出想要测的语言要素和技能〔即效度差〕,却有不错的信度,不过这样的试卷同样也起不到应起的作用。归纳起来,信度差那么效度差,但效度差不一定信度差。不过只有信度和效度都不错,测试才能真正起到应起的作用。 测试的总体设计 英语试卷的设计是一件很复杂的工作,尤其是对一些大型的考试来说,需要涉及很多方面,必须要有一个专门的小组,既要有懂考务的行政人员,又要有懂统计分析的专业人员和懂英语测试理论的专业人员。即使是一些小规模的测试,也需要教师本身懂得整个测试的设计流程及要求。10 在进行总体设计时,首先要确定考试的类别和目的。如上文所述,考试因目的和用途的不同而会有不同的类型。考试的目的不同,试卷的内容、要求也不一样。在确定考试的类别之后,紧接着就要确定考试的内容。成绩测试的内容是由教学大纲规定的。一般来讲,教学大纲不仅规定了教学的内容,同时也规定了教学目标,即学生除了要掌握规定的教学内容之外,还应到达相应的行为目标和能力层次。在确定测试目的和内容的根底上,还要确定考试所使用的题型。一个考试到底应该采用那些题型,要看考试的类型、目标和要求。题型选择的好坏会直接影响到学生语言能力的测量。 考试的类型、内容和题型确定之后,下一步就是安排试卷的总体结构,确定不同类型的题型在整体中所占的比重。语言测试界多年来存在着这么两种观点。以Oller(1979,1983〕等人为代表的整体语言能力观认为,“语言能力可以归结为由这样一个期待语法生成系统组成,而这一系统又是一个不可分割的整体。……语言水平的设想也许更像粘性物质而不像一部现成的可以被拆成部件的机器。〞他认为,“把英语作为第二语言的教学中,把听。说、读、写活动别离开来,不仅是无意义的,而且是有害的。〞同样,在英语测试中,按照整体语言能力的观点,只需要设计出一种能衡量考生整体水平的试卷就够了。然而,不少学者认为语言能力是可分的。Palmer和Bachman〔1981〕的研究说明,“两种语言使用技能一口语和阅读,既在方向〔输人和输出〕又在途径〔听与读〕方面不同,在心理上也有明显区别,可以被单独地衡量〞。Hughes和Woods〔1981〕的研究也证明语言能力整体说是站不住脚的。既然语言能力可分,那么语音知识、词汇知识、语法知识可以分开来教,听、说、读、写等语言技能也可分开来进行操练。同样,语言知识和语言技能也可分开来进行测试,然后再综合评定一个人语言能力的上下。事实上,许多的英语测试也都是这样做的。需要指出的是,尽管语言能力可以划分为具体的语言知识和语言技能,但它们之间不是孤立的,而是相互联系的,是整体语言能力的一个组成局部。具体的语言能力提高了,整体语言能力自然也跟着提高。整体语言能力是看不见、摸不到的,我们必须借助各项具体语言能力来推断整体语言能力。既然语言能力可分,接下来我们就可以根据考生水平、考试的目的、规模、时间长短等来确定试卷各个局部的内容及其所占的比重。比重确实定不是一个很简单的问题。首先,要确定试卷各局部的比例;其次是研究每一局部有多少题目才能保证测试起码的效度;第三,题目数确定了,还要看考试时间是不是够。所以说,试卷的设计,必须要通盘考虑。下面我们分析一些试题的总体结构。某次中学英语水平调查测试中,初三和高三试卷的总体设计和分数分配如下: