前言:本站为你精心整理了毕业论文高考语文测试理念缺失探析范文,希望能为你的创作提供参考价值,我们的客服老师可以帮助你提供个性化的参考范文,欢迎咨询。
一.从一些统计和调查谈起
(1)教师评定(前20名左右)与高考成绩相关性统计(拟作)
(笔者以为教师的评定应该是一个较好的效标,美国的很多大型关联效度调查都以老师对学生一年以上的观察作为效标)。语文应该最差。
(2)学生成绩波动性调查。(拟作)
语文的波动性肯定最大。
(3)对中学语文教师的调查采访(拟作)
对语文高考命题科学性的认识采访一些参加过高考阅卷的老师(评卷误差)
并调查中学语文教师的处境
(4)对大一新生的调查(拟作)
(主要就高考各科命题的效度进行调查。先给学生一个通俗易懂的“效度”定义---能测量出你真实水平的程度。然后让他们回答诸如此类的问题:请你按照效度水平给高考各科排序;按成绩波动性排序.)
(5)高考成绩与大学成绩相关调查:
语文“高考成绩与大学成绩相关极低”,说明语文“高考的预测性很差,作为一种选拔性测验现行高考是不成功的”(转引自北师大心理系高考研究组《改革高考,更加准确有效地选拔人才》第83和89页)(再查出处)
(6)历年的高考抽样统计结果
已有93、97、98(在自抄的信纸上)、2000(在小笔记本上)、2002年的,无论信度效度(好像没有公布)标准差(反映考生成绩离散程度,即试卷的区分功能,在150分的试卷中标准差20分以上说明离散程度较好。),还是成绩的正态分布曲线,语文都基本上是最不理想的,而且和其他科(尤其英语和理科各科)相去甚远(语言测试略低一些可以理解,低得太多,就需反思)。
官方对于低信度的解释往往是:语文属于异质性测试(国内的确也作过一些这方面的调查).我们不禁要问:为何国外的语文测试信度比我们高得多呢?为何高考英语试卷的信度往往是各科中最高的呢?再者,我们用来作异质性调查研究的试题其命题和批阅质量(尤其作文批改的误差控制)有足够的担保吗?
而且,我国每年的高考抽样统计公布都缺少最重要的一项统计指标:效度.(效度测起来的确更复杂更麻烦,但并非“没有数学方法,只能靠定性分析”.分析请参照后面的“实践性缺失”一章.)
“信度比效度更容易证明,所以附在测验一起的技术说明通常只报告信度数据。测验发表者打算通过显示信度而暗示其效度。这种做法不好,它只是做了一半的工作。”(出自小笔记本-书名作者待查)
另外,许多知名专家学者不止一次对语文高考测试提出了严厉的批评:
"我读了,非常吃力,首先是弄懂题目要求就费了极大的劲,有的至今也没有弄得太清楚……"(钱理群评1998年高考试题)
"语文综合能力强的学生在高考中反而得不到高分"(待查)
钱梦龙也指出:现在的语文考试测不出学生的真实水平.
顾德希:“从十几年来我所教的高三学生来看,每年总有不少于四分之一的学生,语文高考成绩与平时成绩存在较大反差.尽管这比十几年前已是不小的进步(以前误差更大),但问题仍然是严重的。”(<<中国考试>>2002年第三期<<学科能力等级研究与素质教育>>)
“现在优生得分不高差生得分不低的现象越来越突出…学生的积极性受到了严重打击。”(李群、张中环《关键是怎样操作》《中学语文教学》2003,6)…
每一个理智的语文工作者应当承认,我们的语文高考存在着很大的问题,其信度和效度离语言测试科学化的要求尚有很大差距,迫切需要改革.
笔者于高中语文教学一线工作九年有余,深感执教的困惑和艰难。我对于高考语文测试最大的不解在于:学生高考成绩与其平时成绩和能力(老师对自己起码一半左右的学生还是十分了解的)严重不符-其程度远远超过其他各科,波动幅度之大,范围之广怵目惊心。
反思是枚苦涩的果子,也是语文界同仁不得不品尝的果子。大发牢骚没有用,怨天尤人没有用,摆出一幅任人宰割的架式只会使问题更加严重。我们应当首先虚心听取别人的批评,然后静下心来,仔细调查研究,实事求是地分析,进而拿出改进措施。
令人遗憾的是,五六年过去了,批斗余音犹在,认真的反思,尤其是业内人士的脚踏实地的分析研究寥若晨星,高考测试问题依旧。
笔者不敢称内行,仅凭自己的一些体验和调查,试图对高考测试信度和效度不高的原因作些反思。笔者以为,之所以出现这么严重的问题,肯定与命题指导思想上的缺失,制度建设不完善,很多工作环节欠科学有关。
传统偏见、习惯势力、既定的规范、固有的理论、盲从的心理,把我们禁锢在狭小的天地里。本文主要就命题指导思想方面作些探讨.
二.测试指导思想方面存在的问题
以我看来,主要有以下几个方面:
(一)过于相信经验,测试理论欠缺
我国的高考带有浓厚的“行政”色彩,命题人员普遍缺少足够的系统的科学测试知识,或是不大买测试理论的帐;测试理论专家往往对语言学科的特点又不是非常熟悉.他们依靠的主要是经验.
譬如,试题命制完成后的预测分析,各种标准化测试量表的研制(量化研究不可或缺的工具,其严谨的编制程序与信效度检验,使测量的品质得以确保--邱皓政《社会与行为科学的量化研究与统计分析》五南图书出版公司2000,8第一版)以及考试完成后成绩的统计分析和解释(“西方发达国家十分重视考试成绩的研究开发利用。如,美国每年对大学入学考试成绩的统计分析就达几十种甚至上百种信息资料,然后将其分送给考生毕业中学和政府有关部门,作为中学教育教学和政府制定相关政策的参考。”(马文卿刘文超著《中国高考走向》山东人民出版社2002,3,一版,121~122页)),这些环节都十分欠缺.这就使得我们很难有效地控制试题的各项指标,不能及时的吸取往年的教训并迅速的作出调整.我们的高考改革步伐缓慢,试题多少年难以改变模样,与此有直接关系.
“我国高考工作者由于缺少教育测量学的理论与技巧,主要凭经验进行工作,在试卷编制上一般只有初步的编制计划及按这初步计划编写试题的简单步骤,试卷初步编成后,不经预测和数量化分析,只由编制人员根据经验作一些主观的讨论、审核,即交付使用.致使试卷编制者本身对他的各项指标心中无数,造成历年来高考难度波动很大,甚至还有出错题目或出题不当的情况发生.”(北京师范大学心理系高考研究组《改革高考更加准确有效的选拔人才》)(出处再查)
实行了十几年的高考标准化考试竟然仍采用老掉牙的原始分相加的方法来计分,说明我们的测试理论是多么的欠缺.“很多实行了标准分制度的六七个省份已经取消(山东省于2001年取消)或正在取消,据说原因仅仅在于某些领导欠缺基本的测试知识.”(马文卿刘文超著《中国高考走向》山东人民出版社2002,3,一版,32页)“症结主要有两个,一是统计测量理论没有为高层决策者所熟悉;二是大众对其陌生排斥。”(马文卿刘文超著《中国高考走向》山东人民出版社2002,3,一版,118页)
国际上的语言测试早已发展到第三个阶段--“交际测试”(communicativetesting)阶段,而我国的语文高考测试仍停留在第二阶段--心理计量-结构主义测试(psychometric-structuralisttesting)的初期,仍然在围绕着“要不要选择题”“语文测试要不要精确量化”等本已无需再争辩的问题纠缠不休.
“交际测试”以完形填空、短文听写等题型为典型特征,强调语境中运用,侧重考查学生运用语言的灵活性,对能力认识更为全面深刻。而我国的语言测试在这点上几乎为空白.
“高扬科学的大旗,…走出行政性评价的窠臼.…评价方式上力求创新,走科学评价的道路,既要做到伦理的善,更要做到逻辑的真和形式的美.”(孔祥沛《浅论传统文化对我国教育评价制度的影响》《教育科学研究》年月待查)
(二)重书面表达轻听说阅读
中国古代相对封闭的社会实际以及重人文轻科学的传统,此外还有“以文取士”科举制度的影响,使得“写文章”得到了高得不能再高的社会地位,所谓“天子重英豪,文章授尔曹”,而“听说”“阅读”却被大大的冷落了。此种偏差时至今日依然相当严重,并在语文高考上体现出来。
高考试卷中一篇作文几乎占据半壁江山(60/150),而意义非常的听说测试始终不能提上议事日程。(我们的高考第二语言听说测试早已起步,而且也积累起了不少经验)
这种偏颇的测试方式,远远不能满足现代信息社会的需求.在现今社会,“听”“说”“读”“写”四种语言活动中,“写”的地位应该是最低的,前三者的重要性远远超过后者.“据专家研究,听说在一生的语言活动中占到75%,而读写只占25%.”(吴昌顺<<语文教学需要科学化>>,出自<<中学语文教学>>2000年第九期)
而传统观念里,“读”也是从属于“写”的:“中国以前所谓‘读写结合’只不过是把读物作为写作的样本,作为一种仿效的对象.所谓的‘读’,只是揣摩作者是如何‘写’的.阅读教学,也只是把教材作为一种写作的模式加以分析,以便对写作有所裨益.这种观念,实质上是以写作为中心,阅读不过是写作的附庸.”(章熊<<中国当写作作与阅读测试>>四川教育出版社2000,10第二版47页)
国外多数国家的语言测试则不然,其比例很注意和社会的需求相吻合.听说测试受到高度重视,而且很多国家也举办的非常成功.此外,阅读测试在书面语言测试中的分量也远远超过写作测试.以美国的SAT(相当于我国的高考)为例,其阅读领会能力的考查占总分的51%,阅读短文为五篇(以前为六篇),字数约为2500~3000字;而我国高考阅读领会短文大致为两三篇,字数约为1000~1500字,分数比例也低得多。我国高考各科中试题命制科学性最高(有统计数据为证)社会信誉最好的英语科试题阅读的短文数量达七篇左右,占总分一半还多。
而且,现今写作能力测试模式迫切需要改革的最重要的理由是:它是导致语文高考信效度不高的罪魁祸首。原因很简单:我们的作文评阅虽经不断改进,但主观误差始终得不到有效控制。
“九十年代初,有关部门曾经连续做过几年研究,结果表明高考语文试卷中的主观性试题(主要是作文)误差达到总分的40%,尽管我们采取了多种方法(制定作文评分量表,计算机监控评分等)…但误差仍然较大。”(张伟明《高考语文科考试内容与形式的改革》《中国考试》1999,1期)
作文的评分误差巨大是个不争的事实,很多的调查早已给出了骇人的评分差距.但笔者认为,在大规模考试中,误差还要大得多,因为这里面有个“动机效应是值得注意的。黄煜烽等人的研究中曾经让一位教师在不到一年的时间里两次批阅同一篇作文。第二次批改时,作文前加上‘组织教师批改这篇作文的目的旨在测试语文教师对学生作文水平的鉴定水平,以此作为衡量教师批改作文能力的指标’这样一段话作为动机暗示。结果,第一次评85分,第二次评72分,相差13分;第一次的评语是‘文章结构完整,用词恰当,注意了旁征博引,语言老练、简明’第二次的评语是‘本文结构欠严谨和完整,观点和材料不尽统一,语言上也有毛病’,从肯定变成了否定,截然相反。”(章熊<<中国当写作作与阅读测试>>四川教育出版社2000,10第二版69页)
高考阅卷很大程度上还带有大锅饭性质,监督不严,建立老师评卷档案等工作几乎为空白,阅卷老师的认真度是有限的;而应付调查时,作为调查对象,因为特别在意调查结果对自己造成的影响,必然慎之又慎,再加上调查时的劳动强度也无法和高考这类大规模考试相提并论。
高考作文评阅存在的主要问题是:
(1)投入少时间短,导致劳动强度大
时间过长会增大误差,但太短更会草菅人命.由于时间太短作文批改打保险分的现象非常严重
“《南方周末》曾对高考阅卷作过报道:近30万份作文,规定180位老师在10天内改完,除去每天高温休息一小时,其余七小时不喝水不上厕所不与人说话,在每篇作文上也只能停留70秒。”(李群、张中环《关键是怎样操作》《中学语文教学》2003,6)
“集中全日阅卷,根据各试验省份的经验,以日平均90份左右为宜”(章熊<<中国当写作作与阅读测试>>四川教育出版社2000,10第二版265页),实际的批阅数量若干倍于此.
(2)趋中主义
.评分既不高也不低,高度集中在中部偏上的狭小区间内,既能够保证阅卷速度,又不容易让复查人员抓住把柄.
“据江西戴海崎、曹绍游就1987年高考试卷随机抽取的2700人样本统计,二类卷和三类卷占总数的86%,一类卷和五类卷合起来仅占6.6%,四类卷占7.4%,成峰值极高的偏态分布…产生的原因大约有两个:一是‘打保险分’,二是连续作战统一疲劳,反应的灵敏度降低,区分能力减弱.、据江西省1990年高考阅卷7月13日、14日和十六日三天的抽样统计(样本数一千左右),平均分从22.69分(满分40分)上升为24.33分,标准差则从7.67降为5.97,说明分数的离散程度越来越小,趋中倾向越来越严重。”(章熊<<中国当写作作与阅读测试>>四川教育出版社2000,10第二版67~68页)
(3)思维定势:
由于阅卷强度过大,所以文章的书写、篇幅、谋篇(开头结尾的安排受到格外重视)等外在因素很大程度上决定了考生的得分。主要由这些因素构成的第一印象一旦确立,就很难再改变.
(4)责任心差
很大原因归咎于制度不全监督不力.这儿既有阅卷老师的责任心问题,也有复查领导的责任心问题.
“有的阅卷的研究生经常迟到早退,‘一位女博士戴着随身听,一边听音乐一边改卷’;‘一高校的副研究员不知为什么年年来阅卷,它改作文判分一半有误,有一次查他改的三篇作文,总误差竟达三十多分’;一位老师30份作文错判十分以上的有三份(那一年是40分的大作文)…有一本30份的作文几乎全是42和43两个分数。有个组长表扬一个青年教师,说他一天改了二十多本作文…复查能挽救几个人呢…每次阅卷结束时,心里都很沉重。”(李群、张中环《关键是怎样操作》《中学语文教学》2003,6)
目前的高考写作测试模式必须改革,而且,此改革是切实可行的。国外的成功经验早已证明了这一点.
改革的方向当然首先是增加听说测试;其次,是改变大作文占分过多的局面,途径又有二:(1)大作文题转化为小型作文题(有两个小作文的语文试卷信度效度明显高于一个大作文题的试卷)和各种灵活的主观题(2)使用客观题来考查写作能力.
围绕是否继续使用选择题的争论,尤其是对使用选择题来考查写作能力的争议.美国最大的考试研究机构教育测验服务中心(ETS),从1954年起进行了长达三年的试验研究。考试的有效性标准是语文教师对学生作文水平一年或一年以上的观察结论。结论是:SAT(学习能力倾向测验,主要是客观题)的效度最高,与语文教师基于长期观察对学生写作能力作出的主观评价最一致;其次是由客观性试题组成的ECT(英文写作水平考试,全为选择题),最差的是由作文题目组成的GCT(普通写作测验,两个小时的作文考试)。(D.Owen:Noneoftheabove,Rowman&LittlefieldPublishers,INC,Lanham,1999,27~29页)“正是基于这样的研究,才使其后的40年中客观性选择题成为美国语言能力测试的主要题型.”(谢小庆《谈语言能力的考查》《中学语文教学》2003,6)
有人质疑:现在的国际趋势是增大主观题的数量,特别是增大作文的分量,咱们怎么能逆国际潮流而动呢?这儿有一个前提,国外主观题的评分比我们更有保障。尤其是国外作文量化水平较高,评分的客观化程度较高.(电子记分员的启用明显提高了打分的客观性)
“美国长期使用选择题,出现了‘高分低能’的现象,转而求助于主观性试题.我们始终主要采用主观性试题,结果导致了更加严重的‘高分低能’,这不能不引起我们的深思.”(于新凤《考试学引论》辽宁人民出版社)
由此看来,题型的选择未必是测试中最重要的因素.相对而言,试题的命制水平、施测的标准化水平和客观化水平应该是更重要的因素.
还有人说汉语和英语等语言不同.的确,我们承认汉语的弹性张力模糊性是更强,但我们同时认为:同为语言,汉语和其他语言没有质的差别,夸大这一点就缺少了最起码的科学态度;而且,作为量化集中体现的测试,更不宜在模糊性上大做文章,那样只能使得试题变得更加玄乎其玄.
有人担心,降低大作文的分值势必影响中学作文的教学.当然,这种担心不无道理,但审视现在的中学作文教学,我们不仅充满了疑惑:(1)我们的应试作文都训练了些什么呢?很多中学将主要的精力都放在了‘新八股’的制造上了,形式主义泛滥,作文教学日益走向死胡同。“‘三个一’工程”(即写一手好字,拟一个好题目,起一个貌似不俗的开头)长期以来风靡全国很多地区,一点也不令人感到奇怪.(2)看看我们学生的作文就知道我们投入了那么多精力大搞特搞的作文训练究竟有多大成效.以笔者看来,灵活多样的写作能力测试方式(通过听说测试、各种类型的主客观题)对中学教学的引导作用或许更好.
总之,提高作文测试信度效度的途径主要有二:(1)加快主观题(尤其作文)评分的客观化进程(制定科学的评分量表;尝试无纸化评阅-广西在这方面已有较为成功的尝试;启用电子阅卷员等等)(2)主观题型的客观化
而且,就我国的实际情况而言,后者可能是近期内比较可行的办法.
(三)实践性缺失
前面曾提到语言测试理论的欠缺,实际上,相对测试理论而言,我们的高考更欠缺的是实践性.
我国传统重主观体验,轻客观实证,加上“官本位”和“大一统”思想的影响,我们的测试向来不大善于从实际出发,思维行事从来就是一种“自上而下”式的,上层的官员专家多凭自己的学识和对下面有限的了解,想当然的组织测试。
“‘德性’文化传统使得评价更多的是一种人文主义的评价模式,过分强调了评价的民主性和伦理性,而忽视了评价以客观事实为基础的原则.”(孔祥沛《浅论传统文化对我国教育评价制度的影响》《教育科学研究》年月待查)
我国政府及团体组织的大规模实际调查与国外相比少得可怜.我们的借口总是很多,但我看主要原因是惰于实践,譬如,关联效度的调查研究,我们的借口总是效标难以确定.实际的原因是懒于尝试,怕麻烦,不敢直面现实改革.美国的很多大型关联效度调查都以老师对学生一年以上的观察作为效标.笔者也觉得,将教师综合评估的一部分学生的平时成绩(比如说每班选二三十名,最少基于一年以上的观察)作为效标,来衡量高考成绩的有效性,可能是个不错的参照标准。可惜没有人深入做调查,偶尔有人尝试,要么浅尝辄止,轻率结论;要么阻力重重,不得不放弃.(在我国,民间性质的调查由于种种原因更是难上加难)
1.试题内容和测试方法忽略学生实际
(1)对课本的彻底抛弃
在我国目前这种‘一考定乾坤’的人才选拔制度下,彻底不考课本,只会导致抛弃课本;无本可依、见效缓慢(再加上成绩偶然性大),只会导致放弃语文学习.
多年来高考命题在内容选择上有一个指导原则:所选材料应主要来自课外,以测试考生运用已知知识来解决未知问题的能力。应当说这一原则是对的,但笔者认为近些年的高考命题在这一点上做得有些绝对,一定程度上忽略了中国的国情。“主要”不是“不出”,近十几年的题目几乎杜绝了课本上的内容。这导致了高中生不愿意上语文课,不重视语文课文学习的现状。
笔者想提醒命题者的是:语文考试不应完全模仿数学类考试--定理公式是课内的,题目完全是课外的。(这样,只要学生学好了课本,就能考出好成绩.语文呢?课本对于考试的作用微乎其微,学与不学差不多.)语言的学习毕竟有它自己的一些特点,譬如说,名言佳篇的背诵默写就完全是考查学生的记忆情况,这往往是语言学习和语言测试所必不可少的。
语文学科平时的教与学缺乏一个有效的抓手和平台,由此导致语文课本使用的困惑和混乱.(有些学校甚至用一年的时间就能完成三年的任务)
语文是应该更开放更灵活,但目前的国情是:大学尚不能普及,大学入学选拔只依靠仅有的一次考试,全国各地发展状况极不平衡,高考竞争依然激烈;此外,语文高考测试科学化水平较低,学生成绩波动太大太经常.鉴于此,掌握好试题的开放度和灵活度就显得尤其重要.否则,学生必然会将语文学习时间转向其他学科.
并非只有考课外才能有效地区分学生。课内知识一定比例讲究方式的考查,不仅能够在一定程度上解决中学语文无本可依的尴尬,而且照样能够测出学生的真实水平.举个例子,考成语,完全可以从中学语文课本内部出些题目,选学生学过的常用词语的常用义项,改变语境,进行考查.
(2)远离学生实际
高考语文测试,既不能离开语文学科的特点,也不能脱离高中学生的实际--政治、科技、文化类已有的学科基础知识以及他们生理心理的发育状况.
我们的高考命题却常常忽略这一点,存在着较为严重的“专业化”“成人化”倾向
很多现代文阅读题内容具有明显的专业化倾向--古文化探源、诗的哲理、基本粒子中的中微子、智力结构模式、应激激素和迷走神经等等,离学生的生活太远.
科技短文考查力度的确应该加大,这符合现代社会的需求.但有一点必须要搞清楚:我们必须在平时的教材里和学生的生活中,补充大量的科技时文,有了这个铺垫,学生在考试时就不会感觉到突兀.然而,我们中学的教材编排和教学活动,在这一点上做得很不够.“国内教材忽视现代科技时文不能不说是个遗憾.而国外更加注重从现代社会的实际需要出发选文,以培养学生的现代科技意识,增长学生的现代科技知识,增强学生对现代社会的适应能力…他们的选材内容十分广泛,几乎涵盖了生活的各个方面-报刊新闻,规章条文,科技说明文,推理小说,科幻小说都进入教材.例如法国有一套语文阅读教材,每册十几个单元都有个中心主题,其中包括‘现代生活’‘科学技术’‘时代问题’等等.而国内仅有的说明文大多是些实体说明文,涉及现代科技的是少之又少.”(张承明《中外语文教育比较研究》云南教育出版社2000,10第一版)
此外,很多阅读文段的文字表达和中学生的实际生活距离遥远.“以往往往选择二三十年代的文章,这些文章在词语的用法上与现代人有些差别,文章中的一些背景知识学生不了解,这就增加了学生答题的难度”(张伟明《再谈语文到底考什么》《语文教学通讯》1999,2)
“前几年高考中出现的成语误用和病句,材料大多来自报刊杂志,应该说他们是专业编辑人员认可或通过的东西,虽有不当之处,但很隐蔽,一般人看不出来,而且也不十分影响表达,有的则完全是大学中文系语法教材里面的例子,拿这些东西来考涉世未深的高中生是勉为其难的…决不是要所有的学生都成为语言学家或语法学家.”(《语文教学通讯》2001,22期,盛华明《让语文考试更贴近实际》)
作文命题“政治化”“成人化”等倾向,无意中加重了学生“说假话”“空洞无物”的弊病,从而又在一定程度上降低了作文的区分度(都觉无话可说,都撒谎瞎编).试看下面一些题目:“毁树容易种树难”“致光明日报编辑部的信”(关于环境污染问题)“树木·森林·气候”“议论‘花与刺’”(关于辩证的看待事物)“‘近墨者黑’或‘近墨者未必黑’”“先天下之忧而忧,后天下之乐而乐”“看‘截肢’漫画写感受”(关于责任心问题)“读材料‘红雨衣踢碎玻璃罐’写感受”(关于社会公德心)“坚韧-我追求的品格”“诚信”“心灵的选择”…
我们的高考作文承载了多少“政治教育”“道德说教”的重任,承载了多少成年人对于年轻人的良苦用心!
然而,这些用意到底能产生多少实际效果,有谁做过实际的调查研究呢?
看一看我们的孩子们作文时苦思冥想来适应成年人思路的痛苦模样,看一看高考作文试卷上几乎千篇一律的翻来覆去重复着的空话和为了赢得高分编造出来的一个个‘凄惨’的故事,看一看孩子们“谈作文色变”避之唯恐不及的神情…
我们为什么不去反思自身的问题,而是一味的批评孩子们没有实际生活感受,写作能力差呢?
2.命题对阅卷执行实际缺乏足够考虑
我们的阅卷情况很不理想,这是个不争的事实.要提高命题的科学性就必须充分考虑这一点.
从理论上讲,主观题相对客观题目应该具有更高的效度,但从批阅实际角度来看则不然.既然高考试卷的首要职责是区分选拔学生,那么我们为何反而忘记了根本而去追求表面的科学呢?
关于作文的问题及改革方案,请参照上文.
3.制定的作文评分标准缺乏可操作性.
我们制定的作文评分标准貌似科学,很难落实,以至于阅卷老师们试批时或批阅之初,还按评分标准打分.之后很快就又回归到打一个囫囵的总分的老路上去了.批阅时间短,劳动强度大,制定的标准形同虚设.
4.阅卷教师的选拔标准缺少实践调查的支持,多凭想当然.
我们缺乏科学严格阅卷老师资格审查制度.
“1991和1992年,河南省招办和河南大学教育系、中文系联合对高考阅卷人员的组成问题进行了大规模的调查,结果出乎一般人预料,也是令人深思的。结论是:高校教师、职称高的老师、年龄大的老师评分误差明显大于中学教师、职称低的老师、年龄小的老师。”(章熊<<中国当写作作与阅读测试>>四川教育出版社2000,10第二版70~72页)
由此可见,我们平时想当然的观念里面潜藏着多少主观臆想的成分,我们的行动多么缺少实际调查的支持!而现在很多省份的高考阅卷仍然主要由一所大学承包(阅卷老师主要由大学老师及一些硕士生和博士生组成)的事实,说明了我们的有关部门是多么不重视此类的调查研究(此后没再做类似的调查研究),改革是多么的困难!
(四)“数量”观念匮乏
国人向来重主观体验轻理性实证,重定性分析,轻定量研究,语文因而长期停留在一种“运用之妙,存乎一心”的扑朔迷离的状态。语文的量化水平低下,语文效率很不理想.
叶老在20世纪80年代初就曾呼吁,对学生语文方面的能力“必须达到什么程度”,进行认真的调查研究,从而“形成一个周密的体系”.可惜的是,这种心中无数的状况至今没有多大改变.
无论是教学大纲,还是考试说明,都十分缺乏量的规定.教者只能凭感觉,凭大致的把握.这样的教学也能培养少数的语文精英,却绝不适合大批量的生产――我们中学语文教育的目的在于培养大批量的具有合格的听说读写能力的现代青年,而不在于培养少数的语文精英.
“效率”是现代社会的重要特征,“量化”是“规模效益”之必需,无“规模效益”何谈高效率?
自人类社会进入信息时代以后,科技的发展更加日新月异,人们生活的节奏越来越快,办事效率也越来越高--需要更快的处理更多的信息(尤其是高速膨胀的科技信息).语言的学习运用以及测试理应紧跟时展的步伐.我们祖上传下来的语言学习和运用上的“体悟症”“探究癖”理应遭到信息化社会的唾弃.处理语言信息的敏捷性和灵活性应该是语言测试的一个极其重要的目标.
顾德希说:“母语教学如何适应现代化的问题一直没有解决”
“数量”这个概念,在语文界乃至我们整个社会都十分缺乏.鉴于此,有必要再重新认识几个概念.
1.再谈“量”“量化”
唯物辩证法告诉我们,“质”是一事物成为它自身并区别另一事物的内在规定性,“量”是表示事物存在的规模、程度、速度以及构成事物要素在空间中的排列组合等的数量的规定性.任何事物都是质和量的统一.质是具有一定量的质,量也总是一定质的量,一定事物的值总以一定的量来表现,世界上不能量化的质是不存在的.因此,只有既作定性分析,又作定量分析,才能正确认识事物.
按一般规律,社会科学的研究由定性到定量再到二者结合,是学科成熟的表现,是其科学化的表现.
“量化,简单的说就是要数字化,即用数字说明问题.它具有客观性,准确性,广泛性(建立在大量抽样统计的基础上,远胜于个案分析),深刻性(描述和解释是基础的,预测和控制才是科学研究的最高目标,这些都要借助于量化),普及性”(佟庆伟等著《教育科研中的量化方法》)
量化标志着分析方法的科学水平,其主要功能是实证.而且,量化研究早已成为当代社会与行为科学的强势典范
“人类追求知识的活动,逐渐从启蒙运动之后的唯心传统,配合19世纪末数学与逻辑的发展,走上一条量化、实证、非历史、非心理的科学实证典范.以数学为基础的符号逻辑思考体系,取代了亚里斯多德以来的形式逻辑概念,发展出以量化研究为主轴的科学研究典范.…实证主义下的符号逻辑思考体系,仍是当代科学研究的主流思想,量化研究仍是学术训练的主要研究方法.”(邱皓政《社会与行为科学的量化研究与统计分析》五南图书出版公司2000,8第一版)
桑代克和麦柯尔有两句名言:“凡是客观存在的事物都有其数量”“凡是有数量的事物都可以测量”(转引自范伟达《现代社会研究方法》复旦大学出版社)有些事物现在不能量化,只能说明量化的水平还不够,将来某一天肯定能量化.
“马克思说:一门科学只有成功的运用了数学时,才算真正成为科学.”(孙建军等著《定量分析方法》南京大学出版社2002,9第一版,第三页)
“科学的本质是数”(笛卡尔)“宇宙这本书是用数学语言写成的,没有它们,人就在一个黑暗的的迷宫里劳而无功的游荡着.”(伽利略)(转引自郭俊义《广义量化引论》江西高校出版社91,9第一版)
“缺乏数字处理技巧和文盲一样,将被这个社会抛弃.透过复杂琐碎的数字抓住问题本质的技巧,将鼎力助您作出英明决策.”〖(英)约翰·鲍威尔著《定量决策分析》李洁、林毓铭等译上海远东出版社1998,8第一版第一页〗
不重视量化是小生产者的狭隘眼光和传统观念.
孟子说“权然后知轻重,度然后知长短。”(转引自范伟达《现代社会研究方法》复旦大学出版社)“考试既然是对人的知识与能力的测量,就必须用数量表示它的结果,有考试就有统计分析,甚至可以说,考试就是经过测量所作的统计分析。”
2.我们的高考语文测试特别欠缺“数量”“效率”观念
(1)考试题量有限,不重视对学生反应敏捷性的考查.
一般的来讲,试卷长,覆盖面广,题目多,区分度高.题量小,覆盖面就小,这势必会增大考试结果的偶然性.
好的命题要兼顾质量和数量,一道题设计得再高明,也不能准确测出全体学生的真实水平.
此外,思维的敏捷性作为语文基本能力的重要组成部分,其重要性在现代社会越来越凸显.忽视这方面的考查,无疑是高考测试的一大失误.
“伊萨克(Eysenck)说:感知及其过程的速度,实际上是重要的高级认知技能.”〖(英国)阿美·戴维斯《语言测试学原理》任福昌、吴平等译,经济科学出版社1997,12第一版〗
先对中美语言测试的阅读量作一个比较:
美国的SAT(相当于我国的高考)言语部分特别注重阅读领会能力(占总分的51%),要求考生通过阅读获取新的信息回答有关问题。…就题量而言,新SAT言语部分的题量为78题,时限为75分钟,为我国高考语文的两倍。…我国高考阅读领会的短文大致为2~3篇,字数约为1000~1500字;新SAT阅读领会的短文为五篇,字数约为2500~3000字,再加上40个问题的题干,阅读量是我国的两倍多。旧SAT为六篇,阅读量更大。
再和高考英语试题比较一下.英语阅读大概有八篇(包括听力,阅读理解短文和完形填空等),其余语法、词汇等客观题的题量更为语文试题的若干倍,只是作文少了些.为何英语测试的效度和信度在各科中是名列前茅的呢?同是语言类学科,相去天壤,这难道不值得我们语文同仁反思吗?难道仅仅是因为英语在难度上要求低吗
以数量有限的试题来区分学生,必然会在题目的“质量”上下功夫,而这很容易导致“难”“偏”“怪”题泛滥.
遗憾的是,现在有很多人呼吁减少高考题的题量,以便让学生有充足的时间思考,更利于水平发挥.(笔者认为,再增加一个小时,也不见得有多少改观.病根在于试题难度过大,而不在于题量过大.)
(2)很多领域的数量指标严重欠缺,各种标准化的测验量表亟待完善.
譬如,词汇量表的制定.这应该是教学和测试中量化的基础一环.
特定领域中哪些词汇是最基本最常用的;词义中的哪个义项是常用的.这些情况都要借助大规模的统计分析来搞清楚.否则,对词汇量的科学考查便无从谈起.我们的高考词汇题目往往考查一些不大常用的偏僻词汇和偏僻义项来区分学生,这也是这些题目屡遭诟病的主要原因之一.而英语测试早已解决了这一问题.师生平时学习的目标很明确.考试所测也主要是平时所学词汇(当然也有少数超纲的).学生水平区分主要体现在反应的敏捷性、判断的准确性和运用语言的灵活性上.所以,英语的教学和测试就相对实在,好把握得多,师生的怨言也少得多.
再如阅读量表的制定.阅读能力可以从阅读速度、阅读材料难易度和阅读理解等方面来进行定性和定量分析.前二者是可以量化的.
国外对阅读速度的重视由来已久,也早已制定了非常完备的阅读速度量表.“世界范围内的快速阅读已从理论发展到实际训练阶段,最近20年里,法、美、英、前苏、日、巴西等国先后成立了全国性的阅读指导组织.速读是其指导的重要内容.”(祝新华《语文能力发展心理学》杭州大学出版社1993版)
国内的英语考试也早已制定了阅读速度的指标.(大学四级考试要求50w.p.m,六级70w.p.m)(查高考指标)
阅读材料易读度(readability)的计算公式国外也有很多种。例如Flesh公式:RE=206.84-0.85wl-1.02sl(RE为易读度指数wl为每100词音节数sl每句平均词数)(杨惠中《语言能力的分级测试》,《考试研究》2002年第一辑61页)我国的英语考试常用Flesh公式来计算阅读材料的难易度。易读度只有合于一定的范畴才能入选某种类型的试题。而我们的高考阅读考试说明只有类似“阅读‘浅易的…文章’”“阅读‘一般的…作品’”这样一些模糊的要求。
阅读理解主要属于定性分析。这一点国外也有很多成果值得我们借鉴。
此外,国外还有很多关于语言微技能的量化标准。
作文能力量化标准更是急需完善的一个项目。
譬如说,错别字、词语误用、病句,这些方面到底扣不扣分?达到几个开始扣分?扣多少分?这些一直都是糊涂帐。阅卷人员多是凭感觉来减分。然而,高温高强度下的感觉又有多少准确性可言呢?或许一篇不错的文章,因为题目是个病句就给枪毙了;或许无意中瞅见的一个非常反感的错别字(可能自己在教学中强调过几百次了),就使得阅卷老师的情绪一下子激愤起来,此作文因而失去多少分只有天知道。凡此种种,举不胜举。
当然,即使有了比较科学的量化标准,如果仍然采用人工高强度阅卷的话,这些标准仍然难以落到实处。所以,要使这些量化标准发挥作用,还得加快作文批阅的客观化进程,尤其要积极尝试计算机阅卷。这在上文已经探讨过。
美国的“托福”和GMAT写作评分中,共有“词汇使用、句子结构、文章组织、写作逻辑、修辞、论述条理、文章内容等诸多因素,统计了包括文章长度、平均词长度、平均句长度、词频率、句式结构、标点使用等在内的共60多种可以定量分析的指标…”(谢小庆《谈语言能力的考查》《中学语文教学》2003,6)
他们这些量化标准能得以很好的落实,主要在于启用了“电子评分员”。
3.令人遗憾和不解的是,时至今日,反对语文“量化”之声仍不绝于耳.
“追求语言水平的精确量化,或试图把人的语言能力发展划分出精细的等级,诸如此类的努力,其意义和价值都值得怀疑。”
“百年来,语文教学最大的失误是什么?是所谓‘科学化’--理性的分析研究,已经使语文这个生命体没有了生命的感觉。”
主要原因在于,一些传统的获取知识的方法在我国仍然很有市场,对各种定量分析方法缺乏足够的信心,同时也是过分相信充满人类智慧的文化知识不能简化为纯粹的数字的结果
.“Helmstadter(1970)指出:传统的获取知识的方法有(一)惯常法(themethodoftenacity):基于惯例、传统及先入为主的印象或观念,过去总是如此或天经地义之事,便认为是真实可信的。(二)权威法(themethodofauthority):权威的个人团体或典籍。(三)直觉法(themethodofintuition):人们的观念与知识诉诸于直观与直觉,人们相信自己的经验判断与知觉,从个人的顿悟与奇想中,发现新的想法与概念。(四)强调推理或推论的可靠性,认为只要推理或推论是对的,所得的结论便是真实或可信的。”(邱皓政《社会与行为科学的量化研究与统计分析》五南图书出版公司2000,8第一版)
我们承认,语文有很多模糊难以量化的地方(例如语文中的文化因素、情感因素等等),这样的地方就不妨先让它模糊着。但不可否认,有更多的地方是可以量化也必须要量化的,尤其是中小学领域里的基础知识和基本能力方面。
"我认为现在的中学语文教学和测评倒不是科学主义泛滥,而是科学主义严重不足"(顾德希《语文教学的病根》)
令人遗憾的是,我们的高考阅读量很少,测试方法还深深地打着传统的“体悟症”“探究癖”(悟文析法,一切为写作服务)的痕迹.阅读题目的设置玄玄乎乎,像摆迷魂阵.
“前几年的高考精读题目,任意挖壁打洞,圈圈点点,条条框框,搞得面目全非。选择项的设置差别微细,玄玄乎乎,云里雾里…我们不禁要问:我们是否是在培养老学究?人们平时的阅读是这个样子吗?”“1996的科技说明文阅读中的‘示范厂’‘小规模工厂’‘正式规模的工厂’‘小型厂’等概念,文章本身就表达不清,令人费解…选材欠当;97年科技文中的‘颅脑’和‘肠脑’,不用说中学生闻所未闻,就是生物老师和一般医务人员也不太清楚,用如此专业化的东西考学生实在太离谱”(《语文教学通讯》2001,22盛华明《让语文考试更贴近实际》)
“对效度威胁的因素之一:每个目标的项目太少。有时候一个成绩测验的是某种技能是否存在,而依靠的却只是一两个题目…”“一个工具需要的财力人力越多,那么如果它的信度是低的话,越是要慎重考虑是否采用。”(出自小笔记本-书名作者待查)
“我国学科成就考试偏重测量学科知识及其应用,例如,我国语文高考强调常识、语法、文章结构等等知识;美国的SAT言语部分则强调言语概念的把握、词汇量,重视概念之间的关系的揭示及逻辑推理(类推),特别注重阅读领会能力(占总分的51%),要求考生通过阅读获取新的信息回答有关问题。…就题量而言,新SAT言语部分的题量为78题,时限为75分钟,为我国高考语文的两倍。…我国高考阅读领会的短文大致为2~3篇,字数约为1000~1500字;新SAT阅读领会的短文为五篇,字数约为2500~3000字,再加上40个问题的题干,阅读量是我国的两倍多。旧SAT为六篇,阅读量更大。…我国高考适当降低知识难度,注重联系实际,加强思维的敏捷性和灵活性。…命题周期约为18个月,每年都要准备多套等值的测验试卷…先进的心理计量技术…其完善性是国际测量界所公认的。…其信度和效度均比较理想。…ETS的研究表明:完成四分之三试卷的考生比例一般都在95%以上。”
“正是基于这样的研究,才使其后的40年中客观性选择题成为美国语言能力测试的主要题型…从上世纪90年代开始,美国的语言考试逐渐开始了作文考试。伴随它出现的是借助计算机给作文评分的‘电子评分员’…用自然语言处理技术与信息撷取技术研究开发的一种主要基于语言特征分析之上的计算机程序,考虑了词汇使用、句子结构、文章组织、写作逻辑、修辞、论述条理、文章内容等诸多因素,统计了包括文章长度、平均词长度、平均句长度、词频率、句式结构、标点使用等在内的共60多种可以定量分析的指标…”(谢小庆《谈语言能力的考查》《中学语文教学》2003,6)
4.适当增加试题数量是增加考试信度效度的有效手段,这是测试学中被反复验证了的真理.
而加大题量的最好办法是多出选择题
选择题的良好品质早已在世界上得到公认,并早已确立了其在大规模语言考试中主要题型的地位,持续了半个多世纪未曾被动摇,为什么偏偏在我们国家得不到应有的重视呢?是由于汉语和其他语言有着本质的区别呢,还是由于我们批阅主观题的误差远比别人来的小而达到了较为理想的程度呢?
自1987年语文大批判开始至今,对于选择题的批评就从来没有停止过。虽经许多专家阐释纠正,仍未获得足够的信任。鉴于此,笔者想再就此说几点。
(1)选择题的“天然”优势特别适合我国国情
(2)其命制的科学性也亟待提高
选择题特别便于考查被试思维的敏捷性和准确的判断力。
笔者认为,客观题不仅不能取消,反而应适当加大题量.因为这种题型有其天然的"客观"优势,特别适合我国国情(主观题很难增大题量,而且批阅的主观误差太大,需更多的人力物力财力)
"在一份试卷中,这样的试题需要有一定数量。若只一道这样的题,就有四分之一"蒙对"的可能;若够一定数量,"蒙"就失去了意义,客观性就可得到保证”再说,“猜测”有时也是一种能力.国外的考试很多试卷上面就有鼓励猜测的提示语.
其实,客观性试题的优越性是多方面的:能根据考生的认知实际合理设置选项,使考查目的明确;避免受考生表达能力干扰而答题不准确;考查点更明确、单一;在大规模测试中能做到答案唯一,保证测试的权威性。大范围抽样检测发现,高质量客观性试题与主观性试题所获分值十分吻合。这说明客观性试题是完全可用的,片面地否定它就可能妨害高考。至于这类试题对教学可能产生的负面影响,应在教学中实事求是地加以解决。
当然,我们的选择题命题的科学性继续提高.当前亟待深入研究的课题是,如何克服汉语的模糊性,达到精确量化的目标,而不是什么取消选择题的问题。
"从学生考试的结果来看,这些客观题起到了积极作用。因为这比过去高考只考一篇作文出的"冤假错案"要少得多。我先后送走过近30个高三毕业班,对使用"客观题"与不使用"客观题"的结果做过反复对比。结论是:客观题出得好,头脑清楚的学生少受委屈;考主观题则要凭运气,主观题的成绩与学生实际水平有时出现极大反差。所以采用一定数量的客观题,有利于公平选拔,相对而言是对考生比较负责的做法。"
“况且,在没有引进客观题之前,语文教学的少慢差费早就长期存在。我们对客观题引进前后的语文教学质量根本没有足资凭信的对比,便断言一种命题方法能对语文教学起决定性作用,而且口诛笔伐,恐怕过分轻率了。"还有一些人批判选择题不过是为了赶世界反对科学主义的潮流。"(顾德希《语文教学的病根》)
美日高考全为客观题,法国主要考大题.(康乃美等著《中外考试制度比较研究》华中师范大学出版社2002年版)
“SAT是美国最具代表性的团体学术能力倾向测验之一,其功能相当于我国的高考。它以基本的言语能力为核心部分。它是一种预测性测验,注重测量与未来学习成功有关的能力测验时间短,题量大,对思维和反应的敏捷性与正确性要求较高。全部采取多选一的客观题方式。严格按照科学化标准化的程序编制并实施,具有较坚实的心理计量学基础。它这种学能测验和我们的学科测验只是处于同一测量连续体的不同位置。前者侧重依据校内外经验而发展起来的能力,后者侧重教学中发展的能力,前者可以为后者加强能力考查方面提供借鉴。它努力创设新的问题情境或采用新的材料,力求与中学课程及教材无直接联系。(1)各科均如此(2)体制和我们不一样,压力差别很大。”
现在该是结束争执的时候了.将精力放到…努力提高语文高考的科学化水平.
(一)试题难度过大,有“专家化”倾向,重学科知识的运用,轻基本能力的考查
想对于高考其他科目而言,与文科题目的“偏”“难”“怪”是早已出了名的.学生戏称考语文是"跟着感觉走"
这是高考语文遭受批评的焦点之一.
很多语文界专家(刘国正等)和作家(如王蒙),甚至不惜以身试法,以自己惨不忍睹的成绩(严格的按标准答案批阅基本不及格),向语文高考提出了强有力的质疑.
对此,有关考试官员和专家的解释却是:“对试题不熟悉”“没经过专门训练”“所操之术多异”…
这些托词虽含有一点道理在里面,但包含着更多的狡辩,缺乏起码的自我批评精神。我们不禁要问:连汉语专家都及不了格的试题其科学性又有几何?如此考试到底是为了考查学生的语文基本功,还是为了显示命题者的水平呢?
显然,我们对“语文基本功”的定位出了问题.我们缺少足够的水平来科学的提高试题的区分度
那么,到底应该如何来定位“语文基本功”呢?
“作为基础教育阶段的语文教育,对于绝大多数学生来说,无疑应注重语文基本能力的培养”(顾德希)(<<中国考试>>2002年第三期<<学科能力等级研究与素质教育>>)
“SAT是美国最具代表性的团体学术能力倾向测验之一,其功能相当于我国的高考。它以基本的言语能力为核心部分。它是一种预测性测验,注重测量与未来学习成功有关的能力测验时间短,题量大,对思维和反应的敏捷性与正确性要求较高。全部采取多选一的客观题方式。严格按照科学化标准化的程序编制并实施,具有较坚实的心理计量学基础。它这种学能测验和我们的学科测验只是处于同一测量连续体的不同位置。前者侧重依据校内外经验而发展起来的能力,后者侧重教学中发展的能力,前者可以为后者加强能力考查方面提供借鉴。它努力创设新的问题情境或采用新的材料,力求与中学课程及教材无直接联系。
美国的SAT(相当于我国的高考)言语部分则强调言语概念的把握、词汇量,重视概念之间的关系的揭示及逻辑推理(类推)
“美国明显重基本能力,轻基础知识考查,内容广泛,体裁灵活多样,知识覆盖面广,题量大.中日法则重知识掌握.”(康乃美等著《中外考试制度比较研究》华中师范大学出版社2002年版)
作文考查应大大降低对“艺术才能”(如想象力情感力感悟力形象思维力以及思维的创造性和批判性;高的格调境界)的要求,-略有体现足矣,毕竟高考的选拔是一种基础性选拔,这方面要求过高势必会扼杀大批具有其他专长的精英。确实有写作才华的学生可以通过其他渠道破格录取。
有很多科学家、政治家的文章,的确缺乏文采,但却有足够的魅力吸引人们。由此可见,解决作文能力等级量化问题,不能不在纬度上加以划分。
“作文教学尽管可以提倡文采,但显然不必以此为每个学生作文的划一尺度。能文采飞扬,固然值得鼓励;不能的,尽可在不同方面发展。文字清楚,意思明确,作为文学刊物用稿的尺度是不行的,但作为语文表达能力的一种基本要求,为什么就不值得大力提倡呢?”(顾德希《学科能力等级研究与素质教育》《中国考试》)
作文批阅是过于重格调,重境界,也扼杀了不少敢说真话,抒真情的性灵之作.
语文由于是母语,再加上高考属选拔性测试,所以考题必须有一定的难度,这是正确的。问题是如何来增加难度,是不是增加难度就一定意味着将题目搞的神秘兮兮呢
“我国学科成就考试偏重测量学科知识及其应用,例如,我国语文高考强调常识、语法、文章结构等等知识;美国的SAT言语部分则强调言语概念的把握、词汇量,重视概念之间的关系的揭示及逻辑推理(类推),特别注重阅读领会能力(占总分的51%),要求考生通过阅读获取新的信息回答有关问题。…就题量而言,新SAT言语部分的题量为78题,时限为75分钟,为我国高考语文的两倍。…我国高考阅读领会的短文大致为2~3篇,字数约为1000~1500字;新SAT阅读领会的短文为五篇,字数约为2500~3000字,再加上40个问题的题干,阅读量是我国的两倍多。旧SAT为六篇,阅读量更大。…我国高考适当降低知识难度,注重联系实际,加强思维的敏捷性和灵活性。…命题周期约为18个月,每年都要准备多套等值的测验试卷…先进的心理计量技术…其完善性是国际测量界所公认的。…其信度和效度均比较理想。…ETS的研究表明:完成四分之三试卷的考生比例一般都在95%以上。”
让我们选择几个题型,来具体的看看语文试题的难度有多大.
应该承认,把高考题卷上的多数题分别孤立地看,并无太大难度,但是,以整张试卷来看,难度是很大的。每年高考学生得分很少有上130分的(150分为满分),而外语考分上140分则不为少数;许多语文专家试做高考题也往往难以及格。语文专家刘国正先生有一次很认真地答了一张高考语文试卷,按标准答案,严格计算,结果只能达到70分。王蒙称自己很难及格.
深圳市红岭中学的胡立根老师曾作过一个数据统计,是关于91年到97年高考语音题目中部分汉字的使用频率的:
试题年份9193949495959697
汉字抔涔铤捭皈帙戕殄
85年字次10439567
使用度0.55.02.21.86.53.13.74
十科分布11235333
“使用度在10以下的字,是使用度极低的字…在7000通用汉字中,至少有6500个汉字的使用度超过了0.5。”(《语文学习》1999年第八期)
2000年识别错字题考了两个冷僻字“圜”“祯”,占总数的__分之一
前些年盛行的字音字义字形题,一道选择题目中考查36个知识点,且都是比较难的或者说报章杂志都经常错的,只要有一个点掌握不好,此题得分的可能性就和纯粹猜测差不多。如此测试能公平客观的评定、区分考生的实际水平层次吗?这儿仅举一个例子:
且看高考命题提高难度的手段1.合多为一法
如考卷第一题,要求辨别几个字的读音或字型或解释(有时一道题目包含上述三个方面)的正误,四个选择肢每肢至少包含四个知识点,这实际上是将很多道题合并到了一起.
2.避熟就生法.如考一些常用词语中相对不很常用的词语或熟词生义(附统计结果);出一些专业性较强的文章(命题者称是从语文角度考查,但如果文章的大概都把握不了,答题又从何说起呢)
3.将水搞浑法.这突出表现在客观题中选择项的设置上.命题者唯恐考生轻易答出,于是处处设疑置绊,将选择项搞的玄玄乎乎,使人如坠云里雾里.
语文考题中致难之因还有,这儿就不再列举了。我们要注意的是这种"难度"的性质与它带来的后果,它的难不在于考及的知识如何艰深,而主要是考查的繁琐复杂,广布疑阵,因而使程度差的人反可籍猜测答案得分,而程度较高的人却因错误人人难免而无法得到高分。这种考试不可能有大的区分度,不利于人才的选拔。
“我国高考使用的标准化考试并不是严格意义上的标准化考试。第一,我们的试卷编制过程不标准。采用的还是我们老祖宗的出题方式,没有建立题库,试卷形成后没有预测;这样就很难保证试题的难度、区分度,以及试卷的信度和效度达到一定的指标。第二,我们的分数解释没有标准化,我国至今(在标准化考试使用了十几年之后)基本上还在使用卷面分数报告成绩,还在采用将各科的卷面成绩相加来计算总分的方式。有一点统计学和测量学常识的人都知道,这种做法是错误的。”(余明辉《我国中小学语文教学的病根到底是什么》《中学语文教学》2000,9)
中国传统思维具有求同与封闭性特点.“法古”“法师”“去异”
东方:宗法专制文化;西方:科学民主精神.(李宇升《教学艺术比较研究》天津大学出版社1998,第一版23页)
“‘德性’文化传统使得评价更多的是一种人文主义的评价模式,过分强调了评价的民主性和伦理性,而忽视了评价以客观事实为基础的原则.”“科学主义的教育评价忽视了教育评价的主体性的一面,形成了单一凝固的教育价值观及指标体系,‘抹煞了丰富的教育活动的多样性和教学的艺术性’…而在教育评价的实际操作中,定性评价往往也比定量评价更容易进行,自觉不自觉的陷入了人本主义的泥坑.…高扬科学的大旗,,定性和定量相结合,充分利用现代科学技术,特别是计算机技术…使评价结果是建立在大量信息基础上的一种判断,走出行政性评价的窠臼.…文化是一个民族的特质,传统文化对一个民族的影响是潜意识的,挥之不去的.…我国的教育评价制度既要学习西方的先进经验,又不能脱离本国的文化背景.评价主体宜具有官方的背景,评价机构性质宜‘半官半民’,评价方式上力求创新,走科学评价的道路,既要做到伦理的善,更要做到逻辑的真和形式的美.”(孔祥沛《浅论传统文化对我国教育评价制度的影响》《教育科学研究》年月日待查)“中国文化是强调人文精神、伦理道德、中庸和谐关系的‘道德理性文化’,西方文化是注重科学主义的‘工具理性’文化.”(顾冠华沈广斌《中国传统文化与高等教育》海洋出版社1999年版,23页)
“考试机构不宜制造一个错觉,让外界误以为考试是一门精确的科学,这样的定位并不表示考试机构自贬身价,而是一种负责任和实事求是的态度.考试政策必须经过缜密的考虑,有理有据,合情合法;运作程序的设计必须算无遗策,把人为因素减至最低,务求考生的成绩得到公平、正确的处理.对于考试的局限,以坦诚的态度处理.这样,把有关政策和运作程序公诸于世,不但不会削弱考试机构的权威性,反而有助于提升其公信力.揭开面纱,责无旁贷.”
马克思恩格斯说过:“科学就是在于用理性的方法去整理感性材料.”(刘尧《论教育评价的科学性与科学化问题》《教育研究》2001,6)
考试原则:科学性、客观性、公平性、实践性(廖平胜等著《考试学》)
命题只有少数人“入闱”突击进行,试题质量缺乏科学管理的指标,对以往考试很少统计分析,试题水平往往不稳定。评卷每年抽调近十万教师,耗资千万,阅卷人员水平参差不齐(缺乏必要的选拔资格认证体系),缺少控制评卷质量的有效方法。
笔者想,我们的高考卷如果像世界上很多国家一样可以复查(当然这在高考竞争异常激烈的时候施行起来是很困难的),肯定会舆论大哗!但这对于增加考试的透明度,提升考试的公信力,是多么有益的事呀!我们的改革步伐好像总是如此缓慢,我们只能翘首企盼了。
从实际效果来看,笔者建议还是多聘请中学高水平教师批阅为宜
缺少立法。“由于缺少对招生制度的深入细致的科学研究,没有一个总体的规划,缺少一个‘法’,所以多年来高考政策不稳定,反复大,领导意志明显。招生政策几乎年年有变化,有时甚至今年完全推翻了去年的做法。”(马文卿刘文超著《中国高考走向》山东人民出版社2002,3,一版,41页)
“无纸化考试在国外已很流行成熟,而我国尚处于试验阶段.虽然西方人运用考试的历史比我们晚整整一千年,却早已形成了一些更为科学的考试观念,就像他们虽然从我们这儿学会了造纸术和印刷术,今天却向我们出口造纸和印刷的成套设备.”(《关于考试公平性的一些思考》《考试研究》2002第二辑作者待再查)
阅读测试忽视现代社会实际需求
自人类社会进入信息时代以后,科技的发展更加日新月异,人们生活的节奏越来越快,办事效率也越来越高--需要更快的处理更多的信息(尤其是高速膨胀的科技信息).语言的学习运用以及测试理应紧跟时展的步伐.我们祖上传下来的语言学习和运用上的“体悟症”“探究癖”理应遭到信息化社会的唾弃.处理语言信息的敏捷性和灵活性应该是语言测试的一个极其重要的目标.
“量化研究是当代社会与行为科学的强势典范.统计分析则是量化研究的核心.…标准化的测验量表,是量化研究不可或缺的工具,其严谨的编制程序与信效度检验,使测量的品质得以确保.”“人类追求知识的活动,逐渐从启蒙运动之后的唯心传统,配合19世纪末数学与逻辑的发展,走上一条量化、实证、非历史、非心理的科学实证典范.以数学为基础的符号逻辑思考体系,取代了亚里斯多德以来的形式逻辑概念,发展出以量化研究为主轴的科学研究典范.…实证主义下的符号逻辑思考体系,仍是当代科学研究的主流思想,量化研究仍是学术训练的主要研究方法.”)
“我国的中学生每学期只不过认真学三十篇文章(教材规定的),而美国初中生每学期达一百篇左右,德国有近六十篇.”(张承明《中外语文教育比较研究》云南教育出版社2000,10第一版62页)
“思想内容”的合理构成又是怎样的呢?“品德修养”到底应不应该占分?若占,占多少分?这也是个很迫切的问题。以笔者之见,应弱化这方面的考查。原因如下:(一)追求“品德”的高境界,对学生抒写真生活真情感是个极大的束缚,助长了“假、大、空”的恶习。(二)纸上的“品德”是很靠不住的,言行不一的现象毕竟太普遍。(三)很难定位量化。而我们的命题一旦去除了背负在肩上的这份“道德教化”的额外负担,会一下子轻松许多。文言片段的选材不必再拘泥于“英雄事迹”,作文命题也可根本上避免“政治化”倾向,学生可以放开手脚,“我手写我口”,局面会一下子生动活泼许多。