计算机辅助评价（CAA）的发展现状与趋势(转)

计算机辅助评价（CAA）的发展现状与趋势

一、计算机辅助评价的特点及其优势

计算机辅助评价（Computer Assisted Assessment，简称CAA）是指在评价学习者的知识、技能和能力的过程中引入计算机作为工具或手段，即计算机应用于评价过程。与CAA含义大致相同的术语还有：计算机辅助测试（Copmuter-Assisted Testing）、计算机化评价（Computerized Assessment）、基于计算机的评价（Computer-Based Assessment）和基于计算机的测试（Computer-BasedTesting），他们都从属于CAA领域。

大型的社会化考试、网络教育中教学评价活动的开展，对CAA的需求日益扩大，传统的教育评价方法和测试手段也越来越不适应教育发展的需要。特别是在被试数目过大或地理位置相对比较分散，时间、人员和资金紧张的情形下，传统的测试方法已很难适应。

CAA作为一种新的评价方式被大众所接受，有其自身的特点及其优势：

表1：CAA的特点及其优势

角度	特点与优势
被试者	l 通过形成性评价，使被试了解自己的学习进度； l 通过总结性评价，使被试可以进行分阶段的学习； l 可以确认当前的教学方法是否有效。
教学	l CAA使得大范围地区的评价更加迅速，节省时间耗费； l 节省时间，使进行其它更有针对的评价活动成为可能； l 通过形成性评价，可以了解被试的学习进展情况； l 在自适应测试（Adaptive Testing）过程中，发现学生整体的弱点，从而调整教学方法。
管理学	l 减少了在监督管理、监考和评分上面花费的时间； l 减少了在评分过程中因为人为因素而出现的错误； l 处理不同地点的学生同时进行评价时，节省了财力和人力； l 进行无纸化考试，减少在印刷上面费用； l 可以成功的对测试结果进行分级，并且自动的记录进被试档案； l 数据库随机抽取题目，有效避免作弊。

因此，研究CAA在教育评价中的应用具有重要意义：对于解决现代远程教育中师生分离状态下的交互与反馈问题尤其具有应用价值；有利于教师监测学生的学习过程，可对学生进行与其能力相匹配的自适应测试；对于某些学科，可实现测评与评价的自动化，这对于提供评价的质量、保证评价的一致性和公正性，降低评价代价，都具有重要的意义；CAA得到的各种相关数据可自动生成诊断分析报告，这对促进教育评价的量化研究，也具有极为深远的意义。

二、计算机辅助评价的指导理论

目前，CAA主要采用经典测量理论（CTT Classical Test Theory）和项目反应理论（IRTItem Reponse Theory）来进行题库的建设。两种理论的核心部分是数学模型，它们是基于不同的假设提出的：经典测量理论采用的是线性的定性模型；项目反应理论采用的是非线性的概率模型。

CTT是２０世纪初提出来的，对于CTT，经常使用的测量指标有平均分和标准差。CTT存在一定的局限性，突出的表现在以下几个方面：

CTT用于评价试题质量的指标（如难度、区分度）严重依赖于被测试样本，对同一问题，如果被测试样本能力水平差异大，则区分度值会很高，反之，区分度值则很低；

● CTT只适用于测验被测试者相对能力水平（常模参照测验），不适于考察实际能力水平（目标参照测验），例如在目标参照测验中，如果被测使者全部不能通过测验，则无法计算难度和区分度；

● CTT测验某项能力或知识水平时，必须同时使用同一套测验题，否则测验结果无法直接进行比较。

IRT是针对CTT的不足而提出来的一种新的测验理论。IRT包括项目反映模型、项目反映模型的参数估计、项目与测验的信息函数三个面的内容。IRT认为，被试对测验的反应受某种心理特质支配，测验的结果和这种特质之间所存在的关系可用特定的项目反应模型曲线来描述。目前应用较广的是由伯恩鲍姆于１９５７年提出的单维逻辑斯蒂模型，可以用PJQ

=Qabc描述，a、b、c标识项目的质量参数，分别是区分度参数、难度参数和猜测参数，表示被试关于第ｊ题的正确反应概率。项目的质量参数值都不能由直接测量得到，必须通过对被试的反应数据进行估计来求出，通常采用的是极大似然估计法。信息函数的引入，提供了测验精度的确定信息，从而可以针对各水平上的能力特质更好地控制测量误差。

项目反应理论虽然克服了经典测试理论的一些缺点，但是目前还存在着许多问题没有解决，如测试依赖于大量的、预先准备的、高质量的试题，而这在现实普通教育领域中很难完全做到。但是勿庸置疑的是项目反应理论代表了今后测试理论和实践探讨的发展方向。

三、计算机辅助评价发展现状

１、Paper-Based的计算机辅助测试

CAA发展初期，利用的是光标阅读器OMR和光学字符阅读器OCR技术。OMR能将各种类型的客观题按机器上规定的格式，输入正确答案，然后由阅读器改卷，对客观选择题显示了十分强大的处理能力。初期OCR采用光电反射方式，现在OCR首先整个图像抓取，然后分析识别字符。

２、单机版计算机辅助评价PC-CAA

PC-CAA在评价过程中，PC之间处于孤立状态，信息和数据的传输通过机器内部来实现，没有引入网络传送的概念。这一类CAA系统，一般有专门的系统安装软件。PC-CAA对于一次性的大型社会化考试和总结性的测试还比较适合。但对于大数量被试群体、题库需要经常更新的测评，则不是很适合。

３、网络版计算机辅助评价WEB-CAA

WEB-CAA通过Internet或LAN从网络服务器数据库中提取信息，然后被试在客户端做出一定的选择反应，再一次通过网络提交被试信息。整个过程中，客户端只是一个工具而已，评价结束后，客户端没有任何的信息残留，所有被试的信息都被提交在服务器端的数据库中，然后评价系统从数据库中提取被试信息，得出评价结果，通过WEB或LAN返回到客户端。

４、计算机自适应测验CAT

ＣＡＴ是在项目反应理论基础上发展起来的一种测验，测验的编制者认为，要测量一个人的能力，最理想的项目就是难度适中的项目，即他答对或答错的概率都在０．５左右。在测验开始时，计算机一般给出一个难度中等的题目，如果被试做对，计算机就会估计他的能力高于中等水平，然后再给他一个难度高一点的题目；如果他做错，计算机就会估计他的能力低于中等水平，然后给他一个难度较低一点的题目。计算机根据被试第二题的回答情况，对其能力再作估计，在第二次估计基础上，计算机在题库中选择最接近他能力估计值的题目，接着根据被试反应，对其能力再进行估计。这样，随着被试做的题目增多，计算机对他能力的估计精度越来越高，最后其估计值将收敛于一点，该点就是该被试的能力较精确的估计值。

５、计算机辅助记录

除了采用测试手段进行评价以外，还可以通过对被试行为表现的记录和追踪获取相关信息实施评价，这就是计算机辅助记录的研究内容，其中电子作品（e-works）和电子档案（e-portfolio）是影响最大、研究也最为广泛的一种计算机辅助评价策略。

四、计算机辅助评价的发展趋势

１、计算机辅助测试高级元认知能力的探索

CAA要想测量被试的高级认知能力，必须设计出高质量、高水准的试题。而编制和设计试题是一项极其复杂而又耗费大量人力和时间的工作，涉及到很多内容，比如确定题型、题目的考核点、题目的测试属性（难度、区分度等）、设定分值、组织试卷等。目前，主要研究体现在对客观题的改造和主观题的编制这两个层面上。

从根本上解决题型单一的困境是突破″选择″。目前，前景看好的一种题型是操作应用题。

２、计算机辅助形成性教学评价

尽管目前ＣＡＡ在教育领域内应用的主导形式还是计算机辅助总结性评价，但是对计算机支持的形成性评价的关注和研究还是挺多的。如伯明翰大学利用上文提到的Triads系统对化学工程系的学生开展形成性的教学评价，并且取得了良好的效果。

３、计算机辅助记录与计算机辅助测试整合

CAA应用的直接结果之一就是阅卷情况能自动进入信息管理系统和学生记录数据库，计算机辅助记录与计算机辅助测试整合是一种全新形式。一方面通过计算机辅助记录建立被试的档案，对于被试平时学习过程中的一些创新思维和问题解决的结果运用现代信息技术提供的环境表达出来，以电子作品的形式提交到服务器，然后由专门的教师进行评价，给出评价结果。另一方面，便是普通的CAA系统，对于被试测试结果按照一定比例与被试平时档案中的记录去匹配协调，得出被试最终的测评结果，这种结果一般比较客观准确。目前大多数的研究还在记录和测评两个方面分别进行，对于两者的整合还不多见。

４、数据挖掘和知识发现在CAA中的应用

在应用CAA的过程中，将产生大量的与评价有关的数据，尤其是在现代远程教育的背景下，数据量是极其庞大的。将这些数据与师生信息库、教学过程信息库中的数据结合，作为数据挖掘（KM）和知识发现（KDD）的数据源，将有可能挖掘出隐藏在数据背后的教育模式和规律，为教育决策提供可靠的依据。如何应用数据挖掘和知识发现的理论和方法，从CAA数据库中发现并提取隐藏在其中的规律和趋势，将是未来CAA领域的一个研究新课题。

５、网络考试系统的数据安全性研究

网络考试系统具有瞬间数据量大、数据准确性和安全性要求较高的特点，数据安全性研究主要从系统的体系结构、防火墙和系统的加密技术这些层面考虑。

如果被试数目很大的话，将功能集成在服务器端，使考试系统的界面、数据访问、数据存储、数据管理等都由服务端程序完成，则有可能使服务器成为网络数据库访问的瓶颈。因此，应该采用多服务器的模式，共同承担数据的存储、访问和管理。

同样的道理，传统的网络防火墙是位于学生考试用机与服务器之间，当考试过程中有大量的数据通过该防火墙时，由于装有防火墙软件的计算机要对所有通过的数据包进行分析而占用大量的系统时间，极易造成网络数据堵塞，影响考试的正常进行。因此，应采用服务器集群的方式，使集群中的每一台服务器都具有防火墙功能，共同负载网络数据的分析和处理，有效均衡网络负载。

在考试系统中，需要保密的环节较多，如防止考前试题泄露、考后学生答卷被篡改以及数据在传输过程中被截取等，解决这些问题可以采用文件加密的技术。