六级、雅思和托福阅读考试认知过程对比研究
——基于眼动和访谈的证据

2021-01-07 06:22许皖栋香港理工大学

外语与翻译 2020年4期

许皖栋香港理工大学

辜向东重庆大学

【提要】本文结合眼动追踪和回顾式访谈数据对受试完成六级、雅思和托福阅读考试的认知过程进行对比分析，进而评估三项阅读考试的认知效度。研究结果表明：三项阅读考试成功地诱发了受试在多个信息层次上的认知加工，其中使用频率最高的认知加工为句子命题建立。整体而言，三项阅读考试较为全面地考查了受试在真实阅读实践中相似的认知过程，均具备良好的认知效度。此外，本研究在一定程度上揭示了受试特征、考试任务和施考环境对受试的答题认知过程的影响。研究结果旨在为试题开发者设计阅读试题、为英语教师了解考试情境下的阅读行为、为学习者备考和语言测试学者探究考试表现下的动态认知加工过程提供了有益参考。

1.引言

大学英语六级（以下简称六级）、雅思和托福是全球范围内具有代表性的英语作为外语/二语的语言考试。虽然三项考试在考试目的、考试题型、分数解释和使用等方面存在差异，但都具备大规模、高风险的特性，考试对象大多正在或即将接受高等教育，考查内容主要反映学术英语的特征，因此，三项考试具有较强的可比性。

阅读是一项非常重要的语言技能，也是大规模、高风险语言测试中不可或缺的部分。阅读理解本质上是一个复杂的认知过程。然而，现有研究较多通过考试分数的统计分析对语言测试阅读部分进行多方面的效度验证，也有学者从考生认知过程角度为阅读考试效度提供证据，但不多见（Cohen 2006）。本文基于Khalifa&Weir（2009）提出的阅读模型，结合眼动追踪和回顾式访谈，识别和探讨考生完成三项阅读考试的动态认知加工过程，进而评估三项阅读考试的认知效度，即考试任务在多大程度上诱发了考生在真实阅读中相似的认知过程。

2.文献综述

2.1 阅读认知加工模型

六级、雅思和托福阅读部分侧重考查考生的学术阅读能力，因此合理的考试设计应使考生经历真实学术阅读中一系列相似的认知过程，从而论证考试分数的解释和使用。Khalifa&Weir（2009）所提出的阅读认知模型较好地涵盖了被试在文本阅读和任务加工中可能经历的思维加工，为研究者识别和分类考生的认知过程提供了有益参考。该模型分为三个部分：元认知、核心认知加工和知识基础。元认知活动对阅读核心认知加工进行全程调节和监控；知识基础提供核心认知加工所需的语言知识和背景知识；核心认知加工包含多个层次上的信息加工，是最重要的组成部分，包含阅读者在单词、句子、段落和篇章等多个信息水平上的认知加工，共分为八个层次：词汇识别、词汇提取、句法解析、句子命题建立、推理、篇章心理模型构建、篇章表征生成和跨文本表征生成。

Khalifa&Weir（2009）的阅读认知模型具有三方面优势：首先，模型建立在很多认知心理学家和阅读研究者的研究基础之上，具备坚实的理论和实证支撑；其次，模型被设计为一个层级系统，包含一系列较低层次和较高层次的认知加工，使该模型适合用作定性数据的编码框架。并且随着信息水平的提高，较高层次的认知加工要求更多的认知资源，因此便于研究者分析和比较不同考试任务给考生带来的认知负荷。最后，该模型已经在多项考试的效度验证中成功应用（Brunfaut&McCray 2015；Weir,Green&Devi 2012；金艳、张晓艺2013）。因此，本研究根据这一模型对被试完成三项考试的阅读认知过程，尤其是核心认知加工进行了详细分析。

2.2 效度和效度验证

效度，作为一项评价语言测试质量的重要标准，一直受到学界的关注。早期的效度观认为，效度的问题在于一项考试是否测量了它想要测量的东西（Lado 1960）。这一定义虽简单明了，但缺乏实际可操作性，因为确定考试所要测量的东西并非易事。后来Messick（1989）提出了具有突破意义的整体效度观，认为效度是经验证据和理论证据在多大程度上支持考试分数的解释以及使用的全面评价。Messick的整体效度观丰富并深化了效度的内容，推动了效度理论的发展，为语言测试领域相关理论和实证研究带来了重大变革（McNamara 2006）。然而Messick的整体效度观抽象复杂，并未提出具体实施步骤指导研究者收集效度验证各方面的证据。

为解决这一实际问题，语言测试学者不断探索效度验证方法，提出具体可实施的框架，组织各方面的证据（Bachman 2003;Bachman&Palmer 1996；Kane 1992,2001,2002；Messick 1995；Mislevy,Steinberg&Armond 2003；Weir 2005）。近来讨论较多的主要为“基于论证的效度验证模式”（an argument-based approach）（Bachman 2003，2004；Kane,2006）和“基于证据的效度验证模式”（an evidence-based approach）（Weir 2005）。其中 Weir（2005）从社会认知视角出发，主张效度证据包含五个方面：基于理论的效度（后称为认知效度）、环境效度、评分效度、效标关联效度以及后果效度。其中认知效度作为社会认知效验框架的重要方面，指导研究者基于具体技能认知模型，界定和验证一项考试测了什么，即测试构念是什么，在测试中的实现情况如何。本研究从这一重要效度方面出发，通过收集考生完成六级、雅思和托福阅读考试任务的认知过程证据，探讨大规模、高风险考试情境下考生的阅读行为。

为了验证考试效度，研究者已经进行了大量研究。传统的语言测试效度验证研究主要围绕考试分数展开。研究者广泛采用包括相关分析、因子分析、多维尺度分析、建模等量化统计方法，探讨考试内部结构、试题质量（包括试题难度和区分度）和信度等议题，反映考试分数与考试构念之间的关系，逆向验证考试所考查的语言能力构念，从而收集效度证据（Alderson 2000；Cohen 2006;Davies et al.1999；孔菊芳 2016；邹申、张艳莉、周越美2002）。如Kunnan（1995）采用结构方程模型探究了英国剑桥外语考试部和美国教育考试服务中心开发的八项测试所考查的语言能力因子结构，Yoo&Manna（2017）利用验证性因子分析探究了托福考试听力和阅读部分的因子结构及其结构的不变性。围绕考试分数的效度验证研究不仅局限于某一考试内部，还可以通过比较一项考试与其他测量相同构念的考试或标准之间的相关程度，收集考试以外的效度证据，即效标关联效度。如Ginther&Yan（2018）的研究发现考生托福考试的总成绩和分项成绩与考生三个学年GPA之间未呈现一致的正相关关系，因此建议相关院校和机构在进行生源选拔时综合考虑多种语言能力标准和考试结果。

虽然基于考试分数的效度验证研究取得了较为丰硕的成果，但存在两点不足：首先，考试分数在一定程度上受考试形式、内容及其他因素的影响，并不仅仅是语言能力预设构念的结果，因此从考试分数倒推考试实际考查的构念在逻辑上存在一定问题（Field 2013；Phakiti 2003）。其次，定量统计分析结果在一定程度上取决于研究中所选取的变量和模型，只可反映某种关系的概率，难以说明关系本身并定义具体考试情境下的认知构念（孔菊芳2017）。除非更好地了解考生完成具体考试任务的过程，否则不能正确地厘清语言测试情境下认知构念的内在关系（Vollmer 1981）。Alderson（2000：97）认为，测试的效度与测试题目正确回答的解释相关，所以重要的是确定正确回答以及考生做出正确回答的过程，而不是考试开发者对题项考查内容的预设。可见，收集考生自身的认知过程证据是效度验证过程中必不可少的环节。

20世纪末，语言测试研究者开始意识到收集过程证据的重要性，认为过程证据与结果证据具有同等地位（Bachman 1990；Messick 1989）。Weir（2005）将过程证据独立出来，提出认知效度概念，并划分出认知过程的组成成分以及各个层次，强调动态认知加工过程在语言测试效度验证研究中的重要地位。基于完备的理论基础和概念构建，语言测试认知效度验证围绕听（Geranpayeh&Taylor 2013）、说（Taylor 2011）、读（Khalifa&Weir 2009）、写（Shaw&Weir 2007）四项技能全面展开，极大地丰富了该领域的研究，也为后来的研究积累了宝贵经验。然而，在以往语言测试效度验证研究中，过程证据的收集主要依赖于有声思维、答题后的回顾、问卷和访谈（Conklin&Pellicer-Sánchez 2016；Latif 2019）。这些研究方法虽然提供了丰富的过程证据，但也因其自身的局限性受到质疑。有声思维要求考生在答题的同时口头报告思维过程（Green 1998），给考生增加了额外的认知负荷（郭纯洁2015）。答题后回顾提供的报告具有延迟性，可能掺杂了考生对答题过程的失真和过度描述。问卷和访谈提供的是间接、二手的数据，无法直接反映考生真实的认知过程（孔菊芳2017）。与以往过程记录的方法相比，眼动记录有其特有的优势，记录过程真实自然，不要求被试做额外任务，同时数据丰富客观，因此在研究领域的使用日益增多。

2.2 眼球运动与认知过程

外部世界80%-90%的信息是通过眼睛感知获取的（韩玉昌2000）。心理学家很早就开始通过直接观察眼球运动对人类心理过程进行研究，认为眼球运动是视觉过程的直接反映，对揭示深层次的认知加工活动具有重要意义。Just&Carpenter（1980）最早提出眼-脑一致假说，认为眼球注视和大脑加工之间没有延迟。Rayner（1998，2009）也指出，在大多数任务加工中，眼睛所处位置和注意力所在位置重合，因此眼动数据可以被用来对大脑的即时认知过程做出合理推测。Pickering等人（2004）在此基础上提出了两个扩展假设：被注视的内容即为被加工的内容；注视时长表明加工刺激材料所需的认知努力强度。眼动可以反映视觉信息的选择模式，使不易直接观察的认知加工行为外显化，为解释大脑认知加工过程提供了精确而丰富的信息（Liversedge,Gilchrist&Everling 2011）。

眼动跟踪指通过眼动仪器测量和记录被试在观看特定刺激材料时眼球的注视和运动。眼动仪可以提供被试眼球在时间和空间维度上的注视和运动指标，同时对被试任务加工没有干扰，确保数据真实自然。通过眼动仪，研究者还可以决定被试看何种刺激材料，所看时长和呈现顺序（Holmqvist Nystrom,Anderson&Dewhurst 2011；van Gog&Jarodzka 2013），对刺激材料本身展开探究。目前眼动分析技术已经广泛应用于心理学研究，但与语言测试研究的结合仍处于起步阶段，相关文献数量不多，如Winke&Lim（2015）通过眼动分析探究了评分员使用评分量表进行评分决策的认知过程。就阅读考试而言，Bax&Weir（2012）结合眼动技术和问卷调查识别和比较被试在每道题上的作答行为，包括对文本、题干、选项的视觉加工情况。Bax（2013）结合眼动技术和访谈，分析比较得分考生和失分考生完成雅思阅读考试的认知过程，发现两类考生在快速阅读能力以及对文本和题项的关注等多个维度上存在显著差异。McCray&Brunfaut（2018）通过眼动分析研究考生完形填空试题的作答认知过程，发现相较于得分高的考生，得分低的考生更偏向于局部阅读与低层次认知加工，一定程度上为揭示该题型考查的语言能力构念提供了有价值的信息。以上研究为眼动技术与语言测试重要议题的结合做了创新性尝试，不仅证实眼动技术应用在相关研究中的可行性，更为今后的研究提供了宝贵借鉴。然而，这些研究大多基于一项阅读考试，未能比较分析被试在不同测试情境下的阅读行为。

综上所述，语言测试效度验证研究不仅要关注考生的考试结果，也应该重视考生在考试中所经历的认知过程（AERA et al.2014）。现有的过程导向效度验证研究较少，且过于依赖有声思维和访谈等质性研究方法。眼动技术为语言测试研究者揭示考试环境下的认知过程提供了新视窗。因此，本文基于Khalifa&Weir（2009）所提出的阅读模型，结合眼动数据和访谈数据，对考生完成六级、雅思和托福阅读任务的认知过程做出有效推测，旨在回答以下三个研究问题：

（1）六级、雅思和托福阅读考试诱发了考生什么样的认知过程？

（2）考生在三项阅读考试中的认知过程是否存在相似性和差异？如果有，有什么样的相似性和差异？

（3）三项阅读考试在多大程度上诱发了真实阅读中相似的认知过程，即认知效度如何？

3.研究设计

3.1 被试

国内某综合大学10名英语专业硕士研究生自愿参加此次眼动实验和回顾式访谈，其中8名女生，2名男生。被试平均年龄为23岁，母语为汉语，英语为第二语言。所有被试均通过了英语专业八级，语言水平较高。

3.2 实验材料和工具

选用六级2014年6月施考的第1套阅读试题，剑桥英语雅思真题9中的第4套阅读试题和托福网考在线练习第30套阅读试题。三套阅读试题的篇章主题和题型如表1所示。

表1 三套阅读试题的篇章主题和题型分布表

三套试题均由在线考试网页呈现于电脑屏幕。在线考试网页左侧三分之二处显示阅读篇章，右侧三分之一处显示相应的试题，被试可以自由拉动滚轴反复浏览篇章和试题并作答。研究者在正式实验时采用Screen Recorder软件进行录屏，记录被试的眼动轨迹和完整作答过程。录屏的视频在回顾式访谈中用作刺激材料回放，帮助被试更好地报告思维过程。

3.3 实验步骤

（1）实验培训和信息收集：对10名被试进行眼动实验和回顾式访谈培训，并以一篇阅读理解任务作为演示。被试完成培训后需填写个人信息表，同意书和计算机熟悉度问卷。

（2）校准：本研究采用Eyelink 1000plus桌面遥测式眼动仪对被试进行严格校准，记录被试各自的眼动模式，确保数据的准确性。

（3）眼动数据收集：被试在规定时间内分三次于在线考试网页上完成阅读试题，眼动仪在考试过程中记录被试的眼球运动；同时，采用Screen Recorder录屏，完整记录被试的作答过程。

（4）访谈数据收集：被试每完成一套阅读考试后，研究者会播放Screen Recorder记录的视频，被试结合视频并根据每个题项的作答报告当时的思维过程。访谈全程录音录像以供后续深入分析。

（5）数据导出和转录编码：研究者通过Data Viewer划分兴趣区，并导出相应的注视、回视和眼跳指标。研究者聘请某高校语言测试团队的五名成员对访谈数据进行初期转录和编码，然后根据眼动轨迹视频和访谈视频对转录文本进行核对，确保转录的真实性和完整性。对于题项编码出现分歧的地方，研究者会和五名成员进行讨论并确定该题项作答的最终编码。

4.结果与讨论

4.1 被试阅读考试表现

本研究采用答题正确率以比较被试的三项阅读考试表现。从答题正确率看，被试在三项阅读考试中均表现良好。其中被试的六级阅读考试平均正确率达到84%，雅思阅读考试平均正确率达到83%，托福阅读考试平均正确率达到81.5%。

4.2 眼动追踪数据

本研究根据在线考试网页划分了三个兴趣区：整体加工兴趣区（单独的考试任务整体区域）、文本加工兴趣区（篇章文本区域）和任务加工兴趣区（题项作答区域），并借鉴 Brunfaut&McCray（2015）的研究，综合选取了13个眼动指标（见表2）。

Friedman检验结果显示，除文本加工兴趣区上的单词平均注视时间和平均回视距离外，被试在加工三项阅读考试时的11个眼动指标上存在显著性差异，说明三项阅读考试在整体、文本篇章和题项上施加给被试的认知负荷不同。具体结果如下：

（1）从表3可以看出，整体加工兴趣区上，被试完成三项阅读考试的过程中在总注视次数（X2=15.200,df=2,p=0.001）和总注视时间/s（X2=18.200,df=2,p＜0.001）指标上存在显著差异。

（2）从表4可以看出，文本加工兴趣区上，被试完成三项阅读考试的过程中在向前眼跳次数（X2=15.200,df=2,p=0.001）、平均向前眼跳距离（X2=16.800,df=2,p＜0.001）、回视次数（X2=18.200,df=2,p＜0.001）、回视比率（X2=15.800,df=2,p＜0.001）、总注视时间/s（X2=15.800,df=2,p＜0.001）、总注视时间占比（X2=15.200,df=2,p=0.001）指标上存在显著差异。

（3）从表5可以看出，任务加工兴趣区上，被试完成三项阅读考试的过程中在文本加工和任务加工兴趣区之间的转换次数（X2=9.600,df=2,p=0.008）、总注视时间/s（X2=18.200,df=2,p＜0.001）和总注视时间占比（X2=15.800,df=2,p＜0.001）指标上存在显著差异。

回视比率总注视时间总注视时间占比单词平均注视时间0.35 1365 0.64 0.69 0.06 239 0.04 0.15 0.35 1892 0.66 0.69 0.06 191 0.03 0.07 0.41 1509 0.50 0.75 0.04 190 0.04 0.09 15.800 15.800 15.200 1.400 2 2 2 2.000.000.001.497

表5 三项阅读考试任务加工兴趣区上眼动指标差异

根据事后两两比较结果，本研究发现并非三项考试两两之间在上述三个兴趣区的眼动指标上都存在差异。整体加工上，六级阅读考试和雅思阅读考试、六级阅读考试和托福阅读考试在总注视次数和总注视时间上均存在统计学意义上的显著差异（p＜0.001，p=0.002；p=0.014，p＜0.001），而雅思阅读考试和托福阅读考试无显著差异（总注视次数：p=0.655；总注视时间：p=0.074）。整体上，被试完成雅思和托福阅读考试的总注视次数（MD=2880，MD=2641）和总注视时间（MD=734，MD=888）指标显著高于六级阅读考试。这意味着被试完成雅思和托福阅读考试需要分配更多的视觉注意，即这两项阅读考试对考生的认知要求更高。

文本加工上，眼动分析指标呈现的结果更为复杂。在完成三项阅读考试过程中，被试在篇章加工的单词平均注视时间指标上无显著差异，意味着被试在单词层面上的加工差异不大。三项阅读考试所选择的篇章文本都未涉及过多专业知识，因此词汇难度对被试而言差异并不明显。此外，访谈数据显示被试考虑到时间限制，不会过分纠结个别单词，较多采用快速阅读方式。被试加工雅思阅读篇章的总注视时间、向前眼跳次数、回视次数指标显著高于六级（p＜0.001，MD=527,1277,713）和托福阅读篇章（p=0.004,0.002，0.014；MD=383,1056,505）。可以看出雅思阅读篇章对于被试而言更为复杂，被试需仔细阅读甚至是重复阅读相应的文本。虽然被试加工托福阅读篇章的回视比率显著高于六级（p=0.004，MD=0.06）和雅思阅读篇章（p＜0.001，MD=0.06）,但加工托福阅读篇章的总注视时间占比显著低于六级（p=0.002，p=-0.14）和雅思阅读篇章（p＜0.001，MD=-0.16）。说明被试在加工托福阅读篇章时进行了反复阅读，但在考试过程中，被试对托福阅读篇章的关注还是低于对六级和雅思阅读篇章的关注。

任务加工上，被试在六级阅读考试和雅思阅读考试、六级阅读考试和托福阅读考试文本加工和任务加工兴趣区之间的转换次数指标呈显著差异（p=0.007,0.007）。被试完成雅思和托福阅读题项时需要更多地在文本加工兴趣区和任务加工兴趣区之间转换，说明在这两项阅读考试中被试整合题项信息和文本信息难度更高。在总注视时间和总注视时间占比指标上，托福阅读考试和六级阅读考试（p＜0.001；p=0.004），托福阅读考试和雅思阅读考试（p=0.014；p＜0.001）呈显著差异。被试在托福阅读试题上的总注视时间和相应占比显著高于六级（MD=744，MD=0.14）和雅思阅读试题（MD=537，MD=0.16）。可见，被试在托福阅读考试中分配了更多的认知资源加工题项信息，一定程度上揭示了托福阅读试题的难度较高。这一点在访谈数据中也有体现，被试一致认为托福阅读试题难度较高，尤其是应用题，要求对文章的主要观点进行总结归纳，这对于他们的作答是一个不小的挑战。此外，托福阅读试题以选择题为主，选项具有一定的干扰性，被试需要更多的时间理解题干和选项所蕴含的信息。

总体而言，被试在三项阅读考试的大部分眼动指标结果存在显著差异，雅思和托福阅读考试给被试施加了更高的认知加工负荷，尤其是雅思阅读考试的篇章和托福阅读考试的题项，对于被试而言难度较大。

4.3 回顾式访谈

通过被试的眼动轨迹和访谈发现，被试完成三项考试的过程中综合使用了快速阅读和仔细阅读两种阅读方式，并主要遵循了三种作答模式：（1）预览部分文本，读题项，找寻答案；（2）预览全部文本，读题项，找寻答案；（3）预览题项，读部分文本，找寻答案。大多数被试会遵循第三种模式，先预览题项，再根据题项考点阅读部分文本，找寻答案，可见被试的阅读行为主要受到考试情境的影响。

访谈转录文本编码（见表6）表明，除了跨文本表征生成以外，三项阅读考试均成功诱发了被试在多个信息层次上的认知加工：词汇识别、词汇提取、句法解析、句子命题建立、推理、构建篇章心理模型、篇章表征生成（雅思阅读考试除外），说明三项阅读考试均具备较好的认知效度。三项阅读考试诱发的认知加工存在共同点，即句子命题建立的使用频率最高，说明三项阅读考试主要考查了句子层面的认知加工，要求被试理解句意。

表6 访谈转录文本编码统计

然而，在三项阅读考试中，被试其他层次认知加工的使用频率反映不同考试任务对被试的认知加工过程的影响不同。被试在完成六级阅读考试过程中较多使用了句法解析，这一层次认知加工的使用主要集中于选词填空任务的作答。选词填空任务要求被试从所给词库中选择一个单词填入文中的空白处，被试可以结合空白处前后的词汇确定所填单词的词性继而快速作答。

例1 因为It turns out that husbands and wives may have__37__different ideas about the subject是一个完整的句子，所以从结构上看这里应该填副词或者ed形式的，但是所给词库里没有ed形式的，只能找副词。我就去找副词，副词有3个，从意思上说，mysteriously“神秘地”，不对，separately“分开地”，也不对，所以选了K，radically虽然我不知道这个单词是什么意思，但是只能填它了，主要还是根据句子结构做出来的。（被试1，六级阅读第37题思维过程）

在托福阅读考试作答过程中，被试则较多使用了词汇提取，主要集中于词汇题的作答。托福词汇题要求考生根据单词所在句子语境推测其意思，但由于本研究中的被试都是英语专业的学生，语言水平相对较高，可以直接从记忆中提取词义成功作答，无须根据句子语境进行推理。因此托福词汇题仅考查了考生的词汇提取，并未考查考生对词义的推理。

例2题目中问comparative的意思，comparative“相对的”，对应选项中relative的意思，不需要看文章就能够看出两个单词意思相近。（被试3，托福阅读第8题思维过程）

雅思阅读考试则较多考查了被试句子层面上的推理，被试需要综合多个句子意思，对隐含的信息或观点进行正确推理。

例3 看到G段，第14题问哪一段里包含an account of method的信息，也就是对研究方法的解释。G段中最后一句话说研究者在孩子们的鼻子上抹了一些红色粉末，然后让他们在镜子前面玩耍，观察他们触摸鼻子的频率。可以推测出这里就是在介绍一种具体的研究方法。（被试9，雅思阅读第14题思维过程）

此外，从访谈转录文本编码频率来看，雅思和托福阅读考试引发了更多较高层次的认知加工（与眼动分析指标结果一致），但三项阅读考试对较高层次认知加工的考查频率仍较低，且均未能考查被试生成跨文本表征的能力。这一发现与之前其他学者的研究结果一致（Bax&Chan 2019；Owen 2016）。整合归纳多个文本信息是真实阅读中不可或缺的部分，因此考试设计者和开发者应对此技能给予足够重视。此外，访谈数据分析结果显示被试在三项考试过程中并不只是使用了阅读模型中所描述的认知加工，在少数题项中，通过利用主题相关知识和其它题项的线索、分析题干和选项、猜测等策略也可正确作答。虽然这些策略的使用频数较低，但仍对考试效度和公平性造成了一定威胁。

总体而言，被试在绝大部分的题项作答时采用Khalifa&Weir（2009）阅读模型中的核心认知加工，说明三项阅读考试都能使考生经历真实阅读中大部分相似的认知加工过程，具有良好的认知效度。被试在少数题项作答时采用与构念无关的应试策略。为了确保考试分数准确而有效地反映所要测量的语言能力，考试开发者应在任务设计时尽可能排除这些无关因素对考生表现的影响，提高题项的质量。

6.结论

本文结合眼动追踪和回顾式访谈，研究了考生完成六级、雅思和托福阅读部分的认知过程。研究结果表明，三项阅读考试引发考生在多个层次上的信息加工，较为全面地涵盖Khalifa&Weir（2009）阅读模型中的核心认知过程，具有较好的认知效度。但三项阅读考试未充分实现对较高层次认知加工的考查，尤其未能考查被试生成跨文本表征的能力。

本研究结果可为语言测试学者探究考试过程和收集效度证据提供理论和方法上的借鉴；为语言教师了解考试环境下的阅读行为，开展针对性的英语阅读教学提供有效反馈；为学习者了解自身阅读考试作答过程，知晓优势与不足，并积极备考提供有价值的信息；为考试开发者设计阅读任务和具体题项提供有益参考。

不过，本研究发现被试三项阅读考试的答题认知过程会受到被试特征（语言水平）、考试任务（阅读文本选取和题项设计）和施考环境（时间限制）的影响。本研究被试样本量较小，为了更为深入地了解这些因素对考生认知过程的影响，未来研究需采用更大样本进行分析与验证。

六级、雅思和托福阅读考试认知过程对比研究——基于眼动和访谈的证据