情景性面试和行为描述性面试的

2014-08-08 17:43郭庆科张爱芹

心理技术与应用 2014年6期

郭庆科+张爱芹

摘要：情景性面试（SI）和行为描述性面试（BDI）是结构化面试的两种主要形式，但对二者哪个效度更高的问题国内外还没有形成一致的意见。本文以68名大学生为被试，平衡设计情景性和行为描述性面试题目，采用多质-多法的验证性因素分析模型比较两种面试的构想效度，并以管理者评定为效标比较二者的效标关联效度。结果发现BDI的因素效度更好，且BDI受评委效应和被试面试应答的社会期望性效应的影响更小；BDI和SI的效标关联效度都较高，其中BDI略好。本研究的结论是BDI和SI都可以成为有效的人事测评工具，只是SI需要更严格的设计和控制。

关键词：行为描述性面试；情景性面试；构想效度；效标关联效度；MTMM研究

一、问题的提出

面试是目前人事选拔和心理健康评估中广泛使用的方法［1］。面试一般分为结构化面试与非结构化面试，它们的主要区别在于允许面试官所提问题的灵活性程度，而这也是导致非结构化面试的重测信度与复本信度较低的重要原因［2］。结构化面试的效度显著高于非结构化面试，面试的效度会随着结构化程度的增加而提高［3］。

行为描述性面试（behavior description interview，简称BDI）和情景性面试（situational interview，简称SI）是结构化面试的两种主要形式。SI最早是1980年由Latham及其同事为改进传统的非结构化面试而提出的面试方法。其理论基础是动机理论中的目标设置理论，这一理论认为，一个人的未来行为会在很大程度上受到他的目标或行为意向的影响，个体为自己设置的目标或意图是未来行为很好的预测指标。基于该假设，SI的要点是给求职者设置一系列工作中可能会遇到的事件，并询问“在这种情况下你会怎么做”，以此来鉴别求职者与工作相关的行为意向，求职者对他们将来会怎么做的回答与他们将来真实的行为之间有非常大的相关性。BDI的假设则是“过去行为是未来行为的最好预测指标”，面试中让应聘者追忆和表述过去的某种真实的行为事件，通过对这一事件的描述评定其心理素质。BDI要求用不带有启发性的问题提问，并通过带有很高技巧性的追问来挖掘完整的行为信息。

SI与BDI的应用越来越广泛，很多研究发现两种面试的效度都较高，而且没有明显区别。不少元分析研究表明SI和BDI都能预测广泛的效标行为，包括教育年限、任务绩效、组织公民行为等。如Gibb和Taylor［4］在新西兰的社会工作者中使用匹配的情景性与行为描述性面试题目，发现SI和BDI对社会工作者的绩效都有较好的预测效度（r=.60和r=.40）。Day和Carroll［5］以120名申请某课程的大学生为被试，以学业成绩为效标，研究发现SI与BDI对效标的预测效度同样好（r=.37，r=.36）。Latham和Sue-Chan［6］对20个关于SI和BDI研究的元分析发现校正后的效度系数都在.50左右。Taylor和Small［7］对30个关于SI的研究和19个关于BDI的研究进行总结，发现前者的平均效度为.45，后者为.56。

也有研究表明SI的效度高于BDI。Latham和Skarlicki［8］发现只有SI与组织公民行为显著相关，BDI则不显著相关。Klehe和Latham［9］以79个MBA学生为被试，其中男生29人，女生50人，行为描述性与情景性题目平行设置，各为9个题目，以MBA期间的团队工作成绩为效标。结果发现SI和BDI的评分者信度分别为.83和.92，BDI的效度系数为.34，SI的效度系数为.41，二者差别不明显。回归方程中，SI在BDI之外对团队工作绩效提供了更多的变异解释率，BDI则不然。他们认为出现这一结果的原因是在研究设计中突出了情景性面试的4个主要特征，即注重应试者的意图、将应试者置于两难情景中、制订详细的评分细则和通过前期研究筛除没有区分性的问题。四个月后，Klehe和Latham［9］又让同一批面试参与者用同伴评定的方法评定了每个人在团队工作中的典型绩效和最优绩效，结果发现BDI（r=.34）和SI（r=.41）都能预测典型绩效，而SI（r=.25）可以预测最优绩效，BDI则不能（r=.11）。

近年来有些研究者发现SI的预测效度，尤其是在复杂工作中的预测效度不如BDI。如Pulakos和 Schmitt［10］在一种复杂工作职位的申请者中实施了SI和BDI，每种面试的参与者都是108人，结果发现SI的效度为-.02，BDI的效度为.32，这使人们认为SI可能不适用于高层职位的人事选拔。Huffcutt等［11］选择59名加拿大海军军官申请人为被试，其中男性52人，女性7人，以录取后上级对其工作表现的评价为效标，研究发现两种条件下SI的效度系数分别是.20和.02，而两种条件下BDI的效度系数分别是.47和.31，这支持了SI不适合高层职位选拔的观点。Huffcutt等［12］对近期的54个研究进行了元分析，总样本量为5536，研究发现工作复杂性影响SI的效度，即随着工作复杂性的增加SI的效度会降低，但BDI的效度则不受工作复杂性的影响。

可见，国外对SI和BDI的效度问题尚存在争议。有人认为SI的预测效度在简单工作中与BDI一样好，而在复杂工作中不如BDI［12，13］。Klehe和Latham等则不同意这一观点，他们认为如果严格按照SI的原理设计面试，则SI在复杂职位选拔中也有很好的效度。Klehe和Latham认为之所以在有些研究中出现SI效度不高的情况，是因为面试题目中没有设计两难处境（dilemma），或者没有充分的预备研究（pilot study）。两难处境可以起到平衡社会期望性反应的作用，预备研究则有助于发现区分度不高的面试题目并加以删除。

SI与BDI的效度问题也开始引起我国学者的重视。黎恒［14］发现在相对基层职位的人才选拔中，SI与BDI的效度并没有体现出明显差异；而在中层职位中，BDI的效度接近.50，SI的效度却出现了负值。这一结果表明SI和BDI都适合简单职位的人事选拔，但是只有BDI适用于相对复杂职位的人事选拔。但批评者［15］认为在多质-多法分析中，黎恒将测评的四个维度当做特质，将两种面试方法（即行为描述和情景）当作方法，研究结果的真实性值得怀疑：SI与BDI各维度得分及总分间均是负相关，而且SI与效标间也是负相关，这与国外研究结果相左，令人怀疑面试的设计和评分的准确性。杜红等［16］随机抽取了某上市公司的43 位在岗中层管理人员作为面试实验对象，结果发现SI与BDI的信度系数都较高，而且没有明显差异。SI在任务绩效上的回归系数为.35，在总体绩效上的效度系数为.364；BDI在任务绩效上的回归系数为.395，在总体绩效上的效度系数为.537。因此可认为BDI的预测效度高于SI。

但与国外相比，国内关于SI和BDI的效度研究还不丰富，我们仍然不知道在中国文化背景下哪种面试更有效，及是否存在工作复杂性的调节作用等，该领域尚需要大量研究加以系统探讨。本研究试图通过一个设计严格的模拟面试，借助先进的统计方法对此问题作出探索，希望研究结果能为我国的人事选拔工作提供建议。

二、研究方法

（一）被试

被试为某大学教育学院2005级的68名本科学生，所有学生都是自愿参加。被试被告知参加的是一个模拟面试，面试结果只供研究之用，不对其学绩考核等产生任何影响；同时告诉他们面试过程和结果有助于其了解自身的优势与不足，为将来的工作应聘面试积累经验。这种处理最大限度地争取了被试的合作，在保证被试较高测验动机的情况下将面试中的社会期望性反应（social desirability responding，简称SDR）等偏差降低到最小，使研究结果更加客观真实，所发现的规律更有普遍性。

面试前编排被试序号，被试按照序号随机出场。

（二）面试设计与评分

与辅导员一起研讨哪些维度是大学生综合考评的主要依据，以及哪些维度会影响学生的学绩、职业发展、学校适应等，以此为依据选择了八项面试测评维度，分别是言语表达能力（verbal）、逻辑分析能力（reasoning）、计划组织能力（organization）、协调能力（coordinating）、建立伙伴关系（alliance）、自我管理能力（self-management）、责任心（responsibility）、应变能力（flexibility）。在每个面试维度上都平行设计情景性和行为描述性问题各一个，并采用李克特十点量表对情景性和行为描述性面试维度分别进行评分。面试时一半被试先提问行为描述性问题再提问情景性问题，另一半则是先提问情景性问题再提问行为描述性问题，以平衡顺序效应。

每个被试面试时间大约为45分钟，在10天时间内完成所有面试工作，5名评分者都参与了所有68名被试的面试和评分。面试结束后评委即根据评分标准进行独立评分。为保证评分准确性，面试过程中做了录音，间隔半个月后让每个评委再听录音，根据录音对初次评分进行修正。所有评委的两次评分都是在研究者的监督下进行的，保证了每个评分都以被试的行为和情景描述为依据，并严格参照评分标准。所有评委都是先听全部被试的行为描述性问题录音，对行为描述性问题的初评结果进行修正，再听全部被试的情景性问题录音，然后对情景性问题的初评结果进行修正。行为描述性和情景性面试的录音评分过程中均对顺序效应进行了平衡，最大限度地减少了两类面试问题在评分上的相互干扰，使评分准确客观。

（三）试测和对主试的培训

研究发现，有经验且专业的主试可以提高面试的信度和效度［17］。因此，本研究面试评委小组为心理测量专业的5位研究生，都有从事人事测评工作的经验，而且参加本研究前都接受了集体培训（内容包括结构化面试的要求、误差控制、面试中的人际互动等）。在正式面试之前选择8名本科生（不属于正式被试）进行了试测。试测时采用与正式面试相同的程序，试测后让各评委独立评分，面试结束后再讨论各自评分的依据，直到评分标准统一。试测使各评委之间能协调一致，同时也增强了评委在面试过程中对偶然情况的应变能力。试测后再让评委对面试中存在的问题进行研讨，进一步熟悉面试要求。集体培训、试测及试测后的研讨时间不少于5个工作日。

三、结果

（一）行为描述性面试的多质-多法验证性因素

分析

本研究采用多特质-多方法（multiple trait multiple method, MTMM）的设计思路编写LISREL的验证性因素分析（CFA）程序。MTMM是探究构想效度的一种有效方法，而且在人事测评与选拔及心理健康诊断领域有较为广泛的应用。本研究借鉴前人研究，将MTMM应用到结构化面试中。在本研究中，程序中将5个评委对8个维度的40个评分向量定义为观测变量，定义8个面试维度为8个潜变量，即8个特质效应，5个评委定义为5个潜变量，即5个方法效应，这样共有13个潜变量，比较两套对应的数据（即由行为描述性面试和情境性面试各自获得的一套数据）与多个模型的拟合差异情况。

本研究在选择合适的MTMM模型时使用的是可互换方法（interchangeable method），即从一组高度类似的方法中随机挑选的方法。

本模型中，每个观测变量都同时测量一个特质因素和一个方法因素。如评委1对维度1的评分向量被设定为在潜变量1（即面试的第一个维度）和潜变量9（即评委1的方法效应）上有载荷。设置方法因素的依据是每个主试在评分时都存在不同程度的主观好恶，因此对每个被试评分时都会出现系统误差，这一系统误差于是被设置为方法因素。不同主试体现出的方法因素存在程度上的不同。

由于行为描述性和情景性测评数据都有不同程度违反正态分布的情况，因此在计算本文中所有模型的拟合度时采用了Satorra-Bentler提出的校正卡方统计量。

1.行为描述性面试的模型拟合度

运行LISREL程序，估计出行为描述性面试多质-多法CFA模型的拟合度指标，见表1。

表1.行为描述性面试多质-多法CFA模型的拟合度

（含评委效应）模型

χ2

χ2/df

NFI

NNFI

CFI

IFI

RFI

RMSEA

SRMR

1208.44

1.79

.91

.97

.90

.080

.084

表2.行为描述性面试验证性因素分析的模型拟合度

（不含评委效应）模型

χ2

χ2/df

NFI

NNFI

CFI

IFI

RFI

RMSEA

SRMR

1433.94

2.01

.87

.92

.93

.85

.120

.130

从表1中结果可知，行为描述性面试含评委效应的CFA模型的卡方/df比率小于2，NNFI、CFI、IFI都大于.90，接近.95，唯有RMAES和SRMR大于各自的理想值.05和.06，但仍处于可接受的临界点上。从这些拟合指数的取值判断，可认为假设模型是得到了数据的支持的。就是说从5个评委对8个维度的评分中可以抽离出8个特质因素（即面试的8个维度）和5个方法因素（即评委效应）。这一模型的拟合度明显好于不含评委效应的八因素模型（即只将8个面试维度设为潜变量），结果见表2。表2中卡方、NNFI等几个指标的取值尚好，RMSEA和SRMR却大到了难以接受的地步，即使勉强认为模型拟合，也不得不承认，观测变量的协方差没有被充分地解释。只有引入评委因素，即方法效应，模型拟合才能变得更好。这就是说面试中特质效应和评委效应都存在，但在行为描述性面试中评委效应所起的作用并不是很大，因为两个模型间模型拟合度的差异不太大。这一点有待下文进一步验证。

2.行为描述性面试的特质效应与方法效应

以下我们再通过计算MTMM模型中特质效应和评委效应的因素载荷系数来分析评委效应的大小，见表3和表4。两表中所列都是标准化的载荷系数，其取值可直接比较大小，载荷的大小体现了一个观测分数受潜变量影响的程度。从表3和表4中可以看出与方法效应相对应的载荷都不大，只有一个超过.50，且绝大多数小于特质效应的载荷。说明面试评分更多地受特质因素影响而较少受方法因素影响，即被试在行为描述性面试中的得分较多地取决于被试在各测评维度上能力的高低，而不太受主试者评分主观因素（如感情好恶等）影响。也就是说，方法因素是存在的，但其影响不大。

表3.行为描述性面试多质-多法CFA模型中各维度的评委效应（方法效应）

评分向量

评委

效应1

评委

效应2

评委

效应3

评委

效应4

评委

效应5

言语表达得分

.28

.30

.10

.16

.34

逻辑分析得分

.32

.33

-.01

.14

.32

计划组织得分

.18

.24

.08

.33

.35

协调能力得分

.44

.46

.22

.15

.29

建立伙伴得分

.26

.20

.11

.36

.24

自我管理得分

-.04

.17

.23

.28

.20

责任心得分

.10

.28

.73

.24

.27

应变能力得分

.42

.10

.03

.12

绝对值的均值

.25

.30

.21

.27

表4.行为描述性面试多质-多法CFA模型中各维度的载荷（特质效应）

评分向量

言语表达

逻辑分析

计划组织

协调能力

建立伙伴

自我管理

责任心

应变能力

评委1评分

.67

.79

.73

.66

.68

.62

.55

.61

评委2评分

.77

.83

.81

.69

.70

.60

.67

.70

评委3评分

.85

.81

.80

.79

.88

.76

.69

.80

评委4评分

.86

.80

.71

.78

.77

.75

.88

评委5评分

.88

.83

.87

.67

.79

.95

.87

.90

平均值

.81

.82

.80

.71

.77

.75

.72

.78

（二）情景性面试的多质-多法验证性因素分析

1.情景性面试的模型拟合度

采用与行为描述性面试中相同的多质-多法验证性因素分析模型，对情景性面试的结果也进行了CFA分析，结果见表5和表6。

表5.情景性面试多质-多法CFA模型的拟合度

（含评委效应）模型

χ2

χ2/df

NFI

NNFI

CFI

IFI

RFI

RMSEA

SRMR

963.32

1.43

.88

.93

.94

.86

.110

.200

表6.情景性面试验证性因素分析的模型拟合度

（不含评委效应）模型

χ2

χ2/df

NFI

NNFI

CFI

IFI

RFI

RMSEA

SRMR

1859.54

2.60

.82

.87

.88

.80

.150

.220

从表5中的结果可知，情景性面试（含评委效应的多质-多法模型）的因素分析结果不很理想，虽然卡方/df、NNFI等指数可以接受，但RMSEA和SRMR的取值已经超出了可容许的最大限度，就是说模型很可能是与数据不拟合的。虽然总体上的因素结构可能是合理的，但至少有一部分观测变量间的关系没有被模型充分解释。与行为描述性面试的多质-多法CFA结果相比，情景性面试的模型拟合度更差。这说明行为描述性面试有与理论假设更一致的因素结构，也即有更好的构想效度（construct validity）。相比之下情景性面试的因素结构则更为复杂。

表6中为不含评委效应的CFA模型（只将面试维度作为潜变量的八因素模型）。对比表5和表6中的结果可知，情景性面试的验证性因素分析中，含评委效应和不含评委效应的模型拟合度都不好，但在引入评委效应后，模型拟合度有所改善。这说明情景性面试中也存在评委效应，即方法效应，且方法效应也不太大，但大于行为描述性面试的方法效应。

情景性面试中即使将评委效应引入多质-多法CFA模型，模型拟合度也不是非常理想，说明除8个特质效应和5个评委效应外，可能还有其他因素影响了面试结果。综合以往文献可知，这一因素可能是社会期望性应答因素或面试动机因素。为对这一因素进行评估，我们在8个特质因素和5个评委因素之外设置了第14个潜变量，即SDR因素。SDR因素被设定为在5个评委对8个面试维度的40个评分向量上都有载荷。该模型的拟合度列于表7中，为便于对比，表7中还列出了行为描述性面试引入SDR因素后的模型拟合度。

表7.引入SDR因素后两类面试的模型拟合度

面试

类型

χ2

χ2/df

NFI

NNFI

CFI

IFI

RFI

RMSEA

SRMR

872.76

1.38

.89

.93

.95

.87

.076

.074

BDI

888.04

1.41

.90

.94

.95

.87

.078

.068

从表7可见，情景性面试在引入SDR因素后模型的拟合度很好，即使按CFI等≥0.95的严格标准，也可认为模型是拟合的，即有很好的理论构想。这一模型与不含SDR的模型（见表5）相比拟合度发生了很大变化，说明情景性面试中SDR因素是存在的，而且起了不小的作用。

而行为描述性面试在引入SDR因素后模型的拟合度虽然也有改善，但改变量并不很明显，说明行为描述性面试中SDR的作用没有情景性面试中的大。这给我们的启示是，情景性面试中更应控制SDR。

2.情景性面试的特质效应与方法效应

情景性面试中采用多质-多法CFA模型计算出的各维度的评委效应（方法效应）和特质效应见表8和表9。

表8.情景性面试多质-多法CFA模型中各维度的评委效应（方法效应）

评分向量

评委

效应1

评委

效应2

评委

效应3

评委

效应4

评委

效应5

言语表达得分

.36

.74

.33

.30

.44

逻辑分析得分

.34

.36

.34

.13

.45

计划组织得分

-.24

-.07

.44

.28

.39

协调能力得分

.08

.40

.66

.40

.32

建立伙伴得分

.19

.22

.47

.53

.66

自我管理得分

.54

-.16

.35

.67

.54

责任心得分

-.17

-.16

.38

.53

应变能力得分

.20

.38

.42

.29

绝对值的均值

.28

.32

.40

.42

.43

表9.情景性面试多质-多法CFA模型中各维度的载荷（特质效应）

评分

向量

言语表达

逻辑分析

计划组织

协调能力

建立伙伴

自我管理

责任心

应变能力

评委1评分

.80

.79

.92

.93

.90

.92

.95

.90

评委2评分

.79

.84

.93

.94

.95

.94

.93

.94

评委3评分

.69

.62

.50

.52

.49

.27

.41

.46

评委4评分

.79

.81

.62

.47

.42

.53

评委5评分

.81

.75

.67

.42

.41

.37

.55

平均值

.78

.76

.72

.66

.64

.58

.67

从表8和表9中的结果可以看出，在情景性面试中也是特质效应大于方法效应，即情景性面试的结果较多受特质因素的影响而较少受方法因素的影响，情景性面试的效度也是可以接受的。但与行为描述性面试相比，情景性面试的方法效应更大一些（行为描述性面试的方法效应平均载荷量为.25，情景性的平均载荷量为.37），而特质效应更小一些（行为描述性面试的特质效应平均载荷量为.78，情景性的平均载荷量为.69）。

（三）面试数据与行为评定的相关

关于面试数据的多质-多法CFA分析属于对面试内部结构的分析，虽然也能为面试效度提供较客观的心理测量学证据，但终究不能代替外部效标研究。研究中我们选择学生辅导员和学生干部的评定作为效标，请被试所在班级的2个专职辅导员和3名班级学生干部对8个面试维度进行了评定。专职辅导员都有7年以上学生工作经验，对学生能力考评有着丰富的经验。作为主评人的班干部也都是工作出色的优秀学生干部，能很好地理解本研究的目的。评定前研究者详细讲解了8个测评维度的含义，让主评人根据对被评定者行为（包括操行、在班级中的表现、与同学关系、对集体活动的参与和组织等）的观察为依据进行评定，并强调评定结果只用来做研究。参加本研究的被试都是大三年级及以上的学生，这为主评人的评定提供了较充分的行为样本，从而保证了评定的准确性。

1.面试评分与辅导员评定的相关

面试结果与辅导员评定的相关关系见下页表10。

从表10可以看出，无论是行为描述性还是情景性面试，在言语表达、逻辑分析、组织计划能力三个维度上面试结果与教师评定间都出现了中度以上的相关（r>.50），在应变能力上相关也都达到了显著水平。而在协调能力、建立伙伴关系、自我管理三个维度上行为描述性和情景性面试结果都与教师评定间不存在相关。在责任心维度上，行为描述性面试结果与教师评定间出现了相关，而情景性面试结果则与教师评定没有相关。情景性和行为描述性面试的总分也与教师评定间出现了高相关，但行为描述性面试的相关系数更大。

分析这些结果可见，一些易于外显的心理特质，如言语表达、逻辑分析、组织计划等较易于被评定，面试评委和辅导员都能对这些特质给以较准确的评定；而责任心和自我管理是相对内隐的心理品质，不易于被他人评定出来，因此可能导致辅导员和面试评委都不能对这两项特质准确地进行评定。由于辅导员与学生间是上下级关系，可能并不了解其同学关系，因而对学生在人际交往（建立伙伴关系、协调能力）方面的能力可能评定不够准确，但这两个维度在面试中是较容易评定的。当然，出现本研究的结果也有可能说明面试评委对建立伙伴关系、协调能力维度的评定不准确。

2.面试评分与班委评定的相关

面试结果与班委评定的相关见表11。

从表11中可见，行为描述性和情景性面试中的言语表达、逻辑分析、组织计划能力3个维度与班委评定间也都出现了中度以上的相关（r>.50），在应变能力维度上为显著相关，自我管理维度没有相关，这一点与表10中的结果相同。而谐调能力、建立伙伴关系2个维度却出现了显著相关，说明与人际交往（建立伙伴关系、协调能力）有关的能力较容易被同学评定。

总结表10和表11中的结果可知，自我管理能力维度的效度是最差的，责任心、协调能力两个维度的效度也不好，言语表达、逻辑分析、组织计划能力3个维度的效度最好。对比两类面试，可以发现行为描述性面试的效度略好于情景性面试。

四、讨论

（一）情景性面试与行为描述性面试的因素结构

从本研究的结果可以看出，无论是不含评委效应的CFA模型还是含有评委效应的CFA模型，情景性面试的模型拟合度都不如行为描述性面试。这说明行为描述性面试有更符合理论假设的因素结构或构想效度。

本研究发现情景性面试的因素结构更为复杂，这与以往研究是一致的［13，18，19］。根据前人研究的结论，本研究中将这一因素定义为SDR因素。只有引入SDR因素后，情景性面试的CFA分析结果才达到了较理想的程度;而行为描述性面试在引入SDR因素前模型拟合度就达到了较好的水平，在引入SDR因素后模型拟合度也没有太大改善。这说明情景性面试更容易受SDR的影响。

由于情景性面试中让被试回答的是他在将来情景中的设想，因此更容易受社会期望性的影响，即被试在回答时更容易迎合主试的意图，从而导致主试者对测评维度的评定不准确。Klehe和Latham［9，20］认为应该设置两难问题情景来克服这一问题。两难问题情景类似于人格量表中的迫选式题目，两个选项的社会期望性相同，设置两难问题后被试的回答将更体现自己的真实意图。

行为描述性面试中也存在SDR因素或动机，即使其作用并不明显。这说明被试在描述自己过去行为时也可能存在迎合测试者意图的倾向，或者存在面试动机的作用。这是有待进一步研究的问题。

（二）情景性面试与行为描述性面试中的评委效应

从多质-多法的CFA结果可以看出，无论是行为描述性面试还是情景性面试，引入评委（即方法）效应后模型拟合度都有所提高。从模型拟合的改善度上对比可知，情景性面试的拟合度改善量较大，似乎说明情景性面试中评委效应所起的作用比较大。进一步比较评委效应的因子载荷，发现行为描述性面试中的方法效应平均载荷量为.25，情景性方法效应的平均载荷量为.37；而行为描述性面试的特质效应平均载荷量为.78，情景性特质效度的平均载荷量为.69。说明行为描述性面试的结果受测评维度的影响大一些，而情景性面试中评委效应所起的作用大一些。因此可以说两类面试中都存在评委效应，但情景性面试中评委效应可能更为明显。

这可能说明情景性面试中主试的评分更多地受主观因素的影响，原因是在情景性面试中主试者评定的是被试的意图或设想，而不是客观存在的行为，使得主试者的宽严度、情感好恶、态度等起的作用大一些；而在行为描述性面试中，由于主试评分都是以被试的行为样本为依据，因而更能做到客观。因此克服评委效应在情景性面试中显得更为重要。这就要求情景性面试的设计要更加严密，对主试的培训也要更加严格，做到严格遵守评分细则。

总体上讲，两类面试中的特质效应都远大于方法效应，说明主试评分中主要是根据被试在各测评维度上的表现评分，这也证明两类面试的理论基础都是正确的。

（三）情景性面试与行为描述性面试的效标关联效度

情景性面试与行为描述性面试总体上讲都有较高的效标关联效度，其总体效度都在.50以上。两类面试都在言语表达、逻辑分析、组织计划维度上有很好的效度，而在自我管理、协调能力、责任心几个维度上效度较差。在有的面试维度上情景性面试的效度好于行为描述性面试，而在有些维度上则是行为描述性面试的效度好于情景性面试。但从总体上讲，行为描述性面试的效度略好于情景性面试。

从两类面试的效度对比中可知，无论是行为描述性还是情景性面试，都不是在所有测评维度上都有或都没有效度，通常是在容易外显的维度上效度较好，在相对内隐的维度上则效度较差。就是说结构化面试存在的传统问题在行为描述性和情景性面试中依然存在。这要求面试者要做好测评维度的设计。

（四）关于本研究的方法

本研究中的面试属于模拟面试，纯粹是为研究而设计的，在面试场地的选择、材料的准备、被试选择、主试培训、面试过程的控制几方面都做了充分的准备，并进行了严格的标准化。面试结束后进行了现场评分，又根据录音对评分进行修正，做到了评分的准确、客观。这些工作在相当高的水平上保证了本研究结论的严谨性。

本研究采用了结构方程建模的方法估计测评维度效应和评委效应，较传统的多质-多法分析有方法上的优势，不仅可以评定特质和方法效应是否存在，还估计出了效应的具体数量。虽然与验证性因素分析的样本量要求相比偏少，但程序运行中没有出现模型不收敛的问题，参数估计结果没有发现不合理的取值，因此即使样本量较少，也基本不影响结论的正确性。

五、结论

（一）情景性面试与行为描述性面试的效标关联效度都较好，与辅导员和班委（即上级管理者和班级管理者）的评定间出现了显著相关。两类面试的总分与辅导员和班委评定的总分间相关都在.50以上，行为描述性面试的效度略高些，但不明显。面试的不同维度与辅导员和班委评定间的相关系数则各不相同。

（二）行为描述性面试的构想效度好于情景性面试，情景性面试受社会期望性即SDR的影响更大。虽然从行为描述性面试中也抽离出了SDR的成份，但其影响不大。

（三）行为描述性面试也受评委效应的影响，但情景性面试中评委效应对面试结果的影响更大。其原因是行为描述性面试评定的是被试的行为，更容易做到客观，而情景性面试中评定的是被试的意图和设想，更容易受主观因素影响。

（四）本研究的结果证实情景性和行为描述性面试都是有效的面试形式，只要程序设计严谨，过程控制严密，都可用作有效的人事测评工具。

由于情景性更容易受评委效应（如评分宽严度、价值判断标准等）的影响，因此在设计和控制上应更加谨慎。Klehe和Latham［9，20］认为情景性面试实施中要注意以下问题：即注重应聘者的意图、将应聘者置于两难情景中、制订详细的评分细则和通过前期研究筛除没有区分性的问题。这四个方面都会影响情景性面试的效度。

行为描述性面试中也存在一定程度的评委效应和面试动机（可能也是SDR）效应，因此也应合理设计。行为描述性面试是否有效取决于能否准确完整地挖掘出被试过去的与测评特质有关的行为样本。因此在行为描述性面试中要遵循STAR模式，要突出强调情境、任务、行动、结果四要素，做到行为信息的完整性和真实性。

［1］Macan T. The employment interview: A review of current studies and directions for future research［J］. Human Resource Management Review, 2009, 19: 203–218.

［2］王拥军, 俞国良. 效度概化：预测效度元分析的30年成果述评［J］. 心理科学进展, 2008, 16(6): 964-972.

［3］Posthuma R A, Morgeson F P, Campion M A. Beyond employment interview validity: A comprehensive narrative review of recent research and trends over time［j］. Personnel Psychology, 2002, 55(1): 1–81.

［4］Gibb J, Taylor P J. Further analysis of structured employment interview question types［J］. Asia-Pacific Journal of Human Resource Management, 2001, 41: 371–382.

［5］Day A L, Carroll S A. Situational and patterned behavior description interviews: A comparison of their validity, correlates, and perceived fairness［J］. Human Performance, 2003, 16(1): 25-47.

［6］Latham G P, Sue-Chan C. A meta-analysis of the situational interview: An enumerative review of reasons for its validity［J］. Canadian Psychology, 1999, 40(1): 56–67.

［7］Taylor P J, Small B. Asking applicants what they would do versus what they did do: A meta-analytic comparison of situational and past behavior employment interview questions［J］. Journal of Occupational and Organizational Psychology, 2002, 75:277–294.

［8］Latham G P, Skarlicki D. Criterion-related validity of the situational and patterned behavior description interviews with organizational citizenship behavior［J］. Human Performance, 1995, 8(1): 67–80.

［9］Klehe U C, Latham G P. The predictive and incremental validity of the situational and patterned behavior description interviews for team playing behavior［J］. International Journal of Selection and Assessment, 2005,13(2): 108–115.

［10］Pulakos E D, Schmitt N. Experience-based and situational interview questions: studies of validity［J］. Personnel Psychology, 1995, 48(2): 289–308.

［11］Huffcutt A I, Weekley J A, Wiesner W H, Degroot T G, Jones C. Comparison of situational and behavior description interview questions for higher-level positions［J］. Personnel Psychology, 2001, 54(3): 619–644.

［12］Huffcutt A I, Conway J M, Roth P L, Klehe U C. Evaluation and comparison of the situational and behavior description interview formats［J］. International Journal of Selection and Assessment, 2004, 12(3): 262–273.

［13］Huffcutt A I, Conway J M, Roth P L, Stone N J. Identification and meta-analytic assessment of psychological constructs measured in employment interviews［J］. Journal of Applied Psychology, 2001, 86: 897–913.

［14］黎恒. 行为面试和情景面试的实证比较［J］. 人类工效学, 2003, 9(3): 8-12.

［15］王雪, 王国强, 凌文辁. 对《行为面试和情景面试的实证比较》一文的商榷［J］. 人类工效学, 2006, 12(2): 54-56.

［16］杜红, 洪自强, 陆兴海. 中层管理人员结构化面试测评效度的现场研究［J］. 应用心理学, 2007, 13(3): 44-249.

［17］田效勋, 车宏生. 面试预测效度和构想效度研究述评［J］. 心理科学进展, 2009, 17(4): 870-876.

［18］Conway J M, Peneno G M. Comparing structured interview question types: Construct validity and applicant reactions［J］. Journal of Business and Psychology, 1999, 13(4): 485–506.

［19］Roth P L, Van Iddekinge C H, Huffcutt A I, Eidson C E(Jr), Schmit M. J. Personality saturation in structured interviews［J］. International Journal of Selection and Assessment, 2005, 13(4): 261-263.

［20］Klehe U C., Latham G P. What Would You Do—Really or Ideally? Constructs underlying the behavior description interview and the situational interview in predicting typical versus maximum performance［J］. Human Performance, 2006,19(4): 357–382.

栏目编辑 / 丁尧.终校 / 黄才玲

表10.两类面试与教师评定间的相关

言语表达

逻辑分析

组织计划

协调能力

建立伙伴关系

自我管理

责任心

应变能力

总分

情景性面试

.579**

.521**

.558**

.176

.036

.062

.224

.360**

.512**

行为性面试

.580**

.506**

.643**

.143

-.008

.098

.307*

.296**

.532**

注：*p < .05，**p < .01，下同。

表11.两类面试与班委评定间的相关

言语表达

逻辑分析

组织计划

协调能力

建立伙伴关系

自我管理

责任心

应变能力

总分

情景性面试

.536**

.603**

.672**

.303*

.350**

.058

.154

.307*

.573**

行为性面试

.544**

.602**

.769**

.240

.333*

.085

.258

.275*

.585**

心理技术与应用2014年6期

心理技术与应用的其它文章: 水中有个月亮; 老年人主观幸福感概述; 英语课堂教学中; 建构解决之道的SFBT晤谈六阶段; 情绪对法官量刑决策影响的实证研究; NLP疗法在初中生早恋问题中的应用