大学教师代表性成果评价及反思

2021-02-27 22:47宋旭红

复旦教育论坛 2021年4期

宋旭红，高源

（1.济南大学高等教育研究院，山东济南250022；2.南京师范大学教育科学学院，江苏南京210046；3.山东交通学院威海校区基础教学部，山东威海，264200）

传统意义上的代表作是指具有时代意义或最能体现作者水平、风格的著作或艺术作品。大学教师评价中的代表作最初是作为教师研究能力的一种体现，主要是指最能体现其学术成就、研究价值或学术潜力的著作和论文。本研究将代表性成果评价限定为代表性科研成果评价。

一、代表作评价与代表性成果评价：评价范围的有限与无限

（一）代表作评价的缘起和初衷

我国大学较早采用的教师代表作评价，更多地指向了人文社会科学（文科）的教师评价。例如：2003年南开大学在教师学术成果评定和职务晋升评审中试行代表作制度；2004年清华大学在人文与社会科学院系实行代表性学术成果评价；2005年北京大学中文系等系在教师岗位考核中试点论文代表作制度；2009年中国人民大学在全校范围推行论文代表作制；2010年复旦大学在部分人文社会学科试行代表作学术评价制度并在2011年推广至所有人文社会学科。

人文社会学科的性质和特征决定了对人文社会科学很难做到纯量化、纯当下和纯客观的评价，与自然科学评价存在明显的差异性。首先，自然科学具有研究对象客观性、研究价值和评价标准统一性、研究程序可重复性、研究成果直观可测量等特征；而人文社会科学由于其理论学说和思想体系的创新性需要在历史和现实的两个时空中做出价值和意义判断，需要经长期实践检验，所以其成果评价具有滞后性、多样性和复杂性的特点。其次，自然科学研究成果更容易被引用，其影响力更多遵循指数衰减曲线规律；而人文社会科学成果独立研究作者多，合作作者论文相对少，文献引用的半衰期较长，引用的时间窗口被拉长，引用著作比引用期刊论文多[1]13-25。再次，在某些人文社会学科领域具有重要社会意义的本土研究对象具有文献引用本土化特征，难显国际化特征，难获更多引用。文献计量评价对某些人文社会科学成果评价会产生功能性障碍，存在更大难度和更多不可控因素，其跨学科比较具有不公平性[2]。人文学科需要相当广泛的质量指标，这些指标必须符合该领域中成果、目标人群和出版文化的多样性[3]。代表作评价始于人文社会科学，正是基于此。

（二）代表作与代表性成果内涵和外延的再审视

与“代表作”相联系的另一个概念是“代表性成果”。“代表性成果”概念的最初提出可以追溯到2004年发表的两篇论文，作者认为，代表性学术成果就是能够反映该学科领域的学术水平和学术地位的成果，可分解为代表性学术著作和代表性学术论文两项具体的指标[4-5]。以此可认为，至2004年，代表性成果概念的内涵和外延可以等同于代表作，两者内涵和外延发生变化的时间，大致可以2012年为界。

一是从代表作评价到代表性成果评价，概念的内涵和外延发生了变化。从实践层面看，2012年复旦大学正式在全校教师高级职务聘任中实施“代表性成果”评价机制[6]。从最初部分文科院系中的代表性论著评价，扩展到全校所有学科教师的教学、科研、社会服务不同维度的评价，在政策演变路径中体现出代表性成果概念的开放性和多样性。从国家政策层面看，自2013年教育部在《关于深化高等学校科技评价改革的意见》中提出分类评价，“对主要从事创新性研究的科技活动人员实行代表性成果为重点的评价”以来，代表性成果评价机制先后在《关于深化高校教师考核评价制度改革的指导意见》《关于加快直属高校高层次人才发展的指导意见》《关于分类推进人才评价机制改革的指导意见》《深化新时代教育评价改革总体方案》等国家政策文本中被强调。代表性成果评价作为大学教师评价、高等教育综合评价中的特定概念开始出现在地方政府及其教育行政部门的政策文件里，并在不同类型高校中得到推广和实施。

二是代表作内容和形式的变化导致其概念的内涵和外延发生变化。在2018年《关于深化项目评审、人才评价、机构评估改革的意见》、2019年《关于深化自然科学研究人员职称制度改革的指导意见》、2020年《关于规范高等学校SCI论文相关指标使用树立正确评价导向的若干意见》中，都明确提出了代表作评价机制。前者将代表作评价应用到不同学科门类的项目申请、人才评价和机构评估之中，丰富了代表作形式，明确规定项目成果、研究报告、专著译著、技术标准规范等均可作为代表作；后两者将代表作评价应用到自然科学领域，指向了自然科学的论文评价。代表作概念内涵和外延的变化，无疑将代表作评价等同于代表性成果评价。

代表作和代表性成果概念内涵和外延的变化，更加鲜明地体现了我国新时代教育评价改革在摒弃以量代质、强化学术本体价值之路上的积极应对和有益探索，但同时也导致了代表性成果评价在理想与现实、统一性与多样性之间更加复杂的关系。当学科评价范围从人文社会科学（文科）教师评价向自然科学（理工科）教师评价、从进行创新性研究的科技人员向不同类型的科技人员、从个别世界一流大学建设单位向不同层次和类型高校延伸之时，代表性成果的认定方式和评价方式就需要再审视。在“三流学校数论文篇数、二流学校数论文的影响因子、一流学校不对论文发表提要求”[7]存在现实客观性和局部合理性的情况下，代表性成果评价中原创性和创新性的核心标准和评价目的就需要再审视。当学术评价内容和形式从单纯的论文、著作、作品等方面的评价向项目成果、研究报告、技术标准规范、重大成果转化与推广等评价方面延伸，从科研领域的代表性成果向教学领域的代表性成果扩展，代表性成果评价的程序、方法和实现路径就需要再审视。

从国家政策看，代表性成果评价只是一种倡导和探索的评价机制，并不是强制性的硬规定。优化和深化我国大学教师评价是一个系统工程，代表性成果评价只是大学教师评价的一种重要机制。它是一剂良药，但并不能包治百病。学术晋升之路的奋力攀升是学术职业生命意义的全部呈现，无论是否存在代表作或代表性成果评价的概念和模式，大学教师在每一次职称晋升和评聘的关键点上都会把自己最好的代表性学术成果优先呈现出来。无论国内国外，只要是大学就概莫能外。

从严格意义上说，代表作与代表性成果是两个有差别的概念，代表性成果的内涵和外延比代表作宽泛。代表作只是代表性成果一个最重要的组成部分，应保持其原始意义中的论文、著作和创作作品的外延不变。当代表性成果评价呈现出学科多样、高校层次和类型多样、评价内容和形式多样等复杂形态，并且相互交织、彼此渗透，代表性成果的概念及其呈现出来的意义比代表作更具现实合理性。

二、单一与综合：评价模式的相同与不同

从我国高校实施的代表性成果评价看，可概括为3种模式，分别可称为武汉大学模式、复旦大学模式和北京大学模式①。

武汉大学模式，是在教师专业技术岗位聘任和破格聘任有序进行的基础上，将代表性成果评价作为一种独立评价机制运行。武汉大学分学科、类型，按年度进行教师专业技术岗位评聘。与此并行，实行代表性成果评价制度：由教师个人按“代表性成果评价制度”条款申报，填写《武汉大学代表性成果同行专家鉴定表》，提交3项标志性突出成果（论文、著作、项目、获奖、咨询报告等）的证明材料；各单位确定申报人申报资格，组织5名校内外同行专家，以通讯评审或会议评审的方式进行评议，评议结果分为“达到”“未达到”两个等级，回收的评议结果至少要有3份“达到”，方可进入下一轮评审程序。

复旦大学模式，历经两个阶段，以鼓励教师潜心科研，做出高质量、创新性乃至突破性的优秀成果为宗旨，以“小同行”评价为核心标准，以分类评价和综合准入为基础标准，以“青年杰出人才”申请为专门渠道的“代表性成果”评价机制。第一个阶段始于2010年，基本做法是：对于学校和院系制定的学术标准难于判别的、个别真正优秀的文科申请人，可以自主向学院提出申请，提交1~3篇代表作；学院学术评估通过后，由学校随机选择5位校外具有较高学术声望的学者，匿名对申请人是否“真正优秀”“能否破格”“是否胜任”等问题进行学术评估。候选人能否参加高级职称竞聘的核心标准是同行专家的学术评价。第二阶段始于2012年，在全校教师高级职务聘任中正式推出“代表性成果”评价机制，并对代表性成果做出了明确界定：教师在稳定的学科方向上，通过持续的研究，形成能代表自己学术水平的创新性成果。此后，学校不断完善代表性成果机制，如：精准实施校外“小同行”评议；将正高和副高申请人的外审份数从3~5份和2~3份增加至8份和5份；建立人文与社科、理科、工科、医科、教学为主5类学术评价指导标准；通过“青年杰出人才”专门渠道申请正高级专业技术职称的候选人，可不受学校规定的“代表性成果数量”或“任职资历”限制；完善综合准入基础上的“代表性成果”评价机制，在坚守依法教学、教书育人、为人师表等教育质量标准的基础上，将教师个人高质量的学术成就作为教师专业技术岗位聘任根本标准。

北京大学模式主要包括两种形式：第一种是在教学科研系列中的长聘职位和教授职位晋升中，对主要学术成就中的著作、论文设置提交数量，采用代表性学术成果评价；第二种是对讲席教授、人文讲席教授等人才称号职位聘任和正高级专业技术二级、三级岗位聘任，主要采用代表性学术成果评价。在第一种形式中，规定提交主要学术成就中的代表性著作、论文总计不超过10篇（部）；而在主要科研项目、科研成果应用转化情况、有重要影响力的研究报告方面，均未做出具体数量限制。在第二种形式中，要求提供近5年的教学科研工作和成果目录，代表性学术论文或专著不超过5篇（部）；对于符合学校规定的激励条件类型，在教学奖励、教学责任、科研奖励、科研责任、社会服务等类型中，每一类只列举一项。

虽然，3种模式共同强调了教师学术成就的高质量和影响力，更加注重学术专长和学术创新，但高质量的评价标准在3种模式之间显然不具有绝对意义上的一致性。复旦大学模式是教师评聘的基本形式，武汉大学模式是教师评聘形式中的一种形式，北京大学模式则是教师评聘中的一个方面。在3种模式中，北京大学以著作和论文为主体的代表性成果评价，最接近代表作评价的原本意义。

武汉大学模式从制度上鼓励仅凭重大成果就能脱颖而出的学术创新人才，营造呵护甘于沉潜寂寞的学术发展环境。申请代表性成果评价的教师明显是以质取胜，其代表性成果的学术水平不仅要高于正常晋升教师的成果水平，而且还要得到教师个人、学校和学术共同体的集体公认。

复旦大学模式在评价范围普遍化的过程中，个人高质量学术成就的评价标准必将会与当年度教师岗位评聘的数量和候选人的学术水平产生内在关联，其评价标准也因此具有一定的相对性。在大致同等学术水平教师之间的竞争中，其提交代表性学术成果之外的学术产出数量与质量无疑也是衡量教师能否晋升聘任的一个砝码，但这个砝码由于被评价成果的数量限制而变得无处安放并难以衡量。面对这一问题，复旦大学通过增加代表性成果的数量进行了部分缓解。

北京大学模式无疑更加接近美国一流大学的教师晋升和终身教职评价模式，在坚持教师发展综合评价和业绩全面呈现的基础上，突出教师个人代表性成果评价。既重视教师评聘的主要学术成就，重视高质量著作和论文的代表性，又不轻易将教师学术成果的质量与数量绝对分离，从而将大学教师的社会职责通过教师评聘制度立体化地呈现出来。

三、质量与数量：评价标准的主观性与客观性

（一）数量与质量并非简单的二元对立

有学者认为，大学教师代表性成果评价主要是借鉴国外大学教师评价的成功经验。的确，很多国外大学在教师评价中都十分强调教师学术的内在品质，但并没有完全放弃将学术成果数量和学术生产力作为教师评价的一个重要方面，也并没明确提出代表作或代表性成果这样一种评价机制。例如，美国哈佛大学在其教师手册里提到，副教授晋升到教授需要提交的出版成果包括精选重要文章和最新文章（或其他作品）、未发表的重要手稿、候选人出版作品的所有重要评论；艺术成果包括重要的创意作品、最新作品以及所有重要评论的清单；引用信息包括候选人作品的总被引次数、候选人每份出版物的引文计数[8]。斯坦福大学在终身教职评估中对研究绩效或前景的考虑因素包括学术活动和生产力，学术影响、创新和创造力，在相应领域的认可度和知名度等[9]。有研究认为，尽管世界顶尖大学晋升和终身教职评价中所谓的“卓越”包含很多要素，但其中一个主要因素是个人出版物的质量和数量[10]。对于这一数量的要求，南加州大学认为：学术生产力是学者未来学术发展前景的有力证明，聘用、晋升、终身教职决策虽与完成数字的目标无关，但学术贡献和影响力通常来源于累积的成果数量，如果学术成果的数量低于通常的水准就会造成一些问题[11]。北京大学虽与南加州大学教师评价模式最为接近，但在著作、论文方面对于候选人的要求恰好相反：南加州大学重点强调候选人应在影响力大的期刊上发表足够数量的论文，而北京大学却对候选人的著作和论文数量做了限定。

大学教师评价制度中的数量和质量的关系非常复杂，重数量与轻质量、重质量与轻数量并不具有互为前提的、直接因果关系。费斯特（Gregory J.Feist）[12]根据出版物的特点，将美国加州顶级研究型大学的99位男性科学家分为4个类型：多产型（prolific，既出版物多，又引用广泛），沉默型（silent，出版物很少，引用也很低），大量生产型（mass producer，出版物很多，但引用很少）和完美主义型（perfectionist，出版物很少，但引用广泛）。判断科学家卓越声誉的原始标准是成为美国国家科学院（NAS）的成员。根据1980-1984年及1990年这6年的数据，在99位科学家中，沉默型科学家被引16次，大量生产型的被引少于25次，完美主义型和多产型分别有123和150次被引；沉默型和完美主义型的出版物数量为65和75，大量生产型和多产型平均拥有200多种出版物；99位科学家中有31位是NAS成员，在31位NAS成员中，沉默型占3%，完美主义型占14%，大量生产型占62.5%，多产型占54.8%②。实证研究结果表明，至少在相对精英的科学家群体中，卓越度既与质量相互影响，又同样取决于数量：对于大量生产型和多产型来说，无论其作品是否被高引用，数量优先于影响力；但对于完美主义型来说，质量非常重要，高质量的成果可以带来更高的卓越度和享有盛誉的奖项。

学术成果的数量积累在一定程度上是学术影响力和学术生产力形成的基础和科学家卓越的标志，同样也是科学家进一步进行学术创新的资本。虽不缺少仅凭数量不多而水平极高的学术成果获得聘任和晋升的教师，但这样的教师群体评价并没有成为大学教师整体评价的基本标准和基本方式，就如同没有将数量的要求作为大学教师评价硬性规定或前置条件一样。

唯论文并不仅仅是重数量和轻质量的问题，重数量与论文低水平重复发表并不是完全等同的概念，重质量在绝对意义上也并不一定要轻数量，数量少并不一定等同于质量高，质量高也并不等同于数量少。代表性成果的质量与数量并不对立、不矛盾，而这一重一轻则把数量和质量对立了起来，这种非此即彼的二元对立思维方式，无法从根本上破解教育评价乃至科学创新中的“卡脖子”难题。

在我国高等教育评价中，通过行政干预在较短时期解决重数量的现实问题并不难，但需要在很长时期内花大力气去解决怎样重质量的问题，需要进一步论证和反思不同科学家的工作类型、不同高校的类型、不同教师的学科类型在量化评价与质性评价中的共融空间，以及在科学研究活动中数量与质量的共生价值。

（二）重质量的关键是制定科学合理的质量评价标准

首先是代表性成果由谁界定的问题，其关键是高校要确定代表性成果认定的主体。

对于代表性成果评价对象个体来说，代表性成果就是教师自我认定的最高水平的学术成果，评价标准源于教师个人的学术判断。但是，教师自我认定的“那杆秤”，究竟是自己的，还是所在大学同一学科内的最高水平成果？是国内的，还是国际的同一个研究领域的最高水平成果？

南加州大学认为，教师每次聘用、晋升、终身教职决策都应符合一流大学的国内和国际标准，提高学术单位的整体地位。校方要求候选人的学术或艺术作品应是杰出的，在同行中获得广泛认可，在其学术领域中享有良好的声誉[11]。南加州大学将教师评价过程的自我学术水准认定和同行学术水准认定从整体上做了统一。代表性成果不仅仅是教师自我认定的“那杆秤”，同时又是教师学术成就在所在大学、所在国家乃至全世界同行中的一个水平认定的过程；在教师自我认定的最高学术水平成果的基础上，还要有一个基于学术共同体能够达成基本共识的认定水准。这其中真正考量的既是被评价者在国内外同一研究领域中的内在质优，又是同行评价者的学术水准、学术诚信和学术良知。

其次是代表性成果怎样界定的问题，其关键是代表性成果认定标准的问题。

最能得到学术共同体公认的代表性成果是那些具有原创价值和重大社会贡献度的创新性、标志性成果；评价的是大学教师中最具有特殊天赋和特殊贡献的非常规和超常规人才，这一群体的学术影响力以质取胜足矣，数量限定确是画蛇添足。但是，任何一个国家的学术职业都不是只由顶尖学术精英构成，也不是任何一个教师都能成为学术领军人物和原始创新的开拓者。不是所有类型高校的所有教师都具有“数十年铸一剑”的创造力，成为摘得国际学术桂冠的顶级科学家。

当代表性成果成为大学教师评价的共同尺度和基本制度时，代表性成果中的科学桂冠和顶峰之作的指向意义就会在一定程度上消减，而代表性成果评价本体价值的象征意义就成为制度的逻辑起点，合理的数量认定和明确的质量标准就成为这一制度构建不得不面对的关键问题。

一是构建科学的代表性成果数量限定。统一的、硬性的数量限制很难公平公正地评价出不同学术生产力类型教师的学术影响力。在实施代表性成果评价的高校中，代表性成果的数量是由教师评价管理部门规定，但这些规定很难在政策文本和研究文献中找到一个严谨而清晰的科学依据。与一个统一的数量规定相比，申请人自我认定的高水平成果，抑或是其同一研究领域的系列发表或出版，抑或是其全部学术成果中的前10%~20%，在应然上更具合理性。而具体到不同模式的代表性成果评价，武汉大学模式更要突出高水平成果在专攻领域的原创性和影响力；复旦大学模式则更要突出个人成果自我认定的代表性，在评价标准上要尽可能地兼顾成果的数量与质量。3种模式都要在数量限定的同时平衡不同学科的差异性，以及系列出版物在同一研究领域创新过程中的内在关联性。

二是构建具有共识的代表性成果认定标准。具有共识的评价标准是代表性成果在学术共同体内具有可比性的前提条件。如美国国家科学基金会的同行评议，其中通信评议有一份用于总体评价的5级评价标准，分别为优秀、良好、好、尚好和差，其中优秀的评分标准是：“可能落到在这一分科中最好的10%的申请上；最优先支持的申请。该评分仅适用于真正杰出的申请。”[13]再如，武汉大学代表性成果同行专家评议的5级水平评价标准：顶尖（前10%）、优秀（前30%）、良好（平均水平）、一般（平均水平以下）、较差。如果按总体评价的5级评价标准，正高级职位的候选人代表性成果评价标准至少应该属于国内同一时期同一个专攻领域中最好的10%，或是国际同一时期同一个专攻领域中前30%；副高级职位的候选人代表性成果评价标准至少应该属于国内同一时期同一个专攻领域中前30%。

三是文献计量学在代表性成果评价中价值定位的问题。文献计量学自20世纪90年代以来普遍成为评价科研和科研人员的主要工具，其原因恰是因为同行评价越来越多地被认为过于主观，需要用更为客观的数据来加以补充甚至替换[1]8。但是，研究者又发现文献计量学评价存在着自身难以克服的缺陷：如论文的引用不多有时并不代表论文本身质量不高，只是反映了科学家们还没有对这一主题感兴趣；在人均论文数量不变的情况下，被引频次也取决于学术共同体的规模；一些真正具有创新价值的成果可能在一段时间内处于零引用，许多重大发现可能很多年后才会被引用，像爱因斯坦的发现或DNA结构一样，一个较低h指数的背后也许隐藏着一位高水平的科研人员等[1]13-64。文献计量学中的“睡美人”现象[14]及其不同学科论文引用存在的差异性同时又为同行评价的合理性提供了反证，为文献计量学评价提供了反对和批评的证据。从总体来看，除了引用行为的多样性和差异性外，引用仍然对成果的科学影响力评价有积极作用，因为它隐含多种用途的全球显示度（包括修辞学引用的说服功能）[15]。

四、小同行评议：评价主体专攻领域和第三方评价

我国大学教师代表性成果评价已经存在的弊端体现在三个方面：一是以刊评文、以被引频次论质的评价思维惯性导致评价的主客体对于成果的创新性、贡献度的关注不够，论文发表刊物的级别、影响因子成为同行评价的基本依据；二是代表性成果评价范围的扩大带来评价难度和成本的提高，以及同行评价专家遴选目标针对性的降低，大文科、大理科同行评价也就在所难免；三是我国同行评价制度体系有待健全，还没有作为本质存在嵌入科学之基，与整个科技大厦融为一体。

同行评议是支持最优质研究和成果的根本依据[13]，致力于关注那些被认为是最“好”的且最为重要的研究活动。从代表性成果评价外在指标凸现到内在质优的转化，同行专家的通讯评议起着关键作用。而同行专家要对研究者的能力、研究内容和研究价值做出客观、公正的学术判断，在坚持保密政策和避免产生利益冲突的基本前提下，其专业水准及其与申请者申请内容的契合度和精准度成为至关重要的决定因素。

（一）小同行评议与专攻领域

小同行评议，从同行评议专家的遴选范围来说，是一个缩小的同行评议专家圈，一个具有相同或相似研究主题聚集而成的小型学术群体；从学科分类的角度来说，是由学科门类－一级学科－学科研究方向下的研究领域，或是研究领域下的一个研究方向，聚集而成的学术群体中的领先专家。绝大多数学科都包含范围广泛的子专攻领域，主要形成了基于理论、基于技术、基于共同研究主题三种专攻类型，这三种专攻类型往往相互交集而存在；同一专攻领域的学者，他们专业身份上往往具有共同的定义[16]。小同行评议专家是一个专攻领域中的领先者。小同行评议作为代表性作品评价最适切的方式，其核心价值和意义正在于它能够有效而可靠地去测度候选人学术成果的科学性和优质程度，从而确保学术资源达到最合理的配置。

（二）小同行评议与第三方评价

南加州大学对于小同行评议专家及其来源做了三方面界定：在许多领域中担任领先期刊的编辑或编委，在专业协会中担任领导职务，在许多领域应邀出席戈登研究会议（Gordon Research Conferences）的学者[11]。将小同行评议与第三方评价综合运用，共同培育提升国家自主创新能力的学术生态，是代表性成果评价机制良性运行的一条有效路径选择。

大学教师评价的“第三方”，更多的是指政策制定者和政策执行者之外的非行政隶属、无利益关系、具有独立法人资质的专业化组织和机构。第三方评价功能有效发挥的先决条件是具有独立性和专业性资质。第三方机构是依法独立设置、具有法人资格的机构，能够独立承担民事责任，与第一方和第二方既无行政上的直接附属关系，也无经济上的利益关联，能够客观、公正、中立、负责地做出自主评价。当然，第三方机构还要具有专业伦理精神、专业自律能力和超越个人私利进行利他服务的道德水准。

在我国大学教师代表性成果第三方评价中，可构建委托型第三方评价+小同行评议运行模式：由高校作为委托方，按照“小同行评价”标准和要求，通过购买服务的方式对代表性成果进行第三方评价。著作、论文代表性成果可依托国内外高水平学术期刊，充分利用这些期刊长期累积形成的国内外审稿专家群和编辑委员会进行小同行专家评议；项目和成果奖励代表性成果可依托国内外行业学会协会、高等教育行业评价机构等进行小同行专家评议；应用研究和技术开发代表性成果可依托第三方中介机构进行由用户、市场和专家共同参与的多元评价，以期对技术实现的可能性、可行性、经济性等做出综合判断。

五、结论：代表性成果评价的本质意义和价值

一个国家自主创新的基石，一是基于由基础研究而形成的原创性突破，二是基于事关国家安全和人民生命健康关键核心技术的突破。双重突破的关键是造就一支以科学为志业、以科学精神为身份标识和灵魂象征、具有国际创新水准和原始创新能力的科学家队伍。

代表性成果评价制度设计的初心和根本是厚植学术创新土壤，倡导和弘扬勇攀高峰、敢为人先的创新精神，保障学术人员对科学本身的好奇心和激情，以及大胆质疑的勇气、由怀疑抵达真理的执着。代表性成果评价制度是对大学教师无功利无私利自由探索的呵护，以及静心笃志、耐得住寂寞、“数十年铸一剑”的包容和支持。代表性成果评价为破解大学排名与教师评价相互叠加的功能异化以及由此产生的学术不端行为、学术急功近利行为、学术投机行为和论资排辈行为，为建立更具竞争力的科技创新生态系统，实现国家自主创新与关键核心技术自主可控提供最强智力支撑。

代表性成果评价制度设计的关键是以科学研究活动的创新力和影响力为评价的首要和核心标准，是对以“绩效和竞争”为核心形成的泰勒主义、“文献计量学评价＝科学研究活动评价”等评价制度逻辑的再审视。代表性成果评价是以成果的开创性、可持续性、同行的广泛认可性等内在优质评价和广泛影响（社会福祉和社会效益）来矫正绝对量化和精确化的评价模式，矫正将科学研究活动质量评价指标简单、机械地转化为外在的量化评价指标和外在的知名度评价。值得注意的是，代表性成果评价是对以上现象的矫正，而不是全盘的否定，不同层级、不同类型的高校、学科、教师，对于代表性成果的数量与质量关系的认定和评价是不同的，具有普遍意义和同一数量限定的评价标准在跨学科比较中不具有公平性和客观性。以量取胜只是文献计量学评价中的一种情况，量化评价和数量评价不是完全对等的两个概念，代表性成果评价不是必须非要限定为一个一成不变的、全校统一的成果数量范围。尤其对于人文社会学科来说，一个具有重大创新价值理论体系的构建，可能是一生沉潜的寥寥珍本，也可能是大量论著积累而成的系统支撑，数量的限定要服务于教师在塑造和建设中国特色理论学派中的价值引领、思想原创和体系贡献。矫枉过正，代表性成果评价制度的正确价值取向同样会被扭曲和破坏，会成为催生伪代表性成果的温床。

代表性成果评价既是同行评价认定标准的价值回归，又是对文献计量学评价标准的一种理性的扬弃，也是对依靠行政权力进行学术评价的一种制衡。“定量指标（例如基于引文的数据）在单独使用时不能充分提供精细或有力的质量评价标准”，“质量需要被视为任何一个指标都无法捕捉的多维概念”，“不可能有一个放之四海皆准的评价标准：成熟的研究系统需要有定量和定性评价相结合的，保持可变的专家评审体系”[3]。代表性成果评价中同行评价的价值内核，是学术共同体内部共同守护的学术自治、学术自由、真理至上，是基于学术共同体作为学术良知和学术内在质量的守门人价值判断，是对行政权力干预学术评价的有效防御和抵制。值得注意的是，代表性成果评价不是完全等同于同行评价，恰如文献计量学评价不是完全等同于评价一样。文献计量学评价从本质上说反映的是科学研究活动的外在影响力，但外在影响力在一定程度上又是科学研究活动内在质量的外在显现。代表性成果评价不是对于文献计量学评价的全盘否定，文献计量学评价在克服同行评价的主观性和公信力不足等弊端、评价从无到有和非共识项目原创价值等方面具有客观优势。代表性成果评价要放弃的是将计量文献学评价作为教师科学活动质量判断唯一、直接、全部的依据，杜绝的是将量化指标作为教师评价的前置条件和绝对标准。

注释

①概括出3种模式的依据主要来源于这3所高校职能部门官网公布的材料，以及具体政策文本和教师手册。

②该研究中这四种类型的划分不是独立分类，中间存在交叉。即，有的科学家虽然不属于沉默型，但可能同时属于完美主义型、大量生产型和多产型中的两种或多种。所以，分类的数值上可能存在重叠，占比之和不等于100%。