专家画像技术在科技管理中的应用分析

2018-10-24 02:28王翔侯威陈洁安徽省科学技术情报研究所
安徽科技 2018年9期
关键词:画像专家精准

◎文/王翔 侯威 陈洁(安徽省科学技术情报研究所)

一、引言

国家大数据战略的实施引发了传统科技管理模式的变革,促使科技管理从经验式决策向循证决策转变,专家画像技术将为项目评审、人才评价、机构评估提供重要的循证依据。为此,从国家到地方,均开展了与专家画像(expert profile)相关的前瞻性研究。科技部发布的《国家重点研发计划新能源汽车等重点专项2018年度项目申报指南》中,就在“云计算和大数据”重点专项中,设立了“基于立体精准画像的学术同行分类与推荐系统”应用示范专项,研究适合学术同行评价和科研项目评审评估的学术行为画像模型和体系[1]。微软、清华大学、中国工程院知识中心联合举办了“2017开放学术精准画像大赛”,提取学者的个人描述信息,分析学者的研究兴趣,预测学者的论文引用情况[2]。中国科技信息研究所在其情报工程实验室2017年开放基金项目申报中,也设立了“快速、动态的科研人员科研行为立体精准画像技术研究”专项课题,研究从海量科技信息中用于绘制科研人员个性化科研行为画像的方法,如统计建模、数据挖掘、机器学习等技术的综合应用[3]。目前,关于专家画像的公开文献相对有限,特别是在科技管理大数据环境下的专家画像技术应用研究还处于起步阶段,因此该研究具有十分重要的现实意义与理论价值。

二、专家画像概述

从概念上说,专家画像起源于早期的用户画像(Personas)。用户画像的概念最早由Alan Cooper提出(Personas are a concrete representation of target users)[4],在精准营销方向取得了很多成功的应用,帮助销售人员精准了解和预测客户的潜在需求。亚马逊、京东、淘宝等都应用了类似的技术。随着移动互联网和社交媒体的兴盛,社交媒体短信息用户行为大数据中蕴含的知识获得了学术界的关注,亓丛等在比较腾讯、亚马逊、京东、EBay等电子商务企业网络用户画像实践的基础上,提出了用户画像领域的研究参考框架[5];郭光明将传统用户画像分为四类:基于本体的方法、基于主题的方法、基于用户兴趣的方法、基于用户行为的方法,并从用户信用评估的角度,提出了基于社交大数据用户信用画像方法[6]。用户画像技术也是图书馆学术界的热门方向之一,陈慧香等对图书馆用户画像的研究现状做了总结,认为用户画像的构建与完善需要算法支持,通常从用户信息(明确的和隐含的)、用户偏好(短期和长期)等方面去构建用户画像[7];胡媛等通过收集图书馆用户注册数据、兴趣数据、活跃度数据等,构建了用户画像服务能力层次结构模型[8];王庆等提出一种图书馆用户画像的框架模型,通过关联用户的动态行为数据修正用户画像标签,并据此总结基于用户画像的资源推荐模式[9];裘惠麟等提出了基于用户画像的图书馆精准服务技术模型[10];姜晓庆从科研管理系统建设角度,对专家画像系统的建立进行了技术分析,设计了一种面向PDF文件的混合元数据提取模型,提出了标签抽取与专家聚合模型[11]。

本研究认为,专家画像起源于用户画像,两者都是真实用户的虚拟代表,都是基于数据-用户标签的映射方式,也有共性技术,但两者之间也存在不同。一是分析对象不同。专家画像针对的是某个特定专家的标签化描述;而用户画像的对象不是单个用户而是特定的用户群体,关注于典型用户群体的标签化描述。二是数据基础不同。专家画像多采用文献、专利、项目、成果等公开发表且经过验证的数据,价值密度高且可信度较高,很少存在涉密及隐私暴露问题;用户画像多采用互联网数据,如注册信息、消费数据等,价值密度较低,可信度也较低,存在隐私泄露及涉密风险。三是应用领域不同。专家画像多用于科技管理流程,如专家及人才团队评价、学术发展动态展示等方面,表现形式如研究领域标签、科研合作关系、学术能力评价报告等;用户画像用于抽象虚拟用户全貌特征的领域,如精准营销、精准服务、改进产品设计等。四是时效性不同。专家画像的数据来源于公开文献,其时效性较低,也有学者提出将社交媒体数据引入专家画像中,但总体来说专家画像与实际用户一般具有较大的延迟,需要时常更新专家画像模型;而用户画像采用的是互联网实时数据,用户画像与实际目标用户群体特征在时效性上的差异相对较小,很少需要实时更新模型。

三、专家画像在科技管理中的应用挑战

1.数据采集整合知识产权问题

专家画像技术的核心是文献大数据,而核心元数据多来自于出版社、杂志社等,被国内少数知名文献数据商牢牢掌控。研究学者从事专家画像领域研究时,由于缺少统一公开的数据源,研究成果的通用性很难大规模验证。如要在科技管理中大规模的应用专家画像技术,首先需要解决文献元数据的知识产权问题。

2.数据整合难度较大

一是缺少中文及外文文献类数据的统一融合标准,数据清洗(去重、去冗余、排歧)等工作很难高效完成,在一定程度上影响了评价结果的准确性和权威性。二是缺少政府开放数据的支持,各省的科技计划项目、自然基金等项目虽然做到了信息公开,但是很少做到数据开放。如能得到政府公开数据支撑,专家画像将更加精准、可信。

3.专家画像结果的时效性有待提升

专家画像所需文献数据,从实验到产出、再到最终发表延迟较大,缺少来自互联网、社交媒体的评价数据,因而专家画像数据的时效性受影响。学者论文在社交媒体提及的热度,学者在社交媒体上同行的评价,与哪些同行互动较多,对学术活动的积极性如何等等,引入这些来自互联网的实时数据将大大提升专家画像的时效性。

4.专家画像的结果缺少主观评价

专家画像的结果多强调在大数据的融合集成上,通过统计建模、数据挖掘、机器学习等技术获取专家的研究领域中心词汇,进而产生专家标签。这种强调客观评价的专家画像构建方式未必能完全反映一个专家的实际情况:一是缺少专家本人对于其画像的反馈;二是缺少同行对其学术能力的主观评价,即同行评议。

5.专家画像实时更新带来的计算复杂问题

在科技管理的实际应用中,对专家画像的实时更新要求较高,如国家重点研发计划“基于立体精准画像的学术同行分类与推荐系统”应用示范专项,就要求“形成实时动态、智能的科研行为画像库和学术关系图谱”,“个体科研行为画像与真实行为的时间间隔在72小时以内”,这就要求专家画像技术必须能保证对其虚拟用户模型的实时更新。

6.对于涉密及隐私信息的保护问题

虽然专家画像所需数据多来源于公开发表的文献,涉密及隐私问题相对较少,但依然存在涉密信息及隐私的保护问题,特别是在关键研究领域的信息保护问题非常值得关注。如国家科技报告管理办法要求承担国家科技计划项目必须提交科技报告,但是在项目结题时,某些研究成果如专利、论文等还处于审查阶段,如果不加限制地予以公开,可能会导致复杂的学术问题。特别是一些牵涉国家安全、重大战略的项目,对相关专家的信息过滤尤为重要。

四、专家画像在科技管理中的应用建议

1.尽快开展科技管理大数据平台建设

专家画像应用的难点之一是缺少可信数据,而科技管理大数据平台建设的核心就是来自可信数据源的数据融合。一是融合来自科技计划管理系统、成果登记系统、专家库、各类统计系统等科技管理信息系统的开放数据;二是融合来自中外文期刊、硕博士论文、中外专利、科技报告等文献资源的数据;三是融合来自互联网的可信学术社交媒体的数据等。其中重点需要解决的就是文献元数据知识产权问题。只有通过政府主导的科技管理大数据平台建设,才有可能通过统一的标准化处理流程实现专家画像所需的科技管理数据的融合及共享开放。

2.促使专家画像研究形成理论化体系

专家画像在科技管理中的应用是一项任务驱动的工作,需要形成理论化的研究体系。在政府宏观层面,需要引导、组织研究团队,制定大数据环境下专家画像所需的中外文数据清洗及整合标准;同时还需要制定相应的激励政策,如通过设置相关软科学研究课题等方式,对专家画像所需的理论体系进行研究,并通过设置重点研发计划等项目申报指南,对专家画像所需的关键技术开展研究。在科技管理层面,需要将上述科研项目取得的研究成果应用于科技管理信息系统,在实践中检验用户画像的精准性、实用性。

3.核心算法与主观评议相结合

科技管理大数据给专家画像带来了机遇,也对其算法的计算复杂度与稳定性提出了更高的要求。本研究认为,科技管理大数据中的专家画像技术并非一定需要特别复杂的算法来支持,如“2017开放学术精准画像大赛”Task2中获得第二名的算法就是通过制定一系列简单规则,并应用文本处理的常规算法,如TF-IDF、降维、文本相似度计算等[3],但是核心算法必须是稳定的,且具备较好的容错性。此外,专家画像不能完全依赖于人工智能的方式,特别是对于一些新兴学科、新兴领域的专家评价而言,必须在一定程度上考虑同行评议等主观评价以及综合考虑专家个人对于画像结果的评价。

4.保障数据质量,做好隐私及涉密信息保护

大数据环境下,专家画像技术对数据质量的要求不但没有降低反而提高了。错误的专家信息数据可能对其画像结果产生灾难性影响,因此在开展专家画像技术应用时必须充分验证数据质量,提供可信与高质量的分析数据。虽然科技管理大数据平台中隐私及涉密信息较少,但是对外发布的专家画像仍然可能泄露一些个人信息。必须从源头入手,在建设科技管理大数据平台时,就注意隐私及涉密信息保护;并且在提供专家画像时,要对结果再次审核涉密及隐私信息泄漏问题。

五、总结

专家画像是大数据环境下科技管理过程中的重要应用。虽然专家画像是由用户画像演化而来,但无论是分析对象、数据基础、应用领域还是时效要求,两者均存在一定不同。不能简单地将用户画像技术套用在专家画像中,需要针对大数据背景下的科技管理实践需求,对专家画像开展系统理论的研究。本文提出了将专家画像应用于科技管理大数据中的几点启发式建议,期待在省级科技管理信息系统建设中开展相关实践,为专家画像在科技管理中的有效应用做出有益尝试。

猜你喜欢
画像专家精准
威猛的画像
致谢审稿专家
“00后”画像
精准防返贫,才能稳脱贫
画像
精准的打铁
精准扶贫 齐奔小康
精准扶贫二首
请叫我专家
专家面对面