正反冰山模型与知识晶炼理论的融合发展

2019-03-20 06:52吴晓凤蔡国瑞

图书馆理论与实践 2019年2期

吴晓凤，高峰，蔡国瑞

（1．中国科学院兰州文献情报中心；2．中国科学院大学经济与管理学院图书情报与档案管理系；3．宾夕法尼亚州立大学信息科学与技术学院）

1 冰山模型的发展及应用

冰山模型最早是由哈佛大学麦克利兰提出的，他被任命挑选美国外交官一职的合适人选，他将人外显的知识、形象、技能等这些易于被感知和培养的素质比作水上的冰山，把看不到的动机、态度、个性等不易被感知和培养的素质比作冰山在水下的部分（见图1）。［1］

美国学者莱尔·M·斯潘塞和塞尼·M·斯潘塞将麦克利兰的冰山模型进行了细化分层，分为“基准性素质”和“鉴别性素质”两层，前者对应于水上的冰山，即知识、形象、技能等，后者对应于水下的、用于支撑水上部分的冰山，它是绩效好坏区分的关键，一般职位越高，它的影响就越大。［2］

图1 麦克利兰的“冰山模型”理论

美国学者博亚特兹结合了麦克利兰冰山模型和莱尔·M·斯潘塞、塞尼·M·斯潘塞的理论，提出了“素质洋葱模型”，并将其从内到外细化为三层，分别是“核心层”“中间层”“最外层”。“最外层”即冰山以上的部分，包括“知识、技能”等，冰山水下的部分分为“价值观、态度、自我形象”等的中间层和“个性、动机”等的核心层（见图2）。

图2 素质洋葱模型

我国学者钟启泉将冰山模型引申到了学力（学习能力和知识水平）领域。［3］日本知识管理专家野中郁次郎等提出了显性知识和隐性知识相互转换的过程。［4］王爱文等将这个相互转化关系应用到创业实训模式探讨中，提出构建搭建创业实训服务体系等模式构建对策。［5］蒋保伟等利用冰山模型区分出了对创业成功与否起决定作用的隐性素质，说明创业素质的提升在关注显性素质的同时，还需要充分挖掘吸收隐性素质。［6］目前，冰山模型还被应用于高校辅导员胜任力模型的构建、公司领导层素质特征研究［7］、知能课程目标体系确定［8］、甄选培养人才的方法总结［9］等。

2 知识晶炼的发展历程

1985年，赵红州等提出了从微观角度分析普莱斯指数定律的理论，即知识结晶学理论，［10］认为科学发展的“非常时期”，吸收的热即人类的智力投入，不再用来提升温度即不是用来指数增加知识，而是用来使原来的晶体发生改变即用来改变知识结构。因此，知识增长也存在着饱和性。知识晶炼和情报学有密切的联系，其研究对象和研究内容存在交集。王宏鑫讨论了知识论情报测度的基础，将布鲁克斯情报测度，知识结晶学理论和“思想基因”理论联系在了一起。［11］吕汉波等结合科学结构学、潜科学理论，将知识结晶学中的知识单元用于构建二元学科骨架知识结构理论模式，探析现代学科结构体系的建构方式。［12］齐秀梅发展了知识结晶学理论，她认为现代科学知识已经不是一个没有结构的几何点了，它有知识门类的宏观结构，也有知识纤维、硬核、观念势场等的微观组成。［13］

除了国内学者对知识晶炼理论的相关研究，国外的一些学者也做了一些深入的研究。Fischer基于知识管理系统的整个生命周期提出了“播种，进化增长，重播”的“SER（Seeding，Evolutionary Growth，Reseeding）模型”。SER模型是为了理解大系统可持续发展的集中式和分散式演进之间的平衡:播种需要将尽可能多的知识嵌入到架构的所有组件中；进化阶段领域设计人员使用种子环境为客户开展特定项目，这个设计过程当中可能会产生新的需求和新的组件；重新播种阶段环境开发者重新与领域设计者合作来组织、形式化和推广在进化生长阶段添加的知识。［14］Mackinlay等于1999年提出知识结晶框架，为知识结晶指定三个要素:数据，任务和计划。他们认为，知识结晶框架是针对一项任务，通过“寻找数据、搜寻计划、实例化计划、解决问题、对全过程创造简练的描述”工序来完成。［15］Amitani等提出了“知识液化和知识结晶”的知识管理概念，设计了一个知识星云结晶器支持这个概念的实现，并且将这个方法论应用到展览设计这一实际工作当中。［16］Koichi Hori等也研究了知识液化和结晶框架，该框架可以被看作SER模型“Evolutaionry-growth”阶段的框架。知识结晶在相关单元之间发现一个新的内聚结构，知识液化将一个内聚结构分解成相关单元。他们设计和开发基于知识液化和结晶框架作为知识演进领域的计算机系统，包括知识星云结晶器KNV、livingOM和ART-SHTA，将这些系统作为表征世界，说明通过人际在概念世界、表征世界和现实世界的互动中来进行知识液化和结晶的循环演化。［17］Pollack等对临床医生在患者护理活动中使用的优先级过程招募了23名医生进行模拟操作，发现了这个过程和Card等的知识结晶框架有着显著的差异，并为此提出了一个新的模型，这个模型表示出了优先级过程如何受到数据收集和处理的影响。［18］2017年，蔡国瑞等提出了构建知识晶炼任务的概念框架。他认为知识晶炼的含义是针对有争议的问题，能提取该问题的所有数据，并通过一个系统的过程，提取相关有价值的情报，通过净化、提炼和压实等技术，以创造一种可以被大众理解和相信的最好的和最容易获得的知识形式。［19］

总体而言，目前国内对于知识晶炼的研究还只是局限于一些理论研究的基础上，并且理论研究也不够完善，知识晶炼实际应用的研究则更是微乎其微。

3 正冰山模型与反冰山模型的提出

大数据时代，获取特定的知识以及该知识背后的数据、信息的加和可以被描述成一座冰山。肉眼能看到的冰山的比例大概只占10%，然而这个数字背后的抽象部分是不可见的，剩下的90%都是隐性的。正冰山模型是透过海上冰山探究该冰山的海下部分，即透过肉眼能看见并获取的知识，从而探究其背后的数据、信息（见图3）。反冰山模型是针对当前所存在的海量且凌乱的数据而导致了某种特定的知识获取受阻的情况，即在参差不齐的海水中，已然看不见冰山顶角的情况（见图4）。当前社会，由于信息量太大，人们看到的几乎都是汪洋大海，显性的冰山顶尖也已被充满杂质的海水覆盖，即某种特定需要被获取的知识被周围其他稀释和凌乱的数据、信息所覆盖。反冰山模型就是面对大数据从海底冰山晶炼出海面冰山的过程。

图3 正冰山模型

图4 反冰山模型

冰山在生成之后，还可能会升华和凝华或熔化和凝固，得到三种结果:① 重构原来的冰山；② 在重构原来的冰山基础上还产生了新的冰山；③ 只产生了新的冰山，没有重构原来的冰山，接着可能再升华和凝华或熔化和凝固。如此循环往复，将整个冰山晶炼过程构成了一个双循环的过程，形成冰山双循环模型（见图5）。

图5 冰山双循环模型图

4 知识晶炼双循环理论的提出

4.1 知识晶炼双循环理论的提出

国内外对于知识晶炼理论的探索以蔡国瑞的研究较为系统，他提出的基于问题的知识晶炼模型（Issue-Based Knowledge Crystallization，IBKC）（见图 6）较为完整地阐述了知识晶炼的过程，具有一定的先进性。具体的完整性与先进性在于IBKC模型除了体现是大众的研究热点的过程，即先从数据到信息，最后到知识晶体的晶炼过程之外，还体现了通过评估寻找探究晶体知识背后的数据和信息的晶炼过程，而这个过程在当今社会往往是被大众所忽略的，但是该模型只是指出了有这个过程，并没有做出重点的说明和实例化。此外，该模型的双方向过程缺乏了联系性与相关性，并且该模型只体现一次作业的过程。因此，IBKC模型仍有需要改进的地方。

图6 基于问题的知识晶炼模型

本文通过冰山双循环模型的启发，从物理原理这个源头出发，提出了知识晶炼双循环理论，进一步完善知识晶炼框架。知识晶炼双循环类似于冰山双循环，它继承了IBKC模型的双方向过程的思维方式，通过引入知识碰撞和知识沉淀，即引入冰山的升华凝华过程，来实现知识晶炼两个方向各自的循环的过程。从而根据冰山双循环模型的启发，知识晶炼双循环包括正循环和反循环两个过程。

（1）知识晶炼正循环。在信息化社会以前，人们在看到显性知识之后即显性冰山之后，会想去探寻与此显性知识有关的背后90%的隐性数据、信息，在这个过程中通过寻找、提示等方式方法来进行探寻。当探寻到原始单位元素的时候，这些原始单位元素可能会凝华或凝固成新的显性知识，凝华或凝固的意思是“将原始单位元素直接转变为可用的显性知识，重构原来的显性知识，或（和）生成新的显性知识”。接着，该显性知识又进行寻找、提示探寻原始单位元素等过程，形成知识晶炼正循环过程。

（2）知识晶炼反循环。当下社会，大量知识被埋藏，以至于人们无法看到显性部分，这时候需要将海水即海量信息蒸发冷凝构建出显性冰山。对于普通受众而言，显性冰山即可满足其信息需求。这里的海水是指海量隐性数据、信息或知识，蒸发冷凝即“剔除原始单位元素中无用的杂质部分，留下有用的部分，构成有用的显性知识”，其中的显性知识即对应于显性冰山。并且冰山可能会升华或熔化，即“从具有一定结构的有用的显性知识中分解出部分单位元素”。这些升华和熔化的气态和液态部分就是新的原始单位元素。接着，该原始单位元素又进行蒸发冷凝等过程，构成知识晶炼反循环过程。

知识晶炼正循环过程与知识晶炼反循环过程彼此共存，形成知识晶炼双循环模型。这个过程当中的每一个步骤的条件都是需要公民与外界进行思想碰撞交流。这个循环中的一个重要事实是，用户有可能与这一知识晶炼过程的每一个步骤交互。［20］基于此，将IBKC完善为知识晶炼双循环模型（见图7）。

图7 知识晶炼双循环模型

知识晶炼双循环模型由5个部件以及部件之间的逻辑关系组成。① 原始数据。与待解决问题相关的所有资料未处理的数据，包括文档、图表、视频等。② 信息块。利用网页信息抽取方法在原始数据中抽取出与问题相关的信息块。信息量较原始数据有较大幅度的降低。③ 知识晶体。前面两个阶段主要借助了机器的作用，但机器只能判断筛选出可能相关的数据和信息，但真正是否相关还是需要人的参与。这个过程需要用到人工判断，从而选出确实相关的数据信息材料。小组成员分别或单独分析收集的信息块，并将其编译成基于事实和证据的更好的格式，该阶段形成的是详述。④ 精致的知识晶体。作为决策参考的信息，文本量还需要进一步压缩提炼。这个阶段就像做积木一样，需要把多个片段综合。可能一些信息块还存在边角料，将所有这些材料打磨成可以互相拼接组装的形状，剔除一些不相关的边角信息材料。这个阶段一群人通过基于问题的信息系统模型（Issue-Based Information System，IBIS）、研讨对话模型等语义方法（如优先排序）来整理实质，并抛弃浮渣，取其精华，形成更紧凑的陈述，即精述。⑤ 演示－知识珍宝。以上4个阶段得出的信息并未结合使用者的需求，而语言要表述成各级决策者能够理解的，根据不同的对象，采取最合适的调研方法，了解使用者的知识结构是怎么样的，然后，使用语义方法管理陈述，使得陈述有条理和逻辑，以便表达成他们能够理解、接受和喜欢的意思，即搭积木搭成用户能够理解、接受和喜欢的形状。如借用比喻将陈述与决策者比较了解的事物进行比拟描述来表达。

用户理解了所演示出来的知识后，会结合自身的研究或阅历产生对该知识珍宝新的认识和理解，从而产生新的原始数据，接着信息块和知识晶体随之发生变化，如此循环往复，形成了知识晶炼反循环。知识晶炼正循环是指透过演示的知识珍宝，去一步步评估和寻找与之有关的知识晶体、信息块和原始数据，当回到原始数据之时，能够发现一些知识漏洞或是知识改进突破口，从而直接改变了知识珍宝，或者可能产生新的知识珍宝，如此循环往复，形成了知识晶炼正循环。

这5个部件之间的逻辑关系包括正向关系和逆向关系。① 正向关系包括阅读和提取（由原始数据向信息块引出的连线）、蒸馏（由信息块向知识晶体引出的连线）、简化和提炼（由知识晶体向精致的知识晶体引出的连线）、个性化方式（由精致的知识晶体向演示—知识珍宝引出的连线）和升华或熔化（由演示—知识珍宝向原始数据引出的连线）关系。② 逆向关系包括再评估（由演示—知识珍宝向精致的知识晶体引出的连线）、寻找（由知识晶体向信息块引出的连线）、提示（由信息块向原始数据引出的连线）、凝华或凝固（由原始数据向演示—知识珍宝引出的连线）。

“互联网预言家”凯文·凯利在《科技想要什么》里提到，在哥伦布去美洲之前，实际上美洲是已经有人了，但人们为什么说是哥伦布发现了美洲呢？因为是哥伦布把美洲这个知识和人类科学的“主流知识”联系在了一起，“孤岛式知识”是不行的。［21］在现实当中会或强或弱地出现知识晶炼双循环的影子，但目前大众还没有将知识晶炼双循环与人类科学的“主流知识”联系在一起。

4.2 知识晶炼双循环示例

以互联网公司某产品的宣传知识晶炼作为案例。

（1）知识晶炼反循环。现要对公司某产品地图App的宣传文案出现的撰写问题提出解决方案，在人员选择上，通过对人员在公司的任职级别进行分层，然后按照所分的级别，利用分层抽样法随机选择若干职员作为参与者，同时聘请两个及以上的知识晶炼专家作为专家组。① 提取信息块。产品如何做宣传才能吸引更多的用户前去下载和使用该产品呢？这对于产品的长期生存是一个问题。从所有网页、学术数据库等中利用能采用的工具与方法提取出关于该产品及其竞争品的所有数据和信息。② 生成详述。参与知识晶炼的所有成员，每个人参考操作①提供的信息，均提出一个解决方案，生成对应的详述。③ 生成精述。全部参与人员与专家一起通过语义方法从所有详述中筛选出得到接受度最高的方案，通过语义方法对该方案做进一步的整理，抛弃浮渣，必要时添加其他详述的精华，形成最全面、紧凑、系统的精述。④表达精述。通过访谈调研、问卷调查、机器学习等方法了解该产品用户的知识结构、偏好等，个性化地形成用户容易理解、接受和使用的表述方式。如华为手机应用商店的产品宣传模式，以产品截图加文字的形式进行表达。⑤ 循环更新。一些用户在使用该产品之后，会在评论区留下评论（如地图软件可以通过设置评论区等措施了解用户的使用体验，减少重新定位所有路段并优化有问题路段的成本），产品工作人员可使用知识聚类等方法对评论进行分析，若采纳评论留下的意见或建议对产品进行了改进，则关于产品的信息块、详述和精述都会按序发生改变，个别情况下甚至会产生新产品的精述介绍。如此，随着时间推移，进行不断地循环更新。

（2）知识晶炼正循环。① 评估精述。当人们要下载该产品时，会先浏览关于这个产品的精述，如“应用截图”“小编推荐”等，这些是以不同形式表达出来的精述内容。② 评估详述。当精述并不能让他们产生下载该产品的动力时，他们会阅读并评估这个产品详细的描述。③ 寻找信息。对于部分用户而言，即使看到了详述，他们还会去“货比三家”，通过各种方法寻找与该产品有较大相关性的信息。④ 寻找数据。对于一些科研人员或者企事业单位等人员为满足其工作或学习需求，还会进一步寻找该产品所有的原始数据。⑤ 循环更新。当研究人员找到原始数据时，容易发现某些原始数据与精述新的融合方式，即内化出新的知识，从而将原产品的精述介绍改进，个别情况下甚至会产生新产品的精述介绍。接着，详述、信息块、原始数据也会跟着变化。如此，随着时间推移，进行不断地循环更新。

5 总结

信息化社会，知识爆炸增长导致知识分散，进一步导致决策效率和合理性降低等问题。通过由冰山显性知识挖掘隐性数据或信息的正冰山模型，推导出反冰山模型，即由于大数据导致的数据或信息全隐性化问题，从全隐性数据或信息中挖掘显性知识，重现海上冰山的情况。由于冰山的升华凝华或熔化凝固进一步形成冰山双循环晶炼过程。由此，启发了知识双循环晶炼理论的产生，用以解决大数据环境下知识分散的问题以及处理流程混乱而导致效率低的问题，从而帮助决策者高效、快速地做出更加合理的决策，降低和避免决策失误导致的消极影响。虽然知识晶炼双循环模型可以更好地解决问题，但仍然有实现较为困难的地方。知识晶炼双循环模型需要使用各种不同的方法和工具，尽量用机器实现，因此，要求引入的专家需要能够熟练掌握尽可能多的处理方法。