海洋环境中的信息不完备与知识不确定问题及其评估决策建模

2021-12-31 03:14韧,
关键词:贝叶斯不确定性样本

张 韧, 李 明

(1.国防科技大学 气象海洋学院,江苏 南京 211101;2.南京信息工程大学 气象灾害预报预警与评估协同创新中心,江苏 南京 210044;3.内蒙古师范大学 应用数学中心,内蒙古 呼和浩特 010022)

1 海洋环境中的信息不完备问题

大数据和人工智能是当今的前沿热点领域,大数据技术使许多隐藏于数据中的规律得以挖掘,使常规方法难以揭示的事件特征得以呈现,一些看似毫不相干的现象,通过大数据方法可以建立起他们之间的关联模型。基于海量数据的机器学习、深度学习等人工智能技术,为挖掘数据信息、提取知识规律提供了先进的技术手段。

海洋环境涉及地理、气象、水文、空间、电磁等自然因素以及政治、经济、军事、人文等地缘因素,尤其是深海、极地等航运通道、资源富集和军事敏感区,数据信息往往难以获取,许多情况下海洋环境保障面临的不是大数据问题,而是环境数据样本欠缺和评估决策知识匮乏的情景,即信息不完备问题。这里的信息不完备包含了三层含义: 一是远洋航运、海上作业和海洋工程中的自然环境历史资料和数据信息匮乏; 二是航道控制区、利益攸关区和军事敏感区实时环境要素资料获取困难; 三是缺少构建海洋环境评估决策模型所需要的航行、工程、试验案例样本。如何针对现实海洋环境中客观存在的信息不完备问题,基于有限的、不充分的数据信息和样本案例,拟合逼近真实海洋环境,构建客观、定量的评估模型,具有重要科学意义和应用前景。

1.1 小样本案例信息扩散思想与评估建模技术

信息扩散是为了弥补信息不足而考虑优化利用样本模糊信息的一种集值化的数学处理方法。黄崇福[1]提出信息扩散思想及其相应的数学模型。该方法可将单值样本变成集值样本,进而对非完备样本信息进行有效处理。由于样本只是符合某种规律的取样实例,它是规律的外在表现形式,一般情况下,数量有限的样本难以直接反映出事物发展演变的内在规律性。样本信息不完备是指从该样本中提取出来的信息很少,难以完全反映原始抽样总体的分布规律。对于连续概率分布,任何一个样本容量n都是不充分的。即,若总体有一个连续分布函数,那么从总体中抽取的任何一个有限样本一定是不完备的。在某种意义上,科学探索的目标即是运用观察、实验、学习和推论得出不完备信息和知识,来逼近真实世界的客观规律。

小样本案例信息扩散评估建模是指通过引入“信息扩散”思想,将有限的、离散的案例样本所包含的目标信息,合理拓展和映射扩散到对应维连续空间,进而实现对不充分信息的“插补”。该方法可基于稀少的案例样本和匮乏的数据信息,建立量化评估模型,是信息不完备情景下解决量化分析“有无”问题的一种逼近方案。目前,信息扩散方法在地震、泥石流、台风等重大自然灾害和环境污染,暴恐袭击等社会安全事件的风险评估中得到了有效应用。信息扩散方法包含信息矩阵构建、信息分配方案和信息扩散模型等基本环节和计算步骤。其中,信息扩散模型构建或信息扩散函数拟合是其核心,旨在寻求一个最为合理、有效的扩散函数,进而实现非完备的小样本数据信息的合理映射和最优扩散。黄崇福[2]借鉴分子扩散模型,推导出正态信息扩散函数/模型,该模型也是当前应用最为广泛的信息扩散算法模型。正态信息扩散函数表现的是一种各向同性的均匀扩散过程。但在实际应用中,遇到的不完备样本中各要素之间可能存在某些非均匀、非对称的结构,如变量间的“不规则正比”关系,即随着自变量增加,因变量以一种非线性关系变化。对要素间存在的这类特性的不完备样本,在进行信息扩散评估时需要考虑:沿某些方向应扩散得快些,而沿另一些方向可能扩散得慢些,即扩散过程应是非均匀、非对称。基于这种考虑,张韧、徐志升、白成祖等分别提出了“椭圆式”和“概率式”以及“弦振动”三类自适应非对称信息扩散函数模型[3-5],进行了相应理论推导和算法实现,并开展了北极航道安全风险评估[6]和南海-印度洋海盗袭击风险评估研究[7]。

1.2 临界条件阈值点-集映射思想与评估建模技术

鉴于海洋环境和地缘环境的复杂性、动态性和影响机理的不确定性,对航海装备和海上活动影响的保障要求和决策规范,主要表现为评估目标的环境适应条件和临界阈值指标等形式。它们多表现为一些定性的语言描述和宽泛性的阈值范围。如何有效挖掘和充分利用保障规范和临界阈值蕴含的决策信息,建立客观、定量的影响评估和风险管理模型,既有科学意义,也有应用前景。

目前,基于保障规范和临界条件阈值的评估决策,主要依靠人的主观判断和经验知识,其缺点一是缺乏量化的评估决策表述,二是不同程度地夹杂个人的主观倾向。对于复杂的自然环境和地缘人文评估以及重大灾害和突发事件的应急响应,往往涉及多要素、多部门、多环节的协同,情况更复杂。因此,常规的阈值条件评估方法和决策手段已难以适应海洋环境,尤其是深海和极地等复杂环境和航道安全风险等复杂条件下的评估决策需求。

仅用保障规范知识和临界阈值进行海上活动的大气、海洋环境的影响效应和风险评估,信息不足更加凸显,且信息极度亏缺(甚至可称之为零样本问题)。为此,笔者提出了基于临界条件阈值的“点-集映射”思想和评估建模技术[8]。该方法基于保障规范和任务实施保障的决策规范或临界条件阈值(可视为临界特征要素的高维知识点或行为红线),借鉴信息扩散思想,通过“点-集映射”思想来构建点-集映射函数,对单值保障规范进行两次模糊集值化处理,将临界阈值中行为规范高维知识点映射为含隶属度约束的临界阈值知识集合,实现点-集映射中的专家经验融合和客观定权,进而提供了基于决策规范“红线”或临界阈值信息的影响评估和风险研判的客观、定量解决方案。由于保障规范中最低环境条件是分别针对单个要素给出的,为此相应地在评估模型中建立起一个层次结构,首先对单一环境要素下航海装备和海上活动影响进行评估,然后再对各环境要素的影响评估结果进行综合集成,进而得到海洋环境影响航海装备和海上活动的风险评估结果。

该研究思想和评估方法能从现有保障规范出发,利用模糊集值化优势,充分挖掘和拓展有限决策信息,得到较为客观、合理、定量的评估结果,进而为决策信息不完备条件(当前普遍存在而短期之内又无法解决的困难)下的海上活动和海洋环境影响评估提供了可资借鉴的技术途径[9-10]。

2 知识不确定与不确定性人工智能

海洋环境地缘安全评估决策的非结构数据和非数字化信息中,存在大量缺损、冗余、噪声、异值、误差等不确定性问题。如何针对客观存在的信息不完备问题,运用有限、不充分的非结构信息和不确定性知识,拟合逼近复杂的自然和社会环境,构建客观、定量的评估模型,需引入不确定性思想和不确定性人工智能技术。

自Judea Pearl于2012年获得计算机领域最高奖“图灵奖”之后,不确定性人工智能就成为国际学术界最热门的话题之一。Judea Pearl的主要贡献在于他基于概率论,将不确定性引入人工智能领域,并作为主要贡献者之一,提出了贝叶斯网络(Bayesian network)理论,使得人工智能领域在存在不确定性的情况下,第一次有了一个在数学上严谨而系统的理论[11]。

2.1 贝叶斯网络-因果关联网络

贝叶斯网络又称信念网络(belief network)或称有向无环图模型(directed acyclic graphical model),是贝叶斯方法的扩展,是目前不确定知识表达和推理领域中最有效的理论模型之一。贝叶斯网络是基于概率的不确定性推理网络和因果关联模型,是概率论与图论结合的一种新的数学分析方法,具有强大的不确定性问题处理能力,能有效进行多源信息表达与融合。目前贝叶斯网络已成功应用于医疗诊断、统计决策、专家系统、学习预测等领域。

因果关系是科学界乃至哲学界长期关注和争论的经典问题。大数据时代人们更加关注数据之间的关联问题,而有意无意忽略或淡化事件间的因果关联。然而科学研究的目的不仅是要揭示事物的表象特征,更要弄清事件的内在原因和发生机理,这就涉及因果关系。因果关系真正重要的应用体现在人工智能领域,即要让机器学会因果推理、举一反三。2019年Judea Pearl的新作TheBookofWhy中文版《为什么》出版,作者在书中提出并力求回答的核心问题是:如何让智能机器像人一样思考?换言之,“强人工智能”可以实现吗?作者借助于因果关系之梯的三个层级逐步深入揭示因果推理的本质,并据此构建出相应的自动化处理工具和数学分析范式。要实现强人工智能,乃至将智能机器转变为有道德意识的有机体,必须让机器学会问“为什么”,也就是让机器学会因果推理,理解因果关系[12]。

2.2 数据驱动与事件驱动的贝叶斯网络

近年来,人工智能和大数据技术得到了迅速发展。1997年,IBM公司研制的深蓝(DEEP BLUE)计算机战胜了国际象棋大师卡斯帕洛夫(KASPAROV); 随后,基于大数据和深度学习,Alpha Go从数千经典棋局中训练3000万盘,击败围棋九段高手李世石; 而Alpha Go Zero则仅用了3天时间,左右互搏、无师自通,以100∶0完胜Alpha Go。在人机博弈中,Alpha Go通过学习,能优化搜索和研判数百步、上千步棋局走势,并给出最佳应对策略,超越人的思维能力和信息容量,充分展示了人工智能的深厚应用潜力和广阔发展前景。

然而,Alpha Go围棋对抗毕竟是理想状况的博弈: (1) 规则明确; (2) 信息对称; (3) 动作透明。而现实中可能面临相当多的问题是: (1) 规则模糊、暧昧甚至是潜规则; (2) 博弈信息不透明、不对称、不完备; (3) 专家的知识经验主观定性、不确定。这些问题可能正是当今自然灾害、社会安全和危机事件风险评估和态势研判中面临的现实难题。如何在信息不完备、知识不确定情况下科学认知、客观评判和合理推演复杂局势和危机事件,是当前人工智能科学的前沿性、创新性、探索性课题。2013年中国人工智能学会成立了不确定性人工智能专业委员会,针对航天、核电等重大工程和投资、金融等经济问题开展探索研究[11]; 科技部在最新发布的科技创新2030-“新一代人工智能”重大项目2018年申报指南中,将不确定性人工智能(1.4专题-非完全信息条件下的博弈决策)列入重要资助方向。

围绕海洋环境保障、风险评估和决策支持等问题,相关学者系统分析和阐述了风险的不确定性内涵,并将风险的不确定性特征归纳为自身不确定性、信息不确定性和认知不确定性[13]。针对海洋环境保障的风险不确定性特征,李明等[14]提出了不确定条件下基于贝叶斯网络评估思想和建模技术途径: 针对数据驱动贝叶斯网络结构学习中,结构弧的确定存在误差大、效率低等问题,基于信息流的全局因果分析思想和0/1优化原理,提出了一种结构学习算法—改进型贪婪搜索算法(AGS)。该算法首先基于信息流理论,引入全局因果度量构造0/1优化问题,得到最优的初始网络结构; 随后,以此结构为基础产生结构搜索空间,通过贪婪算法搜索结构弧,同时根据信息流确定弧方向,进而实现结构一体化学习,得到最优网络结构。之后,他们针对贝叶斯网络的参数学习,在实际评估中训练样本信息不定量和不完备等问题,以及既有算法对于数据缺失条件下的参数学习存在易收敛到局部最优和学习速度较慢的缺陷,提出了数据非定量和信息不完备条件下的网络参数学习反演算法[15]。该算法基于遗传算法,构建误差函数以实现观测信息与推理信息的误差反馈,采用遗传算法反向搜索节点的最优概率分布,将网络参数训练转化为多元函数的最优化问题,数值模拟和实验仿真结果验证了该反演技术的有效性、可行性和实用性。

先验概率、条件概率和联合概率估计是贝叶斯网络核心环节。其中先验概率分布函数/模型的准确与否,直接制约着贝叶斯网络最终评估推理结果的优劣。目前,先验概率函数的确定一是经验估计、二是大数据拟合。前者主观人为因素较大、后者数据量门槛较高。如何从有限的经典案例中抽取事件概率分布特征,客观合理、自适应拟合先验概率,是贝叶斯网络评估建模的关键问题和技术难点。为此,笔者引入了小样本案例自适应拟合思想,提出了案例驱动的贝叶斯网络先验概率自适应拟合和估计方法,构建了先验概率广义综合基函数,并将参数降维优化,探索了先验概率自适应优化计算方案,提高了先验概率的拟合精度和计算效率,且有效保留先验知识所蕴含的信息内涵,为信息匮乏情景下,贝叶斯网络风险推理评估先验概率估计探索了技术途径和解决方案[16]。

2.3 贝叶斯网络结构优化与逆算回溯

贝叶斯网络是解决自然和社会现实中广泛存在的知识不确定和信息不完备问题的有效手段,也是复杂性、动态性、瞬变性事件风险评估和态势推理的适宜途径。贝叶斯网络建模时,网络结构大多直接由评估体系映射而成,但评估体系多是人为构建的,主观性较强,因而不可避免地存在着不同程度的经验性、主观性和非精确性。对于评估问题,指标层对准则层的归属实际上就是贝叶斯分类,该过程具有不确定性,人工划分有较大经验性和主观性。为此,李明,张韧等[17-18]通过将结构弧权重概念(用以刻画网络节点依赖关系强弱和结构弧方向)和信息流思想引入贝叶斯网络的结构学习,通过指标层与准则层之间的信息流估算和关联信息挖掘,将弧权重融入条件概率表再作加权贝叶斯网络推理计算,解决了初始结构的优化搜索空间和弧与弧方向同步确定等关键问题,提出了贝叶斯网络结构全局最优逼近的一种解决方案。

贝叶斯网络节点概率参数一般需从充分的定量数据中学习,但是在现实世界和复杂环境中,风险评估和应急响应往往涉及自然、人文等多要素和多个层面,许多要素是定性描述的,定量信息匮乏,一些网络节点的CPT(条件概率)很难通过数据学习来客观确定。对这类情况的参数学习,传统方法多是通过德尔菲法(专家打分法)将定性信息定量化,但该方法主观性强、工作量大、不易操作,且科学性、合理性也有所欠缺。事实上,在某些情况(如重大事件总结和防灾减灾通报)中,可以凝练一些经典事件过程发展演变和分析评价的完整流程步骤和输入-输出信息。如何从已知事件的因果关联结构和部分网络节点信息(主要是可获取数据信息的自然因素)中,客观反算和优化拟合出贝叶斯网络中某些信息缺失环节(主要是难以客观量化的人文社会要素)的条件概率表,进而提供事件回溯与风险追责的途径和方案,既是重要的科学问题和难点技术,也有广阔的应用前景。为此,笔者基于函数最优化思想,开展了贝叶斯网络条件概率表或条件概率分布函数推理误差反馈和贝叶斯网络节点缺损概率的逆算与参数反演研究[15],发展了网络节点条件概率的遗传优化反算等关键技术(CPT-GAOR),提出了复杂事件评估中贝叶斯网络推演的节点概率逆算与因果关联回溯的分析解决思想,并在我国沿海六个省份热带气旋灾害防灾减灾体系、机制、能力评估和责任回溯中进行了实验仿真。

3 结语

针对在海洋科学研究和海洋工程实践中现实存在的自然环境历史资料和数据信息匮乏、实时环境要素资料获取困难以及航行、工程、试验案例样本稀少等信息不完备问题,提出了小样本案例信息扩散思想与评估建模技术以及临界条件阈值点-集映射思想与评估建模技术,介绍了相应的算法原理、适用对象和应用场景。

针对海洋地缘安全评估决策中涉及的政治经济、社会文化、法律外交等人文信息和专家经验、定性知识、行为规范等非结构数据和非数字化信息问题,以及信息中存在缺损、冗余、噪声、异值、误差等不确定性问题。阐述了运用有限、不充分的非结构信息和不确定性知识,拟合逼近复杂的自然现象和社会问题,构建客观、定量的评估模型的基本思想和方法途径,介绍了以贝叶斯网络为代表的不确定性人工智能技术,特别是笔者团队近年来创新发展的事件驱动的贝叶斯网络参数估算方法和建模技术,以及贝叶斯网络结构优化与逆算回溯算法,阐述了其应用场景和案例实验。

猜你喜欢
贝叶斯不确定性样本
法律的两种不确定性
基于贝叶斯定理的证据推理研究
基于贝叶斯解释回应被告人讲述的故事
全球不确定性的经济后果
英镑或继续面临不确定性风险
英国“脱欧”不确定性增加 玩具店囤货防涨价
规划·样本
租赁房地产的多主体贝叶斯博弈研究
租赁房地产的多主体贝叶斯博弈研究
随机微分方程的样本Lyapunov二次型估计