信息论与控制论的完美融合——从AI的新进展说起

2018-03-02 12:22蒋宗岳

数字技术与应用 2018年12期

蒋宗岳

摘要：近几年来，人工智能在社会各界掀起了一股热潮。计算机技术的发展为AI技术提供了智能化的算法和运行空间;计算机网络的普及为AI技術提供了数据库基础;信息论与控制论的融合为AI提供了理论基础。本文回顾了人工智能的发展历程，以AlphaGo的成功案例为引，阐述了信息论与控制论在人工智能技术中的重要地位和作用。

关键词：人工智能;信息论;控制论;AlphaGo

中图分类号：G642 文献标识码：A 文章编号：1007-9416（2018）12-0229-02

0 引言

2016年3月，谷歌旗下的DeepMind公司开发的人工智能机器人阿尔法围棋（AlphaGo）与围棋世界冠军、职业九段棋手李世石进行人机大战，以4比1的总比分获胜，这是人工智能机器人在象棋领域完胜人类之后的一大进步。2017年5月，AlphaGo在中国乌镇围棋峰会上，以3比0的总比分战胜了排名世界第一的围棋冠军柯洁。此后DeepMind团队又于2017年10月公布了代号为 “AlphaGo Zero”的最强版阿尔法围棋。此后，人工智能机器人在围棋领域一路战绩辉煌，人类在围棋界的霸主地位一去不复返。

当AlphaGo在围棋领域取得成功后，DeepMind公司的研发团队继续将战场转移到了基础科学研究领域——蛋白质折叠结构的预测。近日，DeepMind正式宣布Alpha Fold 系统开发成功，并在蛋白质结构预测界有“奥运会”之称的蛋白质结构预测技术关键评估社区范围实验（CASP）全球竞赛上再次拔得头筹。

阿尔法围棋（AlphaGo）的成功象征着计算机技术已进入人工智能的新IT时代。对此，信息论和控制论功不可没，信息论与控制论的完美融合将推动人类新的科技革命和产业变革。

1 AI的发展历程

AI（Artificial Intelligent），即人工智能，是一门研究如何应用计算机的软硬件来模拟人类某些智能行为的基本理论、方法和技术。AI主要是基于对人类智能活动规律的研究，旨在构造一套具有一定智能的人工系统，来模拟人类去完成需要人的智力才能胜任或者高于人的智力才能胜任的工作。AI的目的是让机器能够像人一样地思考，智能地去完成指定的任务。

自1956年正式提出人工智能学科以来，人工智能走过了曲折发展的60余年：

（1）1950年，一位名叫马文·明斯基的大四学生与他的同学邓恩·埃德蒙一起建造了世界上第一台神经网络计算机，被看作是人工智能的起点，马文·明基斯也被称为“人工智能之父”。同年，被称为“计算机之父”的阿兰·图灵提出了“图灵测试”，并预言了真正具备智能机器的可行性。1956年，“人工智能”概念首次提出，“让机器能像人那样认知、思考和学习，即用计算机模拟人的智能”。

（2）在此后长达十余年的时间里，AI被广泛应用于数学、自然语言、工业、化学等领域，力图用人工智能来模拟人类智慧。早期的智能程序主要是为了解决特定的某个问题，但随着AI在专业领域应用的深入，以及要解决的问题复杂性的上升，计算机计算能力和性能不足，早期的人工智能程序立马就不堪重负了。而且，因为数据量的严重缺失，没有足够大的数据库来支撑程序进行深度学习，从而导致机器无法读取足够量的数据进行智能化，AI的应用进入了技术瓶颈期。

（3）1980年，美国卡耐基·梅隆大学为DEC公司设计了一套具有完整专业知识和经验的计算机智能的专家系统“XCON”。专家系统的商业化为AI的发展带来了转机，衍生出了像Symbolic、Lisp Machines等这样的硬、软件公司。但是好景不长，1987年，苹果和IBM公司生产的台式机性能大大超过了Symbolic等厂商生产的通用计算机，从此，专家系统也逐渐被淘汰。

（4）1997年5月，IBM的计算机系统“深蓝”战胜国际象棋世界冠军，这是AI发展的一个重要里程。20世纪90年代中期，随着AI技术的逐步发展，人们渐渐对AI开始抱有客观理性的认知，人工智能技术也开始进入平稳发展时期。2006年，Hinton在神经网络的深度学习领域取得突破，人类又一次看到机器赶超人类的希望。2016至2017年期间，AlphaGo战胜围棋冠军，深度学习大热。尤其近几年，谷歌、微软、百度，还有众多互联网科技公司纷纷加入AI产品的战场。移动终端、可穿戴设备、感知设备、互联网、移动互联网、传感网络、车联网……随着越来越多的AI产品流入市场，社会上掀起了新一轮的智能化狂潮。

随着计算机技术的发展，计算能力已经不是用“飞速”能形容的了，高性能的计算能力，为AI的复杂程序实现提供了保障;当今社会，计算机网络无处不在，作为被这张大网联结的每个节点，人、机、物空前地紧密联系着，大数据开始涌现，为AI的智能化学习提供了庞大的数据库支持。以深度学习等为代表的人工智能模型与算法不断突破，在数据和知识在社会、物理空间和信息空间之间的交叉融合与相互作用下，AI不断发展着新的计算范式。

2 信息论及其作用

2.1 信息论

信息是既看不见又摸不着，但是却存在于我们生活的方方面面。千百年来，人们只能用信息量大、信息量小来笼统地说明某个信息告诉了我们多少“知道”的东西。直到1948年，克劳迪·香农借用热力学中“熵”的说法，提出了“信息熵”的概念，才回答了“什么是信息”这个问题，并且解决了对信息的度量问题。香农提出，信息就是对系统中不确定的消除，用信息熵来描述一个系统中的不确定。信息熵越大，对某个事件的不确定就会越少，那么所含的信息量也就越大。也可以认为，信息量的度量就是度量系统中不确定性的多少，而系统中不确定性的多少可以通过数据量的多少计算。这样，香农就通过“熵”的概念，将信息量和数据量联系联系起来了。因为数据量是可测量的，所以信息量的度量也就由笼统转向了可量可算。而信息论就是这样一门通过数理统计方法来研究信息的度量、传递和变换规律的学科。

此外，随着科学技术的进步，信息论所研究的内容也在不断的加深。新时代下的信息论所要研究的内容不仅仅包括信息的度量、获取、处理等问题，还逐渐与其他相关领域融合，例如语义学、神经心理学、语言学等等。

2.2 信息论的作用

信息论是建立在概率论基础上而形成的，主要的作用是将一个信号所提供的数据进行计算，从而削弱对系统的不确定。通过模拟概率法的计算过程和来设计AI系统的算法，将下围棋的问题转化成用于表达不确定性概率分布的问题。以AlphaGo为例，AlphaGo实质上是一道围棋人工智能程序。它的核心系统主要是所形成的策略网络（policy network）和价值网络（value network）。将棋盘上的当前落子局势作为原始数据输入，策略网络将所有可落子的位置生成一个概率分布，分析下一步落子位置的概率，价值网络则分析下一步落子后获胜的概率。二者互相配合，从而筛选出落子概率最高、获胜概率最高的地方为下一步的落子位置。早期的AlphaGo就是依赖自身快速又庞大的计算能力，并结合数万人类围棋专家的棋谱来进行概率计算的。不断地接触新棋谱，就是AlphaGo的學习过程，在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，阿尔法围棋的搜索算法就能在其计算能力上不断地接近人类的智力和直觉判断，进而超过人类智能。

此外，信息论所要研究规律的范畴还应包含语法、语义和语用。语法是指信息表达所用的符号，语义是指各符号的意义，语用是指信息的接受者所接受的对他有用的信息。比如表达同一种语义信息，可以用不同的语言文字来表示，这些语言文字所含的语法信息是不用的，而这信息的接受者只需要接受他能懂的语言，他不懂的语言，对他来说是没有语用信息的。从一定程度上来说，语法信息的信息率小于语义的信息率，语义的信息率又小于语用所包含的信息率。通过对信息论的研究，可以优化AI系统的控制语言，使系统传输语义信息或语用信息，这将会大大提升及机器的信息传输效率。

3 控制论及其作用

3.1 控制论

控制论最早是由诺伯特·维纳在《控制论——关于在动物和机器中控制和通讯的科学》一书中提出来的，在维纳的控制论中，信息是控制的基础，这种通过使用信息在某些受控对象上起到的作用，叫做“控制”。打个比方，甲向乙发出某一项指令，乙在收到指令后完成了相应的动作，这一系列的过程就可以看成是“控制”的过程。所以，控制论主要研究的问题在于系统中控制指令的传达和作用。

在2004年，中国科学院自动化研究所王飞跃研究员在控制论的基础上，首次提出了（Parallel Systems）的概念。简单来讲，平行系统包括实际系统和一个或多个虚拟的人工系统两部分组成，二者之间存在互动指令，可以相互作用。平行系统的一大亮点在于，借用计算机庞大的计算能力，在人工系统的内部构造一个虚拟空间用于运行、计算、实验，先观察、预测并评估策略的效果，得出最合理的解决方案后，再运用到实际系统中。这样，通过连接实际系统和人工系统，动态分析二者之间的互动，就可以完成各自未来状况的借鉴、预估和引导。

3.2 控制论的作用

平行系统的主要目的是以虚实互动的方式，在虚拟空间反复迭代，找到规律，进而指导实际空间进行决策。使用人工系统对实际系统进行预估，使二者之间能够相互借鉴和引导，从而找到最有效解决方案以及达到学习训练和系统优化的目的。

以AlphaGo的进步为例，早期的AlphaGo是结合搜索大量的棋谱，以及强化学习的监督学习进行的自我训练。在2017年5月与柯洁人机大战后，DeepMind公司的研发团队宣布AlphaGo不再参加围棋比赛，取而代之的是最强版的阿尔法围棋——AlphaGo Zero。AlphaGo Zero和先前版本的AlphaGo最大的区别在于AlphaGo Zero一开始并没有接触过任何棋谱。最开始它只是随意地在棋盘上落子，然后分析所有可落子位置和赢的概率来选择下一步的落子位置。这种博弈的次数在增加，它的神经网络也在不断调整落子的最佳策略，为自己打下坚实的“基础”。AlphaGo Zero由最开始的单一的神经网络，通过在虚拟空间中不断进行自我博弈来进行学习。而在实际空间中正式下棋时，AlphaGo Zero可以平行地往前探索所有的分叉，评估出可能的落子位置赢得概率，对比之后选出最优的“下一步落子位置”。不仅如此，随着训练的深入，研发团队惊奇地发现AlphaGo Zero不仅发现了游戏规则，而且走出了新策略。AlphaGo Zero能够通过自我博弈来不断地调整策略，利用深度学习来进行自我的智能优化，这让我们看到了控制论在AI中应用的美好前景。

4 信息论与控制论的完美融合

信息论将推动人工智能实现更高层次的认知。尽管AI系统在处理问题时已经足够“智能化”，但人们更希望有一天能直接用自然语言与计算机直接对话。虽然现在的语音识别、以及各种人像识别已经基本上解决了这个问题，但是人们往往还希望计算机能够通过语调、表情等来识别说话者所表达的情绪和信息。信息论所研究的语法和语用信息为未来实现无障碍的人机对话提供了可能。

控制论将推动人工智能实现更深层次的决策。人的一生经历是有限的，人类在解决问题是做出反应和决策很大程度上是依据自身的阅历。控制论与AI系统相融合，AI在与实际系统连接的过程中，依赖的是当前的大数据环境和计算机技术。构造一个虚拟的人工系统，模拟人类在不同的环境中的反应与动作，不断学习、试错、评估，并进行优化，从而指导实际系统做出更新层次的决策。

现在智能机器人是AI发展的一个高水平的体现。智能机器人要实现更复杂的“仿人”控制，不仅仅要能够模仿人类的思维方式，还要能够理解人类的思维决策。有研究表明，人类的思维决策是逻辑思维和情感思维的结合，这就需要在机器人身上实现仿人的情感控制。这不仅仅涉及到人机之间的信息交互，更是涉及到人机之间的情感交互。而且，人类是经历了数百万年的社会进化后才形成的最复杂的控制系统，这要在智能机器人身上实现，必将是AI要进一步发展需要深入研究的课题。

参考文献

[1]朱雪龙.应用信息论基础[M].清华大学出版社，2001.

[2]王飞跃，魏庆来.智能控制：从学习控制到平行控制.控制理论与应用，2018，35（7）：939-948.

[3]王飞跃.平行系统方法与复杂系统的管理和控制[J].控制与决策，2004，19（5）：485-489.

[4]张善信.人工智能课题及其认知意义[J].中国矿业大学学报（社会科学版），2001，3（1）：36-41.

[5]劉知青，吴修竹.解读AlphaGo背后的人工智能技术[J].控制理论与应用，2016，33（12）：1685-1687.

The Perfect Fusion of Information Theory and Cybernetics： Starting from the new Development of AI

JIANG Zong-yue

（Tianjin No. 1 Middle School， Tianjin 300300）

Abstract：In recent years， artificial intelligence has set off a boom in all walks of life. The development of computer technology provides intelligent algorithms and running space for AI technology; the popularity of computer networks provides a database foundation for AI technology; the integration of information theory and cybernetics provides a theoretical basis for AI. This paper reviews the development of artificial intelligence. Based on the success of AlphaGo， it expounds the important position and role of information theory and cybernetics in artificial intelligence technology.

Key words：artificial intelligence; information theory; cybernetics; AlphaGo