道德人工智能：基础、原则与设计

2021-03-11 07:25孙福海陈思宇黄甫全伍晓琪

湖南师范大学教育科学学报 2021年1期

孙福海,陈思宇,黄甫全,伍晓琪

(1.华南师范大学教育科学学院，广东广州 510631；2.华南师范大学德育神经科学与人工智能实验中心，广东广州 510631)

在计算机化早期，控制论专家诺伯特·维纳(Norbert Wiener)就指出，技术可以帮助人类成为更好的人，创造更公正的社会，但要做到这一点，人类必须控制技术[1]。历史上三大信息技术变革，最新一次就是人工智能技术。它带来诸多道德(伦理)问题。许多国家已经或正在制定人工智能领域的伦理框架。英国成立了数据伦理与创新中心[2]，旨在研究通用人工智能伦理框架。欧盟起草的《可信任人工智能伦理指南》[3]，提出了可信任人工智能框架。

人类道德依赖于人类社会文化背景下的道德标准、价值观和法律法规等规则体系，人工智能的“道德”也与之类似。研究者已经指出，人工智能在社会中的道德行为主要是规范性问题，而非描述性问题[4]。道德规范不仅可以塑造人的道德行为，同样也可以内化为人工智能的自我约束，作为立“德”之本。因此，验证智能系统是否符合现有法律框架只是第一步，更重要的是确保其能解释和运用人类道德价值观，需要弄清楚人工智能的道德意味着什么，以及系统如何遵循道德和坚持某种价值取向。

一、道德人工智能的伦理学基础

以软硬件形式存在的人工智能，通常被认为是人类的工具，但其不断增长的自主智能和交互能力，使得人工智能系统被期望承担起本属于人类的责任与义务。而出于道德考量自主决策和行动的人工智能，开始被视为道德主体。有研究根据自主性和道德敏感性提出了人工智能从低到高的道德层次，分别对应操作性、功能性和完全性的道德行为[5]。在最低层次，比如搜索引擎，既没有自主性也没有社会意识，因此不具有道德体系，而只是在设计中融入了设计者的价值观，被认为仅具有操作性道德。随着系统自主能力和认知能力的增强，系统具有了评估和应对道德问题的能力。自主智能可以感知所在环境的相关道德特征，从而能根据人类道德规范而调整行为，但仍有许多限制。大多数具备道德规范的智能系统都属于功能性道德层次。发展到更高层次，人工智能则可以具有所需的完全性道德行为[5]。但无论处于何种层次，传统伦理学如何在智能技术中发挥作用成为首要的问题。

从理解道德原则并能应用于人工智能系统设计的角度看，规范伦理学具有特殊的相关性。后果论(功利主义)、道义论(义务论)和美德论(美德伦理学)等，都是规范伦理学的典型代表，不仅提出了人类道德行为规范，试图解决道德困境，还解释了道德教育。因此，通过探索已建立的人类道德体系，将规范伦理学用于人工智能系统设计是完全可能的。

1.后果论与人工智能

后果论认为行为道德性取决于行为结果[6]，道德上的正确行为是产生“好”的结果的行为。因而，行为在道德上是否正确，可以通过检验其结果来确定，这种结果要么是行为本身导致(行为功利主义)，要么是存在需要这种行为的一般规则所导致(规则功利主义)[7]。

在后果论模型中，人工智能必须知道一个行为所产生的后果，及其对其本身以及人类和其他事物意味着什么，还需要能够评估这些后果。对于人类来说，很难确定某项行为更别说规则的所有实际后果，但通常一项行为(或规则)会增加或减少一般效用，这对于指导人工智能的设计意义非凡。考虑到未发生的各种可能性，道德人工智能对后果的评估主要不是针对实际后果，而是预期后果。

如果没有道义论的一套规范，基于后果论的道德人工智能需要定义明确的问题，能始终完整和确定地了解当前状态，行为结果是能确定的，并且其他可能影响结果的因素也是可以预测的。根据后果论的效用原则，正确的行动方针是为最大多数人最大化的效用(功利主义)或快乐(享乐主义)。而考虑到弱人工智能的概念，人工智能算法应具有期望效用函数，并将选择试图最大化其效用的行为。效用的评估取决于道德人工智能的目标和期望。因此，后果论方法在限制条件下非常有效，但当面对不完整、不确定和意外情况时，则容易误判。

基于后果论的道德人工智能通常采用启发式搜索算法，由搜索、停止和决策策略组成[8]，具有不断发展的能力。这在需要快速决策时非常有用，但同时也是局限所在。杰里米·边沁(Jeremy Bentham)指出，不应期望享乐演算过程在每个道德判断中都被严格遵循[9]，因为搜索空间有限，不可能评估所有可能性。

2.道义论与人工智能

道义论是规范的道德立场，与行为者品格无关(相较于美德论)。它根据规则判断行为的道德性，不考虑后果(相较于后果论)。人类有创造和遵守规则的理性能力。规则允许基于责任的道德规范出现，这对人类存在至关重要。“责任”在康德伦理学中非常重要。康德认为负责任的行为才具备道德价值[10]。在道义论模型中，责任是出发点，可以转化为规则，分为规则和元规则。

道义论坚持道德法则是对主体行为进行道德评估的理性框架[11]，因此被认为可更容易形式化而产生“负责任”的人工智能[12]。其基于规则的道德判断的算法，非常适合于道德人工智能的构建。康德绝对命令应用于人工智能的过程被视为一种“自上而下”的构造，这种方法基于一组预定规则来定义行为的道德性，仅在既定规则允许下，人工智能才能采取某种行动。因此，可以通过对行为规则进行简单的一致性检验，将预期行为置于传统的道义类别中(禁止、允许和强制)[12]。在这里，道德判断是一致性检验的结果，检验是构建规则的方法，那么道德行为就是建立一组规则。

人工智能最容易做到的就是遵循规则。基于规则的系统被实现为形式系统，也称为“公理系统”。道德推理的一个重要问题是需要预测他人行为以评估自身行为；规则存在的原因之一就是使他人行为更可预测，从而协调那些遵守规则的行为。在道德人工智能中，推理机制被用来从一个被称为公理的小集合中通过组合来推导新的规则，规则被用来确定哪些行为在道德上是允许或不允许的。在道义论背景下，还需要考虑尊重人类尊严的道义，需要对人工智能的功能和能力进行限制，以防止完全取代人类或人类的思维活动。

精确的道德原则是走向道德推理自动化的第一步[13]。基于规则的贝叶斯推理机制，可使人工智能根据抽象道德原则在价值水平上进行道德学习，而非单纯的行为模仿。因此，欧盟在《可信任人工智能道德指南》中优先考虑了道义论的方法[14]。道义论的最大优点，是可以在人工智能中提供理性响应能力，且非常“透明”。人工智能可以简单地通过引用产生决策或行为的特定规则来做出解释。当然，基于道义论的人工智能也需要通过一系列被禁止的行为规则和职责加以约束，需要一套在行动之前识别出不道德行为的规范，以维持道德行为。

3.美德论与人工智能

像道义论这种在足够小的可预测系统中产生可接受的道德行为，或者后果论这种对问题定义足够明确，以及信息完整情况下的道德推理，在现实场景中通常无法完全满足，因为现实场景中存在着大量不完整信息。而美德论植根于古典道德哲学，在评估、判断，以及采取与品格相符的行为方面非常有用。美德论关注人的内在特征(节制、正义、勇敢和智慧等)，与道义论和后果论不同，这是一种基于主体的观点[15]。

亚里士多德的目的论为基于美德论的人工智能研究提供了思路，不仅包含了基于道德行为的总体目标取向，还特别关注价值取向[1]。因此，构建基于美德论的道德人工智能的关键，就在于使价值观与人类保持一致，根据人类的复杂价值来选择目标。机器学习与美德论之间有很高相似性，目标导向是现代人工智能，尤其是高级机器人技术的核心部分。因此，美德论更为适合基于机器学习的自下而上的道德学习设计方法[16]。亚里士多德还认为必须通过实践来发现和学习美德，而机器学习也是通过经验来提高机器执行任务的能力。因此，机器在从现实数据中学习之前，无法拥有实践智慧和实施道德行为[16]。如果将美德与功能及任务执行较好地结合，完全可能开发出基于美德论的人工智能。

美德论是解决控制和价值取向这两大方面最有潜力的道德理论。拥有“节制”美德的机器将不会有任何多余的欲望，从而避免了超智能对人类生存构成风险。“榜样学习”是人类历史上道德学习和价值观相统一的重要途径[17]。美德论提供了一个迭代学习和成长模型(即道德学习设计方法)，以及由环境和实践所提供的道德价值，而不仅仅遵从给定的静态规则集。但自下而上的道德学习设计方法的主要挑战在于,如何提供足够的保护措施以防范人工智能学习和发展不道德行为。

基于美德论的人工智能在可解释性方面也有欠缺，它很难解释或证明其美德是如何通过经验形成的，而美德是其行动的基础。如果通过人工神经网络实现人工智能学习美德的能力，则会带来更大的问题，因为几乎不可能从众多网络权重中提取出直观可理解的原因。因此，美德论需要更多的判断调用，需要引入一个全新解释推理机制来评估概率和风险，这本身可能不很可靠。

总之，遵循道义论是实现道德人工智能最简单的方法，它虽然只是规则的直接应用，但需要更高层次规则对行为本身进行推理。人工智能必须知道自己的行为与规则的逻辑关系。后果论可通过启发式搜索来实现，但当信息受到限制并且行为的影响在持续互动中级联时，必须决定道德推理的程度，忽略不相干信息并采取有限搜索的启发式算法。美德论则可以使用机器学习技术，但需要新的机制对动机进行推理，对动机引发的行为和结果进行考量，这是更复杂的模式，并需要借助期望效用函数等算法来处理“后悔”，以创造出新的困境解决方案。其他还有双重效应原则(The Doctrine of Double Effect,DDE)、较小恶原则和人权伦理等，通常也被看作是上述理论的不同表现。

不同道德理论在人工智能中有着特定算法，但也面临着共同挑战，即能否收集和比较所有信息，这对于实时应用来说非常必要，对于后果论来说尤为重要。由于任何行为所导致的结果在时空上可能趋于无限，因此必须决定系统评估和推理的程度，做出当下最优决策。道义论同样没有解决这一问题，因为道义之间的一致性通常只能根据影响来评估。美德论使用机器学习可以分析道德行为的学习和进化，但还需做进一步研究。

二、道德人工智能的价值论原则

智能系统开发中的道德考量正成为人工智能研究的重要领域之一。如果人工智能具有自主行为，而且其行为原因基于道德推理，那么负责道德部分的智能代理就被认为是道德主体，即道德人工智能(Moral AI)[18]。对于实现道德人工智能这个大问题，目前存在有三重立场：一是意识层面的道德立场，系统被认为是意识主体；二是设计层面的道德立场，系统的目的和行为是按照设计功能去解释，系统被认为是功能主体；三是物理层面的道德立场，从自然规律和功能属性方面加以解释，系统被认为是物理主体[19]。基于当前技术水平，这里优先采用设计层面的道德立场，在设计层面探寻道德决策的通用机制，研究其构建原则和价值导向，进而解决特定的道德认知和价值判断。

1.道德人工智能的责任担当

人类社会通常根据道德主体如何选择行为及其后果来判断是否符合道德规范，按照预期，道德主体的行为将在道德上产生良好的结果。但是，人工智能采取行动仍然有很大的不确定性，有时该行为并不会达到预期结果，甚至做出错误选择。而当出错或违反法律时，意味着责任问题。因此，道德人工智能必须能够提供决策和行为的解释，如果不能解释其道德推理，不仅意味着系统的不透明，同时也意味着其无法负责。

人工智能如果缺乏某种形式的责任就不会拥有自主能力，没有问责制的互动就不会有透明度。因此，道德人工智能的构建应基于问责制(Accountability)、责任制(Responsibility)和透明度(Transparency)原则(即ART)[20]。

首先，问责制是负责任的人工智能的首要条件，是指系统能够解释并证明其决策机制。一方面，问责制意味着系统具有解释的能力。解释是将抽象原则(例如公平或隐私)作为具体系统功能的基础。约翰·朗肖·奥斯丁(John Langshaw Austin)认为，对解释的研究可以多种方式阐明道德规范[21]。人类社会需要人工智能证明其道德推理能力，或者至少是对决策范围的保证。解释可以减少系统不透明性，并支持对系统行为和局限性的理解。另一方面，问责制意味着系统决策机制必须从算法和数据中得以证明。价值敏感设计方法已在工程和设计领域广泛应用[22]，在保证问责制方面有很大潜力。

其次，当人工智能对行为有控制权时就需要承担责任[23]，后果论在这方面可以发挥重要作用。但即使人工智能系统是行动的直接原因，责任链也必须足够清晰，需要厘清人工智能的决策行为与利益相关者的关系。比如，当人工智能按照预期方式工作时，责任在于用户，这是它的工具属性使然[4]；或者由于错误或意外，出现了不道德行为，在这种情况下，设计者应承担责任。虽然学习及适应性能力是大多数人工智能系统的预期特征，但归根结底也是算法造成的。而且基于学习的行为后果通常难以完全预料和保证，因此需要持续评估，这是道德学习设计方法的关键所在。人工智能的责任问题很复杂，同时也属于立法问题。

最后，行为解释需要在算法、数据来源和利益相关者的选择和决策方面保持透明度。也就是说，必须能够审查算法的设计和工作方式。道义论在这方面具有突出优势。透明度的目标是提供足够信息，以确保人工智能的安全和可控。如果能做到与系统相关所有方面(即数据、设计流程、算法和利益相关者等方面)的开放性，则可以保证系统中的透明度。透明度设计方法是道德人工智能设计的一种重要方法。机器学习中的不透明度，即所谓的“黑匣子”，经常被认为是透明性的主要障碍之一。因此，需要重新考虑机器学习的算法设计，甚或需要超越深度学习模型，创新深度研究模型，开辟算法新天地。

2.道德人工智能的“价值观”建构

人类道德是普遍的价值观和行为准则[24]，而价值观是解释态度和行为动机的基础。技术与人类之间的作用从根本上说是价值作用，技术的价值取向是人类应用的结果。能进行自主决策的人工智能，无论其能否自我改进，本身就必然需要一个“价值观库”，这是其行为准则。因此，价值观是道德人工智能的核心所在。

随着人工智能在决策和环境操作方面拥有越来越多的自主权，它必须被设计成学习、采用和遵循所面向群体的道德规范和价值观。研究表明，不同文化中的价值观具有相当一致性[25]。这表明人类动机有相似的结构。当然，即使价值所表达的人类动机的类型和结构是普遍的，个人和群体也有着不同的价值“优先”或“等级”，考虑顺序的差异导致决策和行为的不同。

谢洛姆·施瓦茨(Shalom H.Schwartz)的人类基本价值观理论是跨文化研究领域的一个重要理论，阐明了价值观的共同特征及区别[26]。人类基本价值观理论的核心为：价值观形成一个循环结构，反映了每种价值观所表达的动机，这种循环结构涵括了被主要文化认可的十种普世价值观之间的冲突和兼容[25]，价值之间具有冲突和一致的动态关系。这些价值观构成了更高层次的四个维度：开放、自我提升、保守与自我超越[26]。价值观可以轻微或强烈地相互对立，这导致价值观沿着两极以圆形结构变化。

价值之间动态关系的结构，表明了追求任何价值的行为都与某些价值冲突但与其他价值一致。施瓦茨的价值观结构模型为人工智能的价值观设定提供了思路。一是价值观的重要性评级。施瓦茨价值观调查问卷(Schwartz Value Survey，SVS)是对价值观进行直接测量，对价值观的重要性进行评分和排序，因此，可以使用权重来评估和平衡价值观。二是直接相似性判断任务。施瓦茨肖像价值观问卷(Portrait Values Questionnaire，PVQ)是对价值观进行间接测量，对价值观的相似性进行评分。基于这种人类感知相似性判断的神经基础可以建立计算模型，比如深度卷积神经网络(Deep Convolutional Neural Network，DCNN)生成的特征表示。三是群分类。价值观理论可以预测价值表达一致的类行为。四是空间排列。基于多维标度(Multi Dimensional Scaling,MDS)，价值结构模型将多维空间划分为包含每个价值项的不同区域[25]。MDS是人工智能中一种非常有用的利用多维度评估事物的可视化技术。

这样，道德人工智能可以通过价值一致性进行学习，根据元价值来设定自身价值观。元价值可使智能代理的道德行为在外部与他人保持一致。

但人工智能的“价值观”设定对于开发者来说仍然有很长的路要走，还需要解决几个问题：第一，需要建立受人工智能影响的特定群体或个人的价值观库，需要确定具体规范和属性；第二，规范具有动态变化的属性，这就要求人工智能具有更新和自我改进的能力，过程是透明的；第三，在集成到人工智能系统中后，系统可能会有算法偏见并受到多重价值观的冲突，解决这种冲突需要价值之间的定量加权，因此算法也需要透明。

三、道德人工智能的工程学设计

要开发出具有道德的人工智能，系统设计必须考虑道德因素。人工智能需以“负责”、“透明”和“学习”的方式获得道德属性，作出符合伦理道德的决策和行为，并考虑行为后果，同时还需要确保设计是显白和透明的，而不是隐含在过程和对象中的。只有这样，人工智能的目标、决策，以及为实现目标而采取的行为，才能与人类道德和价值观相一致。其中，价值敏感设计、透明度设计及道德学习设计是开发道德人工智能的三种重要方法。

1.价值敏感设计

理解利益相关者、任务和不同用户群体的价值观是人机交互的核心任务。而将哪些“价值观”纳入设计中，以及如何将道德理论转移到可操作的技术手段上，已成为设计者必须要考虑的问题之一。同时，设计者在道义上也有责任创造遵守人类道德价值观的机器。设计者的价值观与设计过程和结果密不可分，因此，专家主张在设计中融合人类价值，对类人机器人采用价值敏感设计(Value Sensitive Design，VSD)。这可以帮助设计者在设计过程中思考其意图、价值和道德责任[27]。这种设计方法超越了工程领域狭窄的伦理价值观，以包容和形式化的方式将人类价值观拓展到人工智能的前沿研究。

价值敏感设计是一种技术创新方法，旨在以包容和形式化的方式将人类价值纳入人工智能系统早期设计阶段。这样可以平衡广泛的人类价值观，被认为是解决技术设计中融合人类价值观的比较全面的方法。价值敏感设计的中心原则是调查利益相关者的价值观，并在早期研发阶段将核心价值观设计为具备可操作性的技术要求。价值敏感设计需要一个设计框架来涵盖价值焦点，尤其是那些具有道德意义的价值观[28]。这种框架弥合了抽象价值和具体系统之间的差距，目标是将价值转化为有形的设计要求。与人工智能系统设计特别相关的是价值的层次结构、一般规范和更具体的设计要求或目标[29]。价值层次结构提供了规范的“透明”，描述了价值是如何转化为规范和需求，从而明确设计决策。价值的明确结构关系可以清楚地表明，在给定情景下，哪个目标算作规范，哪个算作价值。

价值敏感设计采取迭代设计过程，不断加以调整和持续评估，一般包含概念查验、实证查验和技术查验三个阶段和多个步骤(参见图1)。

图1 价值敏感设计步骤示意图

价值敏感设计的目的是通过对各种来源和利益相关者的彻底调查，可以将各种设计要求转化为一组共同的固定价值，并且将明确的价值转化为设计。这种设计原型在日常生活和教育中随处可见，是人们在做重要决定时经常使用的一种流程。例如，在高考志愿选择中，我们会思考对志愿的未来预期、志愿的选择都会影响到谁、父母亲友对自己的希望、自己读书的付出，并且上网查阅各种资料加以权衡，参加高校招生现场咨询，还要考虑一旦作出最终选择，有哪些资源可以有助于顺利完成学业和找到工作。但这种熟悉的流程在系统设计中却常常被忽略。

从本质上来说，价值敏感设计的重点是对影响一项技术的不同利益相关者的价值问题进行解释，并将其作为设计过程中的目标和约束来嵌入。

2.透明度设计

对于在人类社会中运作的人工智能来说，从执行过程到人机交互中所做出的道德决策，都需要高度可解释性和可观察性。道义论基于规则的推理机制对于提高系统透明度有突出优势。

(1)保持“透明”的方式

让人工智能系统“透明”并不容易。透明度可以发生在多个级别，以及面向多个利益相关者，但对各方保持透明有诸多条件限制，比如在隐私或安全方面[30]。一般来说，人工智能的系统设计通过这四种方式保持透明：可追溯性、可验证性、忠实设计和可理解性。

第一，作为可追溯性的透明度。与“透明”密切相关的是人工智能系统设计和执行过程的透明度。如果系统允许从最初确定的规范追溯到最终系统，可以对已经实施的规范、环境以及方式进行技术检查，那么这个系统从设计到执行过程都是完全“透明”的。执行过程中的透明度也可能揭示出系统无意形成的偏见，如搜索引擎或资源推荐算法中隐藏的种族主义或性别歧视等[31]。而这种可追溯性反过来又校准了人们对人工智能是否符合与其使用环境相关的规范和价值的信任。

第二，作为可验证性的透明度。验证系统做出的规范性决定是否符合所需的规范和价值观，对于执行中处理规范性推理的透明度非常重要。这些规范性决策的明确和准确的表述可以为一系列强有力的数学技术提供基础，例如形式验证[32]。即使一个系统不能用可理解的人类术语来解释每一个推理步骤，道德推理日志也应该可以用于评估。

第三，作为忠实设计的透明度。忠实设计指的是不会使产品比实际更创新、更强大或更有价值的设计。理查德·梅森(Richard O Mason)认为道德标准应成为设计者与用户关系的基础，主张设计模型必须忠实于现实和用户价值观这两个方面[33]。人工智能的忠实设计是其透明度的一个方面，因为它允许用户“看穿”外表从而准确推断人工智能的实际能力。因此，对设计透明度的要求，让设计者有责任不用无法兑现的承诺来误导用户。

第四，作为可理解性的透明度。人类希望能理解人工智能的决定和行动，尤其是道德上有意义的决定和行动。对于符合道德规范的人工智能，可理解性就是，当被审查时，系统能够解释道德推理，并且系统应该在普通人类推理的水平上进行，而不是描述不可理解的技术细节。此外，当系统不能解释某些行为时，技术人员或设计人员应该能够使这些行为变得容易理解。

(2)保持“透明”的方法

如前所述，人工智能必须具备高度可解释性和可观察性，这也是其保持“透明”的方法。该方法包含两个阶段(参见图2)：

图2 “透明度”设计方法示意图

一是解释阶段。解释阶段是将道德原则和价值观转化为明确而结构化的设计要求的过程。里面是一种双向关系，其中自上而下的关系被认为是规范关系(基于道义论)，它描述了如何将较高层的元素转换成较低层的概念。规范关系过程，包含两个步骤：其一，将抽象的价值转换为足够全面的具体规范，在这种情况下，实现规范就被视为是遵循或坚持了道德原则和价值观；其二，将规范具体化为明确的系统需求。

而自下而上的关系被视为目的关系，这将设计要求之类的较低层元素与一般规范和价值之类的较高层元素联系起来。解释阶段定义了系统最终构建的方式。最低层次由只与智能系统输入输出相关的具有某种颗粒度的具体要求组成，中间级别由趋于抽象的规范组成，最高层次由价值组成。这种层次结构为系统提供了高水平的透明度，可以精确解释系统是如何以及在哪里遵循某种道德或某个价值。

二是观察阶段。观察分析包含智能系统的输入类型、信息处理方式、输出方式，以及与设计层面的比较验证；需要详细说明输入和输出方式，以及转换算法；在算法层面定义一套详细的信息处理流程，解决在计算层面描述的信息处理问题；最后将行为结果与设计层面的规范和价值对比验证。有研究提出，系统行为的透明需要满足两个条件：其一，可验证性，在给定所需时间和资源的情况下，底层规范必须允许验证；其二可追踪性，即可以在任何时候快速检查系统功能是否符合规范[34]。

因此，在观察阶段通过研究系统与要求的一致性，使用包括形式验证、模拟或监控等不同方法，可以评估系统行为，判断价值是否符合系统评估。但是，系统内部并不总是允许访问。而通过监视输入和输出，可以在不了解被观察系统内部机制的情况下实现观察行为。总之，由于系统、价值和规范也在动态变化，对设计需求及实现过程检查的计算处理是一大挑战。还有一个挑战就是确定“透明度”所需的颗粒度。过于粗略可能会限制许多潜在的适应性行为，而过于详细的颗粒度则会限制人工智能系统的适应性。

3.道德学习设计

道德学习设计是一种“自下而上”的道德人工智能设计方法(比如深度神经学习网络)[18]。根据亚里士多德的立场，不能将道德作为声明性的一般法律和规则进行编程，而必须通过与环境互动的经验来学习，这种经验必须来自实践本身。因此，道德学习设计方法不需要预先确定道德理论、道德原则或规则集，而是制定基本参数，以目标为导向，人工智能通过自主学习成为道德主体，以试错法等学习模式来完成模仿、归纳、演绎、探索、联想和调节等学习过程，不断积累经验。发展道德人工智能集中在整个认知系统上，包括感知和行动部分，来达到最佳目标。与后果论不同的是，最佳目标不是后果，而是对美好生活最有利的东西，这种差异决定了基于美德论的机器学习系统奖励信号的定义。由于这种方法是基于目标导向行为和选择的综合，因此对于构建道德人工智能而言，主要问题在于：自下而上的道德学习设计如何影响系统的总体道德属性？

道德学习设计方法有进化模式(models of evolution)[35]和人类社会化模式(models of human socialization)[36]两种。进化模式是通过机器学习积累经验，从而模拟人类的道德学习过程。那些有效解决道德问题的策略可以进入下一步，进行重新组合以解决进一步的道德任务。人类社会化模式则考虑了移情和情感在道德学习中的作用，这构成了类似儿童前社会行为的基础。但人类社会化模式的研究还较少。

进化模式是一种通用的机器道德快速学习框架，目的是解决人工智能在冲突和不稳定环境中的适应问题。其中，何塞·卡斯特罗(Jose Castro)提出的测量逻辑机器模型(Measurement Logic Machine)较有代表性[37]。进化模式的道德学习设计方法如图3所示。

图3 进化模式的道德学习设计方法示意图(注：改编自卡斯特罗MLM[38])

感知是一种使模型与外部世界保持一致的方法，进化模式假定传感器将外部世界与自身内部分隔开来。通过传感器测量外部世界，其自身行为在内部进行测量，短时存储(short-term memory，STM)汇聚了内外测量。最近一次测量的序列会在STM中不断更新，在将STM转到长时存储(long-term memory，LTM)时，进化模式积累了经验并根据当前序列和过去序列匹配的情况，将LTM用于生成预测和策略。通过将提供正确预测的序列逐渐移到LTM的顶部，降低错误预测序列，并删除低于某种标记的序列，可以使预测趋于可靠。而预测要有价值，必须可靠，这也是在行为之前采取“过滤”步骤的原因。

进化模式的内部测量定义机器的道德品质，给机器每个可能行为分配从低到高不同等级的“好”“坏”评估。内部测量会导致筛选和过滤预测，这是智能代理道德行为的必要条件，过滤后的预测会产生被外部观察者视为符合伦理道德的行为。

进化模式的机器学习速度很快，因为它坚持所发现的第一个可靠且结果“良好”的预测，而无需关注优化。其在LTM中积累由内部测量产生的经验，以逐渐产生非随机行为。但以空白LTM开始的初始随机探索将极大地影响后续行为，同时系统也受到物理特性的限制。对于进化模式的研究，除了智能代理个体外，还可以通过实行针对给定问题足够充分的内部评估，将多个代理置于进化环境中。

在道德学习设计中，道德学习过程发生的环境与使用模拟环境之间的差异被称为训练数据与测试数据之间的偏差。为了最大程度地降低这种偏差，系统必须在现实世界中学习。训练阶段的体验需要提供尽可能多样的样本，机器才能更好地去概括学习模型。机器学习必须经过很长时间的学习才能获得针对某些情况的稳定策略，但对道德某些情况的模拟仍然是训练机器而不产生实际伤害的最佳选择。某种程度上，学习道德行为常常伴随着道德失败，因此需要评估在自主机器中允许道德学习曲线的潜在风险，自下而上的道德学习设计方法尤其需要特别关注这一点。

美德论可能是获得道德属性的最好模型。美德论并不认为道德行为是规则或后果的结果。良好的行为源于良好的品格，强调培养良好品格或习惯的重要性。美德论将品格的发展视为缓慢的学习过程。尽管美德是通过经验和习惯从下而上获得的，但获得美德后就可以自上而下进行评估。

上述三种道德设计方法各有其优势和局限。人类道德具有由进化和学习形成的自下而上的机制，又具有理论驱动的推理能力的自上而下的机制。因此，道德人工智能可能需要进行类似的融合，由多道德智能代理组成。原则上可以利用模块化和混合式方法来构建人工智能系统。

实现有“道德”的人工智能是一个复杂的系统工程。人工智能要成为“可信任”和“负责任”的人类同伴，就必须在道德理论基础和预期价值方面和人类保持广泛的一致性。

许多道德理论都有这方面的潜力。人工智能整合多种道德理论，通过机器学习及多道德智能代理等，可能会产生一个比任何个人更好的道德体系。比如，因为个人犯下的特殊道德错误在整合中被标记，而且机器学习可以从训练集中发现人类道德的偏见和局限，还可以识别人类以前没有意识到的道德决策的一般原则，这可以用来提高人类的道德直觉。目前道德人工智能还处于初级阶段，多用于特定领域。未来将道德推理由程序员转移到智能系统自主进行，从而创造出通用的具有人类水平的道德人工智能，是完全可以预见和充满希望的。