人工智能音乐发展现状与面临的挑战

2020-12-02 01:15刘奡智韩宝强

人民音乐 2020年9期

■刘奡智韩宝强

20 19 年由中国平安人工智能研究院推出的由AI 创作的《我和我的祖国交响变奏曲》在深圳音乐厅首演。作品通过自动变奏模型，对歌曲《我和我的祖国》的旋律进行变奏，并在变奏的同时融入其他经典歌曲的元素。全曲总共分为五个段落，通过对《我和我的祖国》歌曲主题的变奏，表现了新中国发展历程的宏大画卷。这部作品由深圳交响乐团演出，乐团音乐总监林大叶对音乐品质表示了肯定，并提出了未来5—10 年AI能创作传世作品的期许，这次的演出也引起了社会各界对人工智能音乐的注意。实际上人工智能音乐并非一个全新的领域，该领域已有若干年的发展历史，而在近些年人工智能音乐则掀起了一波热潮，受到了前所未有的关注。

“人工智能”（Artificial Intelligence）通常界定为“机器展示的智能”，“人工智能音乐”（AI Music）则特指由计算机神经网络等算法生成的音乐。虽然当前人工智能技术仍处于初级阶段，距成熟还有较长的路要走。但其在某些领域达到的智慧水平已让人刮目相看，众所周知的例证便是谷歌公司的阿尔法狗（AlphaGo）完胜世界著名围棋大师。

作为音乐人自然会问这个问题：人工智能会不会击败人类作曲大师？根据现实已有的答案是：还不能。因为音乐属于艺术范畴，不像围棋这种竞技项目有客观的胜负标准，音乐取胜的标准由人类审美习惯来判定，虽然机器可在1 分钟内生成上千首乐曲，但很可能被听赏者一句“不好听”而抛弃。目前国际上较为成功的人工智能技术也只能模仿一些规律性较强的音乐风格，如巴赫、披头士等，且未达到逼真程度，更遑论超越音乐大师的创作。那么这种情况是否就意味着神经网络永远产生不出大师之作，注定要与平庸为伍呢？本文旨在通过观察前期人工智能音乐演化历程和当前应用发展趋势，来探讨人工智能音乐未来发展的前景与挑战。

一、人工智能在音乐生成上的演化历程

1.基于马尔科夫模型的音乐自动生成

马尔科夫模型是以俄罗斯数学家马尔科夫命名的一种模型方案。通常来说马尔科夫模型用来解决众多序列问题，比如天气的预测、股票的预测等等。音乐的创作，也可以被看作是一个序列问题，这也是马尔科夫模型广泛用于音乐生成的重要原因。马尔科夫模型时至今日仍是用于音乐生成的有力工具，而这个模型早在1950 年就已经被美国声学工程的大师哈里·费迪南德·奥尔森（Harry F.Olson）用于音乐结构的生成。

2.基于规则：语法系统

语法系统起源于语言生成系统。早在1957 年，语言学家诺姆·乔姆斯基（Noam Chomsky）便提出了最为基础的语言模型。里多夫（Lidov）和加布勒（Gabura）是较早采用语法系统生成音乐的研究者，他们在1973 年，通过语法系统生成了简单的节奏，取得了基础性的突破。一般来说，语法系统包含了起始符号、终止符号、非终止符号及生成过程的一系列规则。这种基于语法系统的生成方案，在音乐生成的研究上非常流行，因为音乐也有音乐的语法，如和声、复调、曲式、配器的作曲理论规则。而研究这种生成方法的也往往是具备强音乐背景的音乐与计算机复合型人才。

3.基于遗传算法的音乐自动生成

所谓物竞天择，适者生存。遗传算法是一种类似于达尔文进化论的机器学习算法，属于机器学习五大流派中的进化学派。遗传算法中的适应性函数，用于评价大量生成的“种群”当中适合存活的对象，对种群中的个体进行优胜略汰。霍纳·安德鲁（Horner Andrew）以及大卫·戈德堡（David Goldberg）是较早研究遗传算法与音乐生成的研究员。他们通过自己定义的适应性函数，来不断优化生成的旋律。适应性函数的设计方法很多，其中也有不少的研究引入作曲理论规则，如四部和声理论、对位规则等，进行适应性筛选，尽可能让能“存活”的音乐片段符合规则，增加可听性。由于遗传算法可以通过引入作曲规则提高音乐的悦耳程度，至今仍有少数研究机构致力于遗传算法进行音乐生成的研究。

（四）基于深度生成式模型的音乐自动生成

1.循环神经网络

循环神经网络是深度神经网络模型的一种，常用于解决序列问题，比如机器翻译、文本生成、语音识别。由于基础的循环神经网络中，反向传播过程有梯度消失的问题，现代一般采用改进的循环神经网络模型：长短记忆网络（LSTM）。这种神经网络的输入可以是一个序列，输出也可以是一个序列。对于音乐生成的任务而言，用户输入若干个音符作为动机，一个训练好的循环神经网络模型会自动帮助机器进行续创，较早的例子有道格拉斯·艾尔克（Douglas Eck）通过LSTM模型进行的蓝调音乐生成研究。

图1 循环神经网络

2.Transformer

Transformer 是谷歌大脑在2017 年提出的一种序列模型，该模型最早应用于机器翻译。这个模型的出现也撼动了循环神经网络在深度学习中的地位。甚至在很多的研究测试中，Transformer 的表现均优于循环神经网络。2018 年谷歌大脑亦把Transformer 模型应用于音乐生成的问题，发表了music transformer 的论文，曾名噪一时。

图2 Transformer 模型机制

3.变分自编码器（VAE）

自编码器（AE），即通过一个神经网络，将一张图片或者一段语音变成一串数字，目的是增加图片或语音的可搜索性，并且通过该数字重建图片或者语音。变分自编码器（VAE）是自编码器的一种，是自编码器的升级版本，结构与自编码器类似，亦由编码器和解码器构成。与单纯的自编码器相比，变分自编码器强制编码得到的隐含向量需要遵循一个标准正态分布。早期将VAE 模型用于音乐生成的，则是谷歌的MusicVAE 模型，用户输入两段音乐片段，模型为用户进行插值，生成连续的过渡性片段。

图 3 自编码器（AE）

d.生成对抗网络（GAN）

生成对抗网络，顾名思义，该模型包含生成器以及判别器两个部分。生成器与判别器的关系，则好比印假钞团伙与警察的关系。生成器与判别器互相博弈，两者不断升级，

经过了多轮博弈，训练出的生成器则可以假乱真。近些年生成对抗网络成为了计算机视觉生成领域的主流模型。在音乐生成领域，MIDI-Net 是最早用GAN 来生成音乐的模型，该模型最核心的一个思想即把钢琴窗的矩阵类比成图片，如此一来在一定的时间内，多声部的音乐便可表示为一张图。如此，在计算机视觉领域流行的生成对抗网络，便可用于音乐的生成。

图4 生成对抗网络机制

二、人工智能音乐的应用现状

人工智能音乐是近些年的一大噱头，许多初创公司也在这一波风口浪尖上，持续地拿到了融资。自2014 年Jukedeck在巴黎的Le Web 会议高调亮相以后，人工智能音乐领域掀起了一波融资浪潮，在国际上较为高调的尤数Amper Music①、Jukedeck②以及AIVA③。Amper Music 是一家由三位好莱坞制作人创立的，声称以人工智能提供音乐内容服务的公司。Amper的交互十分简单，用户只需要选择一种风格、一种情绪以及对应时长，就可以得到一首乐曲，这种交互简明、低门槛、容易操作。Jukedeck 的产品逻辑与Amper 类似，以为客户定制音乐作为商业模式进行探索。2019 年7 月，Jukedeck 被Tiktok 收购。Jukedeck 的音乐生成内容库也成为了Tiktok 这个大流量短视频平台的助推器。

相较之下，AVIA 系统则更注重通过高品质作品来博取眼球并吸引投资。一方面，AVIA 推出由人工智能生成的乐队作品，并交由乐团来演奏。另一方面，AVIA 也出版了多张专辑，并表示专辑中的音乐都是人工智能生成的。最近，AVIA 在对外网站中上线了辅助音乐人创作的工具，欲另辟蹊径避免与Amper 及Jukedeck 的业务高度一致。

除了这三家较为高调的公司以外，诸如Popgun、Amadues Code、Melodrive、Ecrett Music 等，都是这个领域的初创玩家，均聚焦于音乐生成或音乐生成的一些子任务，如自动配和声、节奏生成等等。然而众多的初创企业中，尚未有任何一家能体现出显著的技术优势。因而人工智能音乐行业也一直被认为处于起步阶段，这与行业的产品化现状不无关系。

三、人工智能音乐面临的困难与挑战

人工智能音乐生成，本质上就是一个极具挑战性的任务。培养一个作曲家尚需要漫长的时间，培养一个人工智能又谈何容易。在人工智能音乐生成的研究当中，有诸多技术上的挑战，其中有一些挑战，似乎也决定了人工智能难以超越人类的宿命。

（一）人工智能音乐生成的评价体系问题

音乐为什么好听？事实上人类大脑对音乐的感知机制，至今仍未有高度定量化的结论。换句话说，我们不是不懂音乐，而是不懂我们自己。再则，对音乐的喜好，不仅仅是“好听”与“不好听”的问题。音乐的审美往往受诸多因素影响，例如人的个性、音乐学习经历以及文化背景等等，是个体生活经历的衍生品。如果希望人工智能真正能创作音乐，那首先需要教会人工智能审美，而教会人工智能审美本身就已经是一个极限挑战。

（二）人工智能音乐生成技术构思的现存问题

1.结构缺失问题

人工智能音乐的生成模型有很多，然而大多数在设计阶段就没有考虑到生成的音乐是需要具备一定结构的。这种问题的出现，一方面是通用人工智能领域并没有十分合适的工具，能让音乐的结构被学进去。另一方面，许多人工智能音乐生成的研究者，本身音乐背景略为单薄，对曲式结构的理解十分有限。人类在训练人工智能过程不重视结构，就好比在作曲的教学当中，略去了曲式分析的课程，让学生在这方面能力有所缺失，大大减弱了学生创作完整作品的能力。

2.深度学习的过拟合问题

深度学习极其容易有过拟合问题。如果深度学习模型过拟合到特定数据集上，则会出现了单纯记忆的情况，即在生成的过程中形成大块片段的抄袭。这是诸多深度学习模型都具有的通病，其中尤以序列模型为严重。一般认为，人工智能音乐生成是为了解决版权制约的问题，但技术所面临的挑战却暴露了另外一个现实，基于深度学习模型生成的音乐可能是在抄。这个问题如果不能妥善解决，那用深度学习去做人工智能音乐生成，可能已经违背了人工智能生成的初衷，并且引发了新的侵权风险。

3.统计模型的理念问题

机器学习模型中，有相当一部分本质上是统计模型。统计模型是不是适合艺术创作呢？艺术创作是具备一定顶端优势的，有了一个梵高，也许不需要第二个。但我们用统计模型去做生成，往往结果是从大量数据中统计出分布聚集的部分，企图用这种方式让人工智能去超越数据中的优秀作品，是未必现实的。统计模型是否适合用于艺术创作，也是一个需要理性审视的问题。现今深度学习大量用于音乐生成问题的研究，或有跟风之嫌。

（三）人工智能音乐生成的辅助角色探索

如果假定了评价音乐的核心是人，那么人工智能挑战人类的命题将无从说起。根本上说，既然人工智能不具备审美，那就没有人工智能创作的音乐，只有人创作的音乐。人工智能不会取代人类，更不会超越人类。然而，人类也并不是要排斥人工智能。从音乐发展的历史长河看来，音乐创作并不只是遵照前人技法的继承，推陈出新同样重要。总有一些音乐，引领着时代，也总有一些音乐，试图打破前人的思想局限，寻觅新的音响效果。也许人工智能是一种很好的实验工具，加快新作品的诞生，偶尔的打破想象力的局限，带来一丝丝的新鲜感。

（四）人工智能音乐的知识产权

假定人工智能生成的音乐已经比较成熟，那人工智能生成的音乐如何归属，则是一个无法绕开的议题。实际上，以计算机作为工具创作音乐并非新鲜事。但人工智能的发展还是带来了新的问题。人工智能生成的音乐，无论品质如何，在形式或体裁上可以做到与人类创作的一致，比起纯粹的工具而言有更高的自动化程度，这也不可避免了引发了人工智能音乐归属权的讨论，尤其受到关注的讨论则是，人工智能音乐应该属于人工智能的编程者（设计者），还是人工智能音乐系统的操作者？从现实情况来看，人工智能音乐尚未发展到有足够自主意识的程度，人机交互或是目前输出作品的主流形式。这个过程，人工智能音乐的操作者举足轻重，从学理上，版权属于操作者的论断得到了不少支持。

但从另一个角度来看，这种论断也有站不住脚的地方。人工智能音乐的生成，尤其是基于数据驱动的人工智能解决方案，是依赖于数据的。一方面，这些数据，作为作品，本身就可能具有版权。另一方面，这些数据的收集与筛选也是基于人工智能设计师的逻辑。从这个角度来讲，将版权归属于操作者的做法，也必然受到质疑。在目前的行业技术现状之下，通过版权法对人工智能音乐的操作者进行激励，可以为这些操作者的创作行为提供驱动力。但在未来，如果操作者已经无需深度参与创作，仅仅需要按下一个按钮，或者插上电源，对操作者的激励可能就不再具有必要性。

（五）人工智能音乐的教育模式

人工智能音乐的教学在我国刚刚起步。中央音乐学院已建立人工智能与音乐信息科技系，招收相关专业博士研究生。四川音乐学院设立了人工智能音乐硕士专业，疫情期间在线上举办8 次人工智能音乐专题讲座，研究生反响强烈。还有一些理工科大学教授出于个人对音乐的爱好，建立了与人工智能音乐相关的研究项目，培养音乐科技两栖人才。

人工智能音乐在我国的教育模式建设，可以说是经历着一个从0 到1 的过程。这个过程的建设，也必然有些问题需要思考。需要深入探讨的一点是，人工智能音乐，重点是人工智能还是音乐？这个问题或许会有不同的理解。假设人工智能音乐的教育模式中，人工智能是重点，那么在课程的设计上，应该借鉴现今高校开设的人工智能专业课程体系，从编程基础入手，循序渐进，首先把人工智能理论知识掌握透彻，再着手把理论知识应用至音乐当中。另一种理解则是，“人工智能音乐”更应该调整语序为“音乐人工智能”，强调教学过程中音乐的地位。这种观点很重要的一个论点是，技术是服务于艺术的。音乐是一门听觉艺术，需要用声音来传递情感，唤起人们内心的共鸣。因此无论是用何种方法创造的音乐，都不应该忽视人的审美。倘若人工智能音乐的侧重点在于技术，兴许有本末倒置之嫌。

然而，如果有足够多的学生，既懂音乐又懂计算机，这种方向之争大可淡化。现实情况是，音乐与计算机的跨域人才十分稀缺。因而推动人工智能音乐这个领域的发展，人才培养是一大关键要素。有更多的人才进入人工智能音乐这个交叉学科领域，深耕技术，潜心科研，不断寻求创新与突破，才会让这个学科不断进步，走向成熟。

结语

纵观音乐发展史可知，科技一直在音乐中担当基本发展动力的角色，从春秋时期的管子、古希腊的毕达哥拉斯对乐音和音阶构成的数理解释，到当今飞速发展的网络技术对音乐全球一体化的影响，种种事例无一不在提示我们：科技自身不会产生艺术，但可以激发人类以形式创新的方式来推动整体音乐艺术的发展。这也正是我们坚信人工智能音乐具有光明发展前景的基本理念所在。

①Amper Music 详情见网站https://ampermusic.com/

②Jukedeck 公司目前已被字节跳动收购

③AVIA 详情见网站https://www.aiva.ai/