人工智能在音乐创作中的合理运用解析

2023-03-05 01:55常景博上海音越博妙科技有限公司

艺术品鉴 2023年36期

常景博（上海音越博妙科技有限公司）

随着人类逐步迈入人工智能（AI）时代，音乐领域在艺术、审美等多个方面，也都发生了巨大变革。由“技术+艺术”共同组成的AI 音乐开始大范围盛行，不仅塑造了全新的音乐创作模式，更推动了整个产业结构的升级。但面对现代信息技术在不断地发展与升级，AI 技术的种类越来越多，如何能充分发挥出不同AI 技术的优势与功能，将其合理运用于音乐创作中，助力音乐作曲、创作效率与质量的提升，仍面临着许多的问题。

一、音乐创作中AI技术的运用模式

（一）音乐生成模式

当前，运用AI 进行音乐创作的模式，主包括音乐生成与歌声合成两种（如图1所示），其中，AI 音乐生成模式主要是指机器于多层次的神经网络当中，进行深入学习，在不断地“学习”中，创作音乐的一个过程。

早在1974 年，从Ra-der 系统被研发出来开始，借助AI 技术进行作曲的系统就正式形成，虽然当时的AI 技术与目前的技术有很大不同，但在AI 系统中，仍能够通过部分规则，让机器跟随旋律、和声等规律生成音乐，并自动搭配音符和和声，让其比重更加合理。此后，随着人们对音乐生成技术的进一步研究，能够自动生成低音和声的SNOBOL 系统被研发出来，然后是能够进行巴赫风格和声生成的CHORAL 系统。

到1993 年，借助神经网络学习模式生成和声的伟大系统MUSACT 产生，同年，又出现了神经网络与“满意度限制技术”联合运用的ARMONET 系统，该系统可以依据旋律自动生成巴洛克风格的和声，这些都是运用AI 创作音乐的先驱。

现如今，国外已经出现了大量平台可以用于AI 音乐生成，如AIVA、Amper 以及Jukedeck 等。而在国内，由微软（亚洲）分公司研发出来的AI 音乐技术，也已经投入市场，该技术同时具备了节奏、和弦以及旋律交叉等多种音乐创作功能，是一个集作曲、作词以及编曲演唱为一体的多功能技术系统，堪比一整支乐队，被央视、省市等综艺、音乐节目广泛运用，成功实现产业化与商业化。

在2017 年，虾米音乐平台推出“探乐计划”，首次将AI 引入了虾米APP，用户可以自主进行曲风、节奏以及心情等元素选择，从而形成个性化乐曲，实现了人机互动作曲。

（二）歌声合成模式

歌声合成模式其实就是语音合成衍生出来的一项新技术，二者主要区别在于有着不同的韵律预测模型。语音合成系统中，一般会有个别的音律模型，功能是依据句子语调与内容，对音节的时长与音高的曲线进行预测。而歌声合成模式，则不再采用韵律模型，而是借助乐谱对音节、音高等进行预测，在获取韵律的具体参数后，再融合于频谱参数最终生成歌声。

在国内，歌声合成模式目前还被开发了多项趣味性的功能，比如，在中央电视台推出的《经典咏流传》节目中，运用了“读诗成曲”功能，使得用户可以进行在线互动。

2019 年，IOS、安卓分别推出了“鲸鸣”APP，都是非常典型的AI 歌声合成APP，以唱歌为主要功能，让用户可以自由录入个人声音，再借助AI 进行自动修音，让用户可以创作出独属于个人的歌曲。

二、音乐创作中AI的运用价值

（一）可以对音乐流行趋势进行预测

对于音乐创作而言，作品创作完成后，能够被大众接受与喜爱是创作最受关注的指标，这就需要充分考虑到当处或未来的音乐流行趋势，大众的喜好方向。

而在传统的音乐创作中，对于音乐流行趋势的了解，只能通过线下发放调查问卷的形式来获得数据，而运用AI 技术，则可以直接利在互联网当中，借助于线上大数据技术获取相关数据，在网络平台当中了解最受大多喜爱的音乐作品，从而预测出音乐的流行情况。例如，英国研发的“Shazam”音乐软件，可以预测出该年度夏季时间段最受欢迎的音乐，并排列了音乐流行榜单，通过收集、归纳近2 亿多用户的软件使用、音乐作品听取等多方数据进行预测，其预测结果的准确率与明显优于人为思考，音乐创作方依据AI 预测结果对音乐的曲风、内容等进行改进与调整，就可以确保音乐作品紧跟现下的流行趋势，从而受到更多听众的喜爱。

（二）让音乐作品更有情感

音乐不仅是在表达人们的生活情形，更是表达人们的内心情感，所以，音乐本身与创作者当时的心境或者情感有着直接的相关性。在创作音乐作品时同样如此，必须将要向听众传达的思想、情感合理的融入音乐中，让听众在聆听音乐时，从中直观的感受悲凉、欢快或伤心等情感。

例如，一场演讲，对于音乐风格的需求是激动震撼，可以用大调让音乐激昂，然后适当融入情感，让整个旋律充满情感，又优美、畅快。而在进行不同风格的音乐创作时，借助AI 技术就可自由注入情绪、心情，例如，在音乐软件中输入悲伤，AI 可以悲伤作为关键词，选取合适的乐器、旋律以及风格，让音乐作品的创造更符合听众的心境，让听众与音乐产生情感上的共鸣。如运用智能化穿戴设备，可以直监测用户的心率、脸部表情等，以此分析该用户当下情绪、状态，从而为其选择对应的音乐作品，将音乐被赋予的情感充分展示出来，提升音乐作品的整体创作效果。

（三）促进“进化树”的灵活运用

“进化树”无论是在音乐创作当中，还是在音乐的作品风格研究中，都是至关重要一个工具，灵活运用音乐“进化树”，不仅有助于梳理各类音乐作品的不同风格，还能预测出某种音乐流派未来的发展趋势。但就传统的人工审查或者是分析模来说，不仅效率较低，而且经常受到个人主观影响，而运用AI 则不同，AI 技术可以借助丰富、多样的计算机功能，通过一些更精准、更科学的计算方式或技术剖析音乐“进化树”，不仅可以提升分析效率，还能减少人为干扰，使得分析获取到的结果更准确、更可靠，让音乐创作有更科学的依据参考。相关学者在一项关于音乐“进化树”分析的研究中，引用了AI 当中的自动化定量剖析算法，分析了多种流行音乐作品的相同点，借助计算机平台将音乐作品直接转换为二维频谱，从而以直观的图片方式显示出来，不同作品在声波变化当中的形状、纹理以及频率等都显示得非常清晰，AI 技术还可依据“频谱” 对比结果，对音乐作品进行分类、排序，可以从数学统计学的角度，获取不同作品的相关性，最终以树状图连线长度的形式展示作品间的相似性，比如，连线的长度越长，则作品间的相似程度就越低，越短则相似度越高。借助AI 算法就能够准确分析出不同音乐作品、流派间风格上的关联性，从而利用“进化树”提升音乐创作的效率与质量。

（四）对音乐旋律进行准确识别

音乐创作需要运用的音乐知识十分丰富，不仅懂得把握音乐的旋律、节奏，还要把控好整体音调等，这些因素对于音乐作品创作完成后的整体质量有着直接的影响。

就旋律来说，AI 技术可以对音乐的旋律开展高效、准确的识别，AI 技术可以借助数学思维与方法，在某个固有音乐模式当中，抓取到音乐旋律相关的数据，然后分析对比数据，从而论证该旋律与音乐的匹配是否合理。通过对旋律准确、有效识别，能让计算机或音乐创作仪器将已存的旋律知识合理地融合到新的音乐创作活动中，以对比方式判定创作出来新旋律与已经创作好的旋律的适配度，最终实现“听音识曲” “听歌识曲”等智能化功能，而这些功能实现的前提，就是AI 能够识别音乐旋律，并进行功能融合。

但需要注意，为了确保AI 可以对音乐旋律进行高效、准确的识别，计算法一定要选择具有紧密性、高效性的方法，才能为音乐创作的数字化、智能化发展提供助力，让创作出来的音乐作品更具实效性。

另外，与传统的音乐创作方式相比，AI 不仅能提升创作效率，而且能创作过程更有趣、更轻松，让创作者更有灵感，从而提升音乐作品的质量。

三、音乐创作中主要运用的AI技术

（一）长短期记忆单元（LSTM）

LSTM 是一种十分特殊的RNN 变种结构，也被业界归属于反馈神经网络范畴。为了打破RNN 循环神经网络当中存在的梯度消失问题与爆炸形成的神经网络，LSTM 不仅沿用了RNN 模型本身的特点，还拥有了自身的优势。RNN 虽然可对时间的维度数据进行同步处理，但如果时间的间隔增加，信息保存过长，就会导致音乐信息的处理结果出现巨大偏差，唯有网络存储增大可以避免这一问题。而LSTM 拥有的特殊隐式单元，其自然行为就是长时间进行保存输入，多增设了输入、输出以及忘记三个门，与常规的RNN 相比，信息更准确、更有效，该项AI 技术最初主要被用于翻译、对话生成以及编解码等领域。但LSTM可以对人类思维的逻辑发展与认知过程进行表征，因此，也被音乐领域认为是生成音乐系统最值得运用的一项AI技术。

（二）变分自动编码器（VAE）

自动编码技术主要是对具有明显特征的数据实施压缩与解压完成非监督性学习的一个过程，自动编码本身就被认为是多层次神经网络，同时，也是一个可对相关数据进行非监督学习的自动化模型。对于音乐而言，音乐的数据并没有明显的被划分为优质或劣质，故采用非监督模式更加适用，而其中的变分自动编码器（VAE）则是自动编码技术经过升级后得到的新模式，其在结构上类似于传统的自动编码技术，区别在于VAE 在编码的过程当中，增设了部分限制节点（如图2 所示），这样的处理原理与音乐作曲思维的过程十分相似，从某种意义来说，作曲就是一个创作与规则同步存在的过程，因此，VAE 机制与其符合度极高。在实际音乐创作中，目前的VAE 技术，已经可以完成多声部、动态音高以及乐器等多类信息进行分析和生成。特别是在爵士、古典音乐方面，VAE 可以直接采用爵士风格进行莫扎特相关音乐作品的演绎，从而形成一种新型混搭音乐。VAE 是目前内容生成效果最好的一项AI 技术，能够进行多样化形式数据的生成，尤其适用生成多声部类型的音乐。但需要关注的是，如果数据处于多模式状态，则运用VAE 时无法对其具体的机制进行明确，难以将离散值当中存在的一些潜性变量推理出来，这也在一程度上阻碍了该技术的发展与推广运用，例如，处理C 大调和小调时，音阶不同音的使用倾向有明显差异，尤其是在扩展至24 音或以上时，就很难借助VAE 进行有效处理，面对这种情况，则可以采用VAE 与LSTM 联合模式进行处理。

图2 变分自动编码器（图片来源：百度图库）

（三）神经网络技术（NN）

传统的AI 技术主要是按照规则来执行相关指令的程序，也就是说以由上至下的思维模式，先分析问题，然后，再解决问题。而神经网络（NN）则与传统AI 的思维模式完全相反，采用的是自下而上的思维模式来分析问题，然后获得解决方案，其典型特征是模仿人类大脑当中的神经元，进行信息相互传递的过程。NN 最为明显的特征主要体现以下两个层面。

（1）不同的神经元均能够通过对应的输出函数，计算出与之相邻的神经元所对应的加权输入数值，并对该数值进行处理。

（2）以加权值为基础，明确表达出神经元相互之间进行的信息关联与交互，算法处理的原则始终都是持续进行自我学习，同时不断的完成优化与调整套。

另外，NN 的信息处理过程需要对大量数据进行训练，因此，该技术在对数据进行处理的过程中会产生自动组织和适应功能，计算的特征主要表现为行、分布式、非线性等。

就传统音乐创作中的人工创作而言，创作人需要先对音乐作品进行赏析，感知大量音乐作品想要表达的内涵，然后，依据音乐风格进行模仿创作，在不断地模仿中慢慢形成不同的风格，最终实现音乐风格的完全创新，再创作出独具个人风格的音乐作品，这个音乐创作过程中，创作者必须熟知各类与音乐创作相关的知识，例如，声学理论、曲谱编写技巧以及方法等，而且创作者在实际的音乐创作与训练中，还需要他人的指导，在不断地指导、改正以及教育中，让自己的创作思维与模式得到慢慢完善。而这个过程其实都可以通过NN 的运用来完成模拟，且NN 这一先进的AI 技如果用于音乐创作，可以直接进行创作的思维与架构构建，在提升音乐创作效率的同时，优化音乐作品的质量。不过，NN在运作过程中，需要经过数据的输入、输出两个环节（如图3 所示），还要设置一个专门的感知器，才能确保音乐创作时对相关数据进行快速、有效的处理，最终完成音乐创作任务。

图3 神经网络模型图（图片来源：百度图库）

更直观的来说，NN可以算是一个“黑盒子”，只要对这个“盒子”进行大量的训练，也就是在输入端持续的输和训练数据A，就能够在其输出端得到想要的数据B，只有以NN 为基础对海量数据进行有效的分析与处理之后，才能够获取到最优质的答案，而这个持续进行分析的过程，就是确保输入数据在训练模型当中被不断修改、优化以及完善的过程，也是确保音乐创作流程能够高质、高效进行的关键助力。音乐作品从本质来说，就是一种时间与语言的结合艺术，大部分的信息都需要以时间轴为基础进行构建，而NN 涉及着大量的网络现实机制，能够高效处理各项与时间轴相关的信息，所以，NN 不仅可以结合当下的实时数据进行分析，还能引入之前已经存储过的数据开展对比，通过多层次、全面性的信息分析与处理来提升音乐创作的效果。

四、结语

总之，数字化、智能化时代已经到来，音乐领域想要紧跟时代发展，满足新时代下受众的新需求，运用AI 开展音乐创作已是必然趋势。将AI 技要合理运用在音乐创作中，可以借助NN、LSTM 以及VAE 等先进AI 技术，发挥旋律识别、流行趋势预测、音乐进化树以及让音乐更有情感等多种智能化功能，全面提升音乐的创作效率与质量，助力音乐产业结构的升级与发展。