基于专利申请的音乐识别技术分析

2019-07-05 11:17袁亚静

科技创新与应用 2019年21期

袁亚静

摘要：随着互联网时代的快速发展，音乐应用正越来越多的影响着人们的日常生活，音乐识别技术则是联系音乐应用和真实音乐的枢纽[1]，广泛应用于音乐欣赏、音乐教学、音乐分类、音乐检索和音乐推荐等领域。文章基于专利数据库，基于音乐识别的技术演进路线介绍了音乐识别的技术发展脉络，并通过统计音乐识别领域的年申请量和主要申请人分析了该领域的专利技术发展趋势。

关键词：音乐识别；音乐检索；旋律；节奏；情感识别

中图分类号：T-18 文献标志码：A 文章编号：2095-2945（2019）21-0011-03

Abstract： With the rapid development of the Internet era， music applications are increasingly affecting people's daily life. Music recognition technology is the hub between music application and real music. It is widely used in music appreciation， music teaching， music classification， music retrieval and music recommendation. Based on the patent database and the technical evolution route of music recognition， this paper introduces the technical development of music recognition， and analyzes the development trend of patent technology in this field by counting the annual application volume and the main applicants in the field of music recognition.

Keywords： music recognition； music retrieval； melody； rhythm； emotion recognition

1 概述

隨着数字音乐爆炸式的增长，以及各种P2P传输方式和音乐社区的普及，目前人们面临的问题不再是缺少音乐，而是如何在浩如烟海的音乐世界中找到自己所需要的音乐。随着自动识别技术的不断发展，音乐识别技术从最初的歌名、歌手、风格和类型等文本描述信息的识别，发展到通过电脑自动识别出音乐的旋律、节奏、类型和情感等信息，以寻找与用户所检索的音乐相同或类型相同的音乐，或者推送相关音乐给用户。

2 音乐识别的技术演进

音乐识别由于其独特的音乐属性，其发展最初是基于基本文本属性进行识别，到了九十年代后期，出现了基于旋律和节奏等乐理特征的识别，基于乐理特征的识别是音乐识别中应用最为广泛的技术，其发展直接推进了音乐识别技术的发展，用户可以通过哼唱一段熟悉的旋律来获得想要的音乐歌曲。在2000年后，随着自动识别技术的发展，逐渐出现了基于情感和类型等整体特征的识别技术，基于整体特征的识别技术主要是基于声学特征、乐理特征和歌词来进行音乐识别[2-3]。

2.1 基于基本文本属性的识别

在音乐识别领域，首个专利申请是JP20662282，于1982年提出，于1984年公开，这代表了音乐识别技术在专利领域的起源，其技术方案的实质是通过歌名这个基本文本属性进行音乐识别，是音乐识别的雏形，为音乐识别的后续发展奠定了基础。

2.2 基于旋律或节奏的识别

如果用户不记得音乐歌曲的名称、演唱者等信息，而只记得其中的主旋律片段时，用户难以查找到想要的音乐。基于这种需求，逐渐出现了基于旋律和节奏识别的专利申请，最早的分别是1989年提出的基于旋律识别的JP14785798和1991年提出的基于节奏信息识别的JP324991。在基于旋律和节奏的识别中，包括用户通过手动输入的乐谱信息和通过语音识别获得的信息，而基于语音识别来获得旋律和节奏等信息是应用最为广泛的方式，比如，在用户通过哼唱一段音乐片段来进行音乐识别时，其核心就是通过提取语音中的旋律和节奏来进行识别。由于旋律和节奏是音乐的基本属性，其发展代表着整个音乐识别的技术领域的发展。同时，在基于旋律和节奏的音乐识别中，也涌现了较多的算法，基本的算法有字符串的匹配算法、线性伸缩算法、动态时间规整算法和隐马尔科夫模型，在这些基本算法的基础上，研究者根据具体的音乐属性对基本算法进行改进，近年来出现了较多的改进后的性能较优的算法，尤其是基于旋律的识别发展较为迅速。

在基于旋律的音乐识别中，由于一首音乐歌曲通常包括多个音乐片段，而人们通常比较熟悉和容易记住的是主旋律，比如，在基于哼唱的音乐识别中，用户输入的大多都是音乐的主旋律，因此，在基于旋律的音乐识别中，通常是基于主旋律进行识别。由于主旋律在音乐识别中的重要地位，特征数据库中存储的旋律大多都是主旋律，并且在基于整首歌曲进行旋律识别时，通常提取的也是歌曲的主旋律，以利用主旋律进行音乐识别。然而，在一首音乐歌曲中，通常具有多个背景旋律，背景旋律对旋律识别来说是噪声，因此，在基于旋律的音乐识别中，如果能够将背景旋律预先删除或分离，将在很大程度上提高旋律识别的精确度。基于这个原因，2003年的专利申请US20030297350提出了一种通过分离背景旋律来进行音乐识别的方法，能够较好的分离背景旋律，提高旋律识别的准确度。

基于人对音乐歌曲的有限理解和记忆，在用户手动输入的乐谱信息或者哼唱的音乐片段中，可能会存在旋律丢失的可能，基于此，2006年的专利申请CN200610065725提出了一种对旋律进行扩充以进行音乐识别的方法，该方法能够有效解决旋律丢失的缺陷，进一步提高了旋律识别的准确度。