扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:周雅 来源:CNET科技行者 【编译】 2017年9月25日
关键字:人工智能 AI作曲 Flow Machines 深度学习 AI Duet
不久前,美国网红兼流行歌手 Taryn Southern 新专辑《I AM AI》发布,当中主打单曲《Break Free》成为人类历史上第一支正式发行的AI歌曲。这首歌的旋律和歌词由Taryn Southern完成,编曲和监制则交给AI作曲平台Amper Music,它亲自操刀和声、和弦、乐器、整体风格、整体节奏,且MV由谷歌Deep Dream平台生成,乍一听,竟毫无违和感。
如今,AI不仅协助作曲,也能独自作曲,源自于音乐模式背后蕴藏着数学之美,从基础理论设计、数学逻辑同构并进行符号化组织的角度来看,音乐虽然作为一门艺术,却有很强的可计算性。
我们从常规的作曲技巧不难看出规律。旋律的重复、模进、转调、模糊、音程或节奏压扩,和声与对位中的音高纵横向排列组合,配器中的音色组合,曲式中的并行、对置、对称、回旋、奏鸣等等,都可以被描述为单一或组合的算法。这从本质上决定了,AI技术可以较好地应用到音乐创作上。
实际上,早在上世纪60年代,就已经有结合计算机与传统音乐的尝试。然而直到近几年,智能算法成熟,许多基于机器学习神经网络的开源项目浮出水面,AI技术有了长足的进步,因此越来越多的人关注到这个科技与艺术奇妙结合的领域,计算机音乐与传统音乐的桥梁才逐渐架设起来。目前,诸多AI公司都在研究AI音乐,一些AI音乐作品甚至到了“以假乱真”的地步,让我们一起来听听。
从1997年以来,位于巴黎的索尼计算机科学研究实验室(CSL Research Labs)就开始专注前沿音乐技术的研究和发展,2014年推出了人工智能制作的爵士乐,2016年展示了第一首AI创作的披头士风格流行曲《Daddy’s Car(爸爸的车)》。
支撑这首歌背后的AI系统是索尼Flow Machines。该系统由欧洲研究理事会(European Research Council)资助、索尼计算机科学实验室主管弗朗索瓦·帕谢(François Pachet)打造,既可以自动生成音乐,也能与人类艺术家合作创作音乐。
这首歌的创作切入点来自于一个超过1.3万首歌曲的乐谱数据库,你可以根据个人喜好,从数据库里任意选择曲子搭配。该系统会分析你所选歌曲的特点,统计其特性与节奏、音高与和声,谱成一首完整的曲子。
该系统原理好比给货架分类零食。前期,将各种音乐风格转化成可计算的对象,可以被读取、复制并应用于人工智能;然后通过机器学习,掌握音符、音乐、音节、和弦搭配;再将相似特征的放在一起,新建一个分区或主旋律谱;最终完成一首曲子。
谷歌AI Duet应用
去年,谷歌展示了人工智能实验(AI Experiments)网站(http://aiexperiments.withgoogle.com/),通过web应用,任何人都可以进行(开源)测试,目的就是为了让那些对AI感兴趣但没有技术背景的人更容易理解机器学习技术,当然,你既可以选择谷歌研究人员开发的项目,也被允许创建自己的项目进行AI实验。
AI Duet是谷歌AI Experiments的大事件之一,它展示了机器学习在音乐上的应用。有了它,你就能与计算机一起表演二重奏,你只需要弹奏一些音符,计算机就会回应出一段旋律。AI Duet支持键盘、电脑键盘、外接MIDI键盘。
AI Duet会记录你输入的音符,并通过神经网络运行,此前,该神经网络已经对数百种不同旋律的音乐进行了机器学习,神经网络寻找的是它可以识别并与你所选音符匹配的旋律和节奏模式,然后以此为基础,生成自己的旋律,这段旋律听起来往往像是对你所输入旋律或音符的一个回应,保留了你原本的曲风。
AI Duet是谷歌旗下创意实验室(即Creative Lab)以“用代码制作音乐”为名建立的一个项目,参与研发的,还有知名音乐人和计算机科学家Yotam Man,以及谷歌的开源计算音乐和艺术项目Magenta。AI Duet基于Tensorflow框架、Tone.js以及Magenta项目的开源工具打造,是谷歌使用人工智能涉足音乐领域的初步尝试。
IBM曾表示,Watson Music具备将数以百万计的非结构化数据点转化为情感见解(emotional insights)的能力,有助于创作一种全新类型的音乐。
过程中起决定性作用的,是Watson Alchemy Language API进行了五年的自然语言文本分析,这当然也包括分析每年的流行音乐,Watson已经掌握了关键知识,而Watson Tone Analyzer也可以通过阅读新闻、博客和微博,了解人文。
也就是说,Tone Analyzer API 阅读分析了《美国公告牌百强单曲榜》(Billboard Hot 100)中26000多首歌曲的歌词,然后,Watson Beat分析了这些歌曲的创作成分,在各种音符、和弦之间寻找有用的模式,完成了一部富有情感的音乐作品。
格莱美获奖音乐制作人亚历克斯男孩(Alex da Kid)曾与Watson Music搭档,借由Watson的“情感性见解”,以“心碎(heartbreak)”作为歌曲的中心情感,与Watson Beat共同完成了一首表现心碎情感的音乐作品。
几乎所有的音乐爱好者在线听歌或使用流媒体音乐和工具时,都会碰到Spotify这个名字。Spotify是一项数字音乐服务,允许用户读取数以百万计的歌曲,但人们不知道的是,它其实也间接使用了机器学习技术。
Spotify使用了一种名为协同过滤(collaborative filtering)的方法,从用户的听歌行为中尽可能多地整理出相关数据,然后与它从全球范围内收集到的其他用户的数据进行比较分析,再使用这些数据改善该应用的推荐歌曲内容,并根据用户的听歌习惯推荐用户新音乐。
该公司还收购了另一家机器学习公司Echo Nest,Echo Nest能够使用AI收集人们发布到博客、新闻网站和社交媒体上的有关新音乐的数据,通过机器学习提供更好的音乐发现。
使用Spotify的用户应该很熟悉它的Discover Weekly功能,它会为用户推荐最新音乐以及最近新发布的混合音乐清单。而这些特性都采用了机器学习方法,挖掘用户的收听数据,来为用户打造一个用户会喜欢聆听的个性化的播放设计列表。
Aiva Technologies是AI作曲领域的领头羊之一。该公司由Pierre Barreau、Denis Shtefan、Arnaud Decker和Vincent Barreau于2016年在卢森堡和英国伦敦同时成立。
Aiva是“Artificial Intelligence Virtual Artist(人工智能虚拟艺术家)”的简称,它通过学习创作古典音乐(通常来说是一种人类独有的情感艺术),成功打入电影、广告和游戏公司等多个市场。
Aiva已经发行了第一张专辑《创世纪(Genesis)》和诸多单曲,并成为全球第一个官方承认的人工智能作曲家。它注册在法国和卢森堡作者权益社团(SACEM),其所有作品的版权都归属在它自己名下。
Aiva依靠强化学习技术的深度学习算法。作为机器学习的一个重要分支,深度学习可以实现多层“神经网络”中海量数据的信息处理,虽然只是基于人脑的神经结构,却利于机器思考。这允许人工智能理解数据并建立高级抽象模型,例如旋律中的模式或人脸的特征。
强化学习其实也是机器学习的一个分支。常见的机器学习——监督学习——是对具有标签的训练样本进行学习,而强化学习不同,它让代理者(AI)通过“累计回报”最大化,在没有标签的海量数据中自动学习。也正因如此,人工智能才得以在音乐这种极具创造力的艺术领域,更加容易地从其变化无穷的特征中进行选取。
该团队利用深度神经网络,让Aiva学习大量著名作曲家们的作品(比如巴赫、贝多芬、莫扎特等),以了解作曲艺术并慢慢习得音乐理论知识的概念;此后,Aiva便开始了自己的音乐创作之旅;最后,它的作品都会由专业的艺术家使用真正的乐器,在录音棚中录制完成,从而保证了最佳的音质。
虽说Aiva在短短几分钟之内就可以创作一曲古典音乐,但是它的客户并不满足于此,他们还要求它创作出具有“影像信息的叙事性”的作品。为此,在创作之前,Aiva还需要进行数次迭代次数建模。
Jukedeck也是一个AI作曲初创企业,团队由作曲家、生产商、工程师、专业学者以及机器学习专家组成,他们对音乐和技术有着强烈爱好,于是基于深层神经网络领域训练Jukedeck,探索创作和改编音乐的方法,提供音乐个性化工具。
Jukedeck会将数以百计的乐谱添加到人工智能神经网络,分析相连音符间的概率,或者和弦的连续性,而通过一个自动转换生成音频的程序,深层神经网络可以生成一个新的音乐作品。
用户可以改编,也可以生成个性化音乐。该公司表示,它一直在寻求向需要背景音乐项目的消费者出售曲目。《纽约时报》曾经报道,如果大型企业使用该公司无版权费的音乐,Jukedeck要对其收费21.99美元,远远少于雇佣一位音乐家的费用。
科学家一直认为音乐对人类思维有影响,而且还有人表示,人们可以通过聆听某些特定种类的音乐来改善大脑的功能。而Brain.FM,已经通过人工智能创建出了一些混合音调,帮助人们减少焦虑、睡眠障碍,并提高用户的心理作业能力,甚至缓解注意力缺乏症(ADD.)。
神经学家和这家芝加哥音频初创公司已经打造了一台机器,采用制作神经学音乐的规则,创作出听起来与人类创作无异的旋律。据该公司介绍,AI可以创造出提高大脑注意力、让大脑放松、冥想、小憩和睡眠的音乐,在10至15分钟内有效。
人们可以使用AI生成符合他们理想状态的音乐,进入深度睡眠、或专注于工作或冥想。该应用允许用户首次免费听七遍不同的声音,之后就都是付费音乐了。
可以说,在音乐领域,LANDR是最有趣的新兴技术之一,该技术可提供即时音频掌握服务,也就是说,每次用户上传歌曲时,LANDR都会为该作品创建一个定制的“数字指纹”,然后通过交叉引用的数据库来识别该歌曲的类型和创作方式。接着,基于用户的曲目需求,它将运用一系列的定制自适应工具,如多频段压缩、均衡器(EQ)、立体声增强限制处理和听觉激发等。然后它就会基于人工智能的独特属性,自动地进行精细的逐帧调整。
有趣的是,在最后阶段,通过人工后期处理后,这首音乐作品将听起来更加清晰、连贯、丰富且真实。有了LANDR的算法,就可以轻松地分析此前我们已经掌握的丰富的歌曲存储库,以及用类似模式创作的其他类型的音乐,艺术家们也可以把原始的歌曲上传到LANDR云中,获取成品。
Shazam应用能够识别用户身边的音乐和电视节目,人们可以通过它发现、探索和分享自己喜爱的音乐和电视。
简单来说,就类似于“听歌识曲”,假设你听到了一首喜欢的音乐,又想知道歌名,这时候Shazam就派上用场了。
Shazam会在几秒之内创建一个数字指纹的音频,在数以百万计的歌曲和电视节目的数据库中进行匹配。使用人工智能算法,该应用会为用户提供出这首歌的名字、艺术家和相关信息,例如歌词、视频、艺术家传记、音乐会门票和推荐歌曲等。它还允许用户使用它的合作伙伴服务购买或播放收听这首歌。
AI作曲,背后基于人工智能技术支撑。关于这一领域的研究工作,比较热门的是多伦多大学研究者在ICLR‘17投稿的一篇论文《Song from PI: A musically plausible network for pop music generation》(https://openreview.net/pdf?id=ByBwSPcex)。
知乎介绍,论文的大致想法是利用深度学习的LSTM模型(hierarchical recurrent network),利用100个小时的流行歌曲的 mini 格式的 tag 进行训练。这里比较有意思的地方是作者在这个模型里面整合了一些音乐相关的general knowledge,模型结构如下图所示,在RNN这个模型中有key layer, press layer, chord layer, drum layer 等结构,在模型设计和合成的过程中也考虑了 scale 和 chord 等音乐因素。这些 prior 无疑可以更好的帮助人工智能模型学习音乐中的关键元素以及常见套路。
论文里面还展示了一些应用,比如说生成音乐的过程中同时生成跳舞的小人(如下图),以及尝试用 neural image captioning的办法生成歌词或者朗诵,这些应用都给未来提出了无限可能性。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。