テクノロジーと音楽の話。: AI作曲をコードと数式を使わず説明してみる、その3

2021年1月3日日曜日

再帰型ニューラルネットワーク(RNN)とその発展系(LSTM)

前回出たのは、過去の時系列の並びから未来のことを予測するという再帰型ニューラルネットワーク。

今回はその中でもLong Short-Term Memory(以後LSTM)を使うことにします。

LSTMは再帰型ニューラルネットワーク（以後RNN)の拡張、とでも言うべきもので、RNNもLSTMも過去の時系列の並びを手掛かりに未来の展開を予想すると言う意味では同じです。

RNNは直前のいくつかの音の並びしか手掛かりにできないのに対して、LSTMの方がずっと昔の音の並びを手掛かりにすることができます。

メロディは基本的に過去のフレーズを繰り返したり、展開したりすることで、構築されます。

まったく関連性のない音の並びがずっと続くということはありえません。

たとえば、「世界に一つだけの花」であれば「世界にひとつだけの花〜ひとりひとり同じ種を持つ、その花をさかせることだけに〜」と展開しますが、冒頭の「世界に〜」と途中の「その花〜」は全く同じフレーズですよね。

「世界に〜」を聞かせておいて「ひとりひとり〜」と違うフレーズを挟んでわすれたころにまた元に戻る。

これが「メロディ」を強く人間に意識させるのです。

このような繰り返し、リフレインは至る所で使われます。

このように音楽製作者は意図的に繰り返しを多用します。

たとえば、音程を変えて、リズムだけリフレインしたり、コードをリフレインしたり、そもそもドラムパターンは基本リフレインですよね。

こういったリフレインこそが単なる音の並びを「音楽」にしているものと言えるでしょう。

そこで「リフレイン」に強いアプローチとなると、前述LSTMのAIモデルを使用して、過去の音を学習して未来の音を予測させるという手法が意味をもってきます。

この時にどれくらい昔まで参考にするのか、1秒前なのか、5秒前なのか、どれくらいの重みでそれらを重要視するか、などを考えて設計していきます。

これらのパラメーターの設置次第で、様々な音を作ることができるわけです。

これが最もシンプルなAI音楽の姿と言えるでしょう。

ただ実際にはこれだけで、複雑な音楽を作れるわけではありません。

音楽にはもっともっと様々なレイヤーが存在しています。

調和した音程を作る「和音・コード」のレイヤー、AメロからBメロへ移り変わる「展開」のレイヤー、音色のレイヤー。

今回は波形の話をしましたが、これをMIDIで行うアプローチもあります。

今現在これらのレイヤーをすべて実用化のレベルで持っているというAIはほぼないでしょう。

それはそれだけそれぞれの組み合わせが難しいと言うことでもあります。

そうしてこういうアプローチを見ていくと、結局は人間の感覚、どうやって作品を生み出しているのか、聞く側はなぜこれを心地よいと感じるのか、を理解する必要があると言うところにぶつかります。

それだけ人間はいかに複雑なマシーンと言うことでもあるのですね。