移動エントロピーで「音楽や曲が似ている感覚」を数値化できるかもしれない

「音楽を似ていると感じる」っていう漠然とした主観的な印象を、なんとかして数値で定量化できないかと昔から思っていたのだけれど、ちょっと思い付きできっかけくらいは形になった（かもしれない）のでここに書いてみる。

こんなくだらないことを考え始めた訳
つかうもの
やったこと
- 用意する楽曲
- 音符の数値化
結果
- 言い訳
  - 今回の話の前提自体が怪しい
  - 結果の細かい説明
おわり
- さいごに

こんなくだらないことを考え始めた訳

僕は昔から、好きな音楽をひとつ発見するとそれと同じ作曲者の楽曲をたくさん探す癖があった。なぜなら、好きだと思った要因と同じ要素が他の楽曲にも見つけられる可能性が高いから。

演奏形態やジャンルにこだわらず純粋に「好きだと感じたフレーズ」を目当てに探していた僕は、「自分が好きだと感じる要因はメロディやコード進行にあるのだろう」と考えていた。

だから次の段階で「他の好きなもの」を探そうとするんだけど、そのとき同一作曲者の異なる楽曲を聴いて「直接的に同じようなメロディを聞いているわけではないのに、なんとなく似ていると感じる」ことが往々にしてある。

同じ作曲者の楽曲はなぜか似ている、共通点があるような気がする、という経験をしたことがあるのは僕だけではないはず。一般に分かりやすいところで言えば、久石譲やすぎやまこういちなんかがそうじゃないかな。曲は全然違うのに雰囲気はよく似てるし、初めて聴く曲でもだいたい作曲者が誰か分かるよね。

で、よくその作曲者自身の手クセだなんて言われることも多いけど、どこまでがそう感じる範囲なんだろう、と思うわけである。

こういう諸々から、「ある曲とある曲が似ている」っていう状態を数値で指標化できたらちょっとおもしろいんじゃないかな？と思い始めた。

最近音楽業界でパクリ騒動なんてのも多いけど、ああいう論争が尽きないのって、全てが個人の主観でしかない印象を元に言い合いをしているからなんだよね。そりゃ人によって意見違うわといつも思っている。

でもそこに、一般化された定義のもとなにか生まれた数字によって「このメロディとこのメロディはこれだけしか似ていないからパクリではないよ！」みたいな主張があったらかなりの力を持てるんじゃないかなと思う。そういう研究すればいいのにね、してんのかな？

追記 (2019/6/3) ：実は今回の僕がやったことと似たような研究が随分昔からあることを知りました。ただし、それ以外のアプローチ含めて全然盛んではない模様。

僕が思うに、仮にその数値化が正しいとしても「それを一般の人たちに感覚的に正しいことを証明できるか？」っていう次の問題が解決できないから。

もっと違う趣旨の研究が必要なんでしょうね…。

で実は、今回の件も僕の主観が主軸になって話が進むから、ちょっと体をなしていない部分も多いんだけど、その辺については最後にまた書くことにする。

別にこの思い付きがすごく成功してて意味があるもの！だとかは全く思っていなくて（むしろ結果の有意さも怪しいレベル）、ただ「ものすごく無駄なことに時間を費やしたこと自体を無駄にしたくないからせめて書き残しておこう」くらいに思っているだけなので、最後まで読んでから怒らないでください。

つかうもの

数値化には、移動エントロピーというものを使う。たぶんググっても簡単な説明は出てこないと思います。

比較的新しく提唱された概念で、いわゆる「情報量」っていうものの一種です。これは情報の基礎理論みたいなものだから、調べればいくらでも説明があるし詳しくはご自分で、と言いたいところだけど、いかんせん定義文とか読んでも感覚的に理解しにくいところなのでこの辺はちゃんと説明しようと思います。

こんなところどうでもいいって方は飛ばして全く問題なし。今回どんな流れで何をしたかっていう説明はこの次のトピックで書いている。

１．情報量

まずは情報量から。移動エントロピーの説明まで辿り着くには定義の段階を踏まないといけない。最初が情報量です。

「情報量とはある確率で起こるなにかしらの事象が起きたときに、その事象によって得られる情報の量のことである。」っていうのが一般的に言われる説明。要は、情報の価値だと思ってもらえればいい。ただ気をつけなければいけないのは、僕らが感じるその事象自体の意味は価値に含まれないということ。

例えば、1/2の確率で6億当たる宝くじを買うのと、1/2の確率で当たる（はずれる？）ロシアンたこ焼きを食べるのと、情報量は同等ということです。「これくらいの確率でしか起こらないことだから、これくらいの意味がある」っていう考え方、っていう説明だとピンときますでしょうか？

計算式としては、情報量がI(E)とすると、事象が起こる確率をP(E)としたときI(E)=-logP(E)という風に定義されている。対数の底はなんでもいいんだけど（最終的に出てくる値が定数倍変化するだけだから）、底によって単位が変わる。2だとbitっていうおなじみの単語で、10だとdit（ディット）っていう。今回の話は全部常用対数10で進める。意味はあるんだけど、省きます。

補足：平均情報量

これは情報量、つまり確率の平均、みたいな捉え方が分かりやすいと思う。たとえば1000本1セットの宝くじが存在する場合を考える。

賞	本数	確率	情報量（bit）
1等	1本	0.0001	13.2877
2等	10本	0.001	9.9658
3等	100本	0.01	6.6439
外れ	9,889本	0.9889	0.0161

それぞれの当たり（もしくははずれ）を引く確率から情報量は簡単に求められる。

1等は1000本に1本しかないから情報の価値が高く13.2877となっているのに対して、外れは引く確率が高いため小さい値の0.0161となっている。引く前にだいたいが外れと分かっているようなものであるから、情報の価値はほとんどないということ。ここは感覚的に理解しやすいですね。

で、要はこの宝くじ全体の情報量は？っていうのが平均情報量のこと。式はH(P)=-∑_i=1P_ilogP_iなんていう風になっている。まあ普通の平均の計算みたいなものと思って問題ないと思う。感覚的には、起こりえる事象が複数あるときの期待値のようなニュアンスです。だから、すべての事象の確率の総和は常に1。

ちなみに、この宝くじの平均情報量は0.09365782。外れの情報量に随分足を引っ張られているのが分かる（＝なんらかの当たりの数自体が少ないから、この宝くじを引く価値は少ないというイメージ）。

余談だけど、熱力学で使う「無秩序さ」とか「乱雑さ」とかっていうものを表すエントロピーっていう式と形が全く同じことから、平均情報量をエントロピーと呼ぶことがある。初めてこの「エントロピー」という言葉が出てきましたね。これからエントロピーっていう言葉も使っていきますが、特に細かい定義のもとではなく、「なんとなく情報量っぽいもののこと」と思って読んでいただくといいんじゃないかと。

２．相互情報量

お次は相互情報量。

これは情報量が2つある状態だと思ってください。そしてその2つの事象がお互いに何かしらの関連を持っているときの「共有している部分」の情報量のこと、という感じ。つまり、あるエントロピーを持つH(X),H(Y)がそれぞれ存在し、これら2つの事象が相互に関連した事象を持っている場合、全体のエントロピーはH(X)+H(Y)にならない。勘のいい人は頭の中にベン図とか出てきてると思うけど、その差が相互情報量になるわけ。

実際は重なっているところを示すわけではないのでこの図は厳密には正しくない。あくまでもイメージです。

相互情報量は、一方の変数を知ることでもう一方をどれだけ推測できるようになるかを示していると考えると理解しやすい。例えばXとYが互いに独立の関係であれば、Xをいくら知ってもYに関する情報は得られないし、逆も同様。つまり相互情報量は0。逆にXとYが同じものであるならば、XとYは全情報を共有しているといえるので、Xを知ればYも知ることになり、これまた逆も同様となる。

式は、さっきも言ったとおりそれぞれの独立しあったエントロピーの和と実際の和との差で表される。ちょっとこのエディタで書くのはめんどうなのでWordを使ったものをスクショする。

相互情報量

まあ、正直こんなのはどうでもいいんですが。。

３．移動エントロピー

いよいよ移動エントロピーです。

「2つの確率変数間の情報の流れを定式化したもの」とされている。なんのこっちゃ、って感じですが、簡単に言うと、、、

上の相互情報量までは「現時点でのみ」のデータを扱っていたから、前後のつながりがないゆえに「傾向」を探ったりするのには向いていなかったんです。時間的なある一点を見ている感じですね。

そこでこの移動エントロピーの登場。「未来の変数」を新たに1つ取り入れて計算をしていくことによって流動的な分析ができるという特徴を持たせたわけです。

これは式を先に見た方がたぶん分かりやすい。

移動エントロピー

TEっていうのが移動エントロピー（Transfer Entropy）で、新たに加えられた変数っていうのがx_n+1。あるタイミングでのXとYに加えて、次のXの情報も1個入れちゃおう！みたいな。

一応例を。次のような「2つの22ビットのとある情報」の移動エントロピーを求めてみる。これらは時間的な流れを意味しているとご理解ください。

　　X：1110110100110011101101
　　Y：1010101011011011011001

この例において、2つの情報で起こる事象は「0が現れる」か「1が現れる」かの2通りのみ。まずそれぞれの情報でこの0と1が現れる確率を求める。

ただし、P(x_n+1,x_n,y_n)とP(x_n,y_n)とP(x_n+1,x_n)とP(x_n)が取り得る全ての値の組み合わせの確率のこと。P(x_n+1,x_n,y_n)＝(0,0,0)は1つもないので0、P(x_n+1,x_n,y_n)＝(1,0,0)は3個あるので3/21で0.142857…という感じ。

そう、計算量は膨大になる。上の式一つ分を計算するだけでも大変なものだけど、シグマがあるので、入力するデータの種類数の3乗の組み合わせ数分計算が必要になる。

今回の思い付きでは計算の組み合わせ数は普通に10万とか超えるので、適当にプログラムを書いて計算した。

ちなみに最終的には計算結果は0.044003...となる。これが移動エントロピーというものの値を示していることになる。

やったこと

ようやっと、今回の大筋を説明します。あらかたこんな感じ。

実験のために用意した曲をA,Bの2つのグループに分ける。グループ内では曲が1組2曲の対になっている。Aには音楽的な関連がないと思われるもの、つまり多くの人が似ていないと感じるものを集め、Bにはその逆、音楽的な関連があると思われるものを集めた
この楽曲群をあるルールに則って数値化し、譜面情報を数列に置き換える
その数列から移動エントロピーを計算し、グループごとに値を比較してみる

1つずつ見ていきます。

用意する楽曲

「楽曲」なんて堅苦しく言っているけれど、正直なんでもよかったので本当に適当に選んだ。強いて言うなら、グループAは選択条件がないので「音楽的には関連はないだろうけどなんとなく対になっているもの」を意識してみた。ドラクエとFFって言えば分かりやすいかな？ここは遊び感覚。

問題はB。多くの人が似ていると感じるものということで、ある原曲に対してアレンジされたようなものとの組み合わせを探したかったんだけれど、いざこれをその場で思いつくのは困難を極めた。譜面もすぐに手に入らないし。

という訳で考えたのが、変奏曲というもの。

変奏曲：英語だと「ヴァリエーションズ」なんていう風にも呼ばれる。

変奏曲とは主題となる旋律が変奏され、主題と変奏の全体が1つのまとまった楽曲となったもののこと。

変奏っていうのは、ある旋律のリズム、拍子、旋律、調子、和声なんかを変えたり、色んな装飾を付けるとかして変化を持たせること、とされています。要は、1つのテーマを元に残りは全部アレンジされていくということ。これらはそれぞれの変奏で楽章みたいに分かれていることが多い。

しかも、ほとんどの変奏曲は主題とそれぞれの変奏における小節数が一致するという性質を持っているから、今回の比較に利用しやすいっていうメリットもある。

前置きが長くなったけど、選んだものは以下。

A	スーパーマリオメインテーマ	ゼルダの伝説メインテーマ
	ドラゴンクエストシリーズメインテーマ	FINAL FANTASYより「メインテーマ」
	ドラゴンクエストシリーズメインテーマ	FINAL FANTASYより「プレリュード」
	映画「Titanic」メインテーマ	映画「Back to the Future」メインテーマ
	君が代（日本国歌）	星条旗（アメリカ国歌）
	交響曲第九番「歓喜の歌」より	交響曲第九番「新世界」より
	ドラえもんのうた	アンパンマンのマーチ
	We Wish You a Merry Christmas	きよしこの夜
	仰げば尊し	旅立ちの日に
	きらきら星変奏曲 Var.Ⅰ 第1フレーズ	きらきら星変奏曲 Var.Ⅷ 第1フレーズ
	きらきら星変奏曲 Var.Ⅱ 第1フレーズ	きらきら星変奏曲 Var.Ⅷ 第1フレーズ
	きらきら星変奏曲 Var.Ⅲ 第1フレーズ	きらきら星変奏曲 Var.Ⅷ 第1フレーズ
	きらきら星変奏曲 Var.Ⅶ 第1フレーズ	きらきら星変奏曲 Var.Ⅷ 第1フレーズ
	きらきら星変奏曲 Var.Ⅰ 第2フレーズ	きらきら星変奏曲 Var.Ⅷ 第2フレーズ
	きらきら星変奏曲 Var.Ⅱ 第2フレーズ	きらきら星変奏曲 Var.Ⅷ 第2フレーズ
	きらきら星変奏曲 Var.Ⅲ 第2フレーズ	きらきら星変奏曲 Var.Ⅷ 第2フレーズ
	きらきら星変奏曲 Var.Ⅶ 第2フレーズ	きらきら星変奏曲 Var.Ⅷ 第2フレーズ
B	スーパーマリオメインテーマ	スーパーマリオワールドよりメインテーマ
	朝鮮民謡の主題による変奏曲主題	朝鮮民謡の主題による変奏曲 Var.Ⅰ
	朝鮮民謡の主題による変奏曲主題	朝鮮民謡の主題による変奏曲 Var.Ⅱ
	朝鮮民謡の主題による変奏曲主題	朝鮮民謡の主題による変奏曲 Var.Ⅲ
	朝鮮民謡の主題による変奏曲主題	朝鮮民謡の主題による変奏曲 Var.Ⅳ
	きらきら星変奏曲 Var.Ⅰ 第1フレーズ	きらきら星変奏曲 Var.Ⅱ 第1フレーズ
	きらきら星変奏曲 Var.Ⅰ 第1フレーズ	きらきら星変奏曲 Var.Ⅲ 第1フレーズ
	きらきら星変奏曲 Var.Ⅰ 第1フレーズ	きらきら星変奏曲 Var.Ⅶ 第1フレーズ
	きらきら星変奏曲 Var.Ⅱ 第1フレーズ	きらきら星変奏曲 Var.Ⅲ 第1フレーズ
	きらきら星変奏曲 Var.Ⅱ 第1フレーズ	きらきら星変奏曲 Var.Ⅶ 第1フレーズ
	きらきら星変奏曲 Var.Ⅲ 第1フレーズ	きらきら星変奏曲 Var.Ⅶ 第1フレーズ
	きらきら星変奏曲 Var.Ⅰ 第2フレーズ	きらきら星変奏曲 Var.Ⅱ 第2フレーズ
	きらきら星変奏曲 Var.Ⅰ 第2フレーズ	きらきら星変奏曲 Var.Ⅲ 第2フレーズ
	きらきら星変奏曲 Var.Ⅰ 第2フレーズ	きらきら星変奏曲 Var.Ⅶ 第2フレーズ
	きらきら星変奏曲 Var.Ⅱ 第2フレーズ	きらきら星変奏曲 Var.Ⅲ 第2フレーズ
	きらきら星変奏曲 Var.Ⅱ 第2フレーズ	きらきら星変奏曲 Var.Ⅶ 第2フレーズ
	きらきら星変奏曲 Var.Ⅲ 第2フレーズ	きらきら星変奏曲 Var.Ⅶ 第2フレーズ
その他	カノン第一声部	カノン第四声部
その他	展覧会の絵より「プロムナードⅠ」	展覧会の絵より「プロムナードⅣ」

きらきら星変奏曲でだいぶ尺を稼いだ…。
Bは思った以上に大変だったのでこうなってしまった。もうこの選曲の時点で無理ゲーなので、やっぱりこういう試みはどんどん精度が下がっていく気がする（意味ない

「Var.Ⅷ」とかなっているのはつまり「Variation.Ⅷ」のことで第8変奏にあたる。きらきら星は前半と後半の2フレーズでできているので、それぞれ比較しているという訳。

なんで似ていない曲を集めているはずのグループAにも変奏曲があるかというと、この第8変奏っていうのが唯一の短調曲で、単純に他のものと全然似ていないと僕自身が感じたから。だから、Aの右列のきらきら星変奏曲は全部Var.Ⅷになっているのがよく見てもらうと分かると思う。

その他っていうのは比較以外にちょろっと実験したもので、これについては後述する。

音符の数値化

メインの作業。

ここの制定が甘いと結果全体の精度を下げかねないので、自分の中でかなり細かく色んなルールを作って行ったのだけれど、全部は書いていられないので、例によって大筋だけ。

比較対象となる音符の実音を全て書き出す。実音というのは、相対的に音の高低を表すのではなく、絶対的に音高を示す概念のこと。「C」とか「F」とかそういうの。
書き出した全ての実音の中から最も低い音（min）と最も高い音（max）を選択する。このとき、選択するのは2つの楽曲合わせての最低音と最高音であることに留意する。まあ気にしなくていいです。
最低音を実数1としそこから半音上がることに 2、3、…と割り振っていく。これを最高音まで繰り返した後、それぞれ2つのメロディに決定した数字を割り振っていく。数値化する音符の個数は、固定で全部40個。その曲のメインの部分っていうか、一番特徴的な箇所を選ぶようにした。

数値化自体は手順３までで終わりなんだけど、ここで音価、つまり音の長さの扱いについての説明が必要になる。

音の長さの表現をどうするか迷ったんだけれど、こういうことにした。

音価の扱い

つまり、音の長さがどんなに違っても「数値化する個数は固定で1つ」にしたのだ。たとえば8分音符を基準にして2分音符なら数値を4つ分にするとかいう方法もあったんだけれど、そうしなかった理由は2つある。

まずひとつめに、楽曲同士が似ていると感じるのに時間の概念はほとんど関係ないと考えたから。言い換えると、メロディの印象は音程の並び方によってほとんど決定されるのではないかと僕が考えたからです。

たとえば下の図の左側に示すような2つのフレーズが存在するとき、数値化する個数を倍増させる方法で生成される音符情報は全然ちがうものになる。でも、これら2つのフレーズを僕ら人間が聞いたときに感じる印象はほとんど変わらないと思っている。こういう風に、特定の音の音価が大きな意味もなく長かったりすることによって実験の精度が失われることを防ぐ目的を持たせたということになる。

長さの例

さらに休符の扱いにも問題が考えられる。

もし図の右下に示したように、左下のフレーズの4分音符の部分が、8分音符+8分休符という構成だと、生成される数値は 5 、 0 となってしまう（長さを表現する以上、休符は0とせざるを得ない）。

これに至っては、聞こえてくる音階に全く違いはないのにも関わらず、関係ない0っていう数値が入力されちゃうんだよね。でも実際の状況では下2つは全くと言っていいほど同じメロディだと認識されるはずです。ふつーの楽器でふつーの人間が聴いていたら、だけど。

ふたつめの理由は、こちらの作業的な意味でのものなので説明は省きます。

結果

結果のグラフ

結果はこんなん（なんとしょぼいグラフｗ

グループAの方が移動エントロピーの値は全体的に大きいよ、ということになった。「大した差じゃないだろ！」という突っ込みには後々答えるというのに加えて、それぞれのグループの一番上下の点や大きく離れている点についても後で説明をします。

まずは移動エントロピーの値というものについて考えてみましょう。

これは僕の勘違いに端を発している結果なんだけれど、僕はグループAの方が移動エントロピーの値は小さくなると思っていた。関連がないということはそのまま単純に値の小ささへ繋がると安直に思っていたんです。でも結果は見事に逆。値のまとまりもグループAの方がいいし。

なんでこうなった？

ここでもう一度考え直した。

移動エントロピーの定義は、一方に対するもう一方の影響の強さを表している数値でした。ということは、もしお互いが関連のある並びだったとしたら、むしろ与えている影響は弱いということになり移動エントロピーの値は小さくなると考えられるのではないかな？と気付いた。影響を与えていないのにすでに数字の並びが近い、すなわち似ている状態に非常に近くなっているからだ。

実は、このことはいくつかの事実から裏付けられそうなんです。

用意した曲の説明のところで、「他にもちょろっとやった実験がある」っていう話をしたと思うんだけど、あそこで試した実験は3つ。うち今回関係あるのは2つかな。

移動エントロピーの値が0になったものを、どうやったら0じゃなくなるのか少しずつ入力データをずらしていく
同一曲内で数値化する音符の個数を増やしていく

まずひとつめについて。
これは、たまたまプログラムの確認をしているときに結果が0になったものがいくつかあってそこから実験してみた。ポイントはこの実験自体じゃなくて（これはいくらやっても0から変化がなくてあきらめたし、そんなに意味はないことにも気付いた）、どういうときに値が0になったかということ。

入力する数字の並びが全く同じとき（もしくはほとんど同じとき）、値は0になっていたのだ。これから分かることは、さっきの推論で言った「似ているほど値が小さくなるのでは？」ということを見事に表しているのではないでしょうか。

そしてふたつめの結果はこうなった。

同一曲内で音符数を変化させていったときの様子

対数関数的に増加していくグラフが表すことは、「横軸の値が増加していくにしたがって縦軸の値は増加しにくくなっていく」である。つまり、「入力する音符の数が多いほど似るのは難しくなる」訳だけど、これも当然だと思った。でももちろん、値自体は上昇している訳だからこれもいい裏付けになれそうだ。

言い訳

ここでは今までの中で後伸ばしにしてきた説明をまとめています。

今回の話の前提自体が怪しい

まず、そもそもこの試み自体が怪しいのは「楽曲を僕が選びグループ分けをした時点で、他の人は全く違う感想のもとグループ分けをしているかもしれない」ということと、「データ量が少なすぎて誤差の可能性を否定できない」ということの2点。

だから改善点があるとしたら、不特定多数の人に使う楽曲の選択とグループ分けを行ってもらい、その結果をまとめていくことだと思う。計算の数を増やし値が収束していくことで、2つのグループ間での値の大小関係がはっきりしていくとともに、個人差がある「似ている」という印象のばらつきも減少していくはずです。

ただ上でも言ったけど、無作為に選曲していいグループAは問題ないとしても、音楽的な関連があるとするグループBの実験材料をたくさん考えるのはめちゃ難しいです。

しかも「音楽的な関連がある」と考えるのは僕ら人間。つまり人の感想が伴って選曲されなければいけないから自動化もできないし、絶対量を増やすのが難しいんだよね。だから一人ひとり自体の実験量は少なくても、より多くの人間から実験結果を集めるべきだと思います。

結果の細かい説明

あとは結果のグラフについて。

グループAで算出された最も小さい値（0.127071）とグループBで算出された最も大きい値（0.403767）は、結果の精度の低さを表すものではなくて僕が適当にグループ分けをしたことが原因でした。

改めてこれら計4曲2セットをよく聴いてみたらグループAの方は確かに似ている印象を受けたし、グループBの方は関連性を感じにくいと思った。後付け感がやばいけど、本当に思っているので勘弁してくださいｗ

↓より言い訳がましくなってますが、一応曲を聴いたときの感想です。

Aの「交響曲第九番『歓喜の歌』より」と「交響曲第九番『新世界』より」は、どっちもメロディの進行が「1つの音を土台としてそこから離れるとすぐ基準の音へ戻ってくる」っていうスタイルがフレーズの始まりから終わりまで共通していました。音符情報の並びも近いものになっていたと思われる。
Bの「きらきら星変奏曲 Var.Ⅱ 第2フレーズ」と「きらきら星変奏曲 Var.Ⅶ 第2フレーズ」は、どっちも16分音符が続くフレーズなんだけれど、前者は単体でメロディとして聞こえるような構成で作られたフレーズじゃなくて、後者のメロディ性の強いフレーズとはやっぱり似ているとは言えないなと感じた。

最後に、グループBの最小値であり今回の実験結果の中でも最も小さい値（0.007254）であった「朝鮮民謡の主題による変奏曲主題」と「朝鮮民謡の主題による変奏曲 Var.Ⅱ」については、やはりほとんど同じものに聞こえるフレーズであったので、如実に数字に表れているなと思った。

でもなんでここだけこうなったかっていうと、これはこのメロディ単体で聴いたときのことであって、実験に使用したメロディ以外、つまり他のパートで演奏されている和音等を含めて聴くと印象は全く違うから。ここすごい重要。

おわり

というわけで一応まとめ。

まずはさっきも言ったたくさん実験を増やさないとどうにもならないってのが大前提で、その上でついさっき話した「メロディ以外のことも考慮に入れる」という点が非常に大切。

実際の音楽で単音のみ聞こえてくることはほとんどない。

つまりそのとき鳴っている全ての音が僕らが感じる印象を作っているんです。

だから、和音の概念を入力するデータに加味しないとどうしても実験結果の整合性が低くなる。ただしこれは相当難しいと思う。同じ和音でもそれぞれの音の音量には無数のパターンが考えられることや、音によって演奏されている楽器が違うかもしれない（というよりだいたいそう）ことなどが主な理由です。

実は印象っていうのは、結局こういう風に「一番数値化できそうにないところ」が最も影響を及ぼしているんだよねえ。

さいごに

ぐだぐだだったんだけど、この一連の流れから「似ている」という概念は「与える影響の弱さ」として表せるんじゃないかな？くらいは示唆できた…かも。

移動エントロピーの値によって2つの楽曲間の類似性を説明できるとすると、当初の目的だった「楽曲が似ている」という印象の定量化に少しでも近づけたといえるでしょう（？）。

まあ結果から得られたものを元に改めて聴きなおして、推論通りの印象を感じられたのは普通に楽しかった。

くだらないことに時間を費やしたなと思うけれど、それすらもブログネタにできてしまうのでやっぱりブログって楽しいです。無駄も無駄じゃなくなる。

追記 (2019/6/3) ：「音楽が似ていると感じる」という現象はやっぱりそれなりになにかしら気になる人も多いらしく、意外にもこのクソ記事はけっこう読まれていますｗ

よろしければ、感想など…。

それでは、どうもありがとうございました。