1 of 8

論文紹介��N. Demerlé, P. Esling, G. Doras and D. Genova. �“COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

前澤陽（ヤマハ株式会社研究開発統括部 | MINA Lab）

Confidential

2 of 8

About me

X: @zawazaw
音楽情報処理のチームを率いています

研究分野としては、演奏のモデル化・インタラクションが好き

最近みなとみらいに研究拠点MINA Labを立ち上げました

我々のMIR研究機能と、大学・他企業の強みをかけ合わせて、�楽器演奏・音楽創作の新たな可能性を提案・検証していきます

https://www.yamaha.com/ja/tech-design/research/base/minalab/

Confidential

3 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

目的: オーディオ生成において、音色と音列を指示したい
課題:

Timbre transfer – 事前に与えられた楽器の種類の間で変換
MusicGen - 音列のConditionができるが音色はテキスト入力

論文で提案する内容

音色はリファレンス音源から
音列は音源もしくはMIDI情報から

Confidential

4 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

オーディオのエンコーダ・デコーダはConditional VAEベース
ポイント

音源から時不変の Timbre埋め込み v_Tを得る
音源のCQT or MIDIから構造に関する時系列 v_sを得る

音色のエンコーダ

構造のエンコーダ

Confidential

5 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

まずE_Sを固定しE_Tを学習する。

グローバルな音色を表せるようにする

❄

Confidential

6 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

次に構造を表すE_Sを、音色が説明できないようにする形で学習

Confidential

7 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

評価実験

直接MIDIをconditionに

入れたほうがOnset F1は高くなる

（ムリな音を出してまで

　楽譜通りに生成しようとする？）

構造から音色を推論できないように

したほうが、音色の類似性・音質がよい

Confidential

8 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

評価実験

直接MIDIをconditionに

入れたほうがOnset F1は高くなる

（ムリな音を出してまで

　楽譜通りに生成しようとする？）

楽曲レベルでのStyle transferでは、

原曲の構造に忠実でかつ、

Style Transfer先のジャンルとして識別されやすい

Confidential