1 of 8

論文紹介�N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

前澤 陽(ヤマハ株式会社 研究開発統括部 | MINA Lab)

Confidential

2 of 8

About me

  • X: @zawazaw
  • 音楽情報処理のチームを率いています
    • 研究分野としては、演奏のモデル化・インタラクションが好き
  • 最近みなとみらいに研究拠点MINA Labを立ち上げました
    • 我々のMIR研究機能と、大学・他企業の強みをかけ合わせて、�楽器演奏・音楽創作の新たな可能性を提案・検証していきます

https://www.yamaha.com/ja/tech-design/research/base/minalab/

Confidential

3 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

  • 目的: オーディオ生成において、音色と音列を指示したい
  • 課題:
    • Timbre transfer – 事前に与えられた楽器の種類の間で変換
    • MusicGen - 音列のConditionができるが音色はテキスト入力
  • 論文で提案する内容
    • 音色はリファレンス音源から
    • 音列は音源もしくはMIDI情報から

Confidential

4 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

  • オーディオのエンコーダ・デコーダはConditional VAEベース
  • ポイント
    • 音源から時不変の Timbre埋め込み vT を得る
    • 音源のCQT or MIDIから構造に関する時系列 vsを得る

音色のエンコーダ

構造のエンコーダ

Confidential

5 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

  • まずESを固定しETを学習する。
    • グローバルな音色を表せるようにする

Confidential

6 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

  • 次に構造を表すESを、音色が説明できないようにする形で学習

Confidential

7 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

  • 評価実験

直接MIDIをconditionに

入れたほうがOnset F1は高くなる

(ムリな音を出してまで

 楽譜通りに生成しようとする?)

構造から音色を推論できないように

したほうが、音色の類似性・音質がよい

Confidential

8 of 8

論文紹介- N. Demerlé, P. Esling, G. Doras and D. Genova. “COMBINING AUDIO CONTROL AND STYLE TRANSFER USING LATENT DIFFUSION”

  • 評価実験

直接MIDIをconditionに

入れたほうがOnset F1は高くなる

(ムリな音を出してまで

 楽譜通りに生成しようとする?)

楽曲レベルでのStyle transferでは、

原曲の構造に忠実でかつ、

Style Transfer先のジャンルとして識別されやすい

Confidential