1 of 10

Stable Diffusionをいろいろ試したお話

2025年2月

2 of 10

自己紹介

興味のある仕事

            • システム開発
            • 先端技術と情報技術の融合と応用
            • データサイエンス
            • AI(生成AI,分析AI,識別AI), 統計や機械学習

柴田 たけお

            • 愛知県名古屋市生まれ豊田市育ち
            • 大学は仙台で、大学院はカリフォルニア
            • 現在米国カリフォルニア州在住(ロス近郊)
            • 愛知県の豊田市に年数回滞在

基本情報

趣味

            • キャンプやハイキング
            • 自転車旅行
            • 青春18切符でのんびり列車旅行
            • 食べること

写真

3 of 10

かかわってきたCV関連開発

● 笑顔+笑声 検知システム(2018~2021)

    会議での参加者の笑顔を検知して会議が和やかにおこなわれたか笑顔認識と笑声検知をベースに

    音響工学の知見からスペクトルパターンAI分析

   (音声は画像(メルスペクトラム)でCNNで解析するアプローチ)

● 災害管理システム案(POC)(2022 ~)

    自治体向けに災害管理(SNSでのコメント、画像、衛星画像のAI解析)

● 農業飼育管理システム案(POC) (2023 ~)

    衛星画像から農業の育成状況をチェックして農産物市場価格の影響をアセスメント

● 顔認証システム (2023 ~)

    顔認証システムを使い本人特定をする

● AIが面白い画像や声を加工したりしてアバターを生成してみたい思い試してる(2025 ~)

    **今回デモをさせていただきます。

  画像生成のオープンソースであるSTABLEDIFFUSIONをいろいろなことに試したお話。     

4 of 10

本日のデモメニュー

● TXT2IMGからの画像生成、そこからIMG2IMGで画像補正

txt2img 標準: stable-diffusion-v1-5/stable-diffusion-v1-5

txt2img アニメ: gsdf/Counterfeit-V2.5

  img2img: https://civitai.com/models/131611/himawarimix

● CANNYを使った輪郭を保った画像変換

Canny: gsdf/Counterfeit-V3.0 (BASE) & lllyasviel/control_v11p_sd15_canny (CONTROLNET)

● OpenPose(IP-Adapter)で姿勢をほかのキャラに投影

OpenPose: gsdf/Counterfeit-V3.0 (BASE) & lllyasviel/ControlNet + h94/IP-Adapter

● InPaintでの部分補正

InPaint: runwayml/stable-diffusion-inpainting

● 口パク

sadtalker

● TXT+IMGで動画生成 (生成時間かかるので結果サンプルのみ)

txt+img2vid: ali-vilab/i2vgen-xl

環境

AWS EC2 d4dn.xlarge (16GB RAM + 16GB VRAM) Diffuser + Streamlit

5 of 10

Stable Diffusion とは

https://arxiv.org/abs/2112.10752

https://github.com/CompVis/latent-diffusion

ドイツのミュンヘン大学のOMMER研究室が開発した画像生成モデル。

拡散モデルでU-Net,VAE, Text Encoder(Transformer)で構成される。

Stable Diffusionは、VAEの潜在空間に対して拡散モデルを学習させ、

効率よく高解像度の画像生成

Text EncoderはCLIPで学習,テキストによる条件付けは、U-Net内のCross-Attentionで実行

画像生成AIで、基本無料かつ無制限で実装を試せる

6 of 10

CANNY EDGEの検出

CVMLエクスパートガイドより引用https://cvml-expertguide.net/terms/cv/image-feature-detection/canny-edge-detector/

Canny(カニー)エッジ検出は、

画像内の輪郭線や境界線を検出する

アルゴリズム。

コンピュータビジョンや

画像処理の分野で広く使用される。

7 of 10

OpenPose

2018年にカーネギーメロン大学のPerceptual Computing Labで開発され

人間の姿勢推定を行う

オープンソースライブラリ。

このライブラリは、カメラから

取得した画像や動画から、

人間の関節位置を検出。

引用: Global Walkers

https://www.globalwalkers.co.jp/blog/2023/06/21/n0045/

8 of 10

InPaint

Inpaint(インペイント)は、

画像の一部の範囲(マスク)

を指定し、その部分のみを

生成する方法。

つまり「描き直し」

日本人高校生の笑顔

9 of 10

SadTalker

CVPR 2023で発表されたLIPSYNCの技術。入力に動画を必要とせず

1枚の画像と音声の入力で顔や唇を自然に動かす動画を生成するモデル

WebUIの拡張機能にも追加されていたそうだが

最近使えなくなっているらしい。

PYTHON3.11では動くことは確認。

PYTHON3.12ではプログラムの改修必要

https://arxiv.org/abs/2211.12194

https://github.com/OpenTalker/SadTalker

**類似のモデルにECHO MIMICというのもある。

https://github.com/antgroup/echomimic_v2

10 of 10

今後の課題,所感

●応答時間の長さ

 動画生成はもちろん画像生成だけでもすべてLOCALでやると推論だけでも結構時間がかかる。

 Inference stepを下げて質を落とすか,金かけてGPU増やすか,自由度を多少犠牲にしてAPIつかうか.....。

●生成画像のタイプ

 基本的にエンタメ系のアートの画像生成(メディア受けしそうな内容)に特化している気がする。

 (実用的なもの物理法則に基づくべきシミュレーションへの応用は厳しい。)

  ロボット基盤モデルで応用されるPIO:[Physical Intelligence]などとの知見融合が必要かも?

  (そもそもベースにSTABLE DIFFUSIONなどの現在ある画像生成モデルの発展ではなく

    世界モデル時代に登場するかもしれない画像生成に期待するしかないかも)

世界モデル: https://arxiv.org/abs/1803.10122)

●選択が大変💦(うれしい悩み?)

  結構いろいろなモデルがあり、どれをベースとして選択と組み合わせに悩む