Stable Diffusionをいろいろ試したお話
2025年2月
自己紹介
興味のある仕事
柴田 たけお
基本情報
趣味
写真
かかわってきたCV関連開発
● 笑顔+笑声 検知システム(2018~2021)
会議での参加者の笑顔を検知して会議が和やかにおこなわれたか笑顔認識と笑声検知をベースに
音響工学の知見からスペクトルパターンAI分析
(音声は画像(メルスペクトラム)でCNNで解析するアプローチ)
● 災害管理システム案(POC)(2022 ~)
自治体向けに災害管理(SNSでのコメント、画像、衛星画像のAI解析)
● 農業飼育管理システム案(POC) (2023 ~)
衛星画像から農業の育成状況をチェックして農産物市場価格の影響をアセスメント
● 顔認証システム (2023 ~)
顔認証システムを使い本人特定をする
● AIが面白い画像や声を加工したりしてアバターを生成してみたいと思い試してる(2025 ~)
**今回デモをさせていただきます。
画像生成のオープンソースであるSTABLEDIFFUSIONをいろいろなことに試したお話。
本日のデモメニュー
● TXT2IMGからの画像生成、そこからIMG2IMGで画像補正
txt2img 標準: stable-diffusion-v1-5/stable-diffusion-v1-5
txt2img アニメ: gsdf/Counterfeit-V2.5
img2img: https://civitai.com/models/131611/himawarimix
● CANNYを使った輪郭を保った画像変換
Canny: gsdf/Counterfeit-V3.0 (BASE) & lllyasviel/control_v11p_sd15_canny (CONTROLNET)
● OpenPose(IP-Adapter)で姿勢をほかのキャラに投影
OpenPose: gsdf/Counterfeit-V3.0 (BASE) & lllyasviel/ControlNet + h94/IP-Adapter
● InPaintでの部分補正
InPaint: runwayml/stable-diffusion-inpainting
● 口パク
sadtalker
● TXT+IMGで動画生成 (生成時間かかるので結果サンプルのみ)
txt+img2vid: ali-vilab/i2vgen-xl
環境
AWS EC2 d4dn.xlarge (16GB RAM + 16GB VRAM) Diffuser + Streamlit
Stable Diffusion とは
https://arxiv.org/abs/2112.10752
https://github.com/CompVis/latent-diffusion
ドイツのミュンヘン大学のOMMER研究室が開発した画像生成モデル。
拡散モデルでU-Net,VAE, Text Encoder(Transformer)で構成される。
Stable Diffusionは、VAEの潜在空間に対して拡散モデルを学習させ、
効率よく高解像度の画像生成
Text EncoderはCLIPで学習,テキストによる条件付けは、U-Net内のCross-Attentionで実行
画像生成AIで、基本無料かつ無制限で実装を試せる
CANNY EDGEの検出
CVMLエクスパートガイドより引用https://cvml-expertguide.net/terms/cv/image-feature-detection/canny-edge-detector/
Canny(カニー)エッジ検出は、
画像内の輪郭線や境界線を検出する
アルゴリズム。
コンピュータビジョンや
画像処理の分野で広く使用される。
OpenPose
2018年にカーネギーメロン大学のPerceptual Computing Labで開発され
人間の姿勢推定を行う
オープンソースライブラリ。
このライブラリは、カメラから
取得した画像や動画から、
人間の関節位置を検出。
引用: Global Walkers
https://www.globalwalkers.co.jp/blog/2023/06/21/n0045/
InPaint
Inpaint(インペイント)は、
画像の一部の範囲(マスク)
を指定し、その部分のみを
生成する方法。
つまり「描き直し」
日本人高校生の笑顔
+
↓
SadTalker
CVPR 2023で発表されたLIPSYNCの技術。入力に動画を必要とせず
1枚の画像と音声の入力で顔や唇を自然に動かす動画を生成するモデル
WebUIの拡張機能にも追加されていたそうだが
最近使えなくなっているらしい。
PYTHON3.11では動くことは確認。
PYTHON3.12ではプログラムの改修必要
https://arxiv.org/abs/2211.12194
https://github.com/OpenTalker/SadTalker
**類似のモデルにECHO MIMICというのもある。
https://github.com/antgroup/echomimic_v2
今後の課題,所感
●応答時間の長さ
動画生成はもちろん画像生成だけでもすべてLOCALでやると推論だけでも結構時間がかかる。
Inference stepを下げて質を落とすか,金かけてGPU増やすか,自由度を多少犠牲にしてAPIつかうか.....。
●生成画像のタイプ
基本的にエンタメ系のアートの画像生成(メディア受けしそうな内容)に特化している気がする。
(実用的なもの物理法則に基づくべきシミュレーションへの応用は厳しい。)
ロボット基盤モデルで応用されるPIO:[Physical Intelligence]などとの知見融合が必要かも?
(そもそもベースにSTABLE DIFFUSIONなどの現在ある画像生成モデルの発展ではなく
世界モデル時代に登場するかもしれない画像生成に期待するしかないかも)
世界モデル: https://arxiv.org/abs/1803.10122)
●選択が大変💦(うれしい悩み?)
結構いろいろなモデルがあり、どれをベースとして選択と組み合わせに悩む