1 of 36

字體設計與文字編碼

Separating Style and Content for Generalized Style Transfer

雷岱蓉

國立臺北科技大學資訊工程系

2 of 36

論文 / 作者 / 影片

P.2

01

章節 01

3 of 36

  • Separating Style and Content for Generalized Style Transfer
  • CVPR 2018

P.3

4 of 36

  • Shanghai Jiao Tong University
  • Yexun Zhang, Ya Zhang, Wenbin Cai

P.4

5 of 36

P.5

6 of 36

摘要

P.6

02

章節 02

7 of 36

Abstract

Neural style transfer has drawn broad attention in recent years. However, most existing methods aim to explicitly model the transformation between different styles, and the learned model is thus not generalizable to new styles.

近年來,神經風格轉換已經引起了廣泛的關注。然而,大多數現有的方法目的在明確地建立不同風格之間的轉換模型,因此學到的模型並不能推廣到新的風格。

P.7

8 of 36

Abstract

We here attempt to separate the representations for styles and contents, and propose a generalized style transfer network consisting of style encoder, content encoder, mixer and decoder.

我們在此嘗試將風格和內容的表述分開,並提出一個由風格編碼器、內容編碼器、混合器和解碼器組成的通用風格傳輸網路。

P.8

9 of 36

Abstract

The style encoder and content encoder are used to extract the style and content factors from the style reference images and content reference images, respectively.

風格編碼器和內容編碼器分別用於從風格參考圖像和內容參考圖像中提取風格和內容特徵。

P.9

10 of 36

Abstract

The mixer employs a bilinear model to integrate the above two factors and finally feeds it into a decoder to generate images with target style and content.

混合器採用一個雙線性模型來整合上述兩個因子,最後將其送入解碼器,生成具有目標風格和內容的圖像。

P.10

11 of 36

Abstract

To separate the style features and content features, we leverage the conditional dependence of styles and contents given an image.

為了分離風格特徵和內容特徵,我們利用了給定圖像的風格和內容的條件依賴性。

P.11

12 of 36

Abstract

During training, the encoder network learns to extract styles and contents from two sets of reference images in limited size, one with shared style and the other with shared content.

在訓練過程中,編碼器網路學習從兩組尺寸有限的參考圖像中提取風格和內容,其中一組具有共用風格,另一組具有共用內容。

P.12

13 of 36

Abstract

This learning framework allows simultaneous style transfer among multiple styles and can be deemed as a special `multi-task' learning scenario.

這種學習框架允許在多種風格之間同時進行風格轉換,可以被視為一種特殊的 "多工 "學習情景。

P.13

14 of 36

Abstract

The encoders are expected to capture the underlying features for different styles and contents which is generalizable to new styles and contents.

編碼器應能捕捉到不同風格和內容的基本特徵,並可推廣到新的風格和內容。

P.14

15 of 36

Abstract

For validation, we applied the proposed algorithm to the Chinese Typeface transfer problem. Extensive experiment results on character generation have demonstrated the effectiveness and robustness of our method.

為了進行驗證,我們將所提出的演算法應用於中文字體的轉移問題。大量關於字元生成的實驗結果證明我們方法的有效性和穩健性。

P.15

16 of 36

圖 / 表

P.16

03

章節 03

17 of 36

P.17

圖1 : EMD 模型的框架圖,主要是由風格編碼器、內容編碼器、混和器和解碼器組成。

18 of 36

P.18

圖2 : EMD模型的細節架構。

19 of 36

P.19

圖3 : 將資料集劃分成四個子集,紅色叉叉表示Target images,橘色圓圈表示風格參考圖像,以綠色圓圈表示內容參考圖像。

D1 : 已知風格和已知內容

D2: 已知風格和未知內容

D4: 未知風格和未知內容

D3: 未知風格和已知內容

20 of 36

P.20

圖4 : 評估訓練集大小對風格轉換結果的影響。

TG: Target image,

O1: Output for Nt=20k,

O2: Output for Nt=50k,

O3: Output for Nt=100k,

O4: Output for Nt=300k,

O5: Output for Nt=500k.

In all cases, r=10.

D1 : 已知風格和已知內容

D2: 已知風格和未知內容

D4: 未知風格和未知內容

D3: 未知風格和已知內容

21 of 36

P.21

圖5 : 評估reference image的多寡對於風格轉換結果的影響。

TG: Target image,

O1: Output for r=5,

O2: Output for r=10,

O3: Output for r=15.

In all cases, Nt=300k.

D1 : 已知風格和已知內容

D2: 已知風格和未知內容

D4: 未知風格和未知內容

D3: 未知風格和已知內容

22 of 36

P.22

圖6 : 比較使用和不使用skip-connection的結果差異。

TG: Target image,

O1: 不使用 skip-connection,

O2 : 使用 skip-connection

In all cases Nt=300k, r=10.

D1 : 已知風格和已知內容

D2: 已知風格和未知內容

D4: 未知風格和未知內容

D3: 未知風格和已知內容

23 of 36

P.23

圖7 : 驗證風格是否明確的分離。CR : 內容參考集,SR1~SR3 :三個互斥的風格參考集。

24 of 36

P.24

圖8: 驗證內容是否明確的分離。SR : 風格參考集,CR1~CR3 :三個互斥的內容參考集。

25 of 36

P.25

圖9 : 不同方法對已知風格和未知內容圖像生成的比較圖。

已知風格和未知內容

26 of 36

P.26

圖10 : 不同方法在未知風格和未知內容的圖像生成比較。

未知風格和未知內容

27 of 36

結論

P.27

04

章節 04

28 of 36

Conclusion

In this paper, we propose a generalized style transfer network named EMD which could generate images with new styles and contents given only a few style and content reference images.

在本文中,我們提出了一個名為EMD的通用風格轉移網路,它可以在只給定幾個風格和內容參考圖像的情況下,生成具有新風格和內容的圖像。

P.28

29 of 36

Conclusion

The main idea is that from these reference images, the Style Encoder and Content Encoder could extract style and content representations, respectively.

主要的想法是從這些參考圖像中,風格編碼器和內容編碼器可以分別提取風格和內容特徵。

P.29

30 of 36

Conclusion

Then the extracted style and content representations will be mixed by a Mixer to generate images with target styles and contents. To separate style and content, we leverage the conditional dependence of styles and contents given an image.

然後,提取的風格和內容特徵將由混合器混合,以生成具有目標風格和內容的圖像。為了分離風格和內容,我們利用了給定圖像的風格和內容的條件依賴性。

P.30

31 of 36

Conclusion

This learning framework allows simultaneous style transfer among multiple styles and can be deemed as a special ‘multi-task’ learning scenario. Then the learned encoders and mixer will be taken as the shared knowledge and transferred to new styles and contents.

這種學習框架允許在多種風格之間同時進行風格轉移,可以被視為一種特殊的 "多工 "學習情景。然後,學到的編碼器和混合器將被作為共用知識,並轉移到新的風格和內容中。

P.31

32 of 36

Conclusion

We evaluate the proposed method on Chinese Typeface transfer task and extensive experiments demonstrate its effectiveness.

我們對所提出的方法在中文字體轉移任務上進行了評估,大量的實驗證明我們的方法具有有效性。

P.32

33 of 36

Conclusion

In our study, the learning process consists of a series of image generation tasks and we try to learn a model which can generalize to novel but related tasks by learning a highlevel strategy, namely learning the feature representations.

在我們的研究中,學習過程包括一系列的圖像生成任務,我們試圖通過學習高層次的策略,來學習一個可以推廣到新穎但相關的任務的模型。

P.33

34 of 36

Conclusion

This resembles to “learning-to-learn” program. In the future, we will explore more about “learning-to-learn” and integrate it with our framework.

這類似於" learning-to-learn "的程式。在未來,我們將探索更多關於" learning-to-learn "的內容,並將其與我們的框架相結合。

P.34

35 of 36

THANKS~~

P.35

36 of 36

P.36