1 of 44

解放政府圖檔資料行動

:用影像辨識來處理政府資料吧

Ronny Wang 王向榮 2014/11/8

2 of 44

Ronny Wang 王向榮

github, twitter, gmail: ronnywang

  • 求職小幫手
  • 新聞小幫手
  • 台灣公司資料
  • 開放政治獻金
  • 關務署貨物進出口資料
  • NewsDiff, NewsTrend
  • 斧頭幫
  • ...

3 of 44

我愛砍政府資料�http://ronny.tw/data/

4 of 44

5 of 44

RAW data 才能畫出這個

6 of 44

只有文字數字可砍嗎?

圖片呢?

7 of 44

先來點外國故事

8 of 44

2009/05 英國內閣爆出報銷醜聞

http://news.bbc.co.uk/chinese/trad/hi/newsid_8030000/newsid_8039400/8039456.stm

9 of 44

2009/06 英國下議院網上公布所有單據

http://news.bbc.co.uk/chinese/trad/hi/newsid_8100000/newsid_8106400/8106488.stm

10 of 44

公開單據數量

  • 5,500 個 PDF 檔
  • 含 70 萬張單據

11 of 44

衛報將文件全部上傳後,

作成線上界面讓英國鄉民一起審單據

12 of 44

處理速度

  • 最初 80hr 已審過 17 萬份單據
  • 有兩萬人以上參與

13 of 44

14 of 44

15 of 44

再一個關於� Open Street Map 的故事

16 of 44

2010/01 海地地震

17 of 44

我們回台灣

18 of 44

中華民國監察院

19 of 44

政治獻金會計報告書

20 of 44

reCaptcha

21 of 44

先把圖往 PIXNET 丟

22 of 44

用 opencv Hough Transform 結果

(結果有點小悲劇,50% 的圖會多一條少一條線)

23 of 44

yllan 建議針對這表格客製演算法

http://logbot.g0v.tw/channel/g0v.tw/2014-03-10#264

24 of 44

切豆腐 平台上線!�http://campaign-finance.g0v.ronny.tw/

25 of 44

直接把每一頁的第 (x,y) 格拉出來並排,看看有沒有切歪

26 of 44

豆腐切好了!�DEMO http://ronny.tw/table/line-finder.html

27 of 44

2014/4/19 hackath8n 由 Timothy Lee 做的鄉民 OCR 界面

28 of 44

2014/4/20 第一批全破!

29 of 44

破關後持續還是讓大家輸入

後來平均一格有五人輸入

30 of 44

做網頁界面可以人工修正誤判的框線

http://ronnywang.github.io/tw-campaign-finance/edit0617.html#14

31 of 44

為了節省地球資源,改用縮印的

32 of 44

33 of 44

34 of 44

這次不是切豆腐是切豆絲了..

35 of 44

36 of 44

37 of 44

再一個 WMS 轉 GeoJSON 的案例

38 of 44

WMS 好處是可以減少資料傳輸量讓瀏覽更快速�但是無法得到原始資料

39 of 44

GeoJSON

40 of 44

41 of 44

http://luz.tcd.gov.tw/

全國土地使用分區資料查詢系統

42 of 44

用瀏覽器開發者套件看看他拉了什麼圖片

43 of 44

轉成 GeoJSON 了

44 of 44

Q & A