COSCUP 2013 �王向榮 2013/8/3
Ronny Wang 王向榮
Mail: ronnywang@gmail.com
Blog: http://ronnywang.pixnet.net/blog
Twitter: @ronnywang
Github: http://github.com/ronnywang
為什麼我開始玩 open data?
我也想來爬爬看實價登錄資料!
如果資料是開放的
那就不用每個需要資料的人
都重寫一次 crawler?
這時候,我認識了...
為什麼想到求職小幫手呢
1. 去年的反媒體壟斷
大學生怎麼抵制呢?
來做個抵制小幫手好了
抵制小幫手�你因為「旺中案」�抵制 www.chinatimes.com.tw 30 天(直到 2012/12/31) �你確定真的要看這一頁嗎? 確定�(以上也是模擬畫面)
2. 血汗 hTC
員工人數 5000 人� X 1天每人加班 4 小時� X 最低工資 109元/小時
X 1.33 (法定加班費加成)
= 1天省289萬元
勞工局重罰 2~30萬?
於是, 2/23 Open Data Day
資料來源呢?
這是台灣電子電機資訊產業工會(TUEEIT)對各縣市勞工局資料做的評比
PDF,Excel,Word,HTML,圖檔....
感謝 nansenat16 !!
http://github.com/nansenat16/LSA-CSV
4月�求職小幫手�以資料包的型式上線了
4/14 求職小幫手上各大媒體
4/18 把資料包改成API Server�(用 ElasticSearch)
4/25 推出 Firefox 版
https://github.com/yisheng-liu/jobhelper_ff�感謝 yisheng !
4/26 與評律網合作
增加了評律網兩萬多筆勞資爭議官司記錄
5/4 推出 Android 版
https://github.com/nansenat16/jobhelper-mobile�感謝 nansenat !
⅝ 推出 WebApp 版本
http://jobhelper.g0v.ronny.tw/mobile/�感謝 nansenat!
分享幾個求職小幫手的數據
求職小幫手每日查詢數
求職小幫手網路流出量
4/14 一天流出 20G ?! (程式有寫錯 orz...)
求職小幫手網路流出量2
從資料包改成 API Server 流量有少很多
從將近 2GB 多降到 100~200MB
各求職網站比例(2013/7)
各時間查詢比例(2013/7)
被查詢公司排名(2013/7)
求職小幫手讓我學到的幾件事
群眾分工 和 資訊共享 的力量�http://github.com/nansenat16/LSA-CSV
資料包 還是 API Server ?
不用等到覺得產品完美才推上線
一些我收集的資料分享
經濟部商業司公司資訊
公司資料應用
PTT 熱門記錄
http://hot.pttt.tw/
經濟部商業司工廠資料
Fusion Table: http://0rz.tw/oP3XO�實況寫 Crawler 過程�http://youtu.be/EbAmjXDnqHE
一起來整理、收集資料�讓資料更有價值吧
Q&A