1 of 31

人工智慧I:數據分析

2 of 31

網路開發三階段:

複習

3 of 31

2. 元宇宙的概念架構

元宇宙的本質就是一個不間斷運行的、去中心化的虛擬社會系統,它的理念跟Web 3一脈相承,而Web 3就是元宇宙持續運行的基石。

要想真正實現元宇宙,需要遵循這樣一個邏輯關係:區塊鏈、人工智慧、邊緣運算等底層技術的成熟,才有Web 3時代的到來

再在此基礎上結合VR/AR等硬體設備和與之相適應的網路規範,環環相扣、層層遞進,才會最終形成理想狀態下的元宇宙。

4 of 31

無中心伺服器的

對等網路系統

有中心伺服器的

中央網路系統

Web 3.0 最主要的核心概念在於「去中心化」,是相對於「中心化」而言的新型網絡內容生產過程。網路系統以去中心化的區塊鏈技術來運行,無需經過第三方授權即可使用。

去中心化(decentralization)

5 of 31

傳統雲端計算是由大型的中心化伺服器處理和存儲用戶數據。然而,這種中心化的計算模式存在著一些問題,例如需要高昂的設備投資、數據安全性問題以及容易發生系統故障等。更關鍵的是網路傳輸需要時間,所以在許多被要求低延遲的應用中,這樣的架構不一定適合,於是有了邊緣運算的概念。

邊緣運算主要概念是在靠近數據源(感應器)或終端裝置的地方,多設置一個新的運算單位(如:閘道器、路由器或其他各種硬體),這些統稱為Edge端。藉由Edge端可以在收到數據的時候馬上做處理,並即時回饋給終端裝置,

可以降低延遲時間。同時可以事先過濾不需上

傳至雲端的資料,以減少不必要的網路流量(頻寬)

邊緣運算(Edge Computing)

舉例來說,假設我們想要利用手機來做影像辨識,在傳統的方法下,我們要將手機拍好的照片上傳至雲端伺服器辨識,並將結果傳回手機上顯示給使用者。

然而若導入邊緣運算的概念,廠商可以先在手機裡加入影像辨識之晶片,讓照片能在手機端就能做好辨識,使用者就能更快得到辨識結果! (修改自)

6 of 31

區塊鏈(Blockchain):

虛擬世界有自己的經濟體系,其所流通的資產,必需為加密貨幣。區塊鏈就是實現元宇宙所需的底層技術之一,可以視為一種新的記帳方式,透過加密技術,用分散式帳本(跳過中介銀行),讓所有參與者的電腦一起記帳、確認,成為去中心化的交易系統。區塊鏈所產生的資料塊前後相連、儲存在多個分散節點中,牽一髮動全身,因此它的歷史資料幾乎不可能被篡改。

區塊鏈為什麼值得信任?

在這麼多年後仍未有任一駭客能攻破或篡改其上任何一筆資料。如右圖所示,區塊鏈就是一本又一本互相串連,數目龐大的加密帳本;只要出現一筆交易,區塊鏈上的每一個小帳本都會有紀錄;如果有人想要竄改其中一筆交易,就會和其他的帳本對不上而交易失敗,如此一來便能確保每一個人的資產可信度與價值。

7 of 31

一、什麼是人工智慧 (AI)?

人工智慧是一種模仿人類智慧學習能力的技術,通過計算機和機器學習來實現。它能夠對大量數據進行快速分析發現模式和規律,並根據這些模式和規律來做出預測和決策

人工智慧應用廣泛,例如影像識別、自然語言處理、智能機器人等領域,它已經在改變我們的日常生活和工作方式。

人工智慧(AI)

8 of 31

人工智慧是未來科技發展重要的一環,而人工智慧的發展與大數據及機器學習息息相關;這三者的關係可以簡化如下:

  • 大數據材料
  • 機器學習處理方法
  • 人工智慧就是呈現出的結果

人工智慧/大數據/機器學習

9 of 31

目前AI,核心為認知技術,其實踐步驟:一、經過訓練:感測環境分析外部大數據二、採取行動:以實現既定目標。�三、機器學習:學習調整後續行為。

10 of 31

11 of 31

數據的整理與分析

一、數據的來源:

在人工智慧領域裡,想要讓電腦具有處理龐大數據的能力,首先就要準備大量的資料。到底要去哪裡尋找資料呢?以下就是幾種常見的蒐集數據方式:

(一)資料庫:�如;政府單位將資訊公開在網路上,使用者只要遵守網站資料開放相關規定,便可以在網路上擷取自己所需資料。包含求學進修、求職就業、休閒旅遊、生活安全及品質等各種琳瑯滿目的資訊,皆開放自行下載。

政府資料開放平臺網站之首頁:https://data.gov.tw/

12 of 31

(二)感測器:

感測器(Sensor)感測器是一種物理裝置或生物器官,能夠探測、感受外界的訊號、物理條件(如光、熱、濕度)或化學組成(如煙霧),並將探知的資訊傳遞給其他裝置。

13 of 31

(三)網路爬蟲:�許多人會使用網路搜尋引擎尋找資料,但是當資料多到上百筆甚至上千筆時,可以使用「網路爬蟲」程式「網路爬蟲」又稱為「網路蜘蛛」,它就像蜘蛛網一樣,由中心主題往外延伸。�網路爬蟲的原理是透過網頁超連結尋找網頁,從初始網站某一頁面開始讀取網頁內容,找到關鍵字的超連結網址,再透過這些超連結尋找下一個網頁,如此循環,直到瀏覽所有網頁,並將所需資料擷取,這種技術就叫做「網路爬蟲」。

資料探勘,是使用一些技巧和工具所長期蒐集的資料當中截取出有用資訊的方法。

14 of 31

(四)公司行號的API:�API(Application Programming Interface應用程式開發介面)扮演應用程式和應用程式之間的橋樑。讓開發者可以利用公司皮工的資料,進行開發。�例如:Facebook上每分每秒的貼文、回覆、照片、按「讚」數; Google搜尋引擎關鍵字搜尋次數、網站登錄紀錄,這些都屬於大數據的範疇。用以分析、研究、擴展運用,例如:分析消費者喜好、設計行銷策略等。

「店面與倉庫」為例商品可以想成是數據,而倉庫就好比是資料庫店面則好比是我們平常使用的網頁或是APP,而負責把商品從倉庫擺放到店面的員工就扮演著 API 的角色,依照著某種規則、協定(行銷企劃、商品的擺放規則)在運作著,而我們不必知道他是怎麼運作的。

15 of 31

(五)其他:�除了上述資料蒐集的方法之外,還有許多蒐集資料的資料來源。例如:使用網路攝影機蒐集影像資訊進行人臉辨識、物品分類、場景辨識;使用錄音設備蒐集聲音檔進行語音辨識、歌曲辨識。蒐集資料的方式愈來愈多元,也使得人工智慧可以應用的領域更加廣泛。

16 of 31

二、數據整理:

當我們蒐集到各種資料之後,必須經過整理、分析才能成為有效的資訊,也才能產生它的價值。

(1)剔除Dirty Data:

我們利用各種方法蒐集到的資料,並不代表全部資料都可使用。

在電腦的領域中,有句話叫做「垃圾進、垃圾出(Garbage in, garbage out,GIGO)」。如果我們輸入電腦的資料是錯誤的或沒有意義的,那無論經過什麼形式的資料處理,電腦回報給我們的資料也會是錯誤的、沒有意義的訊息

因此,錯誤或無法使用的資料,必須在進行機器學習之前先行剔除。�

17 of 31

(2)從數據中發現特徵:

人工智慧系統如果要能正確分類,必須先進行挑選特徵。挑選的特徵越多,可以提供的資訊就會越多,但進行分析時會更耗時,也可能因為過多不相干的資訊導致分類能力下降。因此,不論是挑選的特徵良好與否,或者是所挑選特徵的數量,兩者都很重要。

18 of 31

請至google classroom

完成線上PPT

於下課前繳交作業

(記得要按繳交)

按繳交 扣5分

19 of 31

作業1:剔除Dirty Data

左圖為阿銘蒐集班上1~11號同學鉛筆盒中原子筆長度與重量的數據。

為了之後的資料分析,請針對以下原子筆的二種屬性(長度重量),將表中錯誤的、無用的資料打,並說明它可能錯誤的原因

20 of 31

作業2:蛾的分類 (請至 classroom 作答)

老師帶全班戶外教學,大家在野外看到成群飛舞的蛾。但是每一隻都長得好像,要怎麼分辨牠們呢? 於是老師跟大家介紹水青蛾帝王蛾的外觀特性,並將16隻蛾(8隻水青蛾、8隻帝王蛾)的分類方式介紹給同學認識。

(一)利用數據,將蛾標示在座標圖上。

(二)如何利用這張座標圖,來判斷其他隻蛾的種類呢?

蛾的分類

重量(g)

翅膀寬(mm)

複製右側資料,貼至Excel 繪製 散佈圖

翅寬

水青蛾

帝王蛾

53.1

0.5

50.5

0.59

53.4

0.65

56.8

0.66

50.7

0.53

59.5

0.68

53.5

0.41

56.1

0.51

47.6

0.39

42.2

0.53

43.5

0.63

46.2

0.59

50.1

0.47

44.1

0.57

43.6

0.53

50.3

0.32

21 of 31

22 of 31

•Quick Draw是一個運用類神經網路(artificial neural network)來學習你畫的線條可以代表什麼內容。

•你在這個軟體裡所練習畫的東西愈多,這個軟體裡的AI 系統就會愈快學習到你想表達的名詞。

•這是一個具有學習能力的人工智慧軟體,它用了類神經 網路的技術,因此我們稱這個軟體具有機器學習的技術。

作業3:限時塗鴉

23 of 31

24 of 31

◎練習: 自走車的模擬 (初始檔下載)

數據的收集是AI人工智慧的第一步,本練習主要是透過:

(一)感測器(Sensor)的模擬偵測,來蒐集黑線的座標點數據

(二)利用蒐集的座標點數據(數據越多會越清晰),未來可以模擬繪製出循跡地圖

25 of 31

問題一: 貓咪如何循著黑線行走?

任務: 15秒內走完循跡線

感測器(sensor)(黃、綠、粉紅)

26 of 31

問題二: 如何蒐集感測器的座標點資料?

提示: 清單定位

!!你的資料庫越大,循跡的路線就越完整!!

任務: 按下空白鍵模擬循跡路線

27 of 31

28 of 31

◎練習: scratch 手寫辨識

本練習使用bDsigner軟體的機器學習

* 透過scratch舞台辨識手寫數字來建立資料庫* 即時手寫,讓電腦進行辨識

29 of 31

(一) 訓練資料庫 角色

自行於20個造型,進行手寫字體。

造型編號1~5 書寫 數字1

造型編號6~10 書寫 數字3

造型編號11~15 書寫 數字8

造型編號16~20 不須書寫

* 提醒:

第一次訓練時,需開啟內建訓練程式,

大該須等個3~5秒,才會開始訓練。

此時請不要再亂點,避免當機

30 of 31

(二) 辨識區 角色

請書寫數字,讓電腦進行辨識。

按下 空白鍵 ,可讓貓咪說出辨識的結果

31 of 31