1 of 33

機械学習入門

担当 中野眞一

ソース  https://www.kaggle.com/learn/intro-to-machine-learning#

2 of 33

Modelのしくみ

機械学習のモデルのしくみと使いかたを外観する。

簡単すぎだけど、あとで改良する。

いとこが不動産投機でおおもうけした。

あなたもデータサイエンシストとしてビジネスに参加したい。

いとこは資金を提供し、あなたは不動産価格予測のモデルを提供する。

いとこ   で価格予想

あなた   過去のデータからモデルを作成して価格予想

   機械学習!簡単な決定木モデルについて学びます。

3 of 33

簡単(すぎ)な決定木モデル

寝室が3部屋以上ある?

1780万円!

1880万円!

2グループに分割

それぞれ過去データの平均で価格予測

=>

Fitting または

Trainingという。

過去データ

=>training data

という

4 of 33

簡単(すぎ)な決定木モデル (つづき)

モデルのfittingの詳細は後で学びます (結構複雑な方法もある)

モデルをfit=trainingすると、

新しいデータから不動産の価格を予測(predict)できる

5 of 33

どちらの決定木が良いモデル

寝室は

3部屋ある?

寝室は

3部屋ある?

寝室が

3部屋あるほうが安い!のは

寝室の部屋数、区画面積、場所は無視している!改良の余地あり。

6 of 33

もっと深い木(世代数が多い)を使うと。。。

寝室は3部屋以上ある?

区画面積は11500 sq ft 以上ある?

木を下っていくと

(いずれかのに到着し)

不動産予想価格がわかる

7 of 33

You tubeに

より詳しい説明あり

8 of 33

基本的なデータ探索

9 of 33

Using Pandas to Get Familiar With Your Data�データの扱いに慣れるためにpandasライブラリを使おう

Pandas: データサイエンティストの主要ツール。

     データの探索、操作ができます。

     pdと略します。元々ははpanel dataの略です。

10 of 33

DataFrame

DataFrameは表データを保持するテーブル状データ( tabular data)。

Excelのsheet、SQLのdatabaseに似ている。

表データに〇〇したいことはたいていできる!

データ home price in Melbourne をチェックしましょう。

11 of 33

Web上にデータがある�(kaggleのサイト)

13500件以上のデータ

ダウンロードできます!

12 of 33

データ(downloadしてexcelで開いたところ)

13 of 33

の意味

売却物件

以前に売却物件

売却非公開。。。

地区名

住所

部屋数

14 of 33

各列の意味

市や郡など

リフォームした寝室数? 1-4 

空白、1880年とか、2010年とか

15 of 33

notebookでのデータ探索

ファイルを指定

Csvファイルデータ読込

データ概観を表示

ここクリック

で右の

コード実行

16 of 33

Notebook(統合実行環境)を起動

2

17 of 33

データを追加

18 of 33

データを指定して追加

データ検索

これ追加

19 of 33

データ追加を確認+初期化コード実行

下向きの

>をクリック

20 of 33

コードをコピペで追加

コード

実行

データ概要表示

Count = 空欄以外のデータの個数  BuildingArea, YearBuildは空欄多い

21 of 33

個数

平均

標準偏差

最小

25%データ

。。。。

22 of 33

Exercises

23 of 33

初期化

コード

実行

24 of 33

データファイル読込

ファイルを指定

CSVファイルデータ読込

25 of 33

データを概観

26 of 33

27 of 33

データを概観

28 of 33

ヒントの表示

ヒント

表示

(コードのコメント#を消してから)

29 of 33

新しい家がない理由

1 最近新築が少ない

2 最近データがupdateされない

2 だと予想の質がよくないかも

30 of 33

データがupdateされていない

31 of 33

おしまい

32 of 33

33 of 33