機械学習入門
担当 中野眞一
ソース https://www.kaggle.com/learn/intro-to-machine-learning#
Modelのしくみ
機械学習のモデルのしくみと使いかたを外観する。
簡単すぎだけど、あとで改良する。
いとこが不動産投機でおおもうけした。
あなたもデータサイエンシストとしてビジネスに参加したい。
いとこは資金を提供し、あなたは不動産価格予測のモデルを提供する。
いとこ 勘で価格予想
あなた 過去のデータからモデルを作成して価格予想
機械学習!簡単な決定木モデルについて学びます。
簡単(すぎ)な決定木モデル
寝室が3部屋以上ある?
1780万円!
1880万円!
2グループに分割
それぞれ過去データの平均で価格予測
=>
Fitting または
Trainingという。
過去データ
=>training data
という
簡単(すぎ)な決定木モデル (つづき)
モデルのfittingの詳細は後で学びます (結構複雑な方法もある)
モデルをfit=trainingすると、
新しいデータから不動産の価格を予測(predict)できる
どちらの決定木が良いモデル
寝室は
3部屋ある?
寝室は
3部屋ある?
寝室が
3部屋あるほうが安い!のは変!
寝室の部屋数、区画面積、場所は無視している!改良の余地あり。
もっと深い木(世代数が多い)を使うと。。。
寝室は3部屋以上ある?
区画面積は11500 sq ft 以上ある?
木を下っていくと
(いずれかの葉に到着し)
不動産予想価格がわかる
You tubeに
より詳しい説明あり
基本的なデータ探索
Using Pandas to Get Familiar With Your Data�データの扱いに慣れるためにpandasライブラリを使おう
Pandas: データサイエンティストの主要ツール。
データの探索、操作ができます。
pdと略します。元々ははpanel dataの略です。
DataFrame
DataFrameは表データを保持するテーブル状データ( tabular data)。
Excelのsheet、SQLのdatabaseに似ている。
表データに〇〇したいことはたいていできる!
データ home price in Melbourne をチェックしましょう。
Web上にデータがある�(kaggleのサイト)
13500件以上のデータ
ダウンロードできます!
データ(downloadしてexcelで開いたところ)
各列の意味
売却物件
以前に売却物件
売却非公開。。。
地区名
住所
部屋数
各列の意味
市や郡など
リフォームした寝室数? 1-4
空白、1880年とか、2010年とか
notebookでのデータ探索
ファイルを指定
Csvファイルデータ読込
データ概観を表示
ここクリック
で右の
コード実行
Notebook(統合実行環境)を起動
1
2
データを追加
データを指定して追加
データ検索
これ追加
データ追加を確認+初期化コード実行
下向きの
>をクリック
コードをコピペで追加
コード
実行
データ概要表示
Count = 空欄以外のデータの個数 BuildingArea, YearBuildは空欄多い
個数
平均
標準偏差
最小
25%データ
。。。。
Exercises
初期化
コード
実行
データファイル読込
ファイルを指定
CSVファイルデータ読込
データを概観
データを概観
ヒントの表示
ヒント
表示
(コードのコメント#を消してから)
新しい家がない理由
1 最近新築が少ない
2 最近データがupdateされない
2 だと予想の質がよくないかも
データがupdateされていない
おしまい