情報探索エンジン
FIlab
1
みなさん,「情報収集」してますよね
2
彼女のプレゼント何がいいかな
あの言葉ってどういう意味だ?
あの映画って今やってるのかな
明日はどこのお店に食べに行こうかな
あの作品ってどこでみられるんだっけ
あの業界の市場ってどうなってるの
この仕事の相場ってどんな感じだろ
今流行のファッションってなんだっけ
情報収集ってどうやってしますか?
3
本・検索エンジン・新聞・雑誌
4
これを目的の情報が見つかるまで�繰り返す
※最終的に見つからなかった�ということもありうる�
こういう経験ってありません?
5
一般的にも「検索」は難しい
ノイズが多い
工夫が必要
6
検索エンジン x AI
情報探索エンジン�
ExploreSearchSystem
7
検索結果を二次元に可視化しよう!!!
8
二次元に拡張!
一次元
9
このシステムを使えば...
10
より簡単に見たかったサイトに行き着ける!
② 検索結果を� 体系的に知れる
➀ あるサイトと
類似するサイトを知れる
このサイト
どうしが似てるんだぁ
全体的にこんな構造を持っているのか.
可視化方法 1
可視化方法 2
しくみ
11
情報探索システム
機械学習
スニペットのBoWデータ
・形態素解析(Mecab)
・tf-idf
ScraperBox
使用した機械学習
・SOM(自己組織化マップ)
サイトの低次元表現(潜在変数)と写像の推定
・NMF(非負値行列因子分解)
サイトクラスタの推定
12
SOMの概念図
写像
マップの色付けに使用
サイトの
低次元表現
SOMの選定理由
13
| 計算コスト | 安定性 | モデルの表現力 |
PCA | ◎ | ◎ | × |
GPLVM | × | ◎ | ◎ |
VAE | - | ◯ | ◎ |
SOM | ◎ | ◎ | ◯ |
◎:非常にいい,◯:十分,×:問題あり
技術構成
14
SOM
ScraperBox
まとめと今後の展望
まとめ
今後の展望
15
16
使い方
17
以下補足スライド
18
いただいた質問への回答
Q. 今回次元削減手法を使ったと言うことでしたがおかしな結果はみられたか
19
多様体モデリング
20
自己組織化マップ(SOM)問題設定
21
技術構成
22
モーダルの説明文
U-matrix:緑の領域がサイト間の隔たりすなわち山を表します.サイト間に山があれば,隣接していても類似度が低くなります.サイトごとの類似度を知ることに役立ちます.
topic : クラスタを表します.全体的な検索結果の構造をつかむのに役立ちます.
学習方法:SOMかUKRを選択できます.一つの結果で得られたマップの信頼性が低い場合に役立ちます.
サンプルのデータセット/自由に検索:とりあえず何かしら結果が見たい時におすすめです/検索したいキーワードを入力して検索することができます.ただし時間がかかります.
ロゴを表示;サイトのファビコンを表示できます.ひと目を情報を知ることができます.
マップ上の点と大きさ:サイトを表します.クリックするとサイトに飛ぶことができます.大きさはページランクを表します.大きい方が検索結果の順位が高いことを示します.
23
24
25
情報検索の重要性
26
https://news.yahoo.co.jp/byline/fuwaraizo/20200705-00185587
2019年時点で使ったことのある人は,
全人口の89.8%!!
もはや人々の生活に欠かせないインフラ的存在.