1 of 26

情報探索エンジン

FIlab

1

2 of 26

みなさん,「情報収集」してますよね

2

彼女のプレゼント何がいいかな

あの言葉ってどういう意味だ?

あの映画って今やってるのかな

明日はどこのお店に食べに行こうかな

あの作品ってどこでみられるんだっけ

あの業界の市場ってどうなってるの

この仕事の相場ってどんな感じだろ

今流行のファッションってなんだっけ

3 of 26

情報収集ってどうやってしますか?

3

4 of 26

本・検索エンジン・新聞・雑誌

4

5 of 26

  1. タイトルとスニペットを見る
  2. 気になったら開いて中身を確認

これを目的の情報が見つかるまで�繰り返す

※最終的に見つからなかった�ということもありうる�

こういう経験ってありません?

5

6 of 26

一般的にも「検索」は難しい

ノイズが多い

工夫が必要

6

7 of 26

検索エンジン x AI

情報探索エンジン

ExploreSearchSystem

7

8 of 26

検索結果を二次元に可視化しよう!!!

8

二次元に拡張!

一次元

9 of 26

9

10 of 26

このシステムを使えば...

10

より簡単に見たかったサイトに行き着ける!

検索結果を� 体系的に知れる

あるサイトと

類似するサイトを知れる

このサイト

どうしが似てるんだぁ

全体的にこんな構造を持っているのか.

可視化方法 1

可視化方法 2

11 of 26

しくみ

11

情報探索システム

機械学習

スニペットのBoWデータ

・形態素解析(Mecab)

・tf-idf

ScraperBox

12 of 26

使用した機械学習

・SOM(自己組織化マップ)

  サイトの低次元表現(潜在変数)と写像の推定

・NMF(非負値行列因子分解)

  サイトクラスタの推定

12

SOMの概念図

写像

 マップの色付けに使用

サイトの

低次元表現

13 of 26

SOMの選定理由

  • 計算コスト:膨大なデータを現実的な時間で計算できる
  • 安定性:どんなデータに対しても”良い”結果をだす必要がある
  • 表現力:非線形写像が必要

13

計算コスト

安定性

モデルの表現力

PCA

×

GPLVM

×

VAE

-

SOM

◎:非常にいい,◯:十分,×:問題あり

14 of 26

技術構成

14

SOM

ScraperBox

15 of 26

まとめと今後の展望

まとめ

  • 視覚的な探索システムを実現した.
    • 2次元マップに埋め込み,検索をサポートする色付けを行った.

今後の展望

  • マップの表現力を向上させる.
    • 単語マップにも可視化する.
    • サイトのリンク関係を補助情報に追加する.
  • 現在固定のクラスタ数を自動決定させる.

15

16 of 26

ぜひ使ってみてください!

https://explore-search-system.herokuapp.com/

�※PCからの使用をお願いします.

16

17 of 26

使い方

  1. キーワードを入力
  2. マップから検索結果の全体像を掴む.�U-matrix表示:パッとみてどの要素の類似関係を把握�クラスタ表示:各クラスタのサイトを一つずつみてクラスタの傾向を把握
  3. サイト単位で着目して,実際にサイトをViewingして個々の情報を掴む�(最初はページランクの大きいものから着目するのがいいと思います)
  4. 3. を繰り返しながら適宜2.を挟んで,自分に必要な情報にたどり着く

17

18 of 26

以下補足スライド

18

19 of 26

いただいた質問への回答

Q. 今回次元削減手法を使ったと言うことでしたがおかしな結果はみられたか

  1. 元のデータを見る限り,おかしな結果にはならなかった(次元削減と写像推定は概ね正しく行われていた).ただ,直感的には納得できない場面もしばしば散見された.それは,元データの非力さが理由にあげられる(スニペットはいわゆるショートドキュメントなのでそのBoWデータは非常にSparse).改善点としては以下の3つが考えられる
    1. データをよりリッチにすること
    2. 形態素解析による古典的な特徴量抽出ではなくDeep特徴量を使うこと
    3. 2次元の空間へ次元削減するのではなく3次元の空間へ次元削減をすること

19

20 of 26

多様体モデリング

  • 次元削減手法の一種
  • データの生成過程を推定(生成モデル)
  • SOM, GPLVMが典型的な手法

20

21 of 26

自己組織化マップ(SOM)問題設定

  • 入力
    • 高次元データセット:
  • 推定
    • 低次元な潜在変数
    • 非線形写像

21

22 of 26

技術構成

22

23 of 26

モーダルの説明文

U-matrix:緑の領域がサイト間の隔たりすなわち山を表します.サイト間に山があれば,隣接していても類似度が低くなります.サイトごとの類似度を知ることに役立ちます.

topic : クラスタを表します.全体的な検索結果の構造をつかむのに役立ちます.

学習方法:SOMかUKRを選択できます.一つの結果で得られたマップの信頼性が低い場合に役立ちます.

サンプルのデータセット/自由に検索:とりあえず何かしら結果が見たい時におすすめです/検索したいキーワードを入力して検索することができます.ただし時間がかかります.

ロゴを表示;サイトのファビコンを表示できます.ひと目を情報を知ることができます.

マップ上の点と大きさ:サイトを表します.クリックするとサイトに飛ぶことができます.大きさはページランクを表します.大きい方が検索結果の順位が高いことを示します.

23

24 of 26

24

25 of 26

25

26 of 26

情報検索の重要性

26

https://news.yahoo.co.jp/byline/fuwaraizo/20200705-00185587

2019年時点で使ったことのある人は,

全人口の89.8%!!

もはや人々の生活に欠かせないインフラ的存在.