生成AIによる学術情報Web API案内ツールの試作
2025年9月6日 Code4Lib Japanカンファレンス2025
東京大学工学系・情報理工学系等事務部 前田朗
世には数多の学術情報資源
どう使ったものだか…
生成AIベースの学術情報検索コンセプト案
生成AI
学術情報Web APIカタログ
各Web API連携プラグイン(MCP)
Web API
Web API
Web API
Web API
各Web API連携プラグイン(MCP)
各Web API連携プラグイン(MCP)
各Web API連携プラグイン(MCP)
RAG
Agent
会話
多くの学術情報Web APIをサポート
学術情報Web APIを推奨
学術情報Web API呼び出し
OpenAlexやWeb of Science、CiNii Researchなど学術分野のカバーが高いAPIさえ使えばたいがい十分かもしれませんし、安易に実用になるとも考えませんが、コンセプト案として面白いかと。
まずは生成AIでWeb API案内機能(RAG)を!
オフの(帰宅後の)自由研究なので、面白いと思ったことにはチャレンジです
まず対象とするWeb APIを60件適当に選んでみた
AgriKnowledge | EBSCOhost API | Google Books | Legal Data API | Springer API | リサーチ・ナビ |
arXiv.org | EDINET | ICPSR | Library of Congress | The CAS Common Chemistry API | レファレンス協同データベース |
BLAST URL API | Elsevier Research Products APIs | IEEE Xplore | nihuBridge | The New York Times | 医中誌Web |
BMC | Engineering Village | InCites Benchmarking | NII-REO | The World Bank Documents & Report API | 国会会議録検索システム |
Cambridge Core | Entrez Programming Utilities | International Trade Administration | OECD data via API | UN data | 国立国会図書館サーチ |
Cambridge Dictionary | EPO | Internet Archive | Oxford Dictionaries API | USPTO | 特許情報取得API |
CiNii Research | ERIC | J-GLOBAL | PLOS | Web of Science | 法令API |
Data.gov | Europeana | JSTOR | PMC | WIPO PEARL API | OpenAthens |
DBpia | Gale Academic OneFile | Juris Online | Power User Gateway | WorldCat | JDreamⅢ |
Dialog | Gallica | KAKEN | Project Gutenberg | zbMATH Open | openBD |
参考: 東京大学附属図書館 データベース一覧� https://www.lib.u-tokyo.ac.jp/ja/library/contents/database
Web APIのカタログをDeep Researchで
あなたは優秀な大学図書館司書です。Web APIのドキュメントが記載されているURLをリストアップしてください。
対象のWeb APIは次のとおりです。
~~~
Name: AgriKnowledge ウェブサービス(WebAPI)
Sample_URL: https://www.agropedia.affrc.go.jp/agriknowledge/api/
~~~
次いで調査したドキュメントのURLの情報をもとに、以下のとおりレポートにまとめてください。
回答フォーマットは次のMarkdown記法です。日本語での回答をお願いします。
# 収録
## 対象分野
## 外部情報源からの収録
# 利用条件
## 利用対象者
## 有償と無償の別
## ユーザー登録の有無
# 検索項目における特色
# 取得データにおける特色
# 利用できるプロトコル(opensearch, OAI-PMHなど)
# その他、特記事項
# 調査に使った情報源(URL)
Gensparkの「深層研究」(Deep Research)のプロンプトサンプル
いくつもの生成AI で提供されているWeb情報を深く探索する調査手法
1回の回答に数分以上かかる上にどの生成AIサービスも無料枠では利用上限がきついが… → 事前準備なので、日数がかかっても高品質を!
カタログサンプル(CiNii Research一部抜粋)
左記カタログの情報源
以下略
生成AIによるレポートのため、ハルシネーションがおきている(事実と異なる)可能性があります
無課金で軽量RAGのシステム構成を組んでみた
※無課金とはいえ自宅マシンの初期投資あってではあります
ベクトルストア(内部DB)�【Web APIカタログ60件(Markdown)】
Gemini API (Google AI Studio)
無料枠(機密情報は扱えない)
Pythonスクリプト
質問(Start)
ミニワークステーション(私物)
回答(End)
①
内部知識を得てから
②生成AIに質問を投げかける
事前に用意したWeb APIカタログはここで使う
(生成AIの無料枠での質問に使うので、公知の情報にとどめている)
マシンスペックが重要な生成AIは外部サービスで
どうなったか試してみた
【テスト1】
生成AIによるレポートのため、ハルシネーションがおきている(事実と異なる)可能性があります
回答に使用したカタログ情報
カタログをもとに、2件の該当について、比較説明
【テスト1】の回答に使われたカタログの情報源
生成AIによるレポートのため、ハルシネーションがおきている(事実と異なる)可能性があります
回答に使用したカタログ情報
【テスト2】
該当が1件だけのためか、カタログの情報をそのまま使用
【テスト2】の回答に使われたカタログの情報源
生成AIによるレポートのため、ハルシネーションがおきている(事実と異なる)可能性があります
カタログは回答に使われなかった…
(該当のカタログがうまくヒットしなかった)
それでも生成AIが回答してはくれる
【テスト3】
ひとまずのまとめ
付録�という名の試行錯誤の記録
Web APIカタログ生成のためのDeep Research選択
→ 今回はこれを採用
→ 無料枠の回数制限がきつい
→ 無料枠の回数制限がきつい
→ 無料枠回数制限はゆるいが、(プロンプトしだいかもしれないが)レポートの内容が期待ほど詳細でなかったので見合わせ
採用のGensparkは一日1回程度使えたので2か月かけてこつこつと…、
また出力をきれいにMarkdownにするのも手作業で。
Gemini (Google AI Studio)以外に試した生成AI
→ 無料枠だと文書が最大50までなのであきらめ
→ Web APIレポートをすべて読もうとしたら動かなかった… (無茶か)
→ ミニワークステーション上で動かすことはできたが、レスポンスがいまいち(いまいちなのはマシン性能かも…)
「生成AIからCiNii Research APIを呼び出してみた」
次回Agent編