2019年度 ROIS-DS-JOINT共同研究集会 課題番号:003RM2019
Annotathon2019
(生命科学データベースの利用価値向上のためのアノテーションマラソン)
日時: 2019年10月-11月のうち2日間を予定 → 11/12(火)・13(水)
場所: ライフサイエンス統合データベースセンター 柏ラボ 605号室
(http://dbcls.rois.ac.jp/access.html ※つくばエクスプレス柏の葉キャンパス駅前)
共有用URL: http://bit.ly/annotathon2019
ハッシュタグ: #annotathon https://twitter.com/hashtag/annotathon?src=hash
連絡先:仲里 猛留(なかざと たける) nakazato@dbcls.rois.ac.jp twitter: chalkless
参考: これまでのページ
第1回:Annotathon2015 http://bit.ly/annotathon2015
第2回:Annotathon2017 http://bit.ly/annotathon2017
Day 1 (11/12)
Day2 (11/13)
トーク希望リスト
・ 正しい学名(Scientific Name)著者名入りを生成するための取組について(皆さんと課題を共有したいです)(NITE)
録画よろしく(DBCLS・小野さんに頼む)
みんな、遠慮なくカキコしていいんだよw(by 発起人)
誰かに教えるのもご自由に(Twitterでも)
片方の日だけの参加でもOKです。
(申請書の文章をコピペする)
NGS(次世代シーケンサー)のデータは公共データベースSequence Read Archive (SRA) として収集・蓄積されているが、各データに対するメタデータ(実験情報。対象生物種、測定機器、処理試薬など)の記述は登録者に委ねられており、ミススペルや用語の不統一がデータ利用の障壁になっている。また、機械学習の分野でもアノテーションに間違いが多ければモデルの学習や評価を含め後のプロセスに致命的な影響を与えてしまうことから、アノテーションの重要性が増してきている。
本研究会での目的は、データベースの管理や利用促進に携わる研究者・担当者と利用する研究者が一堂に会し、現状のデータ、特にアノテーション情報について一丸となって内容の改善や不足データの補足を改めて行うことで、分野の発展のためによりよい環境を構築することである。この目的を具体的に達成するため、以下のような内容で本研究会を実施する。
1.対象参加者はデータ登録や管理、利用技術開発に携わっているDDBJやDBCLSの研究者やアノテーターと、微生物、植物などの各分野でデータを登録・利用しての評価などの有益な議論のできる研究者を想定している。
2.発表や議論の内容は、専門家によるデータ修正候補の洗い出しと提案、現データを用いての遺伝子の機能アノテーション情報を中心としたデータの整理である。特に今回はアノテーションの入力の効率化や新規アノテーションを行うための具体的にアクションについて議論(できれば実践)に焦点を当てる。
集会でアノテーション入力の効率化を検討することにより、精度の良い、大量のアノテーションデータを作ることで、データサイエンス分野での貢献が期待される。
DBCLSはライフサイエンス分野におけるデータベース統合化の拠点であり、SemanticWeb技術を用いてデータの統合化や再利用のための基盤技術開発、ツール開発を進めている。そこで、特にアノテーションの過程における本技術の活用はどうあるべきか議論することにより、生命科学データの統合化が加速できると考えられる。データ登録や管理、利用技術開発者に広く参加してもらうことで、管理者と利用者での有意義な議論や、より迅速なアクションが期待できるためである。
審査コメント
・様々なところで議論されている内容で必要な集会と思えるが、汎用的かつ効率的に問題を整理し実践するためには、集会に先立ち事前準備が重要となる。ただ集まって議論するだけでは物足りない。また、より広い分野から参加者が集まる集会となるよう配慮されたい。
(とりあえず予定している内容 メモ書き)
・前回作成したアノテーションツールのリスト( http://bit.ly/annotathon2017list )をアップデート
・BioSampleを例に山ほどあるフィールドをいかに楽に、かつ使える形で埋めるか
・(文献などからの)アノテーション作業をいかに効率化するか(どんなツールが必要か)・Semantic Web時代のアノテーション作業とは(アノテーションするそばからRDF化されるような世界にならないか)
・AI時代のアノテーション作業とは(いわゆるAI技術で知識抽出はどこまでできるか)
・GoogleRefine実演
・アノテーター人口を増やすには(アノテーターに求められる技術とは。その技術をどう身につけるか。身につけている人をどう拾い上げるか)
ツールの洗い出し・整理(ゲノムアノテーション/論文アノテーション)
・2017verのツールのリストをアップデートする
・例でもいいのでワークフロー(ツールの組み合わせ)をつくる
・ワークフローに対して不満な点、要望とか、こういうのを組み合わせたらどうか提案
→ パイプラインの青写真の公開
ご自由に参加表明ください。
もしくは なかざと ( nakazato@dbcls.rois.ac.jp or twitter: @chalkless ) までご連絡を
報告書に参加者リストをつけるのでここにリストをつけています。
飛び込みでも良いです。(ここに名前を載せたくない。都合が直前についた、など)
参加人数を報告するので、ここに名前を載せない場合は、発起人までお知らせいただけると助かります。
※ 5/17(金)までに研究費申請をします。この前後に、今回の申請システムであるJROISからアカウントをつくってほしい旨、連絡が行くかもしれません。とりあえず迷惑メールではないことだけご承知おきください。 → 参加費申請は〆切
※ 話をしたい人(LT可)はご連絡いただくか、上記プログラムのトーク希望リストに書いてください。
議事録的メモ
アノテーション・キュレーションとは
アノテーション、キュレーションの定義問題(再燃)
対象:ゲノム、自然言語(文章)、実験試料
アサインするもの(つける注釈):オントロジー的な(時に階層構造)
方法:シンプルなときはマッピング(使用例:オントロジーマッピング)
自動でやる(=予測、推定)ときはアノテーション、手動でやるときはキュレーションを使う(岡本定義)
「人工知能(AI)」分野で正解セットをつくるのもアノテーションと呼ぶ
0の状態からスタートだとアノテーション? ある程度、(アノテーションされた)データを修正するのはキュレーション?
結局、(アノテーション、キュレーションの)境界は曖昧なような。。。
http://www.dcc.ac.uk/resources/briefing-papers/introduction-curation/annotation
https://en.wikipedia.org/wiki/Data_curation
形式化 (案 by hc):
操作によってインプットデータ
からオブジェクト
を抽出し、さらに操作
によって
に対応する
を定めるとき、
,
を含むプロセス、あるいはそれらの結果として得られる
をアノテーションと呼ぶ.
もともと は自然言語で表現されたノート(注釈)のようなものであるが、機械化が進むにつれてcontrolled vocabularyが使われることも多くなった. 単純な場合は
は語彙
の部分集合となる.
,
より複雑な場合には、の複数の要素に言及する場合もある. そのとき
(語源はad+note? … そばに書き留める?)
キュレーションも似た用語だが、その用法にばらつきがあるようだ.
(語源はcur … 気を付ける、心配する、世話をする)
DDBJ 児玉
BioSample 間の relationship を表現する属性
https://www.ebi.ac.uk/biosamples/docs/references/sampletab#_relationships
Relationship Key
same_as
The same physical sample has multiple BioSample records e.g. from different source databases.
derived_from
Where one BioSample was derived from another e.g. blood sample from an individual, genetic modification of a cell line.
child_of
Indicates parentage. Only applicable to sexual organisms; for bacteria see Derived from.