Annotathon2019

2019年度 ROIS-DS-JOINT共同研究集会課題番号：003RM2019

Annotathon2019

（生命科学データベースの利用価値向上のためのアノテーションマラソン）

概要

日時： 2019年10月-11月のうち2日間を予定 → 11/12（火）・13（水）

場所：ライフサイエンス統合データベースセンター柏ラボ 605号室

（http://dbcls.rois.ac.jp/access.html ※つくばエクスプレス柏の葉キャンパス駅前）

共有用URL： http://bit.ly/annotathon2019

ハッシュタグ： #annotathon https://twitter.com/hashtag/annotathon?src=hash

連絡先：仲里猛留（なかざとたける） nakazato@dbcls.rois.ac.jp twitter: chalkless

参考：これまでのページ

第1回：Annotathon2015 http://bit.ly/annotathon2015

第2回：Annotathon2017 http://bit.ly/annotathon2017

Day 1 （11/12）

1000~「Annotathonのこれまでとこれから: 2019」（DBCLS・仲里）
1015−1200 ツールの洗い出し・レビュー

今回用に前回のをコピーしました：http://bit.ly/annotathon2019list
このリストは参加者以外でも記入可能です。
てか事前にアップデートしてあると当日早いw

1200−1330 昼食休憩
1330-1400 LT+自己紹介

DBCLS・仲里
DBCLS・平木
遺伝研・中村：ゼニゴケ・ネコ・そろそろ人工知能でなんとかならんのか？
東大・笠原さん：ゲノムグラフで集団ゲノムの解析問題や、いつまでも古いバージョンばっかり問題などを克服したいなど
話してほしいこと

これまで触れた・やってきたアノテーション
今触れている・やっているアノテーション
これからほしい・今回議論したいアノテーション

1400- トーク1
昆虫遺伝子機能アノテーション（DBCLS・坊農）
ゼニゴケゲノムのコミュニティアノテーション（遺伝研・谷澤）
ChIP-Atlas関連（九大・沖）
イネゲノムアノテーションと様々な品種のゲノム多様性情報（農研機構・川原）
もろもろディスカッション（AMのツールの洗い出しなども含めて）
1745−1800 総括（遺伝研・中村）
意見交換会：買い出しして会場で（夜は建物がしまるので連絡を）

Day2 （11/13）

テーマ：BioSampleを例に山ほどあるフィールドをいかに楽に、かつ使える形で埋めるか
1000- LT+自己紹介（2日目のみ参加の人）

農研機構・横井
農研機構・鐘ケ江
DDBJ 児玉
DDBJ 福田
NIG/DBCLS 川本 (スライドなし）
NBDC 建石

1030- BioSampleとは（DDBJ・児玉 → 福田）
BioSampleメタデータ自動アノテーションの道(小一時間愚痴る)（岡別府）
BioSampleまるでわからん（仮）＞こんにちはBioSample (DBCLS・大田)
微生物の生息環境のアノテーションとヒトコホートのメタゲノム研究（遺伝研・森）
AnnotationとBioSampleとOpenRefine（遺伝研・藤澤）
作る側の意見・使う側の意見
1600〜（時間は当日の状況を見て早めるかも）まとめ
1700ごろ解散

トーク希望リスト

・正しい学名（Scientific Name）著者名入りを生成するための取組について（皆さんと課題を共有したいです）（NITE)

録画よろしく（DBCLS・小野さんに頼む）

みんな、遠慮なくカキコしていいんだよw（by 発起人）

誰かに教えるのもご自由に（Twitterでも）

片方の日だけの参加でもOKです。

開催趣旨

（申請書の文章をコピペする）

NGS（次世代シーケンサー）のデータは公共データベースSequence Read Archive (SRA) として収集・蓄積されているが、各データに対するメタデータ（実験情報。対象生物種、測定機器、処理試薬など）の記述は登録者に委ねられており、ミススペルや用語の不統一がデータ利用の障壁になっている。また、機械学習の分野でもアノテーションに間違いが多ければモデルの学習や評価を含め後のプロセスに致命的な影響を与えてしまうことから、アノテーションの重要性が増してきている。

本研究会での目的は、データベースの管理や利用促進に携わる研究者・担当者と利用する研究者が一堂に会し、現状のデータ、特にアノテーション情報について一丸となって内容の改善や不足データの補足を改めて行うことで、分野の発展のためによりよい環境を構築することである。この目的を具体的に達成するため、以下のような内容で本研究会を実施する。

１．対象参加者はデータ登録や管理、利用技術開発に携わっているDDBJやDBCLSの研究者やアノテーターと、微生物、植物などの各分野でデータを登録・利用しての評価などの有益な議論のできる研究者を想定している。

２．発表や議論の内容は、専門家によるデータ修正候補の洗い出しと提案、現データを用いての遺伝子の機能アノテーション情報を中心としたデータの整理である。特に今回はアノテーションの入力の効率化や新規アノテーションを行うための具体的にアクションについて議論（できれば実践）に焦点を当てる。

集会でアノテーション入力の効率化を検討することにより、精度の良い、大量のアノテーションデータを作ることで、データサイエンス分野での貢献が期待される。

DBCLSはライフサイエンス分野におけるデータベース統合化の拠点であり、SemanticWeb技術を用いてデータの統合化や再利用のための基盤技術開発、ツール開発を進めている。そこで、特にアノテーションの過程における本技術の活用はどうあるべきか議論することにより、生命科学データの統合化が加速できると考えられる。データ登録や管理、利用技術開発者に広く参加してもらうことで、管理者と利用者での有意義な議論や、より迅速なアクションが期待できるためである。

審査コメント

・様々なところで議論されている内容で必要な集会と思えるが、汎用的かつ効率的に問題を整理し実践するためには、集会に先立ち事前準備が重要となる。ただ集まって議論するだけでは物足りない。また、より広い分野から参加者が集まる集会となるよう配慮されたい。

プログラム

（とりあえず予定している内容メモ書き）

・前回作成したアノテーションツールのリスト（ http://bit.ly/annotathon2017list ）をアップデート

内部で報告した時のコメント：どれが標準なの? ワークフローにならないの?
→ 時と場合によりけりなのでそんなものはない

・BioSampleを例に山ほどあるフィールドをいかに楽に、かつ使える形で埋めるか

・（文献などからの）アノテーション作業をいかに効率化するか（どんなツールが必要か）・Semantic Web時代のアノテーション作業とは（アノテーションするそばからRDF化されるような世界にならないか）

・AI時代のアノテーション作業とは（いわゆるAI技術で知識抽出はどこまでできるか）

・GoogleRefine実演

・アノテーター人口を増やすには（アノテーターに求められる技術とは。その技術をどう身につけるか。身につけている人をどう拾い上げるか）

ツールの洗い出し・整理（ゲノムアノテーション/論文アノテーション）

・2017verのツールのリストをアップデートする

・例でもいいのでワークフロー（ツールの組み合わせ）をつくる

・ワークフローに対して不満な点、要望とか、こういうのを組み合わせたらどうか提案

→ パイプラインの青写真の公開

参加者

ご自由に参加表明ください。

もしくはなかざと（ nakazato@dbcls.rois.ac.jp or twitter: @chalkless ）までご連絡を

報告書に参加者リストをつけるのでここにリストをつけています。

飛び込みでも良いです。（ここに名前を載せたくない。都合が直前についた、など）

参加人数を報告するので、ここに名前を載せない場合は、発起人までお知らせいただけると助かります。

※ 5/17（金）までに研究費申請をします。この前後に、今回の申請システムであるJROISからアカウントをつくってほしい旨、連絡が行くかもしれません。とりあえず迷惑メールではないことだけご承知おきください。 → 参加費申請は〆切

※ 話をしたい人（LT可）はご連絡いただくか、上記プログラムのトーク希望リストに書いてください。

仲里猛留（ライフサイエンス統合データベースセンター）・発起人
鐘ケ江弘美（農研機構・農業情報研究センター）・申請者
藤澤貴智（遺伝研）
沖真弥（九大）
川原善浩 (農研機構・次世代作物開発研究センター）
森宙史（遺伝研）
谷澤靖洋（遺伝研）
山本泰智（ライフサイエンス統合データベースセンター）
千葉啓和（ライフサイエンス統合データベースセンター）
池田秀也（ライフサイエンス統合データベースセンター）
守屋勇樹（ライフサイエンス統合データベースセンター）
小野浩雅（ライフサイエンス統合データベースセンター）
藤原豊史（ライフサイエンス統合データベースセンター，1日目だけ）
坊農秀雅（ライフサイエンス統合データベースセンター、1日目のみ）
高月照江（ライフサイエンス統合データベースセンター，1日目だけ）
平木愛子（ライフサイエンス統合データベースセンター）
中村保一（遺伝研）
児玉悠一（遺伝研・生命情報・DDBJセンター）、2日目だけ参加
福田亜沙美（遺伝研・生命情報・DDBJセンター）、2日目だけ参加
横井翔（農研機構・農業情報研究センター・生物機能利用研究部門、2日目だけ参加）
川本祥子（ライフサイエンス統合データベースセンター / 遺伝研）2日目だけ
坂本美佳（遺伝研、2日目だけ参加）
市川夏子（NITE）2日目だけ
北橋優子（NITE）2日目だけ
岡別府陽子 (株式会社OKBP) 2日目だけ
大田達郎（ライフサイエンス統合データベースセンター,2日目だけ）
笠原雅弘（東大, 1日目だけ）
鈴木治夫（慶應義塾大学，2日目だけ）
建石由佳（NBDC）2日目だけ

議事録的メモ

アノテーション・キュレーションとは

アノテーション、キュレーションの定義問題（再燃）

対象：ゲノム、自然言語（文章）、実験試料

アサインするもの（つける注釈）：オントロジー的な（時に階層構造）

方法：シンプルなときはマッピング（使用例：オントロジーマッピング）

自動でやる（＝予測、推定）ときはアノテーション、手動でやるときはキュレーションを使う（岡本定義）

「人工知能（AI）」分野で正解セットをつくるのもアノテーションと呼ぶ

0の状態からスタートだとアノテーション? ある程度、（アノテーションされた）データを修正するのはキュレーション?

結局、（アノテーション、キュレーションの）境界は曖昧なような。。。

http://www.dcc.ac.uk/resources/briefing-papers/introduction-curation/annotation

https://en.wikipedia.org/wiki/Data_curation

形式化 (案 by hc):

操作によってインプットデータからオブジェクトを抽出し、さらに操作によってに対応するを定めるとき、

,を含むプロセス、あるいはそれらの結果として得られるをアノテーションと呼ぶ.

もともとは自然言語で表現されたノート(注釈)のようなものであるが、機械化が進むにつれてcontrolled vocabularyが使われることも多くなった. 単純な場合はは語彙の部分集合となる.

より複雑な場合には、の複数の要素に言及する場合もある. そのとき

(語源はad+note? … そばに書き留める?)

キュレーションも似た用語だが、その用法にばらつきがあるようだ.

特定の方針に基づいて、アノテーションをコントロールすること（品質管理・修正・改善を含む）を、キュレーションと呼ぶことがある. この意味ではキュレーションアノテーション
分野を限定しないより一般的な文脈では、収集した情報を再構成して新たな価値を生み出すプロセス全体を、キュレーションと呼ぶことがある. この意味ではキュレーションアノテーション?

(語源はcur … 気を付ける、心配する、世話をする)

DDBJ 児玉

BioSample 間の relationship を表現する属性

https://www.ebi.ac.uk/biosamples/docs/references/sampletab#_relationships

Relationship Key

same_as

The same physical sample has multiple BioSample records e.g. from different source databases.

derived_from

Where one BioSample was derived from another e.g. blood sample from an individual, genetic modification of a cell line.

child_of

Indicates parentage. Only applicable to sexual organisms; for bacteria see Derived from.