1 of 29

SPARQLthon114

2022/3/17-18

#wrap-up は2日目17:00からZoomで行います

Wiki に名前を書いてください

2 of 29

ラップアップ

3 of 29

プロジェクト名(担当者)

課題

  • hoge

対応

  • fuga

今後

  • moge

4 of 29

TogoID - EnsemblPlants など(TogoID group)

課題

  • 植物分野(PlantGARDEN, KNApSAcK)でよく使われてる ID を入れたい

対応

  • Ensembl Genomes に対応すれば良い
    • EnsemblPlants だけじゃなく、EnsemblMetazoa/Protists/Fungi/Bacteria も同時に対応できる

問題

  • Ensembl は Gene ID, Transcript ID, Protein ID 間で ID がユニークになっていないものもある
    • identifiers.org の prefix だと URI にならない
    • rdf.ebi.ac.uk/resource だと gene, transcript, protein を分けれられるけど、EBI RDF がディスコン
    • サブ DB 間で ID がユニーク保証されてるかどうかも不明
  • 詳細スライド

今後

  • 即時解決は難しい
  • 対応を協議していく

5 of 29

TogoID-config (DBCLS)

  • データセット間のリンクにTogoID ontology (TIO)を使うようになった
  • UI改訂、TIOで変換の意味を表示
  • APIの整理
  • 論文化

6 of 29

TogoVar開発とJVar連携 (片山・藤澤・開発メンバ)

  • 今年度
    • Advanced search
    • Gene view
    • Disease view
  • 来年度
    • データ拡充
    • GRCh38対応
    • MGeND対応
    • SV対応、GVO,バリデーション (gnomAD SV, dbVar, 国内のSV取り込み)
    • JVarのデータの格納先としての連携を検討

7 of 29

RDF-config (西澤・片山)

複数のconfigを組み合わせたSPARQLの生成

rdf-config --config config/nbrc config/pgdbj

--join nbrc:taxid=pgdbj:taxon

--query nbrc:Culture nbrc:label pgdbj:Group pgdbj:identifier pgdbj:description nbrc:taxid pgdbj:taxon

8 of 29

TogoDX-TPP/連携検索システム(平川、藤澤、守屋、信定)

課題

  • 植物、微生物、メタボロームデータ統合

対応

  • togoDX-TPPのバーの追加
    • Metagenome hostのバー追加(守屋)
  • embulk-input-sparqlから各SPARQL ep.を利用するとTimeOutや期待しないContent-typeが返ってきたりで大量データを取得でいないのでvirtuoso.dbを集めてVirtuosoコンテナを立ててサーバ側で実行(藤澤)
  • 検索UI検討(守屋、藤澤)
    • Homo sapiensにたどり着くまでが深いのでTaxonomic rankをもう少し間引くか、連携検索側でキーワード+TogoDXのバーを選択した際、以下のようなURLを再構成してTogoDX側に遷移させるとよさそう
      • https://sparql-support.dbcls.jp/dxsk/build/?dataset=ensembl_gene&annotations=%5B%5D&filters=%5B%7B%22attribute%22%3A%22microbedbjp_metagenome_host_biosample%22%2C%22nodes%22%3A%5B%7B%22node%22%3A%229606%22%2C%22path%22%3A%5B%222759%22%2C%2233208%22%2C%227711%22%2C%2240674%22%2C%229443%22%2C%229604%22%2C%229605%22%5D%7D%5D%7D%5D
    • モックイメージから連携検索システムUI詳細を検討(平川、藤澤)

確認

  • TOGOシリーズのロゴを利用させてもらって良いでしょうか?→3/23 永野さんにご承諾いただいた。

今後

  • 連携検索システムUIに対するフィードバックと対応
    • データセットのキーワード→IDに加えてバー選択のインタフェース追加
    • キーワードからDatasetの要素のname→IDに加えてバー(TogoDX attributes)の値を検索対象に含める
    • 第二キーワードのAND/ORの仕様

9 of 29

Ortholog/Geneの課題について情報共有(藤澤、平川、櫛田、千葉、KNApSAcK RDF/TogoDX-TPP開発メンバー)

課題

  • KNApSAcK RDFのユースケースの議論の延長で植物・微生物のOrtholog/Geneを扱う上で各種課題があるのでまずは情報共有

対応

  • SIP、RIKEN、TogoDX-human, TogoDX-TPP(植物、微生物)で扱っているオーソログDBやRDFの状況、リソース自体の課題など、それぞれ課題の差異など、千葉さんと相談する機会を作った 3/10
    • #ortholog チャンネルを作りました。
  • PlantGARDEN(平川)
    • KusakiDBのCluster IDがOrthoDB Cluster IDベース
    • HayaiAnnotationでPlantGARDEN Geneに対してUniProtトップヒットをマッピング
    • PlantGARDENで、そもそもGeneIDがない、ゲノムを跨ぐとコミュニティーベースのGeneIDはユニークにならない
    • 平川さんがクラスタリングした結果のGeneは、種名+属名のそれぞれ2文字の計4文字をprefixにつけてユニーク化した
    • UniProt Proteome or INSDC/RefSeq or EnsEMBLを経由する場合、コミュニティーベースの遺伝子がアノテーションされない可能性がる
    • コミュニティーベースのGene IDの問題をどうするか
  • MicrobeDB.jp(藤澤)
    • MBGD Cluster ID — member Gene がNCBI gene ID と UniProt Entry IDを持っている
    • メタゲノム解析はKOアサインでRDFになっているが 、RDFとして再利用する場合、NCBI gene IDに置き換える必要がある
  • 理研(櫛田)
    • OMAに含まれてない植物種に拡張
    • 千葉さんにもはいってもらっているので、必要に応じて情報共有
  • OrthlogDB Cluster間のマッピングも課題

今後

  • 課題の解決など各データベースで解決など必要に応じて情報共有

10 of 29

Ponpon API(山中)

  • グラフデータベースのメリットを知るため RDF から変換した Taxonomy データを Neo4j にロードして使ってみる試み
  • 与えられた生物種から Homo Sapiens までの経路を(秒で)可視化する Blitzboard
  • Neo4j はパスを返してくるがその JSON にエッジの方向が含まれていない(!!)ためお互いの祖先を知ることができなかった
  • 代替として(エッジの方向も教えてくれる)Ponpon API 開発の必要を再認識
  • ぽんぽんに相談

11 of 29

MetaStanza (片山・川島・守屋・PENQE・えにしテック)

LODチャレンジ2021 データ活用部門 優秀賞 授賞式 (2022-03-13) で発表

発表スライド

  • デモしていたらいくつか気になる点があったので修正中
  • 新規MetaStanza開発進行中 (PENQE)

12 of 29

全体連絡

13 of 29

今月のSPARQL

募集中

14 of 29

TODO

  • 今後の SPARQLthon の日程調整
    • SPARQLthon 115: 4/14-15
    • SPARQLthon 116: 5/19-20
  • 来年度の国内版BH会場
    • 高知 or 和歌山 9/5(月)-9(金)
  • 次回からは Wiki に早めの記名をお願いします!(会議費申請のため)�*来月参加が決まっている方は、すぐに書き込んで頂けると助かります

15 of 29

以下はSPARQLthon113のコピー

(書き換えたら全体連絡のスライドより前の方にスライドを移動してください)

16 of 29

SPARQL support(守屋)

  • Endpoint brower に endpoint と初期 node コピペするの面倒
  • SPARQL support から Endpoint browser へ連絡
    • 結果のリンクをそのままクリック > DESCRIBE
    • MouseOver & OptionKey & クリック(仮) > Endpoint browser
    • 例: https://is.gd/rttUmb
    • リテラルでも OK
  • 結果の value が RDF にあるものか、 クエリ内で生成されたのかは

判断できない(けど別にいいや)

Endpoint browser

17 of 29

SRA Search連携(仲里、大田、大石、藤澤)

課題

  • バックエンドの共用化

対応

  • NIGスパコンにddbj-dbclsグループを作成
  • DDBJ Search本番環境のElasticsearchが参照するデータを大田さんに共有

今後

  • IDリレーション+BioProject-Pubmed/DOIの処理系の実装

18 of 29

SPARQL-GA(石井・守屋・片山)

  • Virtuosoの実行計画が残念で、手でトリプルパターンを並べ替えつつ、DEFINE sql:select-option "order"を付けるなどの工夫が必要なことが(経験的に)多い
  • GAを使って join の順番を入れ替えて最速のクエリを生成
  • レポジトリをDBCLSへ移管しました。
      • https://github.com/dbcls/sparql-ga
      • ドキュメントはこのあと、マージしますが、今はここにあります。
  • 今後いろんな構造のクエリへの対応を進めていく

DEFINE sql:select-option "order"

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

PREFIX ncbigene: <http://identifiers.org/ncbigene/>

PREFIX dct: <http://purl.org/dc/terms/>

PREFIX obo: <http://purl.obolibrary.org/obo/>

SELECT DISTINCT ?gene ?type ?refseq

WHERE {

?gene obo:so_part_of ?refseq .

?gene dct:identifier "BRCA1" .

?gene rdfs:seeAlso ncbigene:672 .

?gene rdfs:subClassOf ?type .

}

https://is.gd/L6y72u

十数秒

DEFINE sql:select-option "order"

PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>

PREFIX ncbigene: <http://identifiers.org/ncbigene/>

PREFIX dct: <http://purl.org/dc/terms/>

PREFIX obo: <http://purl.obolibrary.org/obo/>

SELECT DISTINCT ?gene ?type ?refseq

WHERE {

?gene rdfs:seeAlso ncbigene:672 .

?gene rdfs:subClassOf ?type .

?gene obo:so_part_of ?refseq .

?gene dct:identifier "BRCA1" .

}

https://is.gd/gzXMPd

1秒以下

19 of 29

RDF-config(片山・西澤)

課題

  • データセットをまたぐSPARQLクエリを生成したい
    • --sparql は sparql.yaml から定義されたクエリを読み込む、--query オプションで sparql.yaml の variables と parameters を上書きできるようにする
    • --sparql と --sparql-url の対称性を壊さずに --query を導入するには、--sparql-url の仕様も再検討が必要

対応

  • --endpoint エンドポイント名
    • → 新設する、--endpointオプションがない場合はデフォルトの endpoint: を利用
      • (エンドポイント名を省略した場合は Usage が表示される)
  • --sparql クエリ名[:エンドポイント名] を選択
    • → --sparql クエリ名 の選択だけに変更する(エンドポイントの選択は↑のオプションに移行)
      • (クエリ名を省略した場合は Usage が表示される)
  • --query 変数名=値 (のリスト)で sparql.yaml の parameters を上書き
  • --query 変数名 (のリスト) で sparql.yaml の variables を上書き
  • --query が --sparql クエリ名 と併用された場合
    • → クエリ名で指定された内容に --query で指定された variables, parameters を追加
  • --sparql オプションが指定されていない場合
    • → --query の variables, parameters だけから SPARQL を生成
  • --url 
    • → 引数を取らないオプションとして新設
      • (もうちょっとマシな名前はないか→思いつくまでは諦める)

20 of 29

TogoDX-SPARQList(守屋・片山)

課題

  • TogoDX の SPARQList 版を小さなデータセットでも良いので維持しておく(気仙沼の港に沈めたはず。でもお手軽 DX として残しておいても良いのか)

対応

  • 維持コストを下げる
  • TogoDX-server に合わせて breakdown, locate, aggregate, dataframe 4つの API を中心に維持する
  • Parameter, key name を追随

今後

  • その他必要そうな Togoid sparqlist 版や各 attribute の sparqlist も整理して入出力を合わせる
  • TogoDX-Human 全部での維持は手間なので適切なデータを探す
  • Human 特化コードなを取り除く

21 of 29

jPOSTbd RDF コンバータ(田中・守屋)

課題

  • Suffix array ライブラリが動かないので peptide-protein mapping ができない
    • 出来合いのツール(PIR peptide match)に変更
  • 高速なタンパク質推定を新規開発(済:田中)
  • RDF コンバータもこれらを使ったものに置き換える

今日の作業

  • スキーマの確認等、打ち合わせ

今後

  • 粛々と作成

22 of 29

ICGC.LINK(山中)

  • BH21.8 の続き(スライド
  • 作成済の RDFデータ が Virtuoso に正常にロードできることを確認した

23 of 29

Ponpon API(山中)

  • Taxonomy データを Neo4j にロード
    • G2GML で RDF >> PG
    • PG2Neo で Neo4j 用に変換してロード
  • パスを検索する REST API を作るのが目標
    • とりあえず Blitzboard で可視化
    • どこで使えるかぽんぽんに相談

24 of 29

SRA Search連携(仲里、大田、大石、藤澤)

課題

  • バックエンドの共用化

対応

  • DDBJ SearchのElasticsearchを共有
  • IDリレーション+BioProject-Pubmed/DOIの処理系の実装

今後

  • DBCLSーDDBJ連携
    • 検索・可視化(バックエンド・フロントエンドの共用化)
      • SRA Search
      • GGGenome
      • BodyParts3D
    • Workflow(スパコン利用促進、インターフェースの共通化)
      • sapporo
    • リソース・キュレーション・登録支援(登録・検索高度化)
      • TogoAnnotator
      • BioSample RDF
    • サービス毎に連携感をだしていけるとよさそう。

25 of 29

SARS-CoV-2可視化(片山、中川、藤澤)

課題

  • 解析と可視化

対応

  • 解析データと可視化の議論(中川)
  • 解析をする上で静岡県データを含めるために解析に含めるため静岡県の昨年度ゲノムデータを公開準備(森、谷澤、浅野)

今後

  • DDBJ or 遺伝研 or COVID-19データポータル

26 of 29

MetaboBank(藤澤、長崎、福島)

  • MAGE-TAB(https://www.ddbj.nig.ac.jp/gea/example.html IDF/SDRF/MAF)形式のファイルによる登録
  • かずさ、理研のデータのMAGE-TAB化>優先課題と認識着手中。
  • ゲノムや発現データと関連づいた代謝物データ(かずさ、理研、その他公開されている)の再解析 > PowerGetBatch(かずさの解析ツール)のパラメータ設定(京大生存圏研、荒さんと)>上記優先でペンディング

27 of 29

TogoStanza(えにしテック・DBCLS)

  • 新機能
  • イベント連携
    • X, Y, Z軸の選択とチャートの連携
    • パンくずリスト的な階層ブラウザとツリー系の可視化の連携 (PENQE)
    • Pagenation tableとBarchartなどの連携 (今後)
  • その他
    • OpenStanzaもMetaStanzaと共通のTogoStanza-utilsにあるloadData()に移行した
      • タイムアウト10分(に拡張)
    • NetaStanza募集中

28 of 29

MetaStanza(PENQE・DBCLS)

  • チャートの更新
    • Barchart, LinechartなどをVegaからD3.jsでの実装に変更中
      • エラーバー表示などに対応中
  • チャートの追加
    • Column tree: macOSのFinderのカラムブラウザのようなツリーブラウザ
    • Venn diagram: 5セットまでのベン図
    • Sunburst, Treemap: ツリー系の可視化
  • その他
    • B-dashに負けないぞ〜

29 of 29

RDF-config(片山・西澤)

課題

  • データセットをまたぐSPARQLクエリを生成したい

対応

  • --config configディレクトリ、のリスト
  • --join config名:変数名=config名:変数名、のリスト
  • --query [config名:]変数名 もしくは [config名:]変数名=値、のリスト
  • (この場合 --sparql で 変数名=値 を受け付けていたのをやめて --query に機能を移管)
  • (まずは、configごとにエンドポイントが違う場合はエラーとする)