1 of 29

VAE

master en bio-informatique

Mention

Analyse et Modélisation des données

Aurélie Del Cont

2 of 29

Plan de la présentation

ParcoursAcadémique

Publications

Acquisition deConnaissancesDocumentaires

Technicienne en parasitologie et parasitologie depuis 2014

Objectifs de la VAE

FormationContinue

ParcoursProfessionnel

IdentitéProfessionnelle

AssuranceQualité de laDonnée

AnalyseBioinformatique

AnalyseStatistique

3 of 29

Identité Professionnelle

Laboratoire de référence de l’union européenne

Fonctionnaire,Technicienne de�Formation Recherche de Grade�Exceptionnel

Composition de l’équipe

Une cheffe de projet

deux techniciennes

Organisation

Technicienne en�Parasitologie�Moléculaire de l’abeille

Laboratoire de Sophia-Antipolis

Aurélie Del Cont

Unité

Pathologies de�l' Abeille

Nom

Statut

Laboratoire national de référence

LRUE

Poste actuel

LNR

4 of 29

Parcours Académique

1996

2002

2003

Baccalauréat�Scientifique

Maîtrise de�Biochimie

Options SVT / Physique Lycée Dumont D’ Urville

Toulon

Licence �de biochimie

�Université de Nice�Sophia-Antipolis

1999 / 2001

DEUG

Sciences de la vie

et de la terre

�Université de Nice�Sophia-Antipolis

�Université de Nice�Sophia-Antipolis

5 of 29

Parcours professionnel

2006 – 2008

2008 – 2011

2011 – 2013

2014 – present

2004 – 2006

Assistante de recherche clinique

Technicienne�en parasitologie�et entomologie�moléculaire

&�Auditrice�interne

Analyses moléculaires

et�développement de méthodes

Technicienne en pathologies�de l’abeille

&�Auditrice�interne

Technicienne en�bactériologie�et virologie�animale

Technicienne�R&D chez�Virbac

Analyse NGS

bio-statistiques

Reproductibilité

Recherche et�développement�pharmaceutique�vétérinaire

Analyses moléculaires, développement de méthodes

et�gestion des�ressources�biologiques pour les�ruminants

Plusieurs pathogens:

Varroa destructeur , Aethina tumisa , Nosema sp. , Acarapi , trypanosome , tropilaelaps

6 of 29

Formation avancée�en phylogénie�moléculaire

Formation sur les�pipelines bio-�informatiques pour�l'analyse NGS

Formation sur les�principes de la�phylogénie�moléculaire

Formation avancée�en administration de�systèmes Linux

Formation sur les�formats de données�FASTQ et la�plateforme Galaxy

Formation pratique�sur l'analyse de�données Sanger

Formation initiale en�analyse de�séquences�nucléiques et�protéiques

Phylogénie�moléculaire�avancée

Pipelines NGS

�Administration

Linux

FASTQ et Galaxy

Analyse Sanger�SeqStudio

Phylogénie�moléculaire de�base

Analyse bio-�informatique

Formation Continue en Bio-informatique (2012 – 2025 )

Bio-informatique�NGS

Algorithmes et�génomes

Linux de base

Python de base

Python avancé

Assemblage et�annotation de�génome

Formation avancée�en traitement de�données de�séquençage

Cours en ligne sur�les algorithmes bio-�informatiques et la�génomique

Introduction à�l'utilisation de Linux�pour la bio-�informatique

Formation sur�l'assemblage et�l'annotation de�génomes

Formation�approfondie en�programmation�Python pour la bio-�informatique

Cours en ligne sur�les bases du�langage Python

7 of 29

Objectifs de la VAE

Progression de�carrière

Avancer dans sa carrière�grâce à la reconnaissance�et à la valorisation des�compétences.

Valorisation des�compétences

Mettre en valeur et�présenter les compétences�pour les opportunités de�carrière.

Reconnaissance des�connaissances

Identifier et documenter les�compétences et�connaissances acquises.

8 of 29

Analyses NGS

Effectuer des�analyses NGS, y�compris l'annotation�et la phylogénie.

Effectuer une�analyse statistique�des données�collectées à l'ANSES.

Automatiser les�workflows en�utilisant Linux,�Galaxy et Python.

Créer des rapports�et publier les�résultats de la�recherche.

Encadrement de�stagiaires

BTS au doctorant

Rapport et�Publication

Automatisation�des Workflows

Analyses�Statistiques

Technicienne en parasitologie et parasitologie depuis 2014

Référente bio-�informatique du�laboratoire

Fournir un soutien�scientifique et�technique à l'équipe.

Soutien�Scientifique

Audit Interne

Réaliser des audits�internes pour le�laboratoire.

Accréditation COFRAC

Développer de�nouvelles méthodes�pour la parasitologie�moléculaire à�l'ANSES.

Développement�de Méthodes

9 of 29

Nosema Spore�Detection

Analysis of the�mitochondrial genome of�Aethina Tumida

Methods for detecting�and quantifying Nosema�spores

Mitochondrial�Genome of�Aethina Tumida

Tropilaelaps Mite�Identification

Molecular techniques for�identifying Nosema�species

Techniques for identifying�Tropilaelaps mites

Genetic Diversity�of Aethina�Tumida

Tau-Fluvalinate�Resistance

Study on Varroa mite�resistance to Amitraz

Exploration of genetic�variations in Aethina�Tumida

Investigation of Varroa�mite resistance to Tau-�Fluvalinate

Amitraz�Treatment�Resistance

Molecular�Methods for�Nosema

Publications

10 of 29

Rapporter les�résultats

Filtrer les�documents

Organiser le�travail

Identifier les�besoins de�recherche

Gérer les�documents

Définir les objectifs�de veille

Consulter des�ressources

Processus d'acquisition de connaissances�bibliographiques

11 of 29

Processus de collecte et d'analyse de données�scientifiques

Identifier les�flux RSS

Créer un fichier�OPML

Importer le�fichier OPML

Configurer des�alertes par e-�mail

Trouver des�liens RSS sur�les sites web

Développer un�script Python

Organiser les�flux RSS dans�un fichier

Exécuter le�script Python

Ajouter le�fichier OPML à�Outlook

Mettre en place�des alertes�pour les sites�sans RSS

Automatiser la�recherche de�données avec�Python

Lancer le script�pour collecter�des données

12 of 29

Amélioration des�compétences en�programmation

Processus�d'assemblage

Analyses de�données NGS

Apprentissage de�Snakemake et�Galaxy

Génomique�comparative et�évolutive

Gestion des fichiers

Fouille de données�et annotation

Processus d'analyse bio-informatique

13 of 29

ACP sous RStudio

Génération de plan�sous Python

Régression linéaire�simple

Classification�supervisée et�clustering

Analyse sous�Jamovi

Régression linéaire�multiple

ACP sous Jamovi

Conception�expérimentale

Processus d'analyse biostatistique

14 of 29

Cycle d'assurance qualité des données

Mener un audit�interne

Évaluer les processus�de données pour les�lacunes

Appliquer les�pratiques FAIR

Assurer la�traçabilité des�données

Rendre les données�trouvables,�accessibles,�interopérables et�réutilisables

Suivre l'origine et les�modifications des�données

Assurer la�répétabilité des�données

Assurer la�reproductibilité des�données

Confirmer que les�données peuvent être�obtenues de manière�cohérente

Vérifier que les�données peuvent être�reproduites de manière�cohérente

Données numeriques

15 of 29

NCBI

Expertise en Bio-informatique VS Master

Ensembl

Jamovi

BOLD

RStudio

Galaxy

Régression Linéaire

Publication en premier auteur

Conda

Clustering

Bandage

Construction d'Arbres

Bash

Rédaction de Comptes Rendus

Python

Participation à des Publications

R

Conduite de Projets Collectifs

Analyse Statistique

Expertise en�Bio-�informatique

Compétences en Programmation

Communication et Collaboration

Outils et Logiciels

Analyse Phylogénétique

16 of 29

Bilan de la VAE et avenir :

Évaluation des�compétences

Réflexion

Structuration

Identification�des forces

Avancement de�carrière

Révision des�connaissances et�compétences�acquises

Analyse du parcours�professionnel et des�outils

Organisation des�connaissances et de�la pratique�professionnelle

Reconnaissance de�la curiosité�scientifique

Nouvelles�opportunités et�responsabilités

17 of 29

Git

Orcid

Rajouter arbre phylo en image pour imag

Slide 13 : rajouter deep learning

Mettre logo auvergne

Rajouter endnote pour publ

18 of 29

MERCI �pour votre attention

  • Merci

19 of 29

Comment ajouter des ReadGroups ?

  • Au niveau des paramètres du mapper :

Bwa : " -R @RG\tID:ID\tSM:SAMPLE_NAME\tPL:Illumina\tPU:PU\tLB:LB"

Bowtie2 : "--rg-id ID --rg SM:SAMPLE_NAME --rg PL:Illumina --rg PU:PU --rg LB:LB"

19

$ module load gatk4/4.2.3.0

$ gatk AddOrReplaceReadGroups --version # affiche la version (Picard v2.25.4)

$ gatk AddOrReplaceReadGroups --help # affiche l'aide

$ sbatch -J addRG -o logs/addRG.out -e logs/addRG.err --wrap=" \

gatk AddOrReplaceReadGroups -I SRR1262731_extract.sort.bam \

--RGID 1 --RGPL Illumina --RGPU PU --RGSM SRR1262731 --RGLB LB \

-O SRR1262731_extract.sort.rg.bam"

  • Avec l’outil AddOrReplaceReadGroups de la suite PicardTools intégrée à GATK4

20 of 29

Marquage des duplicats de PCR

  • Identifier les reads provenant d’une même molécule issus de :

PCR duplicates : amplification PCR durant la préparation de la librairie

Optical duplicates : cluster illumina identifié comme deux clusters

20

21 of 29

Marquage des duplicats de PCR

Garder les duplicats : probabilité importante de confondre les duplicats avec des fragments biologiques issus du même locus

Marquer les duplicats mais les conserver dans le fichier BAM

Supprimer les duplicats du fichier BAM : certains outils les supprimeront par défaut (samtools, GATK…)

Avec l’outil MarkDuplicates de la suite PicardTools intégrée à la suite GATK4

21

$ gatk MarkDuplicates --help # affiche l’aide

$ sbatch -J markDup -o logs/markDup.out -e logs/markDup.err --mem=8G --wrap=" \

gatk MarkDuplicates --java-options '-Xmx8G' \

-I SRR1262731_extract.sort.rg.bam --VALIDATION_STRINGENCY SILENT \

-O SRR1262731_extract.sort.rg.md.bam -M SRR1262731_extract_metrics_md.txt"

22 of 29

Marquage des duplicats de PCR

Garder les duplicats : probabilité importante de confondre les duplicats avec des fragments biologiques issus du même locus

Marquer les duplicats mais les conserver dans le fichier BAM

Supprimer les duplicats du fichier BAM : certains outils les supprimeront par défaut (samtools, GATK…)

22

$ sbatch -J flagstat2 -o logs/flagstat2.out -e logs/flagstat2.err --wrap=" \

samtools flagstat SRR1262731_extract.sort.rg.md.bam \

> SRR1262731_extract.md.flagstat.txt"

$ cat SRR1262731_extract.md.flagstat.txt # nombre de duplicats

$ grep -A1 "LIBRARY" SRR1262731_extract_metrics_md.txt # % de pcrDup

# Bonus

$ grep -A1 "LIBRARY" SRR1262731_extract_metrics_md.txt | awk 'NR==2{printf("%.2f\n",$(NF-1)*100)}'

23 of 29

Recalibration du score de qualité des bases

  • Erreurs systématiques dans l’assignement des scores de qualité des bases ppar les séquenceurs

Bias systématique : sur ou sous-estimation des scores de qualité.

  • Corriger les biais d’assignement des scores de qualités des séquenceurs

Recalibration des valeurs :

  • en construisant un modèle d’erreur en utilisant des variants connus
  • puis en appliquant des ajustements à notre set de données().

Avec les outils BaseRecalibrator et ApplyBQSR de la suite GATK4

23

24 of 29

Recalibration du score de qualité des bases

24

$ gatk BaseRecalibrator --help # affiche l’aide

$ sbatch -J Dict -o logs/dict_vcf.out -e logs/dict_vcf.err --mem=8G --wrap=" \

gatk IndexFeatureFile --java-options '-Xmx8G' \

-I ~/tp_variant/additional_data/bos_taurus.6.vcf"

$ sbatch -J BaseRecal -o logs/baseRecal.out -e logs/baseRecal.err --mem=8G --wrap=" \

gatk BaseRecalibrator --java-options '-Xmx8G' \

-I SRR1262731_extract.sort.rg.md.bam \

-R ~/tp_variant/genome/Bos_taurus.UMD3.1.dna.toplevel.6.fa \

-O SRR1262731_extract.sort.rg.md.bqsr.report \

--known-sites ~/tp_variant/additional_data/bos_taurus.6.vcf"

25 of 29

Recalibration du score de qualité des bases

25

$ gatk ApplyBQSR --help # affiche l’aide

$ sbatch -J BQSR -o logs/BQSR.out -e logs/BQSR.err --mem=8G --wrap=" \

gatk ApplyBQSR --java-options '-Xmx8G' \

-I SRR1262731_extract.sort.rg.md.bam \

-R ~/tp_variant/genome/Bos_taurus.UMD3.1.dna.toplevel.6.fa \

--bqsr-recal-file SRR1262731_extract.sort.rg.md.bqsr.report \

-O SRR1262731_extract.sort.rg.md.bqsr.bam"

26 of 29

Filtres sur les alignements

Restreindre le fichier BAM en fonction de métriques d’alignements :

  • qualité de mapping (MAPQ) suffisante
  • retrait des reads non mappés

Pour utiliser le paramètre -F : plus d’information sur les SAM Flags

26

# Suppression des reads non mappés et filtre sur les reads avec MAPQ < 30

$ sbatch -J qualFilter -o logs/qualFilter.out -e logs/qualFilter.err --wrap=" \

samtools view -bh -F 4 -q 30 SRR1262731_extract.sort.rg.md.bqsr.bam \

> SRR1262731_extract.sort.rg.md.bqsr.filt.bam"

$ sbatch -J flagstat3 -o logs/flagstat3.out -e logs/flagstat3.err --wrap=" \

samtools flagstat SRR1262731_extract.sort.rg.md.bqsr.filt.bam \

> SRR1262731_extract.filt.flagstat.txt"

$ cat SRR1262731_extract.filt.flagstat.txt

27 of 29

Filtres sur les alignements

Restreindre le fichier BAM en fonction de métriques d’alignements :

  • alignements intersectant les régions d’intérêt
  • en fonction du nombre de mismatchs, de la taille d’insert, de paires mappées sur des chromosomes différents…

27

# Conservation des alignements dans les régions ciblées

$ module load bedtools/2.29.2

$ bedtools --version # affiche la version (v2.29.2)

$ bedtools intersect --help # affiche l’aide

$ sbatch -J interBed -o logs/interBed.out -e logs/interBed.err --wrap=" \

bedtools intersect -a SRR1262731_extract.sort.rg.md.bqsr.filt.bam \

-b ~/tp_variant/additionnal_data/QTL_BT6.bed \

> SRR1262731_extract.sort.rg.md.bqsr.filt.onTarget.bam"

$ sbatch -J bamIndex -o logs/bamIndex.out -e logs/bamIndex.err --wrap=" \

samtools index SRR1262731_extract.sort.rg.md.bqsr.filt.onTarget.bam"

28 of 29

Analyse de la couverture

Contrôle qualité de l’enrichissement de ma capture :

→ Est-ce que ma région est couverte par suffisamment de reads ?

→ Cette couverture est-elle homogène sur toute la région ?

28

29 of 29

Analyse de la couverture

Contrôle qualité de l’enrichissement de ma capture :

→ Est-ce que ma région est couverte par suffisamment de reads ?

→ Cette couverture est-elle homogène sur toute la région ?

29

# Calcul de la couverture avec samtools

$ samtools depth --help # affiche l’aide

$ sbatch -J bamDepth -o logs/bamDepth.out -e logs/bamDepth.err --wrap=" \

samtools depth -b ~/tp_variant/additionnal_data/QTL_BT6.bed \

SRR1262731_extract.sort.rg.md.bqsr.filt.onTarget.bam \

> SRR1262731_extract.onTarget.depth.txt"

$ head SRR1262731_extract.onTarget.depth.txt