VAE
master en bio-informatique
Mention
Analyse et Modélisation des données
Aurélie Del Cont
Plan de la présentation
Parcours�Académique
Publications
Acquisition de�Connaissances�Documentaires
Technicienne en parasitologie et parasitologie depuis 2014
Objectifs de la �VAE
Formation�Continue
Parcours�Professionnel
Identité�Professionnelle
�Assurance�Qualité de la�Donnée
Analyse�Bioinformatique
Analyse�Statistique
Identité Professionnelle
Laboratoire de référence de l’union européenne
Fonctionnaire,Technicienne de�Formation Recherche de Grade�Exceptionnel
Composition de l’équipe
Une cheffe de projet
deux techniciennes
Organisation
Technicienne en�Parasitologie�Moléculaire de l’abeille
Laboratoire de Sophia-Antipolis
Aurélie Del Cont
Unité
Pathologies de�l' Abeille
Nom
Statut
Laboratoire national de référence
LRUE
Poste actuel
LNR
Parcours Académique
1996
2002
2003
Baccalauréat�Scientifique
Maîtrise de�Biochimie
Options SVT / Physique Lycée Dumont D’ Urville
Toulon
Licence �de biochimie
�Université de Nice�Sophia-Antipolis
1999 / 2001
DEUG
Sciences de la vie
et de la terre
�Université de Nice�Sophia-Antipolis
�Université de Nice�Sophia-Antipolis
Parcours professionnel
2006 – 2008
2008 – 2011
2011 – 2013
2014 – present
2004 – 2006
Assistante de recherche clinique
Technicienne�en parasitologie�et entomologie�moléculaire
&�Auditrice�interne
Analyses moléculaires
et�développement de méthodes
Technicienne en pathologies�de l’abeille
&�Auditrice�interne
Technicienne en�bactériologie�et virologie�animale
Technicienne�R&D chez�Virbac
Analyse NGS
bio-statistiques
Reproductibilité
Recherche et�développement�pharmaceutique�vétérinaire
Analyses moléculaires, développement de méthodes
et�gestion des�ressources�biologiques pour les�ruminants
Plusieurs pathogens:
Varroa destructeur , Aethina tumisa , Nosema sp. , Acarapi , trypanosome , tropilaelaps
Formation avancée�en phylogénie�moléculaire
Formation sur les�pipelines bio-�informatiques pour�l'analyse NGS
Formation sur les�principes de la�phylogénie�moléculaire
Formation avancée�en administration de�systèmes Linux
Formation sur les�formats de données�FASTQ et la�plateforme Galaxy
Formation pratique�sur l'analyse de�données Sanger
Formation initiale en�analyse de�séquences�nucléiques et�protéiques
Phylogénie�moléculaire�avancée
Pipelines NGS
�Administration
Linux
FASTQ et Galaxy
Analyse Sanger�SeqStudio
Phylogénie�moléculaire de�base
Analyse bio-�informatique
Formation Continue en Bio-informatique (2012 – 2025 )
Bio-informatique�NGS
Algorithmes et�génomes
Linux de base
Python de base
Python avancé
Assemblage et�annotation de�génome
Formation avancée�en traitement de�données de�séquençage
Cours en ligne sur�les algorithmes bio-�informatiques et la�génomique
Introduction à�l'utilisation de Linux�pour la bio-�informatique
Formation sur�l'assemblage et�l'annotation de�génomes
Formation�approfondie en�programmation�Python pour la bio-�informatique
Cours en ligne sur�les bases du�langage Python
Objectifs de la VAE
Progression de�carrière
Avancer dans sa carrière�grâce à la reconnaissance�et à la valorisation des�compétences.
Valorisation des�compétences
Mettre en valeur et�présenter les compétences�pour les opportunités de�carrière.
Reconnaissance des�connaissances
Identifier et documenter les�compétences et�connaissances acquises.
Analyses NGS
Effectuer des�analyses NGS, y�compris l'annotation�et la phylogénie.
Effectuer une�analyse statistique�des données�collectées à l'ANSES.
Automatiser les�workflows en�utilisant Linux,�Galaxy et Python.
Créer des rapports�et publier les�résultats de la�recherche.
Encadrement de�stagiaires
BTS au doctorant
Rapport et�Publication
Automatisation�des Workflows
Analyses�Statistiques
Technicienne en parasitologie et parasitologie depuis 2014
Référente bio-�informatique du�laboratoire
Fournir un soutien�scientifique et�technique à l'équipe.
Soutien�Scientifique
Audit Interne
Réaliser des audits�internes pour le�laboratoire.
Accréditation COFRAC
Développer de�nouvelles méthodes�pour la parasitologie�moléculaire à�l'ANSES.
Développement�de Méthodes
Nosema Spore�Detection
Analysis of the�mitochondrial genome of�Aethina Tumida
Methods for detecting�and quantifying Nosema�spores
Mitochondrial�Genome of�Aethina Tumida
Tropilaelaps Mite�Identification
Molecular techniques for�identifying Nosema�species
Techniques for identifying�Tropilaelaps mites
Genetic Diversity�of Aethina�Tumida
Tau-Fluvalinate�Resistance
Study on Varroa mite�resistance to Amitraz
Exploration of genetic�variations in Aethina�Tumida
Investigation of Varroa�mite resistance to Tau-�Fluvalinate
Amitraz�Treatment�Resistance
Molecular�Methods for�Nosema
Publications
Rapporter les�résultats
Filtrer les�documents
Organiser le�travail
Identifier les�besoins de�recherche
Gérer les�documents
Définir les objectifs�de veille
Consulter des�ressources
Processus d'acquisition de connaissances�bibliographiques
Processus de collecte et d'analyse de données�scientifiques
Identifier les�flux RSS
Créer un fichier�OPML
Importer le�fichier OPML
Configurer des�alertes par e-�mail
Trouver des�liens RSS sur�les sites web
Développer un�script Python
Organiser les�flux RSS dans�un fichier
Exécuter le�script Python
Ajouter le�fichier OPML à�Outlook
Mettre en place�des alertes�pour les sites�sans RSS
Automatiser la�recherche de�données avec�Python
Lancer le script�pour collecter�des données
Amélioration des�compétences en�programmation
Processus�d'assemblage
Analyses de�données NGS
Apprentissage de�Snakemake et�Galaxy
Génomique�comparative et�évolutive
Gestion des fichiers
Fouille de données�et annotation
Processus d'analyse bio-informatique
ACP sous RStudio
Génération de plan�sous Python
Régression linéaire�simple
Classification�supervisée et�clustering
Analyse sous�Jamovi
Régression linéaire�multiple
ACP sous Jamovi
Conception�expérimentale
Processus d'analyse biostatistique
Cycle d'assurance qualité des données
Mener un audit�interne
Évaluer les processus�de données pour les�lacunes
Appliquer les�pratiques FAIR
Assurer la�traçabilité des�données
Rendre les données�trouvables,�accessibles,�interopérables et�réutilisables
Suivre l'origine et les�modifications des�données
Assurer la�répétabilité des�données
Assurer la�reproductibilité des�données
Confirmer que les�données peuvent être�obtenues de manière�cohérente
Vérifier que les�données peuvent être�reproduites de manière�cohérente
Données numeriques
NCBI
Expertise en Bio-informatique VS Master
Ensembl
Jamovi
BOLD
RStudio
Galaxy
Régression Linéaire
Publication en premier auteur
Conda
Clustering
Bandage
Construction d'Arbres
Bash
Rédaction de Comptes Rendus
Python
Participation à des Publications
R
Conduite de Projets Collectifs
Analyse Statistique
Expertise en�Bio-�informatique
Compétences en Programmation
Communication et Collaboration
Outils et Logiciels
Analyse Phylogénétique
Bilan de la VAE et avenir :
Évaluation des�compétences
Réflexion
Structuration
Identification�des forces
Avancement de�carrière
Révision des�connaissances et�compétences�acquises
Analyse du parcours�professionnel et des�outils
Organisation des�connaissances et de�la pratique�professionnelle
Reconnaissance de�la curiosité�scientifique
Nouvelles�opportunités et�responsabilités
Git
Orcid
Rajouter arbre phylo en image pour imag
Slide 13 : rajouter deep learning
Mettre logo auvergne
Rajouter endnote pour publ
MERCI �pour votre attention
Comment ajouter des ReadGroups ?
Bwa : " -R @RG\tID:ID\tSM:SAMPLE_NAME\tPL:Illumina\tPU:PU\tLB:LB"
Bowtie2 : "--rg-id ID --rg SM:SAMPLE_NAME --rg PL:Illumina --rg PU:PU --rg LB:LB"
19
$ module load gatk4/4.2.3.0
$ gatk AddOrReplaceReadGroups --version # affiche la version (Picard v2.25.4)
$ gatk AddOrReplaceReadGroups --help # affiche l'aide
$ sbatch -J addRG -o logs/addRG.out -e logs/addRG.err --wrap=" \
gatk AddOrReplaceReadGroups -I SRR1262731_extract.sort.bam \
--RGID 1 --RGPL Illumina --RGPU PU --RGSM SRR1262731 --RGLB LB \
-O SRR1262731_extract.sort.rg.bam"
Marquage des duplicats de PCR
→ PCR duplicates : amplification PCR durant la préparation de la librairie
→ Optical duplicates : cluster illumina identifié comme deux clusters
20
Marquage des duplicats de PCR
→ Garder les duplicats : probabilité importante de confondre les duplicats avec des fragments biologiques issus du même locus
→ Marquer les duplicats mais les conserver dans le fichier BAM
→ Supprimer les duplicats du fichier BAM : certains outils les supprimeront par défaut (samtools, GATK…)
Avec l’outil MarkDuplicates de la suite PicardTools intégrée à la suite GATK4
21
$ gatk MarkDuplicates --help # affiche l’aide
$ sbatch -J markDup -o logs/markDup.out -e logs/markDup.err --mem=8G --wrap=" \
gatk MarkDuplicates --java-options '-Xmx8G' \
-I SRR1262731_extract.sort.rg.bam --VALIDATION_STRINGENCY SILENT \
-O SRR1262731_extract.sort.rg.md.bam -M SRR1262731_extract_metrics_md.txt"
Marquage des duplicats de PCR
→ Garder les duplicats : probabilité importante de confondre les duplicats avec des fragments biologiques issus du même locus
→ Marquer les duplicats mais les conserver dans le fichier BAM
→ Supprimer les duplicats du fichier BAM : certains outils les supprimeront par défaut (samtools, GATK…)
22
$ sbatch -J flagstat2 -o logs/flagstat2.out -e logs/flagstat2.err --wrap=" \
samtools flagstat SRR1262731_extract.sort.rg.md.bam \
> SRR1262731_extract.md.flagstat.txt"
$ cat SRR1262731_extract.md.flagstat.txt # nombre de duplicats
$ grep -A1 "LIBRARY" SRR1262731_extract_metrics_md.txt # % de pcrDup
# Bonus
$ grep -A1 "LIBRARY" SRR1262731_extract_metrics_md.txt | awk 'NR==2{printf("%.2f\n",$(NF-1)*100)}'
Recalibration du score de qualité des bases
→ Bias systématique : sur ou sous-estimation des scores de qualité.
→ Recalibration des valeurs :
Avec les outils BaseRecalibrator et ApplyBQSR de la suite GATK4
23
Recalibration du score de qualité des bases
24
$ gatk BaseRecalibrator --help # affiche l’aide
$ sbatch -J Dict -o logs/dict_vcf.out -e logs/dict_vcf.err --mem=8G --wrap=" \
gatk IndexFeatureFile --java-options '-Xmx8G' \
-I ~/tp_variant/additional_data/bos_taurus.6.vcf"
$ sbatch -J BaseRecal -o logs/baseRecal.out -e logs/baseRecal.err --mem=8G --wrap=" \
gatk BaseRecalibrator --java-options '-Xmx8G' \
-I SRR1262731_extract.sort.rg.md.bam \
-R ~/tp_variant/genome/Bos_taurus.UMD3.1.dna.toplevel.6.fa \
-O SRR1262731_extract.sort.rg.md.bqsr.report \
--known-sites ~/tp_variant/additional_data/bos_taurus.6.vcf"
Recalibration du score de qualité des bases
25
$ gatk ApplyBQSR --help # affiche l’aide
$ sbatch -J BQSR -o logs/BQSR.out -e logs/BQSR.err --mem=8G --wrap=" \
gatk ApplyBQSR --java-options '-Xmx8G' \
-I SRR1262731_extract.sort.rg.md.bam \
-R ~/tp_variant/genome/Bos_taurus.UMD3.1.dna.toplevel.6.fa \
--bqsr-recal-file SRR1262731_extract.sort.rg.md.bqsr.report \
-O SRR1262731_extract.sort.rg.md.bqsr.bam"
Filtres sur les alignements
Restreindre le fichier BAM en fonction de métriques d’alignements :
Pour utiliser le paramètre -F : plus d’information sur les SAM Flags
26
# Suppression des reads non mappés et filtre sur les reads avec MAPQ < 30
$ sbatch -J qualFilter -o logs/qualFilter.out -e logs/qualFilter.err --wrap=" \
samtools view -bh -F 4 -q 30 SRR1262731_extract.sort.rg.md.bqsr.bam \
> SRR1262731_extract.sort.rg.md.bqsr.filt.bam"
$ sbatch -J flagstat3 -o logs/flagstat3.out -e logs/flagstat3.err --wrap=" \
samtools flagstat SRR1262731_extract.sort.rg.md.bqsr.filt.bam \
> SRR1262731_extract.filt.flagstat.txt"
$ cat SRR1262731_extract.filt.flagstat.txt
Filtres sur les alignements
Restreindre le fichier BAM en fonction de métriques d’alignements :
27
# Conservation des alignements dans les régions ciblées
$ module load bedtools/2.29.2
$ bedtools --version # affiche la version (v2.29.2)
$ bedtools intersect --help # affiche l’aide
$ sbatch -J interBed -o logs/interBed.out -e logs/interBed.err --wrap=" \
bedtools intersect -a SRR1262731_extract.sort.rg.md.bqsr.filt.bam \
-b ~/tp_variant/additionnal_data/QTL_BT6.bed \
> SRR1262731_extract.sort.rg.md.bqsr.filt.onTarget.bam"
$ sbatch -J bamIndex -o logs/bamIndex.out -e logs/bamIndex.err --wrap=" \
samtools index SRR1262731_extract.sort.rg.md.bqsr.filt.onTarget.bam"
Analyse de la couverture
Contrôle qualité de l’enrichissement de ma capture :
→ Est-ce que ma région est couverte par suffisamment de reads ?
→ Cette couverture est-elle homogène sur toute la région ?
28
Analyse de la couverture
Contrôle qualité de l’enrichissement de ma capture :
→ Est-ce que ma région est couverte par suffisamment de reads ?
→ Cette couverture est-elle homogène sur toute la région ?
29
# Calcul de la couverture avec samtools
$ samtools depth --help # affiche l’aide
$ sbatch -J bamDepth -o logs/bamDepth.out -e logs/bamDepth.err --wrap=" \
samtools depth -b ~/tp_variant/additionnal_data/QTL_BT6.bed \
SRR1262731_extract.sort.rg.md.bqsr.filt.onTarget.bam \
> SRR1262731_extract.onTarget.depth.txt"
$ head SRR1262731_extract.onTarget.depth.txt