Notes de formation - South Green
Cours 2 : Présentation Galaxy et TD ... Cours 8 : Annotation de séquences
génomiques : gènes ... EuGène utilisé pour différents génomes (TD) ...... Il
faudrait corriger manuellement l'annotation du gène sorgho et relancer les
comparaison ...
part of the document
Emmanuel RECLUS
Jérémy GUINARD
Montpellier SupAgro
Analyse bioinformatique de séquences pour l'amélioration des plantes
Notes de formation
Sommaire
TOC \o "1-3" \h \z \u
Programme PAGEREF _Toc190669076 \h 5
Lundi 6 février: PAGEREF _Toc190669077 \h 5
Mardi 7 février: PAGEREF _Toc190669078 \h 5
Mercredi 8 février: PAGEREF _Toc190669079 \h 5
Jeudi 9 février PAGEREF _Toc190669080 \h 5
. PAGEREF _Toc190669081 \h 5
Liens utiles PAGEREF _Toc190669082 \h 6
Site de la formation PAGEREF _Toc190669083 \h 6
Programme de la formation et liens vers les supports PAGEREF _Toc190669084 \h 6
Galaxy PAGEREF _Toc190669085 \h 6
SEQAnswers PAGEREF _Toc190669086 \h 6
Explications pour un fichier SAM PAGEREF _Toc190669087 \h 6
Tablet PAGEREF _Toc190669088 \h 6
Site explicatif de Tablet (FAQ) PAGEREF _Toc190669089 \h 6
SniPlay PAGEREF _Toc190669090 \h 6
Cours 1 : Introduction, présentation de la plateforme Southgreen PAGEREF _Toc190669091 \h 7
Problématique danalyse PAGEREF _Toc190669092 \h 8
Assemblage de novo PAGEREF _Toc190669093 \h 8
Le mapping PAGEREF _Toc190669094 \h 8
Problématique du stockage PAGEREF _Toc190669095 \h 8
La plateforme SouthGreen et différents outils PAGEREF _Toc190669096 \h 8
Modélisation 3D par homologie PAGEREF _Toc190669097 \h 8
Cours 2 : Présentation Galaxy et TD PAGEREF _Toc190669098 \h 9
TD dapprentissage PAGEREF _Toc190669099 \h 9
Cours 3 : Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (1) PAGEREF _Toc190669100 \h 11
Assemblage et mapping individuel : déterminer quel individu a quel SNP PAGEREF _Toc190669101 \h 11
Contrôle de la qualité : FASTQ Control PAGEREF _Toc190669102 \h 11
Formatage des données PAGEREF _Toc190669103 \h 13
Nettoyage des données : apprentissage (cleanning data) PAGEREF _Toc190669104 \h 13
Nettoyage des données plus fin (cleanning data) PAGEREF _Toc190669105 \h 15
Validation des paires (vérifying data) PAGEREF _Toc190669106 \h 15
Concaténation des deux fichiers PAGEREF _Toc190669107 \h 15
Concaténation des fichiers single PAGEREF _Toc190669108 \h 16
Assemblage de novo (sans apriori) PAGEREF _Toc190669109 \h 16
Blast PAGEREF _Toc190669110 \h 16
Faiblesses de Galaxy PAGEREF _Toc190669111 \h 17
Noms des fichiers PAGEREF _Toc190669112 \h 17
Assembleurs NGS PAGEREF _Toc190669113 \h 18
Workflow PAGEREF _Toc190669114 \h 18
Cours 4 : mise en perspective, workflows et traitement de données NGS PAGEREF _Toc190669115 \h 19
Cours 5 : Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (2) PAGEREF _Toc190669116 \h 20
Création dun fichier de mapping (SAM) PAGEREF _Toc190669117 \h 20
Nettoyage des duplicata techniques PAGEREF _Toc190669118 \h 21
Fusion des deux fichiers PAGEREF _Toc190669119 \h 21
Conversion des fichiers : PAGEREF _Toc190669120 \h 21
Partage des fichiers PAGEREF _Toc190669121 \h 21
Création du workflow PAGEREF _Toc190669122 \h 21
Sum up du mapping (sans assemblage) PAGEREF _Toc190669123 \h 22
Cours 6 : Recherche et analyse de polymorphisme SNP (TP) PAGEREF _Toc190669124 \h 24
Mise en marche de Tablet PAGEREF _Toc190669125 \h 24
Logiciel Varscan PAGEREF _Toc190669126 \h 25
Lecture dun fichier Pileup PAGEREF _Toc190669127 \h 25
Construction dun Pileup PAGEREF _Toc190669128 \h 25
Librairie GATK PAGEREF _Toc190669129 \h 25
Estimation des ressemblances entre génotypes PAGEREF _Toc190669130 \h 26
Lancement des modules supplémentaires PAGEREF _Toc190669131 \h 26
Application SniPlay PAGEREF _Toc190669132 \h 27
Avec les données accessions PAGEREF _Toc190669133 \h 27
Sump up de la journée PAGEREF _Toc190669134 \h 28
Cours 7 : Basic notions in Annotation Exemple of transposables elements PAGEREF _Toc190669135 \h 29
Plusieurs outils de comparaison des génomes PAGEREF _Toc190669136 \h 29
Dautres outils pour la prédiction des structures PAGEREF _Toc190669137 \h 29
Loutil Artemis PAGEREF _Toc190669138 \h 30
Commandes : PAGEREF _Toc190669139 \h 31
Gepard PAGEREF _Toc190669140 \h 31
Cours 8 : Annotation de séquences génomiques : gènes PAGEREF _Toc190669141 \h 32
Méthodes intrinsèques (ab-initio) dannotation automatique PAGEREF _Toc190669142 \h 32
Méthodes extrinsèques PAGEREF _Toc190669143 \h 32
EuGène utilisé pour différents génomes (TD) PAGEREF _Toc190669144 \h 32
Détail du Workflow PAGEREF _Toc190669145 \h 32
Visualisation des résultats sur Artemis PAGEREF _Toc190669146 \h 32
Réponses questions du TP PAGEREF _Toc190669147 \h 32
Annotation structurale dans Artemis PAGEREF _Toc190669148 \h 33
En bref PAGEREF _Toc190669149 \h 34
Programme
Lundi 6 février:
9h-12h : Introduction, plateforme Southgreen, environnement Galaxy.
Manuel Ruiz, Jean-François Dufayard, Dominique This.
13h-16h : Traitement des données NGS, formatage, mapping et assemblage.
Gautier Sarah, François Sabot, Jean-François Dufayard, Dominique This.
16h-17h : Mise en perspective, workflows et traitement de données NGS.
Gautier Sarah, François Sabot, Jean-François Dufayard, Dominique This.
Mardi 7 février:
9h-12h : Traitement des données NGS, formatage, mapping et assemblage (suite).
Gautier Sarah, François Sabot, Jean-François Dufayard, Dominique This
13h-16h : Recherche et analyse de polymorphismes, SNP.
Alexis Dereeper, François Sabot, Jean-François Dufayard, Dominique This.
16h-17h : Mise en perspective, polymorphisme et sélection.
Alexis Dereeper, François Sabot, Jean-François Dufayard, Dominique This.
Mercredi 8 février:
9h-12h : Annotation des éléments transposables.
François Sabot, Gaetan Droc, Jean-François Dufayard, Dominique This.
13h-16h : Annotation de gènes.
Gaetan Droc, Franc-Christophe Baurens, Olivier Garsmeur, Dominique This.
16h-17h : Mise en perspective, annotation.
Gaetan Droc, Franc-Christophe Baurens, Olivier Garsmeur, Dominique This.
Jeudi 9 février
9h-12h : Prédiction de structures 3D de protéines
Cécile Fleury, Frédéric de Lamotte, Jean-François Dufayard, Dominique This.
13h-16h : Analyse phylogénétique, orthologie et paralogie.
Jean-François Dufayard, Cécile Fleury, Dominique This.
16h-17h : Mise en perspective, génomique et protéomique comparative.
Cécile Fleury, Frédéric de Lamotte, Jean-François Dufayard, Dominique This
Liens utiles
Site de la formation
HYPERLINK "http://southgreen.cirad.fr"http://southgreen.cirad.fr
Programme de la formation et liens vers les supports
HYPERLINK "http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes"http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes
Galaxy
HYPERLINK "http://gohelle.cirad.fr/galaxy/root"http://gohelle.cirad.fr/galaxy/root
SEQAnswers
HYPERLINK "http://seqanswers.com/"http://seqanswers.com/
Explications pour un fichier SAM
HYPERLINK "http://bio-bwa.sourceforge.net/"http://bio-bwa.sourceforge.net/
Aller dans SAMtools (Links) puis cliquer sur SAM Spec HYPERLINK "http://samtools.sourceforge.net/SAM1.pdf"v1.4
Tablet
HYPERLINK "http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp"http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp
Site explicatif de Tablet (FAQ)
HYPERLINK "http://bioinf.hutton.ac.uk/tablet/faq.shtml"http://bioinf.hutton.ac.uk/tablet/faq.shtml
SniPlay
HYPERLINK "http://sniplay.cirad.fr"http://sniplay.cirad.fr
BioEdith (edition dalignement)
HYPERLINK "http://www.mbio.edu/bioedit/bioedit.html"http://www.mbio.edu/bioedit/bioedit.html
PhyMOL
HYPERLINK "http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes"http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes
Modeller (prédiction de structure 3D)
HYPERLINK "http://salilab.org/modeller/"http://salilab.org/modeller/
PSIPRED
HYPERLINK "http://bioinf.cs.ucl.ac.uk/psipred/"http://bioinf.cs.ucl.ac.uk/psipred/
Cours 1 : Introduction, présentation de la plateforme Southgreen
HYPERLINK "http://southgreen.cirad.fr"http://southgreen.cirad.fr
Faire face à la gestion de données importantes. Plusieurs générations de séquençage et accélération :
1ère génération de séquençage : Sanger : 4 radicaux marqués différemment. Arrêt de lélongation à tous les nucléotides (400 nucléotides, 3 jours) grâce à lenlèvement dun groupement OH => terminateur de synthèse et ajout dun fluorophore propre à chaque base.
2ème génération de séquençage : Nouvelle génération : 454 (pyroséquençage, billes), Solexa (fragments fixés sur plaque, reads plus petits en grand nombre).
3ème génération de séquençage : Mobilisation dun brin unique, détection de la synthèse dun seul brin. Procédé mis au point par Pacifique Bioscience. Le signal est détecté lors de la polymérisation alors que la polymérase est fixée dans une alvéole (20kb).
Comparaison des différentes techniques
Différences de taille des lectures entre ces technologies et beaucoup derreurs.
NGS (next generation sequencing)
Grande quantité de données
Séquences courtes et grande redondance : erreurs
Coût et stockage
GALAXY est une plateforme qui permet de générer des chaines de traitements automatiques. On peut lutiliser en vue de plusieurs applications : Et pourquoi pas dans le futur pour la métagénomique qui consiste à séquencer un échantillon prélevé sur le terrain (petit volume de terre par exemple) pour y détecter tous les organismes présents grâce à lidentification de leur génome.
Problématique danalyse
Assemblage de novo
Consiste à assembler lADN fragmenté grâce au séquençage des extrémités des fragments (assemblage des reads en scafold).
Les algorithmes dassemblage ont évolués. Avant ils repairaient les parties chevauchantes et recherchaient dans les séquences disponibles les fragments correspondants. Vue la quantité de fragments, les calculs étaient très lourds. Aujourdhui les algorithmes parcourent des chemins plutôt que des nuds ce qui allège les opérations. Cest le passage du cycle Hamiltonien au cycle Eulérien.
Le mapping
Cest lalignement des fragments générés sur une séquence de référence. Pour ce faire, il est nécessaire davoir un génome de référence séquencé ou partiellement séquencé. On détecte ainsi les nouvelles variations de séquences qui correspondent à des SNP, INDELs
Lindexation permet daccélérer la recherche. En principe, on découpe la séquence de référence puis on aligne nos fragments générés avec ces morceaux de séquences.
Spaced seeds
Burrows-Wheeler : concaténement des séquences de références ensemble.
Voir SEQanswers pour plus dinfos : HYPERLINK "http://seqanswers.com/"http://seqanswers.com/
Problématique du stockage
En 2004, il y a apparition des NGS. Sachant que la capacité des disques double tous les 14 mois (loi de Moore) il y a nécessité de mette en place des Cyber-infrastructures (daprès Stein) pour réduire le coût de stockage et de traitement.
La plateforme SouthGreen et différents outils
Cette plateforme contient des ressources de calcul et permet le stockage de nombreuses données.
GMOD : consortium (dont fait partie GALAXY) : Plateforme dannotation pour les séquences ou les morceaux de séquences.
Artemis : annotation de régions génomiques
OryGenesDB : base de données riz (+ sorgho et cacao)
Modélisation 3D par homologie
Prédiction de la structure des protéines pour mieux connaître sa fonction sans expérimentation. La modélisation en règle générale nest possible quà partir de 25% de la séquence initiale.
Cours 2 : Présentation Galaxy et TD
HYPERLINK "http://gohelle.cirad.fr/galaxy/root"http://gohelle.cirad.fr/galaxy/root
Login : HYPERLINK "mailto:formation22@cirad.fr"formation22@cirad.fr
Mdp : 22_SUPAGRO (Compte ouvert pendant un mois)
Workflow : comme son nom lindique, cest un enchainement des différents outils (brique = logitiel) de manière logique pour lanalyse des données et laccomplissement dune tache complexe. Le workflow de galaxie utilise un ensemble de logiciels interconnecté de façon à avoir une analyse la plus complète possible. Pour les données très importantes, Galaxy limite le traitement. Grâce à un serveur de type « Apache HTTP Server », Galaxy est utilisable sur nimporte quel ordinateur.
Pour ajouter des données, 2 moyens :
Get Data (taille des données raisonnable : qq Go) : à gauche
Menu : Shared Data : Data librairies, en haut
TD dapprentissage
Création de plusieurs historiques possibles : Option => create New (à droite de lécran).
Accès à des répertoires partagés où lon peut récupérer les données en les téléchargeant sur le disque ou les mettre dans son historique :Shared Data => Data librairies => Formation=>Début dans Galaxy => exemple.fasta (fichier contenant 10 séquences pour lexercice).
Destination historique => Import this datasets in the selected histories Et revennir sur le menu principal : Analyse data (Barre de Menu en haut).
Le format fasta est le format le plus simple pour stocker, lire et débugger des données séquences.
>nomdeséquence1
Séquence nucléotidique ou acides aminées
>nomdeséquence2
Séquence nucléotidique ou acides aminées
Changer le format du fichier :
Pour des logiciels de phylogénie par exemple :
TOOLS =>HYPERLINK "http://gohelle.cirad.fr/galaxy/root/tool_menu"Convert Formats =>HYPERLINK "http://gohelle.cirad.fr/galaxy/tool_runner?tool_id=fastatophylip1" \t "galaxy_main"Fasta2Phylip , a FASTA to Phylip file converter => Execute
Attention, le format strict ne tolère pas les noms de séquence supérieur 12 caractères
Format Phylip : pour lalignement de séquences les unes en dessous des autres.
Création dun workflow composé de deux opérations : alignement et conversion en format Phylip
Workflows(Menu à gauche en bas) =>All workflows =>Create new workflow => Name et Edit
1ère brique : On commence par un point dentrée : Inputs => Input dataset (Menu à gauche en bas)
2ème brique : Sequence comparisons =>MAFFT , a progressive multiple alignment builder
3ème brique : Convert Formats =>Fasta2Phylip , a FASTA to Phylip file converter
Enchainement doutils et configuration des outils (à droite)
Option => Save
Retour à Workflow (barre de menu en haut) et Run en cliquant sur la petite flêche du workflow.
On peut introduire des séquences ou des URL séparés par des virgules : Get Data => Upload File from your computer => URL/Text
Cours 3 : Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (1)
FASTQ = fasta + qualité (format existant depuis très longtemps)
Séquence paired-end : en présence dune séquence obtenue par la technologie Illumina, on séquence les bordures. Single : dans un seul sens et paired-end dans les deux sens (forward et reverse). Dans un fichier paired-end, cette information est indiquée dans le nom de la séquence, après le # on peut avoir /1 (forward) ou /2 (reverse) pour lun ou lautre des sens.
La qualité est codée en code ASCII. Cest une échelle de corrélation de symboles, une manière de représenter la qualité en un seul symbole. LASCII est convertie en qualité Sanger et Solexa en retranchant 33 ou 64. Exemple : f = 102-64 = qualité de 38 au final : sur une échelle de 0 à 40 (entier de la probabilité postérieure que la base soit fausse).
Echelle de corrélation des symboles :
!#$%&()*+,-./0123456789:;?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopwqrs
tuvwxyz{|}~
Avant on conservait beaucoup de données, on coupait à une qualité de 20, maintenant on essaye davoir des données fiables, on coupe à 30.
HYPERLINK "http://southgreen.cirad.fr/?q=content/trainings"Trainings =>Data sets : HYPERLINK "http://southgreen.cirad.fr/sites/all/files/uploads/raw_data.tar.gz"raw d HYPERLINK "http://southgreen.cirad.fr/sites/all/files/uploads/raw_data.tar.gz"ata
Dans Data Library => Formation => Pre-processing and Mapping 2012, on trouve 20 fichiers dentrainement. RC : riz cultivé ; RS : riz sauvage. Fichier 1 : Forward ; Fichier 2 : Reverse. 10 individus sauvages et 10 individus cultivés.
Télécharger RS6_1 et RS6_2 par exemple.
Assemblage et mapping individuel : déterminer quel individu a quel SNP
On TAG les séquences pour faciliter lassemblage des séquences. Le TAG est une petite séquence ajoutée à lextrémité de la séquence pour trouver lenchainement de la séquence complète. Le dé-multiplexage consiste à assembler les fichiers séquence dans lordre et à supprimer le TAG.
Rappel : une profondeur raisonnable (6X est suffisant) facilite lassemblage des fichiers.
Contrôle de la qualité : FASTQ Control
HYPERLINK "http://gohelle.cirad.fr/galaxy/root/tool_menu"NGS: Quality Control =>FastQC quality control checks on raw sequence data
Dans le paramétrage : Contaminants: pour ajouter un fichier spécifique de contaminants : adaptateurs de séquençage, dindex
Selection is optional : pour la détection des contaminants présents dans la banque.
Résultat du FastQ control : (voir captures)
Basics statistics : Encoding Illumina 1.5 : permet de se référer à la bonne échelle de qualité.
Per base sequence quality
Courbes : bleue : moyenne ; rouge : médianes ; barres : quartiles.
Les riz sauvages ont des graphiques réguliers dus à une bonne qualité des banques. Les riz cultivés présentent des profils plus compliqués car les machines sont moins récentes et moins de séquences donc pollution en plus grande proportion.
A la vue du graphique on coupe à 75 car ensuite ça devient nimporte quoi (mieux vaut garder le standard et économiser du temps de nettoyage).
Per sequence quality scores : nombre de reads en fonction de leur qualité. Le pic est artificiel (erreur introduite volontairement). Le but est de navoir que des séquences dune qualité moyenne supérieure à 30.
Per base GC content : proportion de A,T,C,G. Biais en début de séquence normal, en génomique on a pas cet effet.
Per sequence GC content : en bleu : pourcentage par séquence si normal ; en rouge cas de notre séquence.
Per base N content : pas de N surreprésenté donc bien. Si pic de N, problème : poussière
Si le N nest pas traité ultérieurement ce nest pas dramatique.
Sequence Length Distribution: 76, bon.
Sequence Duplication Levels : vu quil y a une croix une séquence est surreprésentée quelque part. Overrepresented sequences permet de voir quelles est cette séquence.
Attention : la Rubisco est toujours surreprésentée dans les plantes donc cest normal. Des manip permettent déliminer les séquences ribosomiques.
Over represented sequences
SequenceCountPercentagePossible SourceGTTTACTTCGGGCCGATGTCCTTCAGCGCGCAGATCTGCTCCTCTCCCAT270.6809583858764187No Hit
Kmer Content : donne les petits fragments qui sont ou non surreprésentés.
Formatage des données
UNTESTED TOOLS : na jamais tourné en production mais beaucoup doutils pourraient être validés car très utilisés.
NGS =>Illumina data =>FASTQ Groomer convert between various FASTQ quality formats : permet le transfert dune qualité à une autre.
Input FASTQ quality scores type: Illumina 1,3+ (dépend de la qualité de la séquence).
On exécute un Groomer sur les deux fichiers qui sont transformé forcément en qualité Sanger car le logiciel de nettoyage est en Sanger.
Visualisation de la qualité : on a plus des petits g en codage qualité mais des grands H car on est en qualité Sanger. On renomme les fichiers pour sy retrouver :
Fichier 1 : Forward Sanger n°4 (vérifier que cest /1)
Fichier 2 : Reverse Sanger n°5 (vérifier que cest /2)
Nettoyage des données : apprentissage (cleaning data)
NGS: Quality Control => Cutadapt Remove adapter sequences from Fastq/Fasta
Recherche des adaptateurs au sein des séquences sur des critères de taille et pourcentage dhomologie.
On donne une valeur doverlap à Cutadapt. Important : Minimum overlap length: 7 (si on met plus on rate des adaptateurs, 7 bases de recouvrement et 1 base derreur autorisée. On a donc un taux derreur de 0,1%). Quality cutoff: 20 : coupe la séquence jusquà obtenir une qualité de 20. Cutadapt ne garde pas les séquences de mauvaise qualité lors de lanalyse base par base de la qualité (- 20 à chaque base) mais garde toutes les bases qui ont une qualité supérieure ou égale à 20. Minimum length: 20 aussi lorsque la taille est inférieure à 20.
3' Adapters 1 : on rentre 10 x :
On obtient 2 fichier : le résultat et un rapport. Un FastQ C sur le résultat permet de se rendre compte quon a moins de déchets.
Par exemple, on a plus le pic de séquence dune qualité de 10, par contre on perd un peu de séquences.
Nettoyage des données plus fin (cleaning data)
Dans labsolu nous navons aucune séquence dune qualité inférieure à 20 mais on va fixer la qualité à 30.
NGS =>Generic FASTQ manipulation =>Filter FASTQ reads by quality score and length
Minimum Size: 35. Quality Filter on a Range of Bases : cliquer : ouvre le menu. Aggregate read score for specified range: mean of scores. Quality Score: 30.
Pourquoi est-on passé par Cutadapt ? Pour partir avec une qualité qui est meilleure. Evite denlever des Reads complets qui auraient une bonne qualité en partie.
A savoir : souvent les Reverse sont de moins bonne qualité que les Forward donc on perd plus de séquences. Ne pas oublier de renommer les fichiers !
Validation des paires (verifying data)
Concaténation des deux fichiers
UNTESTED TOOLS => Text Manipulation => Concatenate datasets tail-to-head
Datasets : Concatène plusieurs fichiers ensemble. Lordre Reverse/Forward ou Forward/Reverse na pas dimportance.
NGS =>FASTQ de-interlacer on paire-end end reads
Une fois que nous avons concaténé les données, on construit les fichiers de paires. Le logiciel créait deux fichiers Forward single et Reverse single. Ensuite on concatène tout à nouveau.
On obtient 4 fichiers :
16: FASTQ de-interlacer left mates from data 15 (Forward) : liés par paires (mates)
17: FASTQ de-interlacer right mates from data 15 (Reverse) : liés par paires (mates)
18: FASTQ de-interlacer left singles from data 15 (Forward)
19: FASTQ de-interlacer right singles from data 15 (Reverse)
Concaténation des fichiers single
Text Manipulation => Concatenate datasets tail-to-head : permet de concaténer les deux fichiers single.
Assemblage de novo (sans apriori)
Le but de cette étape est de créer une séquence à partir de plein de petites séquences. On assemble les Reads en contigs (séquence continue), reliés eux-même entre eux par une information physique de liaison en scaffold. On corrèle ensuite les scaffolds par rapport à la carte génomique. Pour certaines régions hautement répétées quelques une de ces étape sont encore impossibles (exemple : chromosome 9 du riz).Il existe aussi un autre type dassemblage réalisé grâce à une séquence de référence (voir ci-après).
On a besoin dun fichier qui regroupe toutes les séquences pour avoir le meilleur assemblage possible. Ici : le fichier de sortie (loutput) se nomme « 15 : Concatenate datasets Reverse and Forward ».
On utilise MIRA (ne fonctionne pas bien pour les données importantes)
NGS => Assembly => Assemble with MIRA Takes Sanger, Roche, and Illumina data
Paramètres : Assembly type: EST et Illumina dans Solexa/Illumina reads? : Yes.
On obtient les fichiers suivants :
21: MIRA contigs (FASTA) : assemblage de tous les reads
22: MIRA contigs (QUAL) : on peut éliminer sur la qualité : tient compte de la profondeur et de la qualité des bases à cette profondeur.
23: MIRA contigs summary
24: MIRA contigs stats : nombre de contigues, nombres de reads pour les constituer (si très élevé peut être à lorigine de séquence ribosomiques), qualité, % GC
25: MIRA contigs (CAF) : format dassemblage
26: MIRA contigs (ACE) : format dassemblage
27: MIRA log : vérifie la qualité du travail, donne des informations sur le mapping
Si on renouvelle lopération, les résultats seront différents à cause du changement de la position de démarrage.
Remarque sur les assembleurs NGS :
On ne peut pas assembler les séquences sur un cluster en tant que tel, on peut assembler ces séquences que sur une mémoire unique car les informations doivent être toutes accessibles
.cette étape dassemblage est longue et nécessite beaucoup de place (96 Go de mémoire vive à lIRD et CIRAD !)
Mécanisme dassemblage : agrégat en fonction de lendroit de point de départ ce qui va changer le résultat si on recommence cette étape. Sauf lorsque les séquences sont nombreuses : assemblage plus long mais de meilleure qualité.
Blast
On fait un blast sur les séquences de références que lon compare à lEST Rice.
Sequence comparisons => BLAST+ blastn (MC) Search nucleotide database with nucleotide query sequence(s)
Le fichier de sortie contient entre autre : le nom, le pourcentage didentité, la longueur sur laquelle on a une identité, les mismach, la I-value (probabilité davoir cet alignement dans une seule séquence (donc non comparable)), le score.
Blast est un outil statistique !
Pour comparer avec la séquence de Riz de la librairie on utilise les outils suivants : Shared Data => Data libraries => Reference transcriptome Riz
BLASTX : comparaison de séquences nucléotides à des séquences protéiques.On peut utiliser Phred/Phrap comme assembleur.
Faiblesses de Galaxy
Noms des fichiers
Pas daccents au niveau des noms ni de caractères spéciaux.
On ne renomme pas les fichiers lorsquils nont pas fini de tourner.
Assembleurs NGS
On ne peut assembler que sur une mémoire unique (une seule machine).
Workflow
On ne peut pas lancer un Workflow en boucle.
On ne peut pas copier un Workflow.
Cours 4 : mise en perspective, workflows et traitement de données NGS
Le séquençage est en route : sur le support de cours, on a en vert les séquences publiées et en bleu non publiées.
Va-t-on réussir à réunir un consortium suffisamment important pour réaliser un travail aussi performant sur dautres espèces que sur ce qui a été réalisé sur le riz ?
Les instituts de recherche asiatiques vont tout séquencer ! Les données privées vont-elles le rester longtemps ?
Notion de qualité du séquençage : garder un il critique sur le matériel utilisé et mis à disposition dans les bases.
Comparaison de quelques données
Certaines données sont plus mauvaises que dautres :
454 : plus cher, plus difficile à assembler.
Pacific Bioscience attendu car aura les mêmes défauts de séquençage que le 454 mais avec des longueurs de séquences beaucoup plus importantes. Permet davoir des fragments espacés. Méthylome (étude de la méthylation de lADN).
Ion Torrent (même type derreur que le 454 mais moins cher) et MSeq (technologie Illumina et fonctionne bien) : usage quotidien abordable, pour du génotypage par séquençage.
NGS : Déluge de données
Cloud-computing : machines reliées ensembles et traitement des données avec les ressources des particuliers ce qui pose un problème de confidentialité des données.
Limite des clusters : volume des données, stockage et traitement impossible.
Problématiques nouvelles
Le phénotypage, une étape limitante et chère de plus, en pathologie par exemple, il dépend de lobservation humaine des symptômes : faisabilité à haut débit?
Acquérir de nouvelles compétences dans le domaine de la bioinformatique.
Outils intégrés : exemple de Galaxy
Problèmes des formats de fichier
Avantage des workflow.
Cours 5 :Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (2)
Création dun fichier de mapping (SAM)
Il sagit de placer les paires ou les singles sur une séquence de référence. Dans le cas des paires on a deux séquences, le forward et le reverse. Le logiciel place toutes les positions potentielles du forward et toutes les positions potentielles du reverse et choisi ensuite selon les critères suivant la meilleure position (en rouge, position refusée, en vert, position validée) :
F et R doivent se faire face
Séquence entre les deux limites extrêmes de 300 à 500 bases
On va donc calculer les positions pour chaque reads, évaluer les relations entre chaque membre dune paire et sélectionner la position la plus probable => Fichier SAM
Si la position des Forward et des Reverse est inconnue, le logiciel va proposer la position la plus probable (en générale si il ny a pas de positionnement possible des séquences Forward et Reverse cest quil y a eu insertion dun élément transposable ou quil y a eu une recombinaison qui a abouti à une délétion).
Mapping: NGS : Mapping => Map with BWA for Illumina. Paramètres : Select a reference from history: Fichier de référence : Shared Data => Data libraries =>Formation => SNP => référence fas.txt. Maximum Edit distance (-n) : si les séquences font toutes la même taille on donne un chiffre si non on peut donner une fraction qui autorise les mismatch. Disallow: Autorise-t-on ou pas les longues délétions dans les 16 dernières bases ? Disallow : De même dans les 5 premières bases. Mismatch penalty (-M) : Combien de point coute un mismatch ?
Maximum edit distance (-n)Distance réelle ou % de distance : si les séquences sont de taille différentes : combien de miss matchMaximum of GAP openMaximum of GAP extentionsExtension maximum des GapDisallow long deletion within [value] bp towards the 3'-end (-n)Autorisation des longues détections dans les 16 dernières basesDisallow insertion/deletion within [value] bp towards the end (-i)Combien dIndels : interdire les grand Indels ou autorisation long Indel (simulation intron)Number of first subsequences to take as seed (-l)Les x premières sous séquence sont des graines, si pas de taille de graine attribuer, plus longProceed with suboptimal alignments even if the top hit is a repeatPropose des alignementsDisable iterative searchLa première fois quil va trouver une séquence il ne va pas les chercher ailleursOutput top [value] hits: en single endPosition les plus probablesMaximum insert size for a read pair to be considered as being mapped properlyTaille maxMaximum occurrences of a read for pairingLa structure en verre on peut la retrouver jusqua 100000 fois.Suppress the header in the output SAM file:suppression du header (donne sur quoi on a mapper),Comporte les informations diverses tel que : qui a fait la manip, avec quoi
Dans le fichier SAM les données sont triées par coordonnées. Ref LNpour length : longueur de la séquence de référence. Il sy trouve le code reverse/forward, la référence de départ, la qualité puis le CIGAR string (représentation dun alignement avec des codes beaucoup plus simples, ex : 9M=9 mismatch ; I = insertion, H = mauvais alignement
). Avant la séquence on a le point de démarrage du mate et la distance (39 ;-39 sur la fiche) et après la séquence : le nombre de mismatch réel.
Lorsque le fichier sort et quon na pas trié il ny a pas dinformation de sort order.
ID:bwa PN:bwa VN:0.5.9-r16 (programme et version utilisée)
Dans tout les cas, la notice est présente sur HYPERLINK "http://bio-bwa.sourceforge.net/"http://bio-bwa.sourceforge.net/ dans SAMtools par le lien SAM Spec HYPERLINK "http://samtools.sourceforge.net/SAM1.pdf"v1.4
NGS: SNP Detection => SNiPlay Utilities => AddReadGroupIntoSam Add read group into a sam alignment
Nettoyage des duplicata techniques
Consiste à éliminer les séquences répétées ou liées aux deux extrémités sur la plaque (erreurs de séquençage). On réalise deux nettoyages à partir des fichiers BAM, un avec le fichier paire-end et lautre avec le fichier single. On construit ensuite deux fichiers BAM avec SortSam en changeant le fichier de sortie. Le fichier BAM est plus compressé et plus rapide à traité.
NGS: SAM/BAM Manipulations => rmdup remove PCR duplicates
On fait un rmdup avec le fichier Paired-end. On peut aussi choisir de le traiter en single pour quil ne traite quun coté. Le rmdup permet dalléger le fichier en enlevant les duplicata techniques.
Fusion des deux fichiers
Ancêtre Oriza sativa, O. barti. On fusionne grâce aux commandes suivantes :
NGS: SAM/BAM Manipulations => MergeSam Fusionner des fichiers SAM/BAM
Conversion des fichiers :
NGS: SAM/BAM Manipulations => SAM-to-BAM converts SAM format to BAM format
NGS: SAM/BAM Manipulations => BAM-to-SAM converts BAM format to SAM format
Partage des fichiers
Option de lhistorique => Share or publish =>Makes the history accessible via link
Récupérable sous le lien proposé : HYPERLINK "http://gohelle.cirad.fr/galaxy/u/formation22/h/unnamed-history" \n _tophttp://gohelle.cirad.fr/galaxy/u/formation22/h/unnamed-history
Ou par Shared Data et dans Published Histories
Création du workflow
Workflows => All workflows => Switch to workflow management view => Create new workflow => Edit
Pour introduire des données : Workflow control => Inputs => Input dataset
Faire apparaitre la boite Cutadapt : NGS: Quality Control => Cutadapt Remove adapter sequences from Fastq/Fasta
En cliquant sur les étoiles présentes dans les briques on peut demander au workflow de sortir des données intermédiaires
Le Search Toolest un outil qui permet de rechercher des briques dans le menu de gauche.
Sum up du mapping (sans assemblage)
Pour un individu nous avons fait (entre parenthèses : nombre de briques) :
FastQ Groomer (*2)
Cutadapt (*2) : reprendre les réglages
Filter FastQ (*2)
Concatenate (*1)
FastQC (*1)
Deinterlacer (4 fichiers en sortie) (*1)
Concatenate single
BWA (*2)
ReadGroups (*2): ne pas faire dautodétection
SortSAM (*2)
RMDUP (*2)
MergeSAM(*1) : on rentre et sort en BAM
Cours 6 : Recherche et analyse de polymorphisme SNP (TP)
Un polymorphisme SNPest un polymorphisme qui sobserve sur une seule base. On va essayer de le détecter à partir dun mapping au format SAM. Il existe un code IUPAC pour qualifier la variation des nucléotides. Exemple : pour la variation T/G=K.
Mise en marche de Tablet
Cette interface permet la visualisation dassemblage de données NGS. Il accepte différents formats: ACE, SAM, BAM.
Accès à Tablet : HYPERLINK "http://bioinf.hutton.ac.uk/tablet/faq.shtml"http://bioinf.hutton.ac.uk/tablet/faq.shtml
Ouverture du Java web Start sur un lien du site (HYPERLINK "http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp"http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp.)
Tablet souvre alors dans une fenêtre à part.
Pour permettre à Tablet de charger lassemblage celui-ci doit être préalablement trié par positions sur la référence. Pour ce faire, on créé un nouveau fichier dassemblage trié grâce à la brique Galaxy suivante (fichier séquence) :
HYPERLINK "http://gohelle.cirad.fr/galaxy/root/tool_menu"NGS: SAM/BAM Manipulations => PICARD Tools => SortSam Trie les entrees des fichiers SAM
On récupère deux fichiers sur le disque que lon ouvre sur Tablet :
SortSam_on_data_24.sam (fichier séquence)
reference.fas.txt.fasta (référence)
Read Packing : changer le mode daffichage. Permet de représenter une ou plusieurs lectures par ligne.
Read Colours : Read Group par exemple pour trier par groupes. Ci dessous : flêche blanche : un read et flèche noire un hétérozygote.
Pour une détection automatique des SNP, 3 options sont disponibles dans Galaxy SouthGreen:
SamToFastaAlignments
VCFToFastaAlignments
VarScan
Logiciel Varscan
Logiciel de détection de SNP à partir de fichier Pileup : Pileup2snp
Lecture dun fichier Pileup
En prenant lexemple qui figure sur la support de cours, on obtient :
seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+.