Td corrigé Notes de formation - South Green pdf

Notes de formation - South Green

Cours 2 : Présentation Galaxy et TD ... Cours 8 : Annotation de séquences génomiques : gènes ... EuGène utilisé pour différents génomes (TD) ...... Il faudrait corriger manuellement l'annotation du gène sorgho et relancer les comparaison ...




part of the document



Emmanuel RECLUS
Jérémy GUINARD
Montpellier SupAgro








Analyse bioinformatique de séquences pour l'amélioration des plantes



Notes de formation






 Sommaire
 TOC \o "1-3" \h \z \u 
Programme  PAGEREF _Toc190669076 \h 5
Lundi 6 février:  PAGEREF _Toc190669077 \h 5
Mardi 7 février:  PAGEREF _Toc190669078 \h 5
Mercredi 8 février:  PAGEREF _Toc190669079 \h 5
Jeudi 9 février  PAGEREF _Toc190669080 \h 5
.  PAGEREF _Toc190669081 \h 5
Liens utiles  PAGEREF _Toc190669082 \h 6
Site de la formation  PAGEREF _Toc190669083 \h 6
Programme de la formation et liens vers les supports  PAGEREF _Toc190669084 \h 6
Galaxy  PAGEREF _Toc190669085 \h 6
SEQAnswers  PAGEREF _Toc190669086 \h 6
Explications pour un fichier SAM  PAGEREF _Toc190669087 \h 6
Tablet  PAGEREF _Toc190669088 \h 6
Site explicatif de Tablet (FAQ)  PAGEREF _Toc190669089 \h 6
SniPlay  PAGEREF _Toc190669090 \h 6
Cours 1 : Introduction, présentation de la plateforme Southgreen  PAGEREF _Toc190669091 \h 7
Problématique d’analyse  PAGEREF _Toc190669092 \h 8
Assemblage de novo  PAGEREF _Toc190669093 \h 8
Le mapping  PAGEREF _Toc190669094 \h 8
Problématique du stockage  PAGEREF _Toc190669095 \h 8
La plateforme SouthGreen et différents outils  PAGEREF _Toc190669096 \h 8
Modélisation 3D par homologie  PAGEREF _Toc190669097 \h 8
Cours 2 : Présentation Galaxy et TD  PAGEREF _Toc190669098 \h 9
TD d’apprentissage  PAGEREF _Toc190669099 \h 9
Cours 3 : Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (1)  PAGEREF _Toc190669100 \h 11
Assemblage et mapping individuel : déterminer quel individu a quel SNP  PAGEREF _Toc190669101 \h 11
Contrôle de la qualité : FASTQ Control  PAGEREF _Toc190669102 \h 11
Formatage des données  PAGEREF _Toc190669103 \h 13
Nettoyage des données : apprentissage (cleanning data)  PAGEREF _Toc190669104 \h 13
Nettoyage des données plus fin (cleanning data)  PAGEREF _Toc190669105 \h 15
Validation des paires (vérifying data)  PAGEREF _Toc190669106 \h 15
Concaténation des deux fichiers  PAGEREF _Toc190669107 \h 15
Concaténation des fichiers single  PAGEREF _Toc190669108 \h 16
Assemblage de novo (sans apriori)  PAGEREF _Toc190669109 \h 16
Blast  PAGEREF _Toc190669110 \h 16
Faiblesses de Galaxy  PAGEREF _Toc190669111 \h 17
Noms des fichiers  PAGEREF _Toc190669112 \h 17
Assembleurs NGS  PAGEREF _Toc190669113 \h 18
Workflow  PAGEREF _Toc190669114 \h 18
Cours 4 : mise en perspective, workflows et traitement de données NGS  PAGEREF _Toc190669115 \h 19
Cours 5 : Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (2)  PAGEREF _Toc190669116 \h 20
Création d’un fichier de mapping (SAM)  PAGEREF _Toc190669117 \h 20
Nettoyage des duplicata techniques  PAGEREF _Toc190669118 \h 21
Fusion des deux fichiers  PAGEREF _Toc190669119 \h 21
Conversion des fichiers :  PAGEREF _Toc190669120 \h 21
Partage des fichiers  PAGEREF _Toc190669121 \h 21
Création du workflow  PAGEREF _Toc190669122 \h 21
Sum up du mapping (sans assemblage)  PAGEREF _Toc190669123 \h 22
Cours 6 : Recherche et analyse de polymorphisme SNP (TP)  PAGEREF _Toc190669124 \h 24
Mise en marche de Tablet  PAGEREF _Toc190669125 \h 24
Logiciel Varscan  PAGEREF _Toc190669126 \h 25
Lecture d’un fichier Pileup  PAGEREF _Toc190669127 \h 25
Construction d’un Pileup  PAGEREF _Toc190669128 \h 25
Librairie GATK  PAGEREF _Toc190669129 \h 25
Estimation des ressemblances entre génotypes  PAGEREF _Toc190669130 \h 26
Lancement des modules supplémentaires  PAGEREF _Toc190669131 \h 26
Application SniPlay  PAGEREF _Toc190669132 \h 27
Avec les données accessions  PAGEREF _Toc190669133 \h 27
Sump up de la journée  PAGEREF _Toc190669134 \h 28
Cours 7 : Basic notions in Annotation Exemple of transposables elements  PAGEREF _Toc190669135 \h 29
Plusieurs outils de comparaison des génomes  PAGEREF _Toc190669136 \h 29
D’autres outils pour la prédiction des structures  PAGEREF _Toc190669137 \h 29
L’outil Artemis  PAGEREF _Toc190669138 \h 30
Commandes :  PAGEREF _Toc190669139 \h 31
Gepard  PAGEREF _Toc190669140 \h 31
Cours 8 : Annotation de séquences génomiques : gènes  PAGEREF _Toc190669141 \h 32
Méthodes intrinsèques (ab-initio) d’annotation automatique  PAGEREF _Toc190669142 \h 32
Méthodes extrinsèques  PAGEREF _Toc190669143 \h 32
EuGène utilisé pour différents génomes (TD)  PAGEREF _Toc190669144 \h 32
Détail du Workflow  PAGEREF _Toc190669145 \h 32
Visualisation des résultats sur Artemis  PAGEREF _Toc190669146 \h 32
Réponses questions du TP  PAGEREF _Toc190669147 \h 32
Annotation structurale dans Artemis  PAGEREF _Toc190669148 \h 33
En bref  PAGEREF _Toc190669149 \h 34
 Programme
Lundi 6 février:
9h-12h : Introduction, plateforme Southgreen, environnement Galaxy.
Manuel Ruiz, Jean-François Dufayard, Dominique This.
13h-16h : Traitement des données NGS, formatage, mapping et assemblage.
Gautier Sarah, François Sabot, Jean-François Dufayard, Dominique This.
16h-17h : Mise en perspective, workflows et traitement de données NGS.
Gautier Sarah, François Sabot, Jean-François Dufayard, Dominique This.
Mardi 7 février:
9h-12h : Traitement des données NGS, formatage, mapping et assemblage (suite).
Gautier Sarah, François Sabot, Jean-François Dufayard, Dominique This
13h-16h : Recherche et analyse de polymorphismes, SNP.
Alexis Dereeper, François Sabot, Jean-François Dufayard, Dominique This.
16h-17h : Mise en perspective, polymorphisme et sélection.
Alexis Dereeper, François Sabot, Jean-François Dufayard, Dominique This.
Mercredi 8 février:
9h-12h : Annotation des éléments transposables.
François Sabot, Gaetan Droc, Jean-François Dufayard, Dominique This.
13h-16h : Annotation de gènes.
Gaetan Droc, Franc-Christophe Baurens, Olivier Garsmeur, Dominique This.
16h-17h : Mise en perspective, annotation.
Gaetan Droc, Franc-Christophe Baurens, Olivier Garsmeur, Dominique This.
Jeudi 9 février
9h-12h : Prédiction de structures 3D de protéines
Cécile Fleury, Frédéric de Lamotte, Jean-François Dufayard, Dominique This.
13h-16h : Analyse phylogénétique, orthologie et paralogie.
Jean-François Dufayard, Cécile Fleury, Dominique This.
16h-17h : Mise en perspective, génomique et protéomique comparative.
Cécile Fleury, Frédéric de Lamotte, Jean-François Dufayard, Dominique This

Liens utiles
Site de la formation
HYPERLINK "http://southgreen.cirad.fr"http://southgreen.cirad.fr
Programme de la formation et liens vers les supports
HYPERLINK "http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes"http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes
Galaxy
HYPERLINK "http://gohelle.cirad.fr/galaxy/root"http://gohelle.cirad.fr/galaxy/root
SEQAnswers
HYPERLINK "http://seqanswers.com/"http://seqanswers.com/
Explications pour un fichier SAM
HYPERLINK "http://bio-bwa.sourceforge.net/"http://bio-bwa.sourceforge.net/
Aller dans SAMtools (Links) puis cliquer sur SAM Spec HYPERLINK "http://samtools.sourceforge.net/SAM1.pdf"v1.4
Tablet
HYPERLINK "http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp"http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp
Site explicatif de Tablet (FAQ)
HYPERLINK "http://bioinf.hutton.ac.uk/tablet/faq.shtml"http://bioinf.hutton.ac.uk/tablet/faq.shtml
SniPlay
HYPERLINK "http://sniplay.cirad.fr"http://sniplay.cirad.fr
BioEdith (edition d’alignement)
HYPERLINK "http://www.mbio.edu/bioedit/bioedit.html"http://www.mbio.edu/bioedit/bioedit.html
PhyMOL
HYPERLINK "http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes"http://southgreen.cirad.fr/?q=content/formation-04-09022011-analyse-bioinformatique-de-s%C3%A9quences-pour-lam%C3%A9lioration-des-plantes
Modeller (prédiction de structure 3D)
HYPERLINK "http://salilab.org/modeller/"http://salilab.org/modeller/
PSIPRED
HYPERLINK "http://bioinf.cs.ucl.ac.uk/psipred/"http://bioinf.cs.ucl.ac.uk/psipred/

Cours 1 : Introduction, présentation de la plateforme Southgreen
HYPERLINK "http://southgreen.cirad.fr"http://southgreen.cirad.fr
Faire face à la gestion de données importantes. Plusieurs générations de séquençage et accélération :
1ère génération de séquençage : Sanger : 4 radicaux marqués différemment. Arrêt de l’élongation à tous les nucléotides (400 nucléotides, 3 jours) grâce à l’enlèvement d’un groupement OH => terminateur de synthèse et ajout d’un fluorophore propre à chaque base.
2ème génération de séquençage : Nouvelle génération : 454 (pyroséquençage, billes), Solexa (fragments fixés sur plaque, reads plus petits en grand nombre).
3ème génération de séquençage : Mobilisation d’un brin unique, détection de la synthèse d’un seul brin. Procédé mis au point par Pacifique Bioscience. Le signal est détecté lors de la polymérisation alors que la polymérase est fixée dans une alvéole (20kb).
Comparaison des différentes techniques

Différences de taille des lectures entre ces technologies et beaucoup d’erreurs.
NGS (next generation sequencing)
Grande quantité de données
Séquences courtes et grande redondance : erreurs
Coût et stockage
GALAXY  est une plateforme qui permet de générer des chaines de traitements automatiques. On peut l’utiliser en vue de plusieurs applications : Et pourquoi pas dans le futur pour la métagénomique qui consiste à séquencer un échantillon prélevé sur le terrain (petit volume de terre par exemple) pour y détecter tous les organismes présents grâce à l’identification de leur génome.
Problématique d’analyse
Assemblage de novo
Consiste à assembler l’ADN fragmenté grâce au séquençage des extrémités des fragments (assemblage des reads en scafold).
Les algorithmes d’assemblage ont évolués. Avant ils repairaient les parties chevauchantes et recherchaient dans les séquences disponibles les fragments correspondants. Vue la quantité de fragments, les calculs étaient très lourds. Aujourd’hui les algorithmes parcourent des chemins plutôt que des nœuds ce qui allège les opérations. C’est le passage du cycle Hamiltonien au cycle Eulérien.
Le mapping
C’est l’alignement des fragments générés sur une séquence de référence. Pour ce faire, il est nécessaire d’avoir un génome de référence séquencé ou partiellement séquencé. On détecte ainsi les nouvelles variations de séquences qui correspondent à des SNP, INDELs… L’indexation permet d’accélérer la recherche. En principe, on découpe la séquence de référence puis on aligne nos fragments générés avec ces morceaux de séquences.
Spaced seeds
Burrows-Wheeler : concaténement des séquences de références ensemble.
Voir SEQanswers pour plus d’infos : HYPERLINK "http://seqanswers.com/"http://seqanswers.com/
Problématique du stockage
En 2004, il y a apparition des NGS. Sachant que la capacité des disques double tous les 14 mois (loi de Moore) il y a nécessité de mette en place des Cyber-infrastructures (d’après Stein) pour réduire le coût de stockage et de traitement.
La plateforme SouthGreen et différents outils
Cette plateforme contient des ressources de calcul et permet le stockage de nombreuses données.
GMOD : consortium (dont fait partie GALAXY) : Plateforme d’annotation pour les séquences ou les morceaux de séquences.
Artemis : annotation de régions génomiques
OryGenesDB : base de données riz (+ sorgho et cacao)

Modélisation 3D par homologie
Prédiction de la structure des protéines pour mieux connaître sa fonction sans expérimentation. La modélisation en règle générale n’est possible qu’à partir de 25% de la séquence initiale.
Cours 2 : Présentation Galaxy et TD
HYPERLINK "http://gohelle.cirad.fr/galaxy/root"http://gohelle.cirad.fr/galaxy/root
Login : HYPERLINK "mailto:formation22@cirad.fr"formation22@cirad.fr
Mdp : 22_SUPAGRO (Compte ouvert pendant un mois)

Workflow : comme son nom l’indique, c’est un enchainement des différents outils (brique = logitiel) de manière logique pour l’analyse des données et l’accomplissement d’une tache complexe. Le workflow de galaxie utilise un ensemble de logiciels interconnecté de façon à avoir une analyse la plus complète possible. Pour les données très importantes, Galaxy limite le traitement. Grâce à un serveur de type « Apache HTTP Server », Galaxy est utilisable sur n’importe quel ordinateur.
Pour ajouter des données, 2 moyens :
Get Data (taille des données raisonnable : qq Go) : à gauche
Menu : Shared Data : Data librairies, en haut
TD d’apprentissage
Création de plusieurs historiques possibles : Option => create New (à droite de l’écran).
Accès à des répertoires partagés où l’on peut récupérer les données en les téléchargeant sur le disque ou les mettre dans son historique :Shared Data => Data librairies => Formation=>Début dans Galaxy => exemple.fasta (fichier contenant 10 séquences pour l’exercice).
Destination historique => Import this datasets in the selected histories Et revennir sur le menu principal : Analyse data (Barre de Menu en haut).
Le format fasta est le format le plus simple pour stocker, lire et débugger des données séquences.
>nomdeséquence1
Séquence nucléotidique ou acides aminées
>nomdeséquence2
Séquence nucléotidique ou acides aminées

Changer le format du fichier :
Pour des logiciels de phylogénie par exemple :
TOOLS =>HYPERLINK "http://gohelle.cirad.fr/galaxy/root/tool_menu"Convert Formats =>HYPERLINK "http://gohelle.cirad.fr/galaxy/tool_runner?tool_id=fastatophylip1" \t "galaxy_main"Fasta2Phylip , a FASTA to Phylip file converter => Execute
Attention, le format strict ne tolère pas les noms de séquence supérieur 12 caractères
Format Phylip : pour l’alignement de séquences les unes en dessous des autres.
Création d’un workflow composé de deux opérations : alignement et conversion en format Phylip
Workflows(Menu à gauche en bas) =>All workflows =>Create new workflow => Name et Edit
1ère brique : On commence par un point d’entrée : Inputs => Input dataset (Menu à gauche en bas)
2ème brique : Sequence comparisons =>MAFFT , a progressive multiple alignment builder
3ème brique : Convert Formats =>Fasta2Phylip , a FASTA to Phylip file converter

Enchainement d’outils et configuration des outils (à droite)
Option => Save
Retour à Workflow (barre de menu en haut) et Run en cliquant sur la petite flêche du workflow.
On peut introduire des séquences ou des URL séparés par des virgules : Get Data => Upload File from your computer => URL/Text
Cours 3 : Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (1)
FASTQ = fasta + qualité (format existant depuis très longtemps)
Séquence paired-end : en présence d’une séquence obtenue par la technologie Illumina, on séquence les bordures. Single : dans un seul sens et paired-end dans les deux sens (forward et reverse). Dans un fichier paired-end, cette information est indiquée dans le nom de la séquence, après le # on peut avoir /1 (forward) ou /2 (reverse) pour l’un ou l’autre des sens.
La qualité est codée en code ASCII. C’est une échelle de corrélation de symboles, une manière de représenter la qualité en un seul symbole. L’ASCII est convertie en qualité Sanger et Solexa en retranchant 33 ou 64. Exemple : f = 102-64 = qualité de 38 au final : sur une échelle de 0 à 40 (entier de la probabilité postérieure que la base soit fausse).
Echelle de corrélation des symboles :
!”#$%&’()*+,-./0123456789:;?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopwqrs
tuvwxyz{|}~
Avant on conservait beaucoup de données, on coupait à une qualité de 20, maintenant on essaye d’avoir des données fiables, on coupe à 30.
 HYPERLINK "http://southgreen.cirad.fr/?q=content/trainings"Trainings =>Data sets :  HYPERLINK "http://southgreen.cirad.fr/sites/all/files/uploads/raw_data.tar.gz"raw d HYPERLINK "http://southgreen.cirad.fr/sites/all/files/uploads/raw_data.tar.gz"ata
Dans Data Library => Formation => Pre-processing and Mapping 2012, on trouve 20 fichiers d’entrainement. RC : riz cultivé ; RS : riz sauvage. Fichier 1 : Forward ; Fichier 2 : Reverse. 10 individus sauvages et 10 individus cultivés.
Télécharger RS6_1 et RS6_2 par exemple.
Assemblage et mapping individuel : déterminer quel individu a quel SNP
On TAG les séquences pour faciliter l’assemblage des séquences. Le TAG est une petite séquence ajoutée à l’extrémité de la séquence pour trouver l’enchainement de la séquence complète. Le dé-multiplexage consiste à assembler les fichiers séquence dans l’ordre et à supprimer le TAG.
Rappel : une profondeur raisonnable (6X est suffisant) facilite l’assemblage des fichiers.
Contrôle de la qualité : FASTQ Control
 HYPERLINK "http://gohelle.cirad.fr/galaxy/root/tool_menu"NGS: Quality Control =>FastQC quality control checks on raw sequence data
Dans le paramétrage : Contaminants: pour ajouter un fichier spécifique de contaminants : adaptateurs de séquençage, d’index…Selection is optional : pour la détection des contaminants présents dans la banque.
Résultat du FastQ control : (voir captures)
Basics statistics : Encoding Illumina 1.5 : permet de se référer à la bonne échelle de qualité.
Per base sequence quality
Courbes : bleue : moyenne ; rouge : médianes ; barres : quartiles.
Les riz sauvages ont des graphiques réguliers dus à une bonne qualité des banques. Les riz cultivés présentent des profils plus compliqués car les machines sont moins récentes et moins de séquences donc pollution en plus grande proportion.
A la vue du graphique on coupe à 75 car ensuite ça devient n’importe quoi (mieux vaut garder le standard et économiser du temps de nettoyage).

Per sequence quality scores : nombre de reads en fonction de leur qualité. Le pic est artificiel (erreur introduite volontairement). Le but est de n’avoir que des séquences d’une qualité moyenne supérieure à 30.

Per base GC content : proportion de A,T,C,G. Biais en début de séquence normal, en génomique on a pas cet effet.
















Per sequence GC content : en bleu : pourcentage par séquence si normal ; en rouge cas de notre séquence.
Per base N content : pas de N surreprésenté donc bien. Si pic de N, problème : poussière… Si le N n’est pas traité ultérieurement ce n’est pas dramatique.

Sequence Length Distribution: 76, bon.
Sequence Duplication Levels : vu qu’il y a une croix une séquence est surreprésentée quelque part. Overrepresented sequences permet de voir quelles est cette séquence.
Attention : la Rubisco est toujours surreprésentée dans les plantes donc c’est normal. Des manip permettent d’éliminer les séquences ribosomiques.
Over represented sequences
SequenceCountPercentagePossible SourceGTTTACTTCGGGCCGATGTCCTTCAGCGCGCAGATCTGCTCCTCTCCCAT270.6809583858764187No Hit
Kmer Content : donne les petits fragments qui sont ou non surreprésentés.
Formatage des données
UNTESTED TOOLS : n’a jamais tourné en production mais beaucoup d’outils pourraient être validés car très utilisés.
NGS =>Illumina data =>FASTQ Groomer convert between various FASTQ quality formats : permet le transfert d’une qualité à une autre.
Input FASTQ quality scores type: Illumina 1,3+ (dépend de la qualité de la séquence).
On exécute un Groomer sur les deux fichiers qui sont transformé forcément en qualité Sanger car le logiciel de nettoyage est en Sanger.
Visualisation de la qualité : on a plus des petits g en codage qualité mais des grands H car on est en qualité Sanger. On renomme les fichiers pour s’y retrouver :
Fichier 1 : Forward Sanger n°4 (vérifier que c’est /1)
Fichier 2 : Reverse Sanger n°5 (vérifier que c’est /2)
Nettoyage des données : apprentissage (cleaning data)
NGS: Quality Control => Cutadapt Remove adapter sequences from Fastq/Fasta
Recherche des adaptateurs au sein des séquences sur des critères de taille et pourcentage d’homologie.
On donne une valeur d’overlap à Cutadapt. Important : Minimum overlap length: 7 (si on met plus on rate des adaptateurs, 7 bases de recouvrement et 1 base d’erreur autorisée. On a donc un taux d’erreur de 0,1%). Quality cutoff: 20 : coupe la séquence jusqu’à obtenir une qualité de 20. Cutadapt ne garde pas les séquences de mauvaise qualité lors de l’analyse base par base de la qualité (- 20 à chaque base) mais garde toutes les bases qui ont une qualité supérieure ou égale à 20. Minimum length: 20 aussi lorsque la taille est inférieure à 20.
3' Adapters 1 : on rentre 10 x :

On obtient 2 fichier : le résultat et un rapport. Un FastQ C sur le résultat permet de se rendre compte qu’on a moins de déchets.


Par exemple, on a plus le pic de séquence d’une qualité de 10, par contre on perd un peu de séquences.
Nettoyage des données plus fin (cleaning data)
Dans l’absolu nous n’avons aucune séquence d’une qualité inférieure à 20 mais on va fixer la qualité à 30.
NGS =>Generic FASTQ manipulation =>Filter FASTQ reads by quality score and length
Minimum Size: 35. Quality Filter on a Range of Bases : cliquer : ouvre le menu. Aggregate read score for specified range: mean of scores. Quality Score: 30.
Pourquoi est-on passé par Cutadapt ? Pour partir avec une qualité qui est meilleure. Evite d’enlever des Reads complets qui auraient une bonne qualité en partie.
A savoir : souvent les Reverse sont de moins bonne qualité que les Forward donc on perd plus de séquences. Ne pas oublier de renommer les fichiers !
Validation des paires (verifying data)
Concaténation des deux fichiers
UNTESTED TOOLS => Text Manipulation => Concatenate datasets tail-to-head
Datasets : Concatène plusieurs fichiers ensemble. L’ordre Reverse/Forward ou Forward/Reverse n’a pas d’importance.
NGS =>FASTQ de-interlacer on paire-end end reads
Une fois que nous avons concaténé les données, on construit les fichiers de paires. Le logiciel créait deux fichiers Forward single et Reverse single. Ensuite on concatène tout à nouveau.
On obtient 4 fichiers :
16: FASTQ de-interlacer left mates from data 15 (Forward) : liés par paires (mates)
17: FASTQ de-interlacer right mates from data 15 (Reverse) : liés par paires (mates)
18: FASTQ de-interlacer left singles from data 15 (Forward)
19: FASTQ de-interlacer right singles from data 15 (Reverse)
Concaténation des fichiers single
Text Manipulation => Concatenate datasets tail-to-head : permet de concaténer les deux fichiers single.
Assemblage de novo (sans apriori)
Le but de cette étape est de créer une séquence à partir de plein de petites séquences. On assemble les Reads en contigs (séquence continue), reliés eux-même entre eux par une information physique de liaison en scaffold. On corrèle ensuite les scaffolds par rapport à la carte génomique. Pour certaines régions hautement répétées quelques une de ces étape sont encore impossibles (exemple : chromosome 9 du riz).Il existe aussi un autre type d’assemblage réalisé grâce à une séquence de référence (voir ci-après).
On a besoin d’un fichier qui regroupe toutes les séquences pour avoir le meilleur assemblage possible. Ici : le fichier de sortie (l’output) se nomme « 15 : Concatenate datasets Reverse and Forward ».
On utilise MIRA (ne fonctionne pas bien pour les données importantes)
NGS => Assembly => Assemble with MIRA Takes Sanger, Roche, and Illumina data
Paramètres : Assembly type: EST et Illumina dans Solexa/Illumina reads? : Yes.
On obtient les fichiers suivants :
21: MIRA contigs (FASTA) : assemblage de tous les reads
22: MIRA contigs (QUAL) : on peut éliminer sur la qualité : tient compte de la profondeur et de la qualité des bases à cette profondeur.
23: MIRA contigs summary
24: MIRA contigs stats : nombre de contigues, nombres de reads pour les constituer (si très élevé peut être à l’origine de séquence ribosomiques), qualité, % GC…
25: MIRA contigs (CAF) : format d’assemblage
26: MIRA contigs (ACE) : format d’assemblage
27: MIRA log : vérifie la qualité du travail, donne des informations sur le mapping

Si on renouvelle l’opération, les résultats seront différents à cause du changement de la position de démarrage.
Remarque sur les assembleurs NGS :
On ne peut pas assembler les séquences sur un cluster en tant que tel, on peut assembler ces séquences que sur une mémoire unique car les informations doivent être toutes accessibles….cette étape d’assemblage est longue et nécessite beaucoup de place (96 Go de mémoire vive à l’IRD et CIRAD !)
Mécanisme d’assemblage : agrégat  en fonction de l’endroit de point de départ ce qui va changer le résultat si on recommence cette étape. Sauf lorsque les séquences sont nombreuses : assemblage plus long mais de meilleure qualité.

Blast
On fait un blast sur les séquences de références que l’on compare à l’EST Rice.
Sequence comparisons => BLAST+ blastn (MC) Search nucleotide database with nucleotide query sequence(s)
Le fichier de sortie contient entre autre : le nom, le pourcentage d’identité, la longueur sur laquelle on a une identité, les mismach, la I-value (probabilité d’avoir cet alignement dans une seule séquence (donc non comparable)), le score.




Blast est un outil statistique !
Pour comparer avec la séquence de Riz de la librairie on utilise les outils suivants : Shared Data => Data libraries => Reference transcriptome Riz

BLASTX : comparaison de séquences nucléotides à des séquences protéiques.On peut utiliser Phred/Phrap comme assembleur.
Faiblesses de Galaxy
Noms des fichiers
Pas d’accents au niveau des noms ni de caractères spéciaux.
On ne renomme pas les fichiers lorsqu’ils n’ont pas fini de tourner.
Assembleurs NGS
On ne peut assembler que sur une mémoire unique (une seule machine).
Workflow
On ne peut pas lancer un Workflow en boucle.
On ne peut pas copier un Workflow.
Cours 4 : mise en perspective, workflows et traitement de données NGS
Le séquençage est en route : sur le support de cours, on a en vert les séquences publiées et en bleu non publiées.
Va-t-on réussir à réunir un consortium suffisamment important pour réaliser un travail aussi performant sur d’autres espèces que sur ce qui a été réalisé sur le riz ?
Les instituts de recherche asiatiques vont tout séquencer ! Les données privées vont-elles le rester longtemps ?
Notion de qualité du séquençage : garder un œil critique sur le matériel utilisé et mis à disposition dans les bases.
Comparaison de quelques données
Certaines données sont plus mauvaises que d’autres :
454 : plus cher, plus difficile à assembler.
Pacific Bioscience attendu car aura les mêmes défauts de séquençage que le 454 mais avec des longueurs de séquences beaucoup plus importantes. Permet d’avoir des fragments espacés. Méthylome (étude de la méthylation de l’ADN).
Ion Torrent (même type d’erreur que le 454 mais moins cher) et MSeq (technologie Illumina et fonctionne bien) : usage quotidien abordable, pour du génotypage par séquençage.
NGS : Déluge de données
Cloud-computing : machines reliées ensembles et traitement des données avec les ressources des particuliers ce qui pose un problème de confidentialité des données.
Limite des clusters : volume des données, stockage et traitement impossible.
Problématiques nouvelles
Le phénotypage, une étape limitante et chère de plus, en pathologie par exemple, il dépend de l’observation humaine des symptômes : faisabilité à haut débit?
Acquérir de nouvelles compétences dans le domaine de la bioinformatique.
Outils intégrés : exemple de Galaxy
Problèmes des formats de fichier
Avantage des workflow.
Cours 5 :Treatment of Raw NGS Data Cleaning, Formating, Assembly, Mapping (2)
Création d’un fichier de mapping (SAM)
Il s’agit de placer les paires ou les singles sur une séquence de référence. Dans le cas des paires on a deux séquences, le forward et le reverse. Le logiciel place toutes les positions potentielles du forward et toutes les positions potentielles du reverse et choisi ensuite selon les critères suivant la meilleure position (en rouge, position refusée, en vert, position validée) :
F et R doivent se faire face
Séquence entre les deux limites extrêmes de 300 à 500 bases
On va donc calculer les positions pour chaque reads, évaluer les relations entre chaque membre d’une paire et sélectionner la position la plus probable => Fichier SAM
Si la position des Forward et des Reverse est inconnue, le logiciel va proposer la position la plus probable (en générale si il n’y a pas de positionnement possible des séquences Forward et Reverse c’est qu’il y a eu insertion d’un élément transposable ou qu’il y a eu une recombinaison qui a abouti à une délétion).

Mapping: NGS : Mapping => Map with BWA for Illumina. Paramètres : Select a reference from history: Fichier de référence : Shared Data => Data libraries =>Formation => SNP => référence fas.txt. Maximum Edit distance (-n) : si les séquences font toutes la même taille on donne un chiffre si non on peut donner une fraction qui autorise les mismatch. Disallow: Autorise-t-on ou pas les longues délétions dans les 16 dernières bases ? Disallow : De même dans les 5 premières bases. Mismatch penalty (-M) : Combien de point coute un mismatch ?






Maximum edit distance (-n)Distance réelle ou % de distance : si les séquences sont de taille différentes : combien de miss matchMaximum of GAP openMaximum of GAP extentionsExtension maximum des GapDisallow long deletion within [value] bp towards the 3'-end (-n)Autorisation des longues détections dans les 16 dernières basesDisallow insertion/deletion within [value] bp towards the end (-i)Combien d’Indels : interdire les grand Indels ou autorisation long Indel (simulation intron)Number of first subsequences to take as seed (-l)Les x premières sous séquence sont des graines, si pas de taille de graine attribuer, plus longProceed with suboptimal alignments even if the top hit is a repeatPropose des alignementsDisable iterative searchLa première fois qu’il va trouver une séquence il ne va pas les chercher ailleursOutput top [value] hits: en single endPosition les plus probablesMaximum insert size for a read pair to be considered as being mapped properlyTaille maxMaximum occurrences of a read for pairingLa structure en verre on peut la retrouver jusqu’a 100000 fois.Suppress the header in the output SAM file:suppression du header (donne sur quoi on a mapper),Comporte les informations diverses tel que : qui a fait la manip, avec quoi…
Dans le fichier SAM les données sont triées par coordonnées. Ref LNpour length : longueur de la séquence de référence. Il s’y trouve le code reverse/forward, la référence de départ, la qualité puis le CIGAR string (représentation d’un alignement avec des codes beaucoup plus simples, ex : 9M=9 mismatch ; I = insertion, H = mauvais alignement…). Avant la séquence on a le point de démarrage du mate et la distance (39 ;-39 sur la fiche) et après la séquence : le nombre de mismatch réel.
Lorsque le fichier sort et qu’on n’a pas trié il n’y a pas d’information de sort order.
ID:bwa PN:bwa VN:0.5.9-r16 (programme et version utilisée)
Dans tout les cas, la notice est présente sur  HYPERLINK "http://bio-bwa.sourceforge.net/"http://bio-bwa.sourceforge.net/ dans SAMtools par le lien SAM Spec  HYPERLINK "http://samtools.sourceforge.net/SAM1.pdf"v1.4
NGS: SNP Detection => SNiPlay Utilities => AddReadGroupIntoSam Add read group into a sam alignment
Nettoyage des duplicata techniques
Consiste à éliminer les séquences répétées ou liées aux deux extrémités sur la plaque (erreurs de séquençage). On réalise deux nettoyages à partir des fichiers BAM, un avec le fichier paire-end et l’autre avec le fichier single. On construit ensuite deux fichiers BAM avec SortSam en changeant le fichier de sortie. Le fichier BAM est plus compressé et plus rapide à traité.
NGS: SAM/BAM Manipulations => rmdup remove PCR duplicates
On fait un rmdup avec le fichier Paired-end. On peut aussi choisir de le traiter en single pour qu’il ne traite qu’un coté. Le rmdup permet d’alléger le fichier en enlevant les duplicata techniques.
Fusion des deux fichiers
Ancêtre Oriza sativa, O. barti. On fusionne grâce aux commandes suivantes :
NGS: SAM/BAM Manipulations => MergeSam Fusionner des fichiers SAM/BAM
Conversion des fichiers :
NGS: SAM/BAM Manipulations => SAM-to-BAM converts SAM format to BAM format
NGS: SAM/BAM Manipulations => BAM-to-SAM converts BAM format to SAM format
Partage des fichiers
Option de l’historique => Share or publish =>Makes the history accessible via link
Récupérable sous le lien proposé :  HYPERLINK "http://gohelle.cirad.fr/galaxy/u/formation22/h/unnamed-history" \n _tophttp://gohelle.cirad.fr/galaxy/u/formation22/h/unnamed-history
Ou par Shared Data et dans Published Histories
Création du workflow
Workflows => All workflows => Switch to workflow management view => Create new workflow => Edit
Pour introduire des données : Workflow control => Inputs => Input dataset
Faire apparaitre la boite Cutadapt : NGS: Quality Control => Cutadapt Remove adapter sequences from Fastq/Fasta
En cliquant sur les étoiles présentes dans les briques on peut demander au workflow de sortir des données intermédiaires
Le Search Toolest un outil qui permet de rechercher des briques dans le menu de gauche.
Sum up du mapping (sans assemblage)
Pour un individu nous avons fait (entre parenthèses : nombre de briques) :
FastQ Groomer (*2)
Cutadapt (*2) : reprendre les réglages
Filter FastQ (*2)
Concatenate (*1)
FastQC (*1)
Deinterlacer (4 fichiers en sortie) (*1)
Concatenate single
BWA (*2)
ReadGroups (*2): ne pas faire d’autodétection
SortSAM (*2)
RMDUP (*2)
MergeSAM(*1) : on rentre et sort en BAM

  Cours 6 : Recherche et analyse de polymorphisme SNP (TP)
Un polymorphisme SNPest un polymorphisme qui s’observe sur une seule base. On va essayer de le détecter à partir d’un mapping au format SAM. Il existe un code IUPAC pour qualifier la variation des nucléotides. Exemple : pour la variation T/G=K.
Mise en marche de Tablet
Cette interface permet la visualisation d’assemblage de données NGS. Il accepte différents formats: ACE, SAM, BAM.
Accès à Tablet : HYPERLINK "http://bioinf.hutton.ac.uk/tablet/faq.shtml"http://bioinf.hutton.ac.uk/tablet/faq.shtml
Ouverture du Java web Start sur un lien du site (HYPERLINK "http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp"http://bioinf.hutton.ac.uk/tablet/webstart/tablet.jnlp.)
Tablet s’ouvre alors dans une fenêtre à part.
Pour permettre à Tablet de charger l’assemblage celui-ci doit être préalablement trié par positions sur la référence. Pour ce faire, on créé un nouveau fichier d’assemblage trié grâce à la brique Galaxy suivante (fichier séquence) :
HYPERLINK "http://gohelle.cirad.fr/galaxy/root/tool_menu"NGS: SAM/BAM Manipulations => PICARD Tools => SortSam Trie les entrees des fichiers SAM
On récupère deux fichiers sur le disque que l’on ouvre sur Tablet :
SortSam_on_data_24.sam (fichier séquence)
reference.fas.txt.fasta (référence)

Read Packing : changer le mode d’affichage. Permet de représenter une ou plusieurs lectures par ligne.
Read Colours : Read Group par exemple pour trier par groupes. Ci dessous : flêche blanche : un read et flèche noire un hétérozygote.

Pour une détection automatique des SNP, 3 options sont disponibles dans Galaxy SouthGreen:
SamToFastaAlignments
VCFToFastaAlignments
VarScan
Logiciel Varscan
Logiciel de détection de SNP à partir de fichier Pileup : Pileup2snp
Lecture d’un fichier Pileup
En prenant l’exemple qui figure sur la support de cours, on obtient :
seq1 272 T 24 ,.$.....,,.,.,...,,,.,..^+.