Td corrigé Introduction - Free pdf

Introduction - Free

Analyse de données phylogénétiques à l'aide de la signature génomique. ... Devant la commission d'examen : ..... mot de 6 lettre entre la signature moyenne corrigée des entérobactéries et de deux ..... Les fossiles servent à regrouper les espèces dont un ancêtre commun peut être trouvé à travers des fouilles géologiques.




part of the document



iversité Paris VIIAlain GUÉNOCHE(Rapporteur)Chargé de recherche CNRS, MarseilleManolo GOUY(Rapporteur)Directeur de recherche CNRS, LyonPhilippe DESSEN(Examinateur)Directeur de recherche CNRS, Villejuif






Remerciements
Table des Matières
 TOC \o "1-7" 1 Introduction  PAGEREF _Toc508370921 \h 1
2 État de l’art  PAGEREF _Toc508370922 \h 3
2.1 L’ADN  PAGEREF _Toc508370923 \h 3
2.1.1 La molécule  PAGEREF _Toc508370924 \h 3
2.1.2 Eubactéries  PAGEREF _Toc508370925 \h 5
2.1.3 Archaebactéries  PAGEREF _Toc508370926 \h 8
2.1.4 Eucaryotes  PAGEREF _Toc508370927 \h 9
2.1.5 DACU  PAGEREF _Toc508370928 \h 11
2.2 Phylogénie  PAGEREF _Toc508370929 \h 11
2.2.1 Historique  PAGEREF _Toc508370930 \h 11
2.2.2 Phylogénie et taxonomie  PAGEREF _Toc508370931 \h 13
2.2.3 La phylogénie moléculaire  PAGEREF _Toc508370932 \h 15
2.2.3.1 Historique  PAGEREF _Toc508370933 \h 15
2.2.3.2 Définition  PAGEREF _Toc508370934 \h 18
2.2.3.3 Les données prises en compte  PAGEREF _Toc508370935 \h 20
2.2.3.4 L’alignement  PAGEREF _Toc508370936 \h 20
2.2.3.5 Les méthodes de reconstruction d’arbres  PAGEREF _Toc508370937 \h 24
2.2.3.5.1 Maximum de parcimonie  PAGEREF _Toc508370938 \h 24
2.2.3.5.2 Phénétique  PAGEREF _Toc508370939 \h 26
2.2.3.5.3 Maximum de vraisemblance  PAGEREF _Toc508370940 \h 36
2.2.3.5.4 Méthodes bayésiennes  PAGEREF _Toc508370941 \h 38
2.2.3.6 Comparaison de méthodes  PAGEREF _Toc508370942 \h 40
2.2.3.7 Validité  PAGEREF _Toc508370943 \h 41
2.2.4 Problèmes rencontrés dans la réalisation d’une phylogénie moléculaire  PAGEREF _Toc508370944 \h 43
2.2.4.1 Alignement  PAGEREF _Toc508370945 \h 43
2.2.4.2 Séquences homologues  PAGEREF _Toc508370946 \h 43
2.2.4.3 Transfert Horizontaux  PAGEREF _Toc508370947 \h 45
2.2.4.4 Bootstrap  PAGEREF _Toc508370948 \h 46
2.2.4.5 Différentes méthodes - différents résultats  PAGEREF _Toc508370949 \h 46
2.2.5 Nouvelles méthodes  PAGEREF _Toc508370950 \h 47
2.2.5.1 Grand nombre de séquences  PAGEREF _Toc508370951 \h 47
2.2.5.2 Superarbre  PAGEREF _Toc508370952 \h 48
2.2.5.3 Emploi de caractéristiques structurales  PAGEREF _Toc508370953 \h 51
2.2.5.4 Présence des gènes  PAGEREF _Toc508370954 \h 53
2.2.5.5 Ordre des Gènes  PAGEREF _Toc508370955 \h 55
2.2.5.6 Phylogénie basée sur le score BLAST  PAGEREF _Toc508370956 \h 57
2.2.5.7 Utilisation d’événements rares, de petites séquences caractéristiques : la signature de séquence  PAGEREF _Toc508370957 \h 59
2.2.5.8 MUMer  PAGEREF _Toc508370958 \h 60
2.3 Signature Génomique  PAGEREF _Toc508370959 \h 62
2.3.1 Définition  PAGEREF _Toc508370960 \h 62
2.3.2 L’état des connaissances  PAGEREF _Toc508370961 \h 62
2.3.3 Construction des signatures  PAGEREF _Toc508370962 \h 64
2.3.4 Principaux résultats  PAGEREF _Toc508370963 \h 69
2.3.4.1 Diversité  PAGEREF _Toc508370964 \h 69
2.3.4.2 Spécificité  PAGEREF _Toc508370965 \h 71
2.3.4.3 Stabilité  PAGEREF _Toc508370966 \h 76
2.3.4.4 Transfert horizontaux  PAGEREF _Toc508370967 \h 78
2.3.5 Pourquoi utiliser la signature pour déterminer les relations entre espèces.  PAGEREF _Toc508370968 \h 80
3 Utilisation de la signature pour étudier les relations taxonomiques  PAGEREF _Toc508370969 \h 82
3.1 Classification et taxonomie  PAGEREF _Toc508370970 \h 82
3.1.1 Analyse discrimante  PAGEREF _Toc508370971 \h 82
3.1.2 Analyse discriminante « top-down »  PAGEREF _Toc508370972 \h 84
3.1.3 Cartes de Kohonen  PAGEREF _Toc508370973 \h 87
3.2 Distance et corrélation  PAGEREF _Toc508370974 \h 90
3.3 Méthode utilisant la signature  PAGEREF _Toc508370975 \h 92
3.3.1 Gestion des séquences et moyens informatiques employées  PAGEREF _Toc508370976 \h 92
3.3.2 Méthodologie développée  PAGEREF _Toc508370977 \h 93
3.4 Étude statistique de la méthode de la signature  PAGEREF _Toc508370978 \h 97
3.4.1 Est-ce que la distance entre signatures est une distance d’arbre ?  PAGEREF _Toc508370979 \h 97
3.4.2 Convergence de la topologie avec l’augmentation de la longueur des mots  PAGEREF _Toc508370980 \h 101
3.4.3 Conclusion  PAGEREF _Toc508370981 \h 103
3.5 Simulation  PAGEREF _Toc508370982 \h 104
3.6 Effet du bruit sur les résultats  PAGEREF _Toc508370983 \h 107
3.7 Applications aux séquences homologues  PAGEREF _Toc508370984 \h 111
3.7.1 RAG1  PAGEREF _Toc508370985 \h 111
3.7.2 Utilisation de l’ARN 18S  PAGEREF _Toc508370986 \h 120
3.7.2.1 La phylogénie des cirripèdes  PAGEREF _Toc508370987 \h 121
3.7.2.2 La phylogénie des plantes  PAGEREF _Toc508370988 \h 124
3.7.3 La signature de l’ARN  PAGEREF _Toc508370989 \h 133
3.8 Arbre multi-gène  PAGEREF _Toc508370990 \h 135
4 Application de la signature aux séquences non-homologues  PAGEREF _Toc508370991 \h 153
4.1 Phylogénie des gð-protéobactéries  PAGEREF _Toc508370992 \h 153
4.2 Augmentation du nombre d espèces prises en compte et technique de superarbre  PAGEREF _Toc508370993 \h 162
5 Conclusion et perspectives  PAGEREF _Toc508370994 \h 201
6 Références  PAGEREF _Toc508370995 \h 204
 Table des Figures

 TOC \c "Figure" Figure 1 - Molécule d'ADN constituée de deux brins complémentaires.  PAGEREF _Toc508367980 \h 4
Figure 2 - Diversité des formes de Bactéries. (a) les Cocci, (b) les Bacilles et (c) Les Spirilles.  PAGEREF _Toc508367981 \h 5
Figure 3 - Coupe d'une cellule bactérienne. (a) coupe schématique (b) Micrographie électronique de Bacillus coagulans.  PAGEREF _Toc508367982 \h 6
Figure 4 - Coloration de Gram. Deux types de parois bactériennes existent. La technique de la coloration de Gram permet de les distinguer. Pour chaque type de paroi, un schéma est indiqué.  PAGEREF _Toc508367983 \h 6
Figure 5 - Coupe d'une cellule eucaryote. Ici est représentée une cellule animale, où les principales structures les plus répandues sont schématisées.  PAGEREF _Toc508367984 \h 10
Figure 6 - Exemple d'une matrice PAM. La matrice au-dessus correspond à PAM2. Pour chaque acide aminé initial, les probabilités de mutation sont indiquées. Tableau tiré de Dayhoff et al (Dayhoff, 1978).  PAGEREF _Toc508367985 \h 17
Figure 7 - Enracinement d'un arbre à 4 taxons. Deux types d’enracinement sont possibles. Sur une branche externe (1) ou sur la branche interne (2).  PAGEREF _Toc508367986 \h 19
Figure 8 - Monophylie et Paraphylie. Le groupe (B, C, D) est monophylétique : tous les descendants de leur ancêtre commun sont compris dans ce groupe. Le groupe (F, G, H) est paraphylétique : Leur ancêtre commun n’a pas tous ses descendants dans le groupe, il manque E.  PAGEREF _Toc508367987 \h 19
Figure 9 - Exemple d'une matrice de score permettant d'aligner deux séquences suivant l'alogrithme de Needleman-Wunsch. La matrice de substitution utilisée est BLOSUM 62. Les paramètres d’ouverture de gap sont d=-12 et e=-2. Le chemin jaune correspond à l’alignement optimal.  PAGEREF _Toc508367988 \h 22
Figure 10 - Alignement de 4 séquences nucléiques  PAGEREF _Toc508367989 \h 25
Figure 11 - Nombre de changements évolutifs en fonction de la topologie. Une étoile correspond à un changement évolutif qui se déroule dans la branche.  PAGEREF _Toc508367990 \h 25
Figure 12 - Différents types de mutation. Deux séquences homologues descendent d’une séquence ancestrale. Les mutations sont représentées par une flèche.  PAGEREF _Toc508367991 \h 27
Figure 13 - Distribution de la loi gamma pour différentes valeurs de að. Les distributions de trois valeurs de að sont représentées. að=0.5 (courbe verte), að=1 (courbe bleue) et að=2 (courbe rouge).  PAGEREF _Toc508367992 \h 31
Figure 14 - Différentes étapes de l'algorithme Neighbor-Joining. Gauche : arbre étoilé initial. Droite : arbre après le regroupement des taxons 1 et 2.  PAGEREF _Toc508367993 \h 33
Figure 15 - Arbre après acceptation du regroupement entre les taxons 1 et 2.  PAGEREF _Toc508367994 \h 34
Figure 16 – Méthode du maximum de vraisemblance : arbre à 4 taxons. Les nœuds internes ainsi que les différentes longueurs de branches sont indiqués. Figure adaptée de Li et Gouy 1991  PAGEREF _Toc508367995 \h 37
Figure 17 - Phénomène d’attraction des longues branches.  PAGEREF _Toc508367996 \h 45
Figure 18 - Méthodes de superarbre : ancienne et nouvelles. (a) Dans le passé, les différents arbres sources étaient assemblés ensemble de manière indépendante. (b) Actuellement, les arbres sources sont choisis de manière à posséder des chevauchements au niveau des espèces. La construction n’est pas obligatoirement la MRP comme l’exemple de la figure le montre. Les portions du superarbre qui proviennent d’un même arbre source sont codés par le même code couleur. (Figure tirée de (Bininda-Edmonds, 2004))  PAGEREF _Toc508367997 \h 49
Figure 19 - Méthode d’encodage des arbres en une matrice binaire dans la méthode MRP. (a,b) arbres sources. Les nœuds internes sont numérotés. (c) matrice binaire encodée.  PAGEREF _Toc508367998 \h 51
Figure 20 - Méthode morphométrique moléculaire. Les différentes structures sélectionnées sont encodées en une matrice de charactères qui produira des arbres par maximum de parcimonie et méthode des distances.  PAGEREF _Toc508367999 \h 52
Figure 21 - Phylogénie de 91 procaryotes basée sur l’utilisation de BLAST. Distance utilisée : « matched distance » et BIONJ. Les différents groupes taxonomiques sont indiqués. Tirée de Henz et al (Henz et al., 2004).  PAGEREF _Toc508368000 \h 58
Figure 22 – Placement des génomes complets basé sur la signature de séquence de différentes protéines. La flèche au-dessus de la ligne indique où sont supposés être placés des indels. Le modèle prédit que les espèces à gauche de la flèche possède l’indes et qu’à droite l’indel est manquant. 936 observations sur les génomes complets ont été nécessaire pour obtenir ce diagramme.  PAGEREF _Toc508368001 \h 60
Figure 23 - Images CGR correspondantes à la séquence de l’exemple pour des mots de 1, 2 et 3 lettres.  PAGEREF _Toc508368002 \h 68
Figure 24 - Signatures génomiques pour des mots de 8 lettres de quelques espèces obtenues à partir de l’étude de leurs génomes complets.  PAGEREF _Toc508368003 \h 70
Figure 25 - Analyse en composante principale des signatures de fragments de génomes complets. Projection sur les deux premiers axes. Quatre tailles de fragments ont été utilisées : 5kb, 10 kb, 25 kb et 100kb. 9 espèces sont représentées.  PAGEREF _Toc508368004 \h 72
Figure 26 - Signatures génomiques de fragments allant de 1kb à 100kb et signatures de génomes complets pour quatre espèces.  PAGEREF _Toc508368005 \h 73
Figure 27 - Classification par la méthode des plus proches voisins des signatures de fragments issus de 34 génomes. Les différentes courbes correspondent à des tailles de mots différentes. En abscisse, taille des fragments en kb (échelle logarithmique). En ordonnée, proportion de fragments correctement assignés.  PAGEREF _Toc508368006 \h 74
Figure 28 - Classification des plus proches voisins. Étude de l’influence de la taille de la référence sur les résultats.  PAGEREF _Toc508368007 \h 76
Figure 29 - Homogénéité de la signature le long du génome. Les signatures de fragments consécutifs sont juxtaposées sous la forme d’une matrice. Les différents mots sont en ordonnée. Donc les lignes horizontales correspondent à la conservation de la fréquence d’un mot. Trois génomes ont été découpés.  PAGEREF _Toc508368008 \h 77
Figure 30 - Distances entre les signatures des différents fragments et la signature du génome complet (ligne bleue). Le seuil de détection des régions originales est indiqué par une ligne violette.  PAGEREF _Toc508368009 \h 79
Figure 31 - Analyse discriminante de 10 000 espèces à l’aide de la signature pour des mots de 5 lettres. Classification en trois groupes taxonomiques. Des délimitations des différents domaines ont été ajoutées.  PAGEREF _Toc508368010 \h 83
Figure 32 - Analyse discriminante de 10 000 espèces à l’aide de la signature pour des mots de 5 lettres. Classification en 13 groupes. Les différents groupes ainsi que leurs codes couleur sont indiqués à droite de la projection.  PAGEREF _Toc508368011 \h 83
Figure 33 - Analyse discriminante « top-down » de signatures (mot de 6 lettres) de fragments de 63 espèces. Trois tailles de fragments ont été testées : 100 kb, 10 kb et 1kb. A chaque analyse discriminante, le pourcentage de signature correctement classées est indiqué avec le code couleur correspondant à la taille des fragments utilisés.  PAGEREF _Toc508368012 \h 85
Figure 34 - Analyse discriminante « top-down » des 10 787 signatures (mot de 6 lettres). Chaque signature correspond à une espèce, qui est représentée par une seule signature. Les signatures ont été calculées à partir de fragments de taille allant de 1.5 kb à plusieurs dizaines de megabases. Le nombre d’espèces à chaque étape et les pourcentages de chaque classification sont indiqués sur le graphe.  PAGEREF _Toc508368013 \h 86
Figure 35 - Classification de 1000 signatures par carte de Kohonen. La taille des mots est de 4 lettres.  PAGEREF _Toc508368014 \h 87
Figure 36 - Classification par carte de Kohonen de 900 signatures de 4 lettres. Pour chacun des cinq groupes taxonomiques, leurs signatures sont mises en avant sur la carte de Kohonen. Il est aussi indiqué l’arbre phylogénétique représentant les relations entre ces cinq groupes.  PAGEREF _Toc508368015 \h 89
Figure 37 - Carte de Kohonen où chaque signature est représentée par un point avec un code-couleur proportionnel à la composition en base.  PAGEREF _Toc508368016 \h 90
Figure 38 - Distance entre signature en fonction de l’identité de séquences. Distance obtenue en comparant des signatures de sequences de 5kb à l’aide de la métrique euclidienne.  PAGEREF _Toc508368017 \h 91
Figure 39 - Schéma récapitulatif de la méthode issue de la signature en comparaison avec les méthodes classiques. Ici, il est représenté l’exemple de l’utilisation de séquences homologues.  PAGEREF _Toc508368018 \h 94
Figure 40 - Bootstrap sur les mots. À partir de l’échantillon initial, on construit des échantillons bootstrap par tirage aléatoire avec remise. Ici, les fréquences d’un mot pour toutes les espèces ont été surligné. Ce mot se retrouve une fois dans le premier échantillon bootstrap et trois fois dans le deuxième.  PAGEREF _Toc508368019 \h 95
Figure 41 - Schéma de la méthode du bootstrap se basant sur l’utilisation de fragments des séquences initiales.  PAGEREF _Toc508368020 \h 96
Figure 42 - Topologies pour le quadruplet {a,b,c,d} correspondant à la condition précédemment énoncée.  PAGEREF _Toc508368021 \h 99
Figure 43 - Les 4 sous-arbres définis par une branche interne e.  PAGEREF _Toc508368022 \h 100
Figure 44 - Critères statistiques des matrices de distances en fonction de la taille des mots. Les matrices de distances proviennent de l’étude du gène RAG1. L’axe des abscisses à droite correspond aux valeurs du stress. Sur l’axe des abscisse gauche, les valeurs des critères pour la méthode des distances (distance de Kimura 2-paramètres) sont indiqués par un point et une ligne pour l’arboricité.  PAGEREF _Toc508368023 \h 100
Figure 45 - Analyse de la distance de Robinson-Foulds pour les arbres issus de la signature. Les distances ont été calculées à partir des séquences provenant de l’étude du gène RAG1. Pour chaque taille de mot, l’arbre signature a été comparé aux arbres de deux méthodes classiques et à des arbres aléatoires. Pour la distance aléatoire, 100 arbres aléatoires sont utilisés. On a une distance aléatoire moyenne légèrement inférieure à 86 (distance maximum pour des arbres à 46 taxons).  PAGEREF _Toc508368024 \h 103
Figure 46 - Distance de Robinson-Foulds entre l’arbre non-perturbé et les arbres perturbés. L’intensité du bruit dépend de deux facteurs correspondant aux deux axes : le pourcentage de signatures d’espèces qui sont perturbés et le taux de bruit qui est introduit. La distance de Robinson-Foulds maximale est de 86.  PAGEREF _Toc508368025 \h 110
Figure 47 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode issue de la signature. Signatures pour des mots de 6 lettres et métrique du cð2. Les coefficients bootstrap supérieurs à 50% sont indiqués.  PAGEREF _Toc508368026 \h 114
Figure 48 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences nucléiques. Distance utilisée suivant le modèle d’évolution HKY85. Taux de transition/transversion = 2. Algorithme NJ. Les coefficients bootstrap supérieurs à 50% sont indiqués.  PAGEREF _Toc508368027 \h 115
Figure 49 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences protéiques. Distance utilisée à partir de la matrice PAM 50. Algorithme NJ.  PAGEREF _Toc508368028 \h 116
Figure 50 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode du maximum de parcimonie.  PAGEREF _Toc508368029 \h 117
Figure 51 - Analyse par la vraisemblance de la congruence phylogénétique pour le gène RAG1. Les topologies obtenues par les méthodes traditionnelles sont comparées à elles obtenues par la signature et à des topologies aléatoires. Pour les arbres de la signature et pour chaque métrique, la taille utilisée des mots est représentée à coté de chaque point.  PAGEREF _Toc508368030 \h 119
Figure 52 - Phylogénie des cirripèdes. A Parcimonie : arbre obtenu à partir de l alignement que nous avons effectué. B Méthode de la signature : mot de 6 lettres  métrique du cð2. L arbre a été inféré par Neighbor-Joining. Les coefficients de bootstrap supérieur à 50% sont indiqués. La signature moyenne de chaque groupe taxonomique est positionnée à la droite de l’arbre de la signature. Le clade dont la formation est discutée est indiqué par un rond vert.  PAGEREF _Toc508368031 \h 123
Figure 53 - Arbres phylogénétiques obtenus par Billoud et al à partir de l’étude des caractéristiques morphométriques. Gauche : utilisation de la méthode des distances sur les données morphométriques. Droite : méthode de la parcimonie sur ces données. Figure tirée de Billoud et al (Billoud et al., 2000).  PAGEREF _Toc508368032 \h 123
Figure 54 - Arbre phylogénétique de 99 espèces de plantes à l aide de la signature. Signatures de 6 lettres et métrique du cð2. La signature moyenne du groupe des Angiospermes et celle du groupe des copies mitochondriales sont placées à droite de chaque groupe.  PAGEREF _Toc508368033 \h 128
Figure 55 - Comparaison de la signature d’une copie nucléaire de l’ARN 18S et celle d’une copie mitochondriale. La signature de l’ARN 18S nucléaire d’une espèce proche est aussi représentée. Les signatures nucléaires sont plus proches que les signatures de la même espèce.  PAGEREF _Toc508368034 \h 129
Figure 56 - Arbre phylogénétique des plantes obtenu par comparaison des signatures de l’ARN 18S. Signatures de 6 lettres – métrique du cð2. Les coefficients bootstrap (500 réplicats) supérieurs à 50% des principaux groupes sont indiqués. Les noms des espèces sont indiqués par un code (voir tableau X pour la correspondance).  PAGEREF _Toc508368035 \h 130
Figure 57 - Méthode pour l arbre multi-gène en utilisant la signature.  PAGEREF _Toc508368036 \h 136
Figure 58 - Arbre consensus obtenu par quatre méthodes : méthode de distances, maximum de parcimonie, maximum de vraisemblance et la méthode de la signature. Le consensus pour la méthode de la signature correspond à l’arbre non-pondéré. Les coefficients de bootstrap des arbres sont indiqués pour trois méthodes. En ce qui concerne la méthode des distances, les branches plus épaisses et grises correspondent à des longueurs de branches négatives.  PAGEREF _Toc508368037 \h 140
Figure 59 - Diversité des arbres de gènes obtenus avec les méthodes classiques. Ici sont représentés les arbres obtenus pour deux gènes et deux méthodes. Les coefficients des arbres de la méthode des distances sont indiqués.  PAGEREF _Toc508368038 \h 143
Figure 60 - Distribution des distances de Robinson-Foulds entre l’arbre consensus et les 33 arbres de gènes pour les quatre méthodes prises en compte. La distance dT a été calculée pour la méthode des distances, le maximum de parcimonie, le maximum de vraisemblance (ML) et la méthode de la signature (mots de 6 lettres  métrique du cð2).  PAGEREF _Toc508368039 \h 144
Page précédente : Figure 61 - Classication hiérarchique des 393 signatures de mots de 6 lettres. Toutes les signatures appartenant à une même espèce possèdent le même code couleur. Les noms des espèces impliquées dans un groupe sont indiqués sur la gauche de l’arbre. Les signatures correspondant au gène EF-Tu sont aussi mises en avant.  PAGEREF _Toc508368040 \h 149
Figure 62 - Partie de l’arbre de la classification hiérarchique centrée sur les espèces E. coli, S. typhimurium et V. cholerae. Les symboles à gauche des noms correspondent aux gènes.  PAGEREF _Toc508368041 \h 149
Figure 63 - Partie de l’arbre hiérarchique centré sur le groupe S. aureus.  PAGEREF _Toc508368042 \h 151
Figure 64 - Arbre phylogénétique obtenu par la méthode de la signature, à partir de signatures de génomes complets pour des mots de 6 lettres. La métrique employée est la métrique du cð2.  PAGEREF _Toc508368043 \h 152
Figure 65 - Arbre des gð-protéobactéries obtenu à partir des signatures non-corrigées. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.  PAGEREF _Toc508368044 \h 156
Figure 66 - Arbre des gð-protéobactéries obtenu à partir des signatures corrigées par un Markov d ordre 0. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.  PAGEREF _Toc508368045 \h 156
Figure 67 - Arbre des gð-protéobactéries obtenu à partir des signatures des séquences d ARN 16S. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.  PAGEREF _Toc508368046 \h 157
Figure 68 - Arbre des gð-protéobactéries obtenu à partir de la méthode du maximum de vraisemblance pour les séquences d’ARN 18S. Chaque couleur correspond à un groupe taxonomique.  PAGEREF _Toc508368047 \h 157
Figure 69 - Différence de fréquences corrigées de mot de 6 lettre entre la signature moyenne corrigée des entérobactéries et de deux espèces : V. cholerae et B. aphidicola.  PAGEREF _Toc508368048 \h 160
Figure 70 - Phylogénie des crénarchée (8 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368049 \h 168
Figure 71 - Phylogénie des euryarchées (30 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368050 \h 169
Figure 72 - Phylogénie des actinobactéries (70 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368051 \h 170
Figure 73 - Phylogénie des bacillales (45 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368052 \h 171
Figure 74 - Phylogénie des lactobacillales (39 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368053 \h 172
Figure 75 - Phylogénie des clostridiales (13 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368054 \h 173
Figure 76 - Phylogénie des paramycetes (19 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368055 \h 174
Figure 77 - Phylogénie des bactéroïdes (9 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368056 \h 175
Figure 78 - Phylogénie des cyanobactéries (23 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368057 \h 176
Figure 79 - Phylogénie des að-protéobactéries (53 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368058 \h 177
Figure 80 - Phylogénie des bð-protéobactéries (38 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368059 \h 178
Figure 81 - Phylogénie des dð-protéobactéries (15 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368060 \h 179
Figure 82 - Phylogénie des eð-protéobactéries (8 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368061 \h 180
Page précédente : Figure 83 - Phylogénie des gð-protéobactéries (124 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368062 \h 182
Figure 84 - Phylogénie des spirochètes (9 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368063 \h 182
Figure 85 - Phylogénie du groupe « thermophiles » (7 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.  PAGEREF _Toc508368064 \h 183
Figure 86 - Moyennes des distances intra-(o) et intergroupes (x) en fonction du groupe taxonomique. La courbe bleue (respectivement rouge) est la courbe des moyennes des distances intragroupes (respectivement intergroupes). Convention : crénarchée (1), euryarchée (2), actinobactérie (3), bacillale (4), lactobacillale (5), clostridiale (6), paramycete (7), bactéroïde (8), cyanobactérie (9), að-protéobactérie (10), bð-protéobactérie (11), dð-protéobactérie (12), eð-protéobactérie (13), gð-protéobactérie (14), spirochète (15), thermophile (16).  PAGEREF _Toc508368065 \h 185
Figure 87 - Arbre obtenu avec les moyennes des groupes taxonomiques.  PAGEREF _Toc508368066 \h 186
Page précédente : Figure 88 - Arbre obtenu par l'étude de 415 signatures d'espèces procaryotes. Signature pour des mots de 6 lettres, métrique euclidienne. Chaque sous-arbre est indiqué par une flèche et son numéro.  PAGEREF _Toc508368067 \h 189
Figure 89 - Sous-arbre n°1 de l'arbre des 415 signatures.  PAGEREF _Toc508368068 \h 190
Figure 90 - Sous-arbre n°2 de l'arbre des 415 signatures.  PAGEREF _Toc508368069 \h 191
Figure 91 - Sous-arbre n°3 de l'arbre des 415 signatures.  PAGEREF _Toc508368070 \h 192
Figure 92 - Sous-arbre n°4 de l'arbre des 415 signatures.  PAGEREF _Toc508368071 \h 193
Figure 93 - Sous-arbre n°5 de l'arbre des 415 signatures.  PAGEREF _Toc508368072 \h 193
Figure 94 - Sous-arbre n°6 de l'arbre des 415 signatures.  PAGEREF _Toc508368073 \h 194
Figure 95 - Sous-arbre n°7 de l'arbre des 415 signatures.  PAGEREF _Toc508368074 \h 195
Figure 96 - Sous-arbre n°8 de l'arbre des 415 signatures.  PAGEREF _Toc508368075 \h 196
Figure 97 - Sous-arbre n°9 de l'arbre des 415 signatures.  PAGEREF _Toc508368076 \h 197

Table des tableaux

 TOC \c "Tableau" Tableau 1 - Corrélation entre les axes de l’ACP et la composition en base.  PAGEREF _Toc508367853 \h 73
Tableau 2 - Résultats de la simulation. Les chiffres correspondent au pourcentage moyen de branches internes différentes entre les arbres de références et les arbres obtenues à partir des séquences pour les différentes méthodes. Pour la signature, deux métriques ont été utilisées pour trois longueurs de mots.  PAGEREF _Toc508367854 \h 105
Tableau 3 - Rapport entre les fréquences de l’écart à la prédiction par rapport à celles de la signature observée pour un mot donné. Les fréquences utilisées sont celles de tous les mots de 6 lettres pour les 46 signatures du gène RAG1.  PAGEREF _Toc508367855 \h 109
Tableau 4 - Nom et groupe taxonomique d’appartenance des espèces étudiés avec le gène RAG1.  PAGEREF _Toc508367856 \h 112
Tableau 5 - Différences de log de vraisemblance. Les différences sont calculées à partir du maximum de vraisemblance.  PAGEREF _Toc508367857 \h 120
Tableau 6 - Nom des espèces impliquées dans l’étude de l’ARN 18S des cirripèdes.  PAGEREF _Toc508367858 \h 122
Tableau 7 - Nom des espèces de plantes impliquées dans l’étude phylogénétique à l’aide du gène ARN 18S. Pour chaque espèce, son nom, son groupe taxonomique d’appartenance ainsi que son code. Les espèces qui sont grisés correspondent à des espèces dont la copie mitochondriale du gène ARN18S a été employée.  PAGEREF _Toc508367859 \h 126
Tableau 8 - Classification par k-means des fragments hôte de 27 génome et de fragment d’ARNr, selon leur classe.  PAGEREF _Toc508367860 \h 133
Tableau 9 - Classification par les plus proches voisins.  PAGEREF _Toc508367861 \h 134
Tableau 10 - Distribution des distances entre signatures en fonction de l’origine des fragments. L’ARNr Euc/Pro correspond à la réunion des ARNr eucaryotes et procaryotes, hors mitochondriaux et chloroplastiques.  PAGEREF _Toc508367862 \h 134
Tableau 11 - Nom et taille des gènes étudiés dans l’étude multi-gène.  PAGEREF _Toc508367863 \h 138
Tableau 12 - matrice de distance issue de la méthode de la signature  PAGEREF _Toc508367864 \h 142
Tableau 13 - Statistiques de la distribution des distances dT en fonction de la méthode utilisée.  PAGEREF _Toc508367865 \h 144
Tableau 14 - Nom des gènes additionnés à l’étude et ne possédant pas une séquence pour l’ensemble des espèces.  PAGEREF _Toc508367866 \h 145
Tableau 15 - Récapitulatif du test de robustesse de l arbre consensus de la signature par Jacknife.  PAGEREF _Toc508367867 \h 146
Tableau 16 - Nom des espèces de gð-protéobactéries prises en compte.  PAGEREF _Toc508367868 \h 153
Tableau 17 - Corrélation entre les axes de l ACP et la composition en base. L’ACP a été effectué sur 50 signatures de génomes complets, corrigées par un Markov d’ordre 0. Les corrélations, ainsi que les pourcentages de variance expliquée des 5 premiers axes de l’ACP sont indiqués.  PAGEREF _Toc508367869 \h 154
Tableau 18 - Distribution de la valeur absolue des différences de fréquences corrigées de mots entre la signature moyenne des entérobactéries et de deux espèces : V. cholerae et B. aphodicola.  PAGEREF _Toc508367870 \h 161


Introduction


L’observation de la diversité du vivant a conduit l’Homme à chercher à mieux comprendre les relations qui existent entre les organismes vivants. La connaissance des processus d’évolution des espèces a été une recherche permanente et, au fil des siècles, la compréhension des mécanismes sous-jacents n’a cessé de s’améliorer. Une des principaux axes de recherche est la définition des espèces, leur classification et l’établissement des relations qui existent entre elles.
Les premières classifications des espèces utilisèrent les caractérisations physiques, comme la morphologie ou l’étude des fossiles. La plupart des classifications qui ont été effectuées à partir de ces critères sont toujours celles qui sont utilisées de nos jours. La découverte de la molécule de l’ADN a ouvert un nouveau champ d’étude. L’ADN est la molécule qui transmet le patrimoine héréditaire de chaque espèce. Afin de comparer les espèces, on peut comparer leurs matériels génétiques. Pour cela, des méthodes de phylogénies (phénétique, parcimonie et méthodes probabilistes) ont été développées se basant sur l’étude de gènes communs. L’hypothèse de base de ces méthodes est que l’évolution du gène correspond à l’évolution des espèces. Les séquences des gènes sont soumises à des processus évolutifs (mutation, insertion ou délétion) et l’établissement de ces processus permet de reconstruire les relations entre les espèces. Les changements au niveau des gènes conduisent les espèces à se différencier. Les méthodes de phylogénie se basent sur la détermination de ce qui est commun puis différent entre les espèces. L’utilisation de ces données moléculaires ont permis de changer notre vue de la notion d’espèces, particulièrement chez les procaryotes  ADDIN EN.CITE Lan200010000000000110989306892000SepIntraspecies variation in bacterial genomes: the need for a species genome concept396-401Dept of Microbiology, Bldg G08, University of Sydney, NSW 2006, Sydney, Australia.Lan, R.Reeves, P. R.Trends MicrobiolBacteria/*classification/geneticsEnterobacteriaceae/geneticsEvolution*Genome, BacterialHelicobacter pylori/geneticsNeisseria meningitidis/geneticsResearch Support, Non-U.S. Gov't*Species Specificity*Variation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10989306Doolittle1999200000000002Doolittle, W. F.1999Phylogenetic classification and the universal treeScience2842124-2129Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001; Doolittle, 1999; Lan and Reeves, 2000). Les méthodes de phylogénie classiques posent le problème de la reconstruction des relations pour les espèces très éloignées. En effet, il est alors difficile d’obtenir des critères fiables permettant de les comparer.
La disponibilité de plus en plus grande de séquences d’ADN permet de développer de nouvelles méthodes de phylogénie. En effet, l’apport considérable d’information que produisent les différents programmes de séquençage et les nouvelles techniques de biologie moléculaire (comme les puces à ADN) permet de définir de nouveaux moyens de comparaison d’espèces. La plupart de ces méthodes utilisent de nouvelles caractéristiques présentes dans les séquences des génomes complets, afin d’établir de nouveaux critères permettant la détermination des relations entre les espèces.
Mon travail de thèse se place dans cette optique.


Mon objectif a été de développer une nouvelle méthodologie permettant d’établir les relations entre les espèces à partir de la signature génomique. La signature génomique est un outil simple et rapide d’analyse textuelle des séquences qui représentant l’ensemble des fréquences des oligonucléotides de ces séquences. La signature génomique permet de comparer des séquences nucléiques de natures différentes (homologues et non homologues) et de tailles diverses. Grâce à cette rapidité et ce large champ d’application, la signature génomique est parfaitement adaptée à la comparaison d’un grand nombre de données moléculaires.
J’ai entrepris, au cours de ma thèse, plusieurs approches. J’ai tout d’abord classé les espèces à partir de la seule connaissance de leur signature génomique. Puis j’ai testé les performances de la signature dans la reconstruction de la phylogénie de séquences homologues et ainsi j’ai mis en place une méthode permettant d’établir les relations évolutives entre les espèces. Cette méthode a été employée sur différentes séquences homologues puis sur des séquences nucléiques non homologues chez les procaryotes.




État de l’art

L’ADN

La molécule

Dans la plupart des cas, l’information génétique des espèces est codée par l’acide désoxyribonucléique ou ADN. Certains virus, quant à eux, utilisent l’acide ribonucléique ou ARN.
L’ADN et l’ARN sont des macromolécules, des polymères dont le monomère de base est le nucléotide. Il existe quatre nucléotides différents par acide nucléique : l’adénine (A), la guanine (G), la cytosine (C) et enfin la thymine (T) (remplacée par l’uracile (U) pour l’ARN). Les nucléotides sont regroupés en deux familles de bases azotées : les pyrimidines (C et T(U)) et les purines (A et G). L’ADN se présente sous la forme d’une structure en double hélice où les brins complémentaires s’entrelacent ( REF _Ref508266203 \h Figure 1). Les brins sont dits complémentaires, car pour chaque base d’un brin, il y a en vis-à-vis sur l’autre brin un base particulière. En face d’un A (ou C), il y a un T (ou G) et vice-versa.


Figure  SEQ Figure \* ARABIC 1 - Molécule d'ADN constituée de deux brins complémentaires.


L’enchaînement de ces bases peut être considéré comme un texte écrit dans un alphabet de 4 lettres. C’est le texte complet qui contient l’ensemble de l’information génétique de l’organisme.
Un gène est une séquence continue ou discontinue de nucléotides qui est chargée d’une ou plusieurs fonctions spécifiques dans la cellule. Ces fonctions peuvent être : la régulation des échanges chimiques, la structure de la cellule, le transport d’information, la défense de l’organisme, …. L’ensemble de ce matériel génétique compose le génome. La taille des génomes est très variable : de quelques centaines de bases pour certains virus (le PSTV du tubercule de la pomme de terre avec 350 nucléotides (nt)) à plusieurs centaines de milliards de bases (6.6*1011 bases chez Amoebia dubia une amibe).
Les protéines sont des macromolécules, polymères d’acides aminés. Leurs structures et leurs compositions sont déterminantes pour leurs fonctions. Les protéines sont les produits de la traduction des gènes par la machinerie moléculaire. Le gène est d’abord transcrit en un ARN messager (ARNm), ce dernier était à son tour traduit en protéine. Le gène est codé afin de synthétiser les acides aminés grâce à l’utilisation d ‘un « code universel du vivant ». Ce code permet de passer d’une séquence d’un tri-nucléotide à un acide aminé. Ainsi les 64 tri-nucléotides possibles (43) permettent la synthèse de 20 acides aminés différents. On a donc un code génétique dégénéré.
Le monde du vivant est divisé en trois domaines taxonomiques : les eucaryotes, les eubactéries et les archaebactéries. Ces deux derniers peuvent être regroupés dans un super domaine appelé procaryotes.


Eubactéries

Les eubactéries (ou bactéries) sont des microorganismes unicellulaires dont la principale caractéristique est de ne pas présenter de noyau, à l’intérieur de la cellule.
Bien qu’unicellulaire, le comportement des espèces bactériennes peut être divers. Certaines vivent en solitaire ou en petit groupes de cellules. D’autres vivent sous la forme de grandes colonies, agrégats de cellules. Enfin certaines eubactéries se regroupent même en organisations pluricellulaires où des spécialisations entre cellules peuvent être observées.
D’un point de vue morphologique, la taille caractéristique d’une cellule de bactérie est de l ordre du micromètre (de 1mðm à 5mðm) ( REF _Ref508266204 \h Figure 3). Les cellules bactériennes ont différentes formes avec cependant trois formes préférentielles ( REF _Ref508266205 \h Figure 2) : la sphère (Cocci), le bâtonnet (Bacilles) et la spirale (Spirilles). Ces formes ont servi à l’édification des premières classifications bactériennes.


Figure  SEQ Figure \* ARABIC 2 - Diversité des formes de Bactéries. (a) les Cocci, (b) les Bacilles et (c) Les Spirilles.


Figure  SEQ Figure \* ARABIC 3 - Coupe d'une cellule bactérienne. (a) coupe schématique (b) Micrographie électronique de Bacillus coagulans.


La taille du génome des Eubactéries varie de 0,58 à 14 Mb. Par exemple, Mycoplasma genitalium a un génome d’une taille de 580 kb alors que Calothrix une cyanobactérie a un génome proche des 14Mb. Le rapport de taille entre le génome bactérien le plus petit et le plus grand est de 24.


Figure  SEQ Figure \* ARABIC 4 - Coloration de Gram. Deux types de parois bactériennes existent. La technique de la coloration de Gram permet de les distinguer. Pour chaque type de paroi, un schéma est indiqué.

Les bactéries possèdent une paroi externe autour de la membrane plasmique, composée de peptidoglycanes  ADDIN EN.CITE Stanier1962600000000006Stanier, RYVan Niel, CB1962The concept of a bacteriumArch Mikrobiol4217-35(Stanier and Van Niel, 1962). À la fin des années 1880, Gram détermina qu’il existait deux sortes de parois bactériennes, et ainsi divisa les bactéries en deux classes, grâce au développement d’un test de coloration ( REF _Ref508266234 \h  \* MERGEFORMAT Figure 4). La coloration de la bactérie dépend de la structure de sa paroi cellulaire :
Gram-Positif. La paroi contient beaucoup de peptidoglycanes sur sa couche externe.
Gram-Négatif. La paroi possède moins de peptidoglycanes, lesquels se trouvent dans un espace appelé périplasme situé entre la membrane plasmique et la membrane externe.

Plusieurs molécules d’ADN sont présentes dans le cytoplasme bactérien. Le chromosome bactérien est un double brin d’ADN, associé à des protéines, la plupart du temps circulaire même si de plus en plus de chromosomes bactériens linéaires sont trouvés. L’ADN bactérien est codant dans les deux sens de lecture et il possède peu de séquences non codantes. De petites molécules d’ADN circulaires peuvent coexister à l’intérieur de la cellule, les plasmides. Ces dernières se répliquent de façon indépendante, même si certaines peuvent le faire avec le chromosome de manière synchrone. Le nombre de gènes bactériens est très variable et est corrélé à la taille du génome : 500 pour les petits génomes (Mycoplasma genitalium) et plusieurs milliers pour les génomes plus riches (5000 pour E. coli O157-H7). Lors de la division cellulaire, la cellule duplique son chromosome. Chaque copie s’attache à la membrane plasmique. Entre les deux sites de fixation, la paroi croît jusqu’à doubler de taille. À ce moment, la membrane s’invagine formant une cloison séparant les deux copies. Puis deux cellules filles identiques à la cellule initiale sont produites par séparation au niveau de la membrane interne.
Leur taxonomie et l’histoire de leur classification seront abordées ultérieurement.


Archaebactéries

Les archaebactéries sont, comme les eubactéries, des procaryotes. Pendant de nombreuses années, les archaebactéries n’étaient pas considérées comme formant un domaine à part entière, mais appartenant au domaine des organismes sans noyau nucléaire, les procaryotes. En 1977, Woese démontra en étudiant l’ARN ribosomal (ARNr) que les archaebactéries représentaient un domaine taxonomique à part entière  ADDIN EN.CITE Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744(Woese and Fox, 1977).
Les archaebactéries ont de nombreux points communs avec les eubactéries. Tout d’abord, le chromosome d’une archaebactérie est aussi composé d’un double brin circulaire d’ADN et les tailles du génome en nombre de nucléotides et de gènes sont comparables. De même la division cellulaire d’une archée est identique à celle des bactéries.
Mais les archées ont aussi des points communs avec les eucaryotes. D’un point de vue moléculaire, certaines protéines ainsi que les ARNr des archées sont beaucoup plus proches en séquences et en fonctionnement de celles des eucaryotes. La paroi cellulaire des archées est constituée de lipides différents de ceux des eucaryotes et des bactéries et ne contient aucune molécule de peptidoglycane.
La plupart des archaebactéries vivent dans des conditions extrêmes : fond des océans, source volcaniques, fortes températures, station d’épuration et même intestin grêle. C’est pourquoi les archaebactéries sont souvent appelées « extrêmophiles ». Plusieurs types de archées peuvent être dégagés en fonction de l’environnement dans lequel elles vivent :
Les méthanogènes thermophiles (températures hautes : 60 à 80°C)
Les hyperthermophiles (températures extrêmement hautes : plus de 100°C)
Les psychrophiles (températures très basses, proche de 0°C)
Les halophiles (croissent dans des environnements fortement salins)
Les thermoacidophiles (prospérant dans des milieux chauds et très acides)
Les alcalinophiles (se développant à des pH : 8 à 10)

D’un point de vue taxonomique, les archaebactéries sont regroupés en quatre groupes : Les Euryarchaeotes, les Crenarchaeotes, Les Korarchaeotes  ADDIN EN.CITE Barns19961600000000016879917693171996Aug 20Perspectives on archaeal diversity, thermophily and monophyly from environmental rRNA sequences9188-93Department of Biology, Indiana University, Bloomington 47405, USA.Barns, S. M.Delwiche, C. F.Palmer, J. D.Pace, N. R.Proc Natl Acad Sci U S AArchaea/*classification/*genetics/isolation & purificationBacteria/geneticsComparative StudyDNA, Ribosomal/geneticsEukaryotic CellsHeatMarine BiologyMineral Waters/microbiologyMolecular Sequence DataPhylogenyRNA, Ribosomal/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Sequence Analysis, DNA*Variation (Genetics)*Water MicrobiologyWyominghttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8799176(Barns et al., 1996) et les Nanoarcheas  ADDIN EN.CITE Huber200217000000000171198666541768842002May 2A new phylum of Archaea represented by a nanosized hyperthermophilic symbiont63-7Lehrstuhl fur Mikrobiologie und Archaeenzentrum, Universitat Regensburg, Universitatsstrasse 31, D-93053 Regensburg, Germany.Huber, H.Hohn, M. J.Rachel, R.Fuchs, T.Wimmer, V. C.Stetter, K. O.NatureArchaea/*classification/genetics/*physiology/ultrastructureBase SequenceBlotting, SouthernEvolutionGenome, Archaeal*HeatMicroscopy, ElectronMolecular Sequence DataNucleic Acid ConformationRNA, Archaeal/chemistry/geneticsRNA, Ribosomal/chemistry/geneticsResearch Support, Non-U.S. Gov't*SymbiosisTerminologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11986665(Huber et al., 2002).


Eucaryotes
Historiquement, Les eucaryotes sont considérés comme le groupe de référence. Cela provient du fait que les organismes multicellulaires observables à l’œil nu sont des eucaryotes. Ainsi les premiers groupes ayant servi à classer le vivant sont tous des groupes d’eucaryotes, les procaryotes n étant qu une partie des Protistes.
Les cellules d eucaryotes mesurent de 10 à 100 mðm de diamètre. Les cellules eucaryotes peuvent se regrouper ou non en amas cellulaires. Ce qui différencie principalement les eucaryotes des autres domaines est la présence d une paroi nucléaire séparant le matériel génétique, L ADN, du cytoplasme cellulaire ( REF _Ref508266308 \h Figure 5). Le noyau nucléaire est un organite de 5mðm de diamètre contenant chez les eucaryotes la majorité de l ADN. La paroi cellulaire des eucaryotes est proche de celles des eubactéries à l’exception du fait qu’elle ne possède pas de peptidoglycane. La cellule eucaryote se procure de l’énergie à l’aide de la photosynthèse par l’intermédiaire des chloroplastes ou par respiration grâce aux mitochondries. Les chloroplastes et les mitochondries possèdent leurs propres ADN, circulaire et codant pour leurs protéines. Les cellules possèdent aussi des organisations complexes comme les appareils de Golgi et le réticulum endoplasmique. Le génome eucaryote est en moyenne beaucoup plus grand que celui des procaryotes. La cellule eucaryote contient un ou plusieurs chromosomes de tailles diverses, constitués de molécules linéaires d’ADN. Le nombre de chromosomes est une caractéristique de l’espèce. Lors de la division cellulaire, chaque chromosome est dupliqué. Les deux copies sont reliées par leurs centromères. Les eucaryotes se distinguent aussi des procaryotes par leur mécanisme de division cellulaire. À la fin de la réplication de l’ADN, les deux copies (chromatides) de chaque chromosome sont regroupées par leurs centromères. Au cours de la mitose, les chromatides se séparent pour former un jeu chromosomique complet de chaque coté de la cellule dans leur propre noyau nucléaire. Puis la cellule se divise lors de la cytocinèse.


Figure  SEQ Figure \* ARABIC 5 - Coupe d'une cellule eucaryote. Ici est représentée une cellule animale, où les principales structures les plus répandues sont schématisées.

Les eucaryotes se divisent classiquement en quatre grands domaines : Végétaux, Animaux, Mycètes et Protistes. Les trois premiers groupes sont bien définis, les protistes consistent en des organismes unicellulaires qui ne sont pas animal, végétal ou champignon. Les progrès en systématique ont permis de mettre à jour un arbre phylogénétique plus complexe (pour de plus amples discussion voir Lecointre et Le Guyader  ADDIN EN.CITE Lecointre20011810000000018Lecointre, G.Le Guyader, H.2001Classification phylogénétique du vivantParisBelin15442-7011-2137-Xphylogeny(Lecointre and Le Guyader, 2001)). L’origine des eucaryotes est un sujet très discuté. Deux hypothèses s’affrontent, même si elles peuvent être complémentaires :
- l’hypothèse autogène où une invagination et une différentiation de la membrane plasmique auraient produit les membranes internes : paroi nucléaire, réticulum endoplasmique et appareil de Golgi.
- l’hypothèse endiosymbiothique. Une cellule procaryote (plus vraisemblablement une archée  ADDIN EN.CITE Rivera200421000000000211535662243170052004Sep 9The ring of life provides evidence for a genome fusion origin of eukaryotes152-5Molecular Biology Institute, MCD Biology, University of California, Los Angeles 90095, USA.Rivera, M. C.Lake, J. A.NatureBacteria/geneticsDNA, Bacterial/geneticsDNA, Fungal/geneticsDNA, Mitochondrial/geneticsEukaryotic Cells/*metabolism*Evolution, MolecularGene Transfer, Horizontal*Genome*Genomics/methods*Models, GeneticOrganelles/geneticsPhotosynthesis*PhylogenyProkaryotic Cells/metabolismRecombination, Genetic/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSchizosaccharomyces/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15356622(Rivera and Lake, 2004) aurait créé des relations symbiotiques avec une eubactérie (að-protéobactérie pour la mitochondrie ou une cyanobactérie pour les chloroplastes).


DACU
Le Dernier Ancêtre Commun Universel DACU (ou LUCA en anglais) est la racine universelle. Il est l organisme primitif, l ancêtre supposé des trois domaines. Dans un arbre à trois taxons, il peut être placé à trois endroits différents, provocant trois séparations différentes :
- L’hypothèse basée sur le domaine procaryote. Le DACU est placé sur la branche des eucaryotes. À partir du DACU, les lignées eucaryotes et procaryotes ont émergé.
- L’hypothèse que le DACU soit une archée. Hypothèse très rapidement écartée par la communauté scientifique.
- L’hypothèse proposée par Woese en 1977  ADDIN EN.CITE Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744(Woese and Fox, 1977). Le DACU serait une eubactérie et les archées seraient des descendants précoces des premiers organismes vivants. Cette hypothèse a été retrouvée dans de nombreuses études se basant sur l’utilisation de l’ADN et des protéines.
- Une autre hypothèse est basée sur l’hyperthermophilie ancestrale. Lors des études phylogénétiques, les groupes hyperthermophiles bactériens et archées sont trouvés respectivement à la base des bactéries et des archées. Il a donc été proposé que cette hyperthermophilie était dû à un ancêtre commun qui était lui même hyperthermophiles. Cette hypothèse s’accorde aussi avec une vision de l’apparition de la vie dans un environnement composé de sources volcaniques au fond des océans dans les premiers temps de la Terre.


Phylogénie

Historique

Dès l’Antiquité, les philosophes grecs cherchèrent à comprendre la nature. Malgré le fait que chaque école de pensée nourrissait des idées opposées, les plus influentes s’accordaient pour nier l’évolution. Les espèces sont fixes et permanentes. Elles existent telles qu’elles peuvent être observées depuis toujours. Les espèces sont placées dans des boîtes sans relations entre elles : par exemple les chats, les vaches… Aristote tout en souscrivant à ces idées reconnaissait néanmoins que les espèces semblent avoir plusieurs degrés de complexité. Il propose ainsi de les classer en fonction de cette complexité apparente. Au cours du Moyen Age, aucune nouvelle idée sur l’évolution n’apparaît. Se basant sur les différents livres religieux pour expliquer l’évolution, le créationnisme essentialiste s’installe. L’Homme est placé en haut de l’échelle de la création, comme étant la créature la plus aboutie. Cette conception restera longtemps au cœur de la pensée scientifique.
La taxonomie apparaît au XVIIIème siècle. Karl Von Linné, un médecin suédois s’atèle à mettre de l’ordre dans la compréhension de la diversité des espèces. Il pose les bases de la taxonomie, science qui consiste à référencer et classer les espèces. Il pose les bases de la nomenclature binomiale. Chaque organisme possède un nom en deux parties : son genre et son espèce. Linné obtient donc une hiérarchisation des espèces par catégories. Mais ce regroupement ne signifie aucunement une parenté entre les espèces contenues dans un même groupe. Le concept de l’espèce figée est toujours présent.
Fin du XVIIIème début du XIXème siècle, l’étude systématique des fossiles qui sont retrouvés dans les couches géologiques permet l’émergence de la paléontologie. Cuvier en est le principal artisan. Il développe le catastrophisme qui permet d’expliquer le grand nombre de fossiles. Le catastrophisme suppose qu’il a existé dans le passé des grandes catastrophes aboutissant à la disparition d’un grand nombre d’espèces. Malgré le fait que Cuvier croyait que le nombre d’espèces était fixe, ses idées ont permis de commencer à faire évoluer la pensée scientifique de l’époque vers le concept d’apparition et de disparition d’espèces.
En 1809, Lamarck publia sa théorie de l’évolution. Il détecte une ressemblance entre les fossiles et les espèces modernes. Cette ressemblance est pour lui une preuve d’évolution des espèces. L’évolution est le résultat d’une course à la complexité et à la perfection des espèces. Les espèces développent des caractéristiques qui leur permettent de pouvoir vivre mieux dans leur milieu. Les espèces transmettent à leurs descendances les caractères qu’ils ont acquis. Cela permet une progression graduée des caractères. Lamarck instaure l’idée que les espèces évoluent et qu’elles ne sont pas figées. Lamarck insiste aussi pour placer les espèces végétales et animales en haut de l’arbre de l’évolution, en vertu de leur « perfection ».
À la suite de Lamarck, vint l’homme qui changea la vision de l’évolution des espèces : Charles Darwin. Passionné de botanique, il fut frappé, lors d’un voyage dans les îles Galápagos, par la diversité et par l’adaptation de la faune locale aux spécificités de l’environnement. Ces observations lui permirent, après de nombreuses vérifications et l’édification d’un ensemble solide de preuves à même de lever toutes objections, d’édifier sa théorie qui changea le plus profondément la pensée évolutionniste. De la sortie de son ouvrage « l’origine des espèces » en 1859  ADDIN EN.CITE Darwin18592210000000022Darwin, C.1859L'origine des espèces(Darwin, 1859), Darwin mit 10 ans pour finir de convaincre la communauté scientifique de la justesse de sa thèse. Dix ans de débats houleux sur fond religieux. En effet, le darwinisme change considérablement la notion d’espèces et comment celles-ci interagissent, et donc la place de l’homme dans l’évolution.
- Ascendance commune. Tous les organismes proviennent d’un prototype inconnu commun, à partir duquel toutes les espèces auraient évoluées. L’histoire peut être donc représentée sous la forme d’un arbre dichotomique. Chaque embranchement de l’arbre correspond à l’ancêtre commun des deux branches descendante. Les individus placés à un même niveau dans l’arbre descendent d’un ancêtre commun. De plus, la majeure partie des branches de l’évolution auraient disparu. On retrouve le catastrophisme de Cuvier.
- Sélection naturelle et adaptation. Les conditions environnementales, naturelles ou non (actions de l’homme par exemple), conduisent à une sélection dans la population d’une espèce. À cause de cela, seule une fraction des descendants survie à chaque génération. Ces derniers, grâce aux caractères dont ils ont hérité, sont plus aptes à survivre. La population se modifie donc petit à petit. On évolue de manière progressive, même actuellement, par pression sélective.
En résumé, les organismes descendent, après de nombreuses modifications et adaptations, d’espèces ancestrales et le mécanisme d’évolution est la sélection naturelle dont l’action est continuelle et permanente.
Dans les années 1930-1940, Ernst Mayr apporta des précisions à la théorie de Darwin en donnant par exemple une définition rigoureuse du terme d’espèce :
« Une population qui ne se croise pas avec une autre population, même si elle se trouve en même temps au même endroit, est une espèce ».


Phylogénie et taxonomie

La taxonomie consiste à regrouper les espèces semblables par étage successif en fonction de leurs ressemblances.
Les différents niveaux hiérarchiques que l’on obtient peuvent être nommés en fonction de la profondeur de leur rang. Par exemple, le règne animal :

Domaine
Règne
Embranchement
Classe
Ordre
Famille
Genre
Espèce


Cependant cette codification est trop rigide. Il est nécessaire d’introduire des classifications intermédiaires (super-, infra-, sous-). Par exemple, on peut avoir, entre la « classe » et « l’ordre », les rangs : sous-classe, infra-classe, super-ordre.
On appelle phylogénie la généalogie d’une espèce ou d’un ensemble d’espèces que l’on suppose descendre d’un ancêtre commun et qui constituent un phylum. La systématique est l’étude de la diversité biologique. Elle permet entre autres d’identifier, de décrire une espèce, mais aussi de reconstituer la phylogénie des espèces.
Afin de déterminer les relations entre les espèces, celles ci sont comparées en fonction de différents caractères. Un caractère est un attribut de l’espèce qui est comparable et comparé. Les espèces proches sont supposées partager des valeurs proches du caractère (la valeur nulle est acceptable).
Toute la difficulté de cette comparaison est la distinction entre analogie et homologie. La ressemblance entre des espèces attribuable à un ancêtre commun s’appelle l’homologie. Cette notion d’ancêtre commun est importante, car une ressemblance ente deux espèces n’implique pas que ces espèces soit apparentées. En effet, des espèces peuvent acquérir un trait commun par sélection naturelle. Telles espèces sont le fruit d’évolution convergente et les ressemblances, dans ce cas, sont des analogies.
Plusieurs caractères peuvent être utilisés :
- Les données morphologiques. Elles sont basées sur l’étude et l’observation des caractères physiques de l’espèce. Il peut s’agir de la présence de certains organes, la configuration des ossements, la taille moyenne de l’espèce Il s’agit d’utiliser l’anatomie comparative. Historiquement ces données ont été les premières à être utilisées, en effet elles sont les plus faciles d’accès. Elles ont défini tous les grands groupes taxonomiques. Cette classification est encore à l’heure actuelle celle qui a le plus d’importance. Elle est utilisée par exemple par les zoologistes et les botanistes.
- La biogéographie. La distribution géographique des espèces sert à regrouper les espèces appartenant à un même milieu. L’utilisation de ces données se base sur le fait que les espèces dans la nature ne se déplacent rarement par des sauts géographiques importants. Des espèces, séparées par une grande distance, sont donc différentes. L’utilisation de la biogéographie est très discutée et est généralement utilisée comme complément à d’autres critères.
- La paléontologie. Les fossiles servent à regrouper les espèces dont un ancêtre commun peut être trouvé à travers des fouilles géologiques. Historiquement cette méthode a eu un grand poids dans la taxonomie actuelle.
- L’embryologie comparative. Dans le même esprit que l’anatomie comparative, les embryologistes ont proposé l’ontogenèse (le développement embryonnaire d’un individu) représente une partie de l’histoire évolutive des espèces (dans ce cas des grandes espèces animales).
- Enfin la plus récente et celle qui semble la plus prometteuse à l’avenir, la biologie moléculaire. Il s’agit d’utiliser les informations contenues dans les séquences biologiques (ADN et acides aminés) afin de comparer les espèces.


La phylogénie moléculaire

Historique

Les premiers pas de la phylogénie moléculaire peuvent être attribué à Nuttal qui, en 1904  ADDIN EN.CITE Nuttal19042310000000023 Nuttal, G.H.F.1904Blood immunity and blood relationshipCambridge University PressCambridge(Nuttal, 1904), utilisa pour la première fois des résultats de biologie moléculaire. L’hypothèse de base de la phylogénie moléculaire est que l’histoire du gène est la même que celle des espèces. L’utilisation de résultats de tests de précipitation permit de définir les relations à l’intérieur du phylum des grands singes. Nuttal fut un précurseur. L’essor de la phylogénie moléculaire du attendre 50 ans et les progrès technologiques de la biologie moléculaire. Une grande avancée a été le développement des techniques de séquençages des protéines (dans ce cas l’insuline) de Sanger en 1952  ADDIN EN.CITE Sanger19522400000000024130181855211952SepThe amino-acid sequence in the glycyl chain of insuliniiiSanger, F.Thompson, E. O.Biochem Jhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=13018185(Sanger and Thompson, 1952). D’autres méthodes de biologie moléculaire ont été introduites en phylogénie : électrophorèse sur gel, données immunologiques, hybridations ADN-ADN. Zuckerkandl et Pauling en 1965  ADDIN EN.CITE Zuckerkandl196525000000000255876245821965MarMolecules as documents of evolutionary history357-66Zuckerkandl, E.Pauling, L.J Theor BiolAmino Acid Sequence*Evolution*Genes*Genetic Code*Macromolecular SubstancesNucleic Acids*RNA, Messengerhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=5876245(Zuckerkandl and Pauling, 1965) adaptèrent les techniques de phylogénie à leurs utilisations aux macromolécules (ADN et protéine). Zuckerkandl et Pauling proposèrent que le taux d’évolution d’une protéine soit constant. Ils inventèrent l’horloge moléculaire. Les protéines, grâce à cette évolution constante et graduelle, peuvent donc être utilisées afin de dater la divergence entre les espèces.
L’amélioration des techniques de séquençages provoqua l’essor de nouvelles méthodes de reconstruction d’arbres phylogénétiques et de méthodes d’alignement. Cependant ces méthodes demandaient beaucoup de ressources informatiques (temps de calculs et mémoire) et ce qui rendait difficile son utilisation. C’est pourquoi les méthodes d’électrophorèse et d’immunologie avaient dans les années 70 les faveurs de la communauté scientifique, même si elles étaient considérées comme moins précises. Ainsi Woese, en 1977  ADDIN EN.CITE Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744(Woese and Fox, 1977), utilisa l’électrophorèse sur gel de l’ARN ribosomal, coupé par une enzyme de restriction, pour établir des distances entre espèces. Ces travaux amenèrent le premier arbre universel du vivant basé sur des données moléculaires. L’avènement de puissants ordinateurs permis de faciliter l’emploi des techniques de phylogénie basée sur la comparaison de séquences. Ainsi, les méthodes ont pu devenir de plus en plus sophistiquées.
Le grand nombre de séquences nucléiques et protéiques accessibles a aussi permis dans les années 1970 de proposer des modèles d’évolution des séquences. Par exemple, en 1972, Dayhoff  ADDIN EN.CITE Dayhoff19782670000000026Dayhoff, M.O.1978A model of evolutionnary change in proteins.Naional Biomedical Research FoundationAtlas of protein sequence and structure, supplément 3Washington, DC345-352(Dayhoff, 1978) partit de l’étude d’un grand nombre de séquences protéiques pour déterminer les matrices de transition entre acides aminés PAM (« Accepted Point Mutation »). Ces matrices indiquent quelle est la probabilité de transition d’un acide aminé en un autre. Elles sont basées sur l’étude de plusieurs familles de protéines. Une matrice PAM ( REF _Ref508266393 \h Figure 6) est définie par un indice qui correspond au nombre de mutation acceptée par 100 acides aminés (ex PAM 256 signifie 256 mutations pour 100 acides aminés). Ces matrices permettent d’effectuer de meilleurs alignements en jouant sur les valeurs de coûts de chaque transition.


Figure  SEQ Figure \* ARABIC 6 - Exemple d'une matrice PAM. La matrice au-dessus correspond à PAM2. Pour chaque acide aminé initial, les probabilités de mutation sont indiquées. Tableau tiré de Dayhoff et al  ADDIN EN.CITE Dayhoff19782670000000026Dayhoff, M.O.1978A model of evolutionnary change in proteins.Naional Biomedical Research FoundationAtlas of protein sequence and structure, supplément 3Washington, DC345-352(Dayhoff, 1978).


Ces matrices de transition servent aussi pour déterminer des distances basées sur des données moléculaires. Les matrices PAM sont de nos jours souvent remplacées par les matrices BLOSUM  ADDIN EN.CITE Henikoff19922700000000027143829789221992Nov 15Amino acid substitution matrices from protein blocks10915-9Howard Hughes Medical Institute, Fred Hutchinson Cancer Research Center, Seattle, WA 98104.Henikoff, S.Henikoff, J. G.Proc Natl Acad Sci U S AAlgorithms*Amino Acid SequenceAnimalsCaenorhabditis elegans/geneticsComparative StudyDrosophila/geneticsLod ScoreMathematicsMolecular Sequence DataProbabilityProteins/chemistry/*geneticsResearch Support, U.S. Gov't, P.H.S.*Sequence Homology, Amino Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1438297(Henikoff and Henikoff, 1992) pour les raisons suivantes : échantillon de données servant à définir les matrices BLOSUM plus large (BLOCKS) et surtout non-biaisé (chez les PAM, la majorité des protéines sont globulaires).
L’apport de la biologie moléculaire à la phylogénie par rapport aux données morphologiques et paléontologiques est important. Les séquences nucléiques permettent de comparer des espèces dont peu de caractères morphologiques sont exploitables ou comparables. C’est le cas par exemple des microorganismes où la convergence est très présente dans les données morphologiques. De plus, des programmes de séquençages, de plus en plus nombreux, permettent de comparer un nombre de plus en plus grand d’espèces, qui peuvent être très différentes. Certaines méthodes de phylogénie moléculaire utilisent des modèles moléculaires d’évolution. Ces modèles et leurs paramètres (taux de mutation, matrices de transition) augmentent la compréhension de l’évolution des espèces.

Définition

Tout d’abord un point sur quelques définitions et sur ce qu’est un arbre phylogénétique dans la pratique.

Les relations évolutives entre les espèces peuvent être représentées sous la forme d’un arbre phylogénétique. Un arbre phylogénétique est un graphe binaire composé de nœuds et de branches qui relient deux nœuds entre eux. Chaque nœud représente un groupe ou taxon. Les nœuds terminaux ou taxons correspondent aux espèces. L'espèce constitue le taxon de base de la classification. Les nœuds internes représentent les points de divergence des espèces. Ils peuvent aussi correspondre aux séquences ancestrales, celles qui auraient évolué afin d’obtenir les séquences étudiées. L’arrangement des branches est appelé topologie. La longueur des branches est proportionnelle au nombre de changements évolutifs qui se sont produits entre deux nœuds.
L’enracinement d’un arbre est une étape indispensable pour déterminer l’orientation temporelle de l’évolution présentée par l’arbre phylogénétique ( REF _Ref508266441 \h Figure 7). Il permet de polariser les caractères utilisés. Pour se faire, un groupe externe d’espèces est choisie afin de servir de racine. Le groupe externe est un ensemble de taxons que l’on sait être éloigné des espèces étudiées. La racine sert à définir la référence pour l’étude des caractères. Les caractères du groupe externe sont supposés avoir des valeurs différentes du groupe d’étude. Une fois que l’arbre est orienté par l’enracinement, on peut définir un groupe de taxons de trois manières ( REF _Ref508266453 \h Figure 8) :
Monophylétisme. Un taxon est monophylétique, quand il regroupe un ancêtre et toutes les espèces descendant de cet ancêtre.
Paraphylétique. Un taxon est paraphylétique quand il contient une espèce ancestrale et une partie seulement de ses descendants.
Polyphylétique. Un taxon polyphylétique est un groupe qui contient un certain nombre d’espèce mais pas leur ancêtre commun.


Figure  SEQ Figure \* ARABIC 7 - Enracinement d'un arbre à 4 taxons. Deux types d’enracinement sont possibles. Sur une branche externe (1) ou sur la branche interne (2).


Figure  SEQ Figure \* ARABIC 8 - Monophylie et Paraphylie. Le groupe (B, C, D) est monophylétique : tous les descendants de leur ancêtre commun sont compris dans ce groupe. Le groupe (F, G, H) est paraphylétique : Leur ancêtre commun n’a pas tous ses descendants dans le groupe, il manque E.

Dans le cas idéal, les arbres inférés sont des arbres binaires. C’est-à-dire, chaque nœud interne est le point de rencontre de trois branches. L’arbre est alors totalement résolu. Mais, expérimentalement, un arbre peut avoir des nœuds internes qui ont plus de deux descendants immédiats. Les relations induites par ce nœud ne sont pas résolues. Dans ce cas, on parle de multifurcations et d’arbres irrésolus.


Les données prises en compte

Afin de comparer les espèces, il est nécessaire de sélectionner des séquences, nucléiques ou protéiques, présentes dans l’ensemble des espèces sélectionnées. Ces séquences doivent pouvoir être comparable afin de déterminer la ressemblance entre elles, pour cela on utilise des séquences homologues. Les séquences homologues d’un gène sont des séquences issues d’une séquence ancestrale commune. En étudiant les génomes, deux genres de séquences homologues apparaissent provenant de deux types de différenciation : la spéciation et la duplication. Lors qu’un gène ancestral se duplique, les gènes descendants sont dits paralogues. Un gène orthologue est un gène qui n’a pas subi de duplication et qui n’est le résultat uniquement d’événements de spéciation d’un gène ancestral. Ces derniers sont les seuls à même de décrire l’évolution entre les espèces.


L’alignement

La comparaison des séquences homologues passe par l’identification des parties semblables. Pour cela, on passe par un alignement de séquences. L’alignement est une opération qui consiste à placer les parties similaires des séquences en minimisant les différences. Grâce à l’alignement, on peut sélectionner les parties communes des séquences qui serviront à évaluer les relations. Ainsi l’alignement est la base des différentes méthodes de reconstruction. Il existe de nombreux algorithmes d’alignement mais souvent assez lourd en temps de calculs (). Ces algorithmes peuvent être locaux ou globaux. L’alignement obtenu est une série de sites mis en vis-à-vis. Par simplicité, regardons le cas d’un alignement de deux séquences. Trois types de motifs peuvent être retrouvés dans l’alignement de séquences d’ADN (on a la même chose avec les protéines) pour chaque site :
- Un appariement (« match »). Les deux bases sont identiques.
- Un mésappariement. Les deux bases sont différentes et indiquent un changement évolutif entre les séquences.
- Une absence d’une base dans une des séquences. Cela traduit la présence d’une délétion ou d’une insertion. Ces deux événements peuvent être regroupés sous le terme d’indel.
Grâce à l’alignement, il est possible d’identifier certains événements évolutifs qui différencient les séquences : les mutations par des mésappariement, des insertions/délétions par les indels et les inversions de morceaux de séquences par plusieurs mésappariements.
Un des algorithmes d’alignement les plus utilisés est l’algorithme de Needleman et Wunsch  ADDIN EN.CITE Needleman1970280000000002854203254831970MarA general method applicable to the search for similarities in the amino acid sequence of two proteins443-53Needleman, S. B.Wunsch, C. D.J Mol Biol*Amino Acid SequenceComputersHemoglobinsMethodsMuramidaseMyoglobinProbabilityRibonucleaseshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=5420325(Needleman and Wunsch, 1970). Cet algorithme est une méthode non-heuristique, développé pour obtenir un alignement global de deux séquences de protéines. Elle se décompose en plusieurs étapes :
Construction d’une matrice  EMBED Equation.3 , où on met en vis à vis les deux séquences que l’on souhaite alignées. Pour chaque couple de caractères, on attribue la valeur déterminée dans la matrice de substitution choisie (PAM, blossum, IUD, …).
Transformation de cette matrice tel que les nouvelles valeurs de la matrice S(i,j) sont :  EMBED Equation.3  où  EMBED Equation.3  est le score pour la transition i vers j dans la matrice de substitution choisie.  EMBED Equation.3  est le score dans la matrice de l’alignement pour la position  EMBED Equation.3  de la séquence 1 et  EMBED Equation.3  pour la séquence 2.  EMBED Equation.3  correspond à la pénalité d’ouverture de gap.
Les lignes i=0 et la colonne j=0 sont initialisés au valeur de pénalité d’ouverture et d’extension. Puis on remplit les valeurs en progressant caractère par caractère.


Figure  SEQ Figure \* ARABIC 9 - Exemple d'une matrice de score permettant d'aligner deux séquences suivant l'alogrithme de Needleman-Wunsch. La matrice de substitution utilisée est BLOSUM 62. Les paramètres d’ouverture de gap sont d=-12 et e=-2. Le chemin jaune correspond à l’alignement optimal.

Pour trouver l'alignement optimal, on établit dans la matrice le chemin correspondant au passage par les scores les plus élevés ( REF _Ref508266506 \h Figure 9). Pour cela, on part du score maximum et on s'autorise trois types de mouvements :
1) diagonal : passage de  EMBED Equation.3  à  EMBED Equation.3  mouvement privilégié
2) horizontal : passage  EMBED Equation.3  à  EMBED Equation.3  avec insertion dans la séquence 2 en j
3) vertical : passage de  EMBED Equation.3  à  EMBED Equation.3  avec insertion dans la séquence 1 en i
En cas d’ouverture d’un gap, il est possible d’ajouter une pénalité, modifiant le score, dépendante de la longueur du gap. Une fonction de pénalité classique est  EMBED Equation.3  où  EMBED Equation.3  correspond à la longueur du gap,  EMBED Equation.3  à la pénalité d’ouverture d’un gap et  EMBED Equation.3  à la pénalité d’extension du gap. Dans ce cas, la fonction de score est légèrement modifiée :
 EMBED Equation.3 .
La longueur du gap ouvert est alors soit  EMBED Equation.3 , soit  EMBED Equation.3 

Un autre algorithme, largement employé, est l’algorithme de Smith et Waterman  ADDIN EN.CITE Smith19812900000000029Smith, T. F.Waterman, M. S.1981Identification of common molecular subsequences.J Mol Biol1471195-7http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=7265238&dopt=Abstract(Smith and Waterman, 1981). Cet algorithme permet d’obtenir un alignement local entre deux séquences. Cet algorithme diffère de celui de Needleman et Wunsch par les points suivants : la ligne i=0 et la colonne j=0 sont initialisés à 0 et la fonction de récurrence prend la valeur 0 si aucune valeur supérieur à 0 apparaît dans les choix.
La fonction score prend donc cette forme :  EMBED Equation.3 
Comme avec l’algorithme de Needleman et Wunsh, on détermine l’alignement optimal en suivant le chemin des scores les plus élevés. De même, la pénalité de gap peut être fonction de sa longueur.  EMBED Equation.3 
L’algorithme de Smith-Waterman est un algorithme très efficace, mais il est lent.

ClustalW est un programme d’alignement multiple qui se base sur un algorithme d’alignement progressif utilisant un algorithme global  ADDIN EN.CITE Higgins19963000000000030http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=8743695Higgins, D. G.Thompson, J. D.Gibson, T. J.Using CLUSTAL for multiple sequence alignments*Amino Acid SequenceAnimal*Base SequenceDNA/*chemistry*Databases, FactualEvolution, MolecularGlobins/*chemistry/geneticsHorsesHumanLeghemoglobin/chemistryLegumes/geneticsMolecular Sequence DataNucleic Acid Conformation*PhylogenyProtein Structure, SecondaryProtein-Tyrosine Kinase/chemistry/geneticsProteins/*chemistry*Softwaresrc Homology DomainsEuropean Molecular Biology Laboratory Outstation-European Bioinformatics Institute, Hinxton, Cambridge, United Kingdom.87436951996Methods Enzymol266383-402(Higgins et al., 1996). ClustalW est un des programmes les plus utilisés et les plus populaires dû à son efficacité et sa sensibilité. Un alignement multiple progressif utilise la similarité des paires de séquences et les alignements par paires afin de construire un alignement multiple. Pour chaque séquence, on calcule la similarité par rapport à toutes les autres séquences. Les deux séquences les plus similaires servent de base pour l'élaboration d'un alignement multiple. À partir de l’ensemble des pourcentages des similarités, on construit un arbre phylogénétique qui sera utilisé pour l’alignement. La dernière étape consiste à aligner les séquences en s’appuyant sur l’arbre phylogénétique. On commence par les séquences feuilles en se dirigeant vers la racine. À chaque nœud, un processus itératif modifie la pénalité d’ouverture d’un gap en fonction du nombre de séquences.
Une autre méthode d’alignement multiple consiste à effectuer des alignements multiples itératifs. Le programme Dialign est un exemple de programme utilisant cet alignement. Ces alignements sont généralement plus précis et sensibles que les alignements progressifs (), mais le temps d'exécution de ceux-ci est très fortement supérieur à celui des programmes utilisant un algorithme progressif. C’est pourquoi ils ne sont pas très employés. Les alignements multiples itératifs utilisent la méthode suivante :
1) Comme les alignements progressifs : calcul du score d’alignements pour chaque paire de séquences, construction d’un arbre à partir de ses scores puis alignement multiple à partir de l’arbre phylogénétique obtenu.
2) L’alignement obtenu sert à reconstruire un arbre phylogénétique.
3) Cet arbre est utilisé pour effectuer à nouveau un alignement multiple.
4) Répétition de l’étape 2 et 3 jusqu’à ce que le score d’alignement n’évolue plus.


Les méthodes de reconstruction d’arbres

De nombreuses méthodes existent pour reconstruire un arbre phylogénétique, à partir de l’alignement, chacune ayant ses avantages et ses inconvénients. Ces méthodes s’emploient aussi bien pour les nucléotides que pour les séquences protéiques. Je prendrai le parti de ne parler que des séquences nucléiques, car ce sont elles qui seront utilisées durant ma thèse.
Les méthodes de reconstruction peuvent être regroupées en trois groupes :
Le maximum de parcimonie : on recherche l’arbre phylogénétique qui minimise le nombre de changements d’états de caractères, présents sur l’arbre.
Les méthodes probabilistes : maximum de vraisemblance, inférence bayésienne. Ce sont des méthodes qui utilisent un modèle évolutif. L’arbre phylogénétique est obtenu en optimisant, à l’aide d’un critère (la vraisemblance, le critère de Bayes), l’adéquation entre le couple modèle/topologie et les données de séquences.
La phénétique ou méthode des distances : des distances évolutives entre toutes les paires de séquences sont calculées. À partir de l’ensemble des distances, un arbre phylogénétique est inféré par différents algorithmes.


Maximum de parcimonie

Dans cette méthode, on recherche l’arbre qui requiert le nombre minimum de changements évolutifs pour expliquer les différences entre les différentes séquences étudiées. Cette méthode fut d’abord développé pour les séquences d’acides aminés  ADDIN EN.CITE Eck19663210000000032Eck, R.V.Dayhoff, M.O.1966Atlas of Protein Sequence and StructureNational Biomedical Research FoundationSilver Spring(Eck and Dayhoff, 1966), puis adapté aux séquences nucléiques  ADDIN EN.CITE Fitch19773100000000031Fitch, W.M.1977On the problem of discovery the most parsimonious treeAm. Nat.111223-257(Fitch, 1977). Le maximum de parcimonie produit l’arbre avec le score (nombre de changement) minimum. Or souvent de nombreux arbres sont trouvés avec ce score minimal, des méthodes de consensus sont employés à la suite.
Le maximum de parcimonie se base sur l’utilisation de caractères informatifs. Un caractère informatif est un caractère qui privilégie certaines topologies. Par exemple, en regardant les 4 séquences ci-dessous ( REF _Ref507994826 \h Figure 10) qui peuvent conduire à trois topologies :


Figure  SEQ Figure \* ARABIC 10 - Alignement de 4 séquences nucléiques

Seuls les sites 4 et 7 sont informatifs. En effet, pour les sites 1 et 6, tous les caractères sont identiques et ne permettent pas de distinguer les séquences. Le site 2 n’est pas informatif car, dans les 3 arbres possibles, ce site induit un changement évolutif, un changement localisé dans la branche menant à la séquence 4. Pour les sites 3 et 5, une comparaison des différentes topologies montre que pour chacun de ces sites, le nombre de changements évolutifs est le même dans toutes les topologies ( REF _Ref507994917 \h Figure 11).


Figure  SEQ Figure \* ARABIC 11 - Nombre de changements évolutifs en fonction de la topologie. Une étoile correspond à un changement évolutif qui se déroule dans la branche.

Les sites 4 et 7 permettent chacun de faire une bipartition des espèces. Chaque partition correspond à une des trois topologies qui est privilégiée ne présentant qu’un changement. Le site 4 soutient l’arbre 1 et le site 7 l’arbre 3. Dans ces exemples, on voit qu’un site est informatif s’il présente au moins deux types de caractères et que chaque type est présent dans au moins deux séquences. L’exemple ci-dessus soutient deux arbres d’égales parcimonies : l’arbre 1 et l’arbre 3. De manière générale, l’arbre le plus parcimonieux est l’arbre qui est supporté par le plus grand nombre de sites informatifs.
Avec un plus grand nombre de séquences, l’étude se complique, mais la recherche est toujours la même :
On recherche l’ensemble des sites informatifs.
Pour chaque arbre possible, on calcule le nombre minimal de changements de caractère pour tous sites informatifs.
L’arbre ou les arbres les plus parcimonieux sont choisis.
Le maximum de parcimonie prend en compte les acides nucléiques ou acides aminés, mais cette méthode peut aussi prendre en compte les gaps comme un 5ème état (cas nucléique) ou un 21ème état (avec les acides aminés). Tous les résultats que je présenterai provenant du maximum de parcimonie utiliseront les gaps comme un 5ème état ou comme données manquantes et donc ces gaps seront ignorés.
Quand le nombre de taxons terminaux est plus grand que sept, le nombre d’arbres possibles devient très grand. Il est nécessaire d’utiliser des programmes utilisant des heuristiques qui permettent de limiter l’espace de recherche.


Phénétique

La phénétique est la méthode de reconstruction qui se base sur la ressemblance entre les espèces. Pour cela, elle calcule pour chaque paire de taxons un indice de similitude ou distances. Une fois que l’on a déterminé ces distances, on construit l’arbre à partir de différentes méthodes.
Tout d’abord, comment calculer les distances à partir de l’alignement des distances. La distance la plus simple consiste à compter le nombre de nucléotides communs entre les deux séquences. Cette distance est peu employée car elle ne tient que d’un seul type de mutation : les mutations simples. On suppose dans ce cas qu’une différence sur un site est due à une seule mutation sur une séquence. Or il existe d’autres types de mutations : les mutations multiples et l’homoplasie ( REF _Ref507996480 \h Figure 12).
Un site dans un alignement présente une homoplasie si chacune des deux séquences présente le même état (même nucléotide) mais cet état n’est pas dû aux mêmes événements évolutifs. Trois explications sont possibles : réversion, évolution parallèle et convergence.


Figure  SEQ Figure \* ARABIC 12 - Différents types de mutation. Deux séquences homologues descendent d’une séquence ancestrale. Les mutations sont représentées par une flèche.

Sur la figure ci-dessus, six types de mutations sont représentées :
Site 2 : mutation simple de la séquence 1. Une différence entre les deux séquences est observée.
Site 3 : mutations multiples de la séquence 2. Une différence entre les deux séquences est observée.
Site 5 : des mutations sur chacune des séquences aboutissant à des nucléotides différents. Une seule différence entre les deux séquences est observée.
Site 7 : des mutations sur chacune des séquences mais le résultat de la mutation est le même dans les deux cas. On parle de mutations parallèles. Dans ce cas, aucune différence n’est observée entre les deux séquences.
Site 9 : deux mutations ont lieu sur la séquence 2. Mais la deuxième mutation conduit au retour au nucléotide ancestral que la séquence 1 continue d’exprimer. On parle de réversion. Aucune différence n’est observable entre les deux séquences.
Site 12 : deux mutations ont lieu sur la séquence 2 et une sur la séquence 1. Malgré le fait que le nombre de mutations soit différent dans chaque séquence, le même nucléotide est présent sur le site 12 pour les deux séquences. On parle ici de convergence, car la deuxième mutation de la séquence 2 a conduit au même nucléotide muté que celui de la séquence 1. Dans ce cas, aucune différence est observée entre les séquences.

Entre les séquences 1 et 2, seules trois différences sont notables même si douze mutations ont eu lieu. Ils nous manquent donc de l’information. Un autre point est le fait que la probabilité de transition d’un nucléotide vers un autre n’est pas la même pour toutes les transitions. On appelle homoplasie un site présentant des états moléculaires identiques mais ayant subit des étapes évolutives différentes, comme pour les réversions, mutations parallèles ou convergentes.
Afin de mieux prendre en compte l’évolution des séquences, on utilise des modèles plus ou moins complexes de substitutions. On suppose ici que tous les sites suivent le même modèle d’évolution, à savoir un processus stochastique Markovien : c’est-à-dire homogène dans le temps, stationnaire et aussi réversible. Ce modèle peut être représenté par une matrice de transition entre les différents nucléotides.
Le modèle de Jukes et Cantor  ADDIN EN.CITE Jukes19693310000000033Jukes, THCantor, CR1969Evolution of Protein MoleculesAcademic Press(Jukes and Cantor, 1969) ou JC69 postule que le taux de substitution est constant et identique quelle que soit la transition. Dans ce modèle, le taux de substitution de chaque nucléotide est  EMBED Equation.3  par unité de temps, et le taux de substitution d’un nucléotide vers un des trois autres est  EMBED Equation.3 . Comme le modèle ne dépend que d’un paramètre, il est appelé modèle à un paramètre. La matrice de substitution s’écrit :
 EMBED Equation.3 
A, T, C et G sont respectivement le 1ère, 2ème, 3ème et 4ème coordonnées. Ainsi la transition  EMBED Equation.3  est sur la 1ère ligne – 4ème colonne.

L’hypothèse effectuée dans le modèle de Jukes-Cantor que les mutations arrivent au hasard est peu réaliste. Les transitions sont généralement plus fréquentes que les transversions. Une transition est une mutation intra purine ou intra pyrimidine ( EMBED Equation.3  ou  EMBED Equation.3 ). Une tranversion est une mutation entre pyrimidine et purine  EMBED Equation.3 . Pour prendre en compte cette différence de comportement, Kimura  ADDIN EN.CITE Kimura19803400000000034Kimura, M.1980A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences.J Mol Evol162111-20http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=7463489(Kimura, 1980) introduit un nouveau modèle dit kimura 2 paramètres (K2P). Les deux paramètres sont le taux de transition par unité de temps  EMBED Equation.3  et le taux de transversion par unité de temps  EMBED Equation.3 . La matrice de substitution devient :
 EMBED Equation.3 

Les deux modèles de Jukes-Cantor et Kimura 2 paramètres sont basés sur le fait que les fréquences à l’équilibre des nucléotides sont identiques, égales à 0.25 . En supposant que ces fréquences sont différentes et égales à  EMBED Equation.3  avec  EMBED Equation.3  et que les taux de mutation d’un nucléotide vers un des trois autres sont identiques, on obtient le modèle de Felsenstein 1981 (F81)  ADDIN EN.CITE Felsenstein1981360000000003672888911761981Evolutionary trees from DNA sequences: a maximum likelihood approach368-76Felsenstein, J.J Mol Evol*Base SequenceComputersDNA/*genetics*EvolutionMathematicsModels, BiologicalPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7288891(Felsenstein, 1981). Ce modèle a quatre paramètres indépendants.
 EMBED Equation.3 

F81 suppose que les taux de mutations sont identiques quelle que soit la substitution considérée. Comme avec K2P, on peut considérer que le taux de transition est plus élevé que celui de transversion. Pour cela, on utilise le modèle proposé par Hasagawa en 1985 (HKY85)  ADDIN EN.CITE Hasegawa1985370000000003739343952221985Dating of the human-ape splitting by a molecular clock of mitochondrial DNA160-74Hasegawa, M.Kishino, H.Yano, T.J Mol EvolAnimalsComparative StudyDNA, Mitochondrial/*genetics*EvolutionGenes, StructuralHaplorhini/*geneticsHumansMathematicsModels, GeneticNucleic Acid HybridizationPrimates/*geneticsProteins/geneticsResearch Support, Non-U.S. Gov'tSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=3934395(Hasegawa et al., 1985). Ce modèle plus complexe possède cinq paramètres indépendants.
 EMBED Equation.3 

Tamura et Nei, en 1993  ADDIN EN.CITE Tamura1993380000000003883365411031993MayEstimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees512-26Department of Biology, Pennsylvania State University.Tamura, K.Nei, M.Mol Biol EvolAnalysis of VarianceAnimalsDNA, Mitochondrial/*geneticsHominidae/*geneticsHumansMathematicsModels, GeneticModels, StatisticalPan troglodytes/*genetics*PhylogenyResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.SoftwareTime*Variation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8336541(Tamura and Nei, 1993), ont proposé d’affiner le modèle HKY85, en supposant que le taux de transition  EMBED Equation.3  entre purines était différent de celui entre pyrimidines  EMBED Equation.3 . Ce modèle est nommé TN93 et il comporte 6 paramètres indépendants.
 EMBED Equation.3 
Le modèle de F84, proposé par Felsenstein et Kishino-Hasagawa  ADDIN EN.CITE Kishino1989390000000003925097172921989AugEvaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea170-9Institute of Statistical Mathematics, Tokyo, Japan.Kishino, H.Hasegawa, M.J Mol EvolAnimals*Base SequenceComparative StudyDNA/*genetics*EvolutionHominidae/*geneticsHumans*Models, Genetic*Models, StatisticalPrimates/*geneticsProbabilityResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2509717(Kishino and Hasegawa, 1989), ressemble à HKY85. Comme lui les fréquences des nucléotides à l’équilibre sont différentes. Mais il suppose qu’il existe deux types d’évenements : un comme celui présenté par HKY85 et un autre provenant d’une mutation interne au groupe des pyrimidines ou des purines. (felsenstein churchill 1995).

Le modèle GTR (General Time Reversible) ou REV a été introduit par Yang en 1994  ADDIN EN.CITE Yang19944100000000041Yang, Z.1994Estimating the pattern of nucleotide substitution.J Mol Evol391105-11http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=8064867(Yang, 1994). Il requiert six paramètres. Les six paramètres sont : les taux de substitutions de A en T, A en C, A en G, T en C, T en G et C en G. On suppose ici que les deux types de transitions pour une paire de nucléotide sont identiques.
 EMBED Equation.3 

Dans les modèles présentés précédemment, le taux de mutation est supposé être identique pour tous les sites étudiés, les séquences sont homogènes. Or des analyses ont montré que ces taux suivent approximativement une distribution régie par une loi gamma (). Certains sites sont invariants tandis que d’autres sont soumis à un grand nombre de mutations. La distribution gamma est une densité de probabilité souvent utilisé en statistique. La forme de cette distribution dépend d’un paramètre  EMBED Equation.3 . La distribution des taux de substitutions s’écrit :  EMBED Equation.3  où  EMBED Equation.3  est le taux de substitution,  EMBED Equation.3  et  EMBED Equation.3 .  EMBED Equation.3  est la valeur moyenne de  EMBED Equation.3  et  EMBED Equation.3  sa variance ( REF _Ref508266599 \h Figure 13).


Figure  SEQ Figure \* ARABIC 13 - Distribution de la loi gamma pour différentes valeurs de að. Les distributions de trois valeurs de að sont représentées. að=0.5 (courbe verte), að=1 (courbe bleue) et að=2 (courbe rouge).


Quand  EMBED Equation.3  égal 1, la distribution décroît de manière exponentielle de  EMBED Equation.3  à 0. Quand  EMBED Equation.3 ,  EMBED Equation.3  tend vers l’infini quand tend  EMBED Equation.3  vers 0, donc un grand nombre de sites sont invariants ou avec un très faible taux de substitution. De plus, quand  EMBED Equation.3 ,  EMBED Equation.3  décroît moins lentement que pour  EMBED Equation.3 . Cela signifie que la distribution est plus dispersée et la séquence plus hétérogène. Pour  EMBED Equation.3 ,  EMBED Equation.3  égal 0 et la distribution à une forme concentré autour d’une valeur dépendant de  EMBED Equation.3 . Dans ce cas la séquence est moins hétérogène. Quand  EMBED Equation.3  tend vers l’infini, le modèle d’hétérogénéité des taux tend vers le modèle où tous les taux sont constants. La plupart des estimations empiriques du paramètre  EMBED Equation.3  donne des valeurs entre 0.1 et 0.5, ce qui implique des variations non négligeable du taux de substitution dans les séquences. Les modèles de substitution peuvent être modifiés afin de tenir compte de l’hétérogénéité des sites.

Un fois que l’on a calculé l’ensemble des distances, on utilise un algorithme de reconstruction de la topologie.
La méthode UPGMA (Unweighted pair-group methode with arithmetic mean) est la méthode la plus simple. Elle a initialement été développée pour la construction de phénogrammes taxonomiques par Sokal et Michener  ADDIN EN.CITE Sokal19584200000000042Sokal, R.R.Michener, C.D.1958Univ. Kan. Sci. Bull281409-38(Sokal and Michener, 1958). Cette méthode peut être employée si les taux de substitutions sont à peu près constant pour toutes les lignées utilisées (cas de l’horloge moléculaire). Ainsi il existe une relation linéaire entre la distance évolutive et le temps d’évolution. Des études ont montré que l’utilisation de l’horloge moléculaire sur de grandes distances évolutives diminue fortement la probabilité d’obtenir le bon arbre. UPGMA est un algorithme de clustering séquentiel et l’arbre phylogénétique est construit au fur et à mesure. L’algorithme peut s’écrire comme suit :
1) La première étape consiste à identifier quelles sont les espèces les plus proches.
2) Ces espèces sont remplacées par un taxon composite dans la matrice des distances. Ce taxon est placé à égale distance des deux espèces.
3) Calcul des distances entre toutes les espèces restantes et le taxon composite en utilisant la moyenne des distances
4) Répétition des étapes 1, 2 et 3 jusqu’à ce qu’il ne reste que deux taxons.
Supposons que l’on est la matrice des distances suivantes pour 4 séquences A, B, C et D.
 EMBED Equation.3   EMBED Equation.3  est la distance entre l’espèce i et j.
Si  EMBED Equation.3  est la distance minimale, les espèces A et B seront regroupées et le point d’embranchement sera à  EMBED Equation.3 . Le taxon composite est noté (AB). La nouvelle matrice des distances devient :
 EMBED Equation.3 

L’algorithme du Neighbor-Joining (NJ) est basé sur la recherche des voisins qui minimise la longueur totale de l’arbre. Dans un arbre non-enraciné, deux taxons sont dit voisins s’ils sont connectés par un seul nœud interne. Cette méthode a été développée par Saitou et Nei  ADDIN EN.CITE Saitou19874300000000043http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3447015Saitou, N.Nei, M.The neighbor-joining method: a new method for reconstructing phylogenetic treesAnimalBiometryEvolution*Models, Genetic*PhylogenyRanidae/*geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Center for Demographic and Population Genetics, University of Texas Health Science Center, Houston 77225.3447015Mol Biol Evol198744406-25.(Saitou and Nei, 1987). La méthode NJ commence par un arbre étoilé ( REF _Ref507996821 \h Figure 14 gauche) où il y a un seul nœud interne où sont connectées toutes les espèces.


Figure  SEQ Figure \* ARABIC 14 - Différentes étapes de l'algorithme Neighbor-Joining. Gauche : arbre étoilé initial. Droite : arbre après le regroupement des taxons 1 et 2.


La première étape est du NJ consiste à séparer deux espèces des autres ( REF _Ref507996821 \h Figure 14 droite). Ainsi toutes les espèces sont séparées par deux nœuds internes. Dans l’exemple donné, les espèces 1 et 2 sont voisines, ainsi que les espèces 3, 4 et 5. La longueur de l’arbre ainsi séparé en deux est :
 EMBED Equation.3 
N est le nombre de taxons à l’itération considérée

L’algorithme de NJ calcule les longueurs d’arbre  EMBED Equation.3  pour tous les couples de séquences. On choisit le couple d’espèce qui minimise cette longueur. La paire choisie est alors considérée comme un taxon unique X et est remplacé par celui-ci pour les étapes suivantes. On calcule la nouvelle matrice des distances à partir de la moyenne arithmétique des distances. Les distances entre les espèces 1 et 2 du nœud X sont données par les formules suivantes :

 EMBED Equation.3  et  EMBED Equation.3 .

La nouvelle matrice des distances où le nœud X remplace les espèces 1 et 2 est calculée en estimant les distances entre le nouveau nœud X et les taxons j.
 EMBED Equation.3 
L’arbre prend donc la forme suivante ( REF _Ref508266647 \h Figure 15).


Figure  SEQ Figure \* ARABIC 15 - Arbre après acceptation du regroupement entre les taxons 1 et 2.

La procédure est répétée jusqu’à avoir déterminer les N-3 branches internes.
Cette méthode a été modifiée par Studier et Keppler  ADDIN EN.CITE Studier198844000000000443221794561988NovA note on the neighbor-joining algorithm of Saitou and Nei729-31Department of Microbiology, University of Illinois, Urbana 61801.Studier, J. A.Keppler, K. J.Mol Biol Evol*AlgorithmsMathematicsMethods*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=3221794(Studier and Keppler, 1988), afin d’obtenir une méthode plus rapide. Studier et Keppler minimisent un critère différent de celui de Nei :
 EMBED Equation.3 

Gascuel  ADDIN EN.CITE Gascuel199427600000000276Gascuel, O.1994A note on Sattath and Tversky's, Saittou and Nei's and Studier and Keppler's algorithms for inferring phylogenies from evolutionary distancesMol Biol Evol116961-3(Gascuel, 1994) a montré que minimiser ce critère est équivalent à minimiser le critère original.
L’arbre obtenu est non raciné. Il est possible de le raciner en utilisant un groupe externe ou en utilisant le point séparant les deux séquences les plus éloignés. Nj est une méthode rapide qui donne de bons résultats.
Des variantes de NJ peuvent être utilisées afin de déterminer les distances  EMBED Equation.3 ,  EMBED Equation.3  et  EMBED Equation.3  ou dans la manière de choisir la paire de séquences à agglomérer. Quand on recalcule la matrice des distances après avoir remplacé les deux espèces, les distances  EMBED Equation.3  peuvent être n’importe quelle combinaison linéaire de  EMBED Equation.3  et  EMBED Equation.3 . NJ suppose que ces deux estimations ont la même importance et leur donne le poids de  EMBED Equation.3 . BioNJ  ADDIN EN.CITE Gascuel1997120000000001292543301471997JulBIONJ: an improved version of the NJ algorithm based on a simple model of sequence data685-95GERAD, Ecole des HEC, Montreal, Quebec, Canada. gascuel@lirmm.frGascuel, O.Mol Biol EvolAlgorithms*EvolutionModels, Biological*PhylogenySequence Analysis/*methodsSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9254330(Gascuel, 1997) va quant à lui donner des poids minimisant la variance de  EMBED Equation.3 .
Weighbor est une autre méthode se basant sur NJ  ADDIN EN.CITE Bruno20004600000000046106667181712000JanWeighted neighbor joining: a likelihood-based approach to distance-based phylogeny reconstruction189-97Los Alamos National Laboratory, New Mexico 87545, USA. billb@lanl.govBruno, W. J.Socci, N. D.Halpern, A. L.Mol Biol EvolAnimalsComputer SimulationEvolution, MolecularHumans*Models, Theoretical*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10666718(Bruno et al., 2000). Elle utilise un critère différent pour choisir la paire de taxons à assembler. Ce critère utilise le fait que les plus grandes distances sont les moins bien estimées. On utilise une modélisation par des variables normales des distances afin de déterminer quels sont les taxons à sélectionner.

La méthode ME pour Minimum Evolution a été décrite par Saitou et Nei  ADDIN EN.CITE Saitou19874300000000043http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3447015Saitou, N.Nei, M.The neighbor-joining method: a new method for reconstructing phylogenetic treesAnimalBiometryEvolution*Models, Genetic*PhylogenyRanidae/*geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Center for Demographic and Population Genetics, University of Texas Health Science Center, Houston 77225.3447015Mol Biol Evol198744406-25.(Saitou and Nei, 1987) et Cavalli-Sforza et Edwards  ADDIN EN.CITE Cavalli-Sforza19674700000000047Cavalli-Sforza, L.L.Edwards, A.W.F.1967Phylogenetic analysis: models and estimation procedures.Am. J. Hum. Gen.19233-57(Cavalli-Sforza and Edwards, 1967). Pour tous les arbres possibles, on estime la longueur de chaque branche à partir de la matrice des distances et on somme ces longueurs afin de déterminer la longueur de l’arbre. L’arbre qui sera considéré comme le « meilleur » arbre est celui pour lequel la somme des longueurs des branches est la plus faible. Rzhetsky et Nei  ADDIN EN.CITE Rzhetsky1995480000000004878774881211995JanTests of applicability of several substitution models for DNA sequence data131-51Institute of Molecular Evolutionary Genetics, Pennsylvania State University, University Park 16802.Rzhetsky, A.Nei, M.Mol Biol Evol*Base SequenceComparative StudyComputer SimulationDNA/chemistry/*genetics*Evolution*Models, Genetic*Models, StatisticalModels, TheoreticalResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.*Variation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7877488(Rzhetsky and Nei, 1995) ont montré que si les estimations des distances ne sont pas biaisées, alors le vrai arbre devrait avoir la longueur d’arbre la plus faible. La méthode ME souffre d’un vrai problème. Il est très long de pouvoir calculer réellement, pour tout arbre, les (2n-3) longueurs de branches. Le temps de calculs de cette méthode est très supérieur à celle des autres méthodes. Desper et Gascuel  ADDIN EN.CITE Desper2002490000000004912487758952002Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle687-705National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, 45 Center Drive, Bethesda, MD 20892, USA.Desper, R.Gascuel, O.J Comput Biol*AlgorithmsComparative StudyComputer Simulation*Evolution, MolecularModels, Genetic*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12487758(Desper and Gascuel, 2002) développèrent de nouvelles techniques se basant sur la méthode ME afin d’obtenir FASTme une méthode rapide d’obtenir un arbre. Ainsi les problèmes dus au temps de calcul ne sont plus importants.

Une autre méthode des distances est la méthode dite des moindres carrés pondérés qui est implémenté dans le programme FITCH  ADDIN EN.CITE Felsenstein20045060000000050Felsenstein, J.2004PHYLIP (Phylogeny Inference Package)3.6(Felsenstein, 2004). Cette méthode utilise le critère de Fitch-Margoliash () pour minimiser la différence entre les distances que l’on lit sur l’arbre et celles qui sont présentes dans la matrice des distances.

Au cours de ma thèse, j’utiliserai les modèles HKY85 et K2P, lorsque j’utiliserai la méthode des distances afin d’inférer un arbre phylogénétique. Une fois la matrice des distances obtenue, les arbres phylogénétiques seront obtenus à l’aide de l’algorithme du Neighbor-Joining ou du Minimum d’évolution. Cette méthode permet de calculer les arbres de manière rapide une fois l’alignement obtenu.


Maximum de vraisemblance

Le maximum de vraisemblance est une méthode probabiliste qui calcule pour chaque topologie une fonction de vraisemblance. L’arbre qui sera choisi est celui qui maximise la vraisemblance avec l’alignement. Cette méthode fut pour la première fois employée par Cavalli-Sforza et Edwards  ADDIN EN.CITE Cavalli-Sforza19674700000000047Cavalli-Sforza, L.L.Edwards, A.W.F.1967Phylogenetic analysis: models and estimation procedures.Am. J. Hum. Gen.19233-57(Cavalli-Sforza and Edwards, 1967) pour reconstruire un arbre à partir de fréquences de gènes. Felsenstein développa plus tard les méthodes pour une application aux nucléotides et aux acides aminés  ADDIN EN.CITE Felsenstein1981360000000003672888911761981Evolutionary trees from DNA sequences: a maximum likelihood approach368-76Felsenstein, J.J Mol Evol*Base SequenceComputersDNA/*genetics*EvolutionMathematicsModels, BiologicalPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7288891(Felsenstein, 1981).
Le maximum de vraisemblance utilise un modèle de substitution des nucléotides pour calculer les probabilités. L’étape suivante consiste à calculer la fonction de vraisemblance de chaque site pour toutes les topologies. Explicitons la vraisemblance d’un site pour une topologie donnée. Par mesure de simplification, nous resterons dans le cas d’une étude à 4 taxons ( REF _Ref508266674 \h Figure 16). Supposons que l’on s’intéresse à la topologie suivante :


Figure  SEQ Figure \* ARABIC 16 – Méthode du maximum de vraisemblance : arbre à 4 taxons. Les nœuds internes ainsi que les différentes longueurs de branches sont indiqués. Figure adaptée de Li et Gouy 1991

Le site i prend pour les séquences 1, 2, 3 et 4 respectivement les valeurs  EMBED Equation.3 ,  EMBED Equation.3 ,  EMBED Equation.3  et  EMBED Equation.3 . Les longueurs de branches sont indiquées par  EMBED Equation.3 ,  EMBED Equation.3 ,  EMBED Equation.3 ,  EMBED Equation.3  et  EMBED Equation.3 . La fonction de vraisemblance du site i s’écrit alors :  EMBED Equation.3 
Explicitons chaque terme.  EMBED Equation.3  est la probabilité suivant le modèle d’évolution choisi d’avoir pour la séquence 1 la caractère  EMBED Equation.3  sachant que le nœud ancestral à la valeur  EMBED Equation.3  avec une longueur de branche  EMBED Equation.3 . On applique le même raisonnement pour toutes les branches. Cependant comme on ne connaît pas à priori la valeur des nœuds ancestraux, on somme les probabilités pour tous les nucléotides possibles en leur assignant une probabilité  EMBED Equation.3  correspondant à la probabilité d’avoir à priori le nucléotide  EMBED Equation.3 . Cette probabilité est généralement initialisée à la fréquence de ce nucléotide dans l’ensemble des séquences.
Maintenant pour avoir la vraisemblance, on multiplie l’ensemble des vraisemblances obtenues pour chaque site.  EMBED Equation.3  pour  EMBED Equation.3  égale au nombre de sites pris en compte.
Dans le cas général, la vraisemblance pour certains paramètres  EMBED Equation.3  et pour une topologie  EMBED Equation.3  s’écrit  EMBED Equation.3 .  EMBED Equation.3  est l’ensemble des données c’est-à-dire l’ensemble des sites.  EMBED Equation.3  est l’ensemble des caractères, pour la position i, présents dans les séquences.  EMBED Equation.3  est la fonction vraisemblance du site i sachant la topologie  EMBED Equation.3  et les paramètres  EMBED Equation.3 . La structure de la fonction de vraisemblance est indépendante de la topologie, mais les termes de la fonction dépendent de la topologie.
Pour chaque topologie, on optimise les paramètres  EMBED Equation.3  afin de maximiser la vraisemblance. Ces paramètres peuvent être les longueurs des branches mais aussi des paramètres ajustables du modèle d’évolution. On obtient ainsi la vraisemblance de la topologie étudiée. Enfin on choisit l’arbre qui, parmi tous les arbres possibles, possède la plus grande vraisemblance. L’arbre phylogénétique obtenu est fortement dépendant du modèle d’évolution choisi. Ainsi l’arbre obtenu avec un modèle ne maximisera peut-être pas la vraisemblance sous un autre modèle. Il est donc nécessaire d’expliciter la méthode choisie.
La méthode du maximum de vraisemblance a pendant longtemps été peu utilisée de par ses difficultés de calculs. Mais les progrès de l’informatique ont permis à cette méthode de prendre son essor et d’avoir la préférence des phylogénéticiens. Cependant un ordinateur puissant est nécessaire et des méthodes heuristiques d’exploration de l’espace des arbres sont indispensables encore à l’heure actuelle.
Le modèle de substitution HKY85 est celui que j’ai utilisé lorsque j’ai calculé des arbres phylogénétiques à partir de la méthode du maximum de vraisemblance. De plus, une hétérogénéité du taux de substitution a été prise en compte par une distribution gamma. Les différents paramètres du modèle ont été estimés à partir des données : le paramètre d’hétérogénéité að, les fréquences des nucléotides et le taux transition/transversion.


Méthodes bayésiennes

La méthode de l inférence bayésienne à l aide de chaînes de Markov est une méthode probabiliste qui utilise un critère différent de celui du maximum de vraisemblance, même s’ils sont liés. Les résultats obtenus peuvent être comparés à ceux du maximum de vraisemblance avec bootstrap.
L’inférence bayésienne est basée sur l’utilisation du théorème de Bayes :
 EMBED Equation.3  où  EMBED Equation.3  est l’ensemble des partitions des possibles.  EMBED Equation.3  est la probabilité d’avoir  EMBED Equation.3  en sachant  EMBED Equation.3  et  EMBED Equation.3  la probabilité d’obtenir  EMBED Equation.3 .
La méthode bayésienne choisit déterminer le meilleur arbre en postulant l’arbre et les paramètres du modèle d’évolution au début de la recherche.
Le critère qui est maximisé par l’inférence bayésienne en phylogénie est le suivant :
 EMBED Equation.3 
 EMBED Equation.3  est la probabilité à posteriori que la topologie  EMBED Equation.3  est la topologie correcte connaissant les données.  EMBED Equation.3  est la vraisemblance de l’arbre  EMBED Equation.3  et  EMBED Equation.3  est la probabilité à priori de l’arbre  EMBED Equation.3 . La somme au dénominateur est faite sur tous les arbres possibles.
La vraisemblance est basée sur l’optimisation de plusieurs paramètres inconnus : la topologie, la longueur des branches et les paramètres du modèle. L’inférence bayésienne utilise quant à elle la probabilité à posteriori des paramètres :  EMBED Equation.3 . Cependant cette probabilité ne peut pas être calculé analytiquement, mais elle peut être approximé par échantillonnage de la distribution de la probabilité à posteriori. Pour cela, on utilise des chaînes markoviennes de Monte-Carlo (MCMC). L’algorithme le plus utilisé est celui de Metropolis-Hastings-Green  ADDIN EN.CITE Hastings19705200000000052Hastings, W. K.1970Monte Carlo sampling methods using Markov chains and their applications.Biometrika5797-109Green19955100000000051Green, P.J.1995Reversible jump Markov chain Monte Carlo computation and Bayesian model determination.Biometrika82711-32(Green, 1995; Hastings, 1970). Cet algorithme utilise le processus itératif suivant. Supposant que l’on se trouve dans l’état  EMBED Equation.3 ,  EMBED Equation.3  la topologie,  EMBED Equation.3  les longueurs de branches et  EMBED Equation.3  les paramètres du modèle. Les chaînes de Markov sont initialisées (aux valeurs à priori) puis elles servent à proposer un nouvel état  EMBED Equation.3 . La transition vers cet état sera acceptée avec la probabilité :
 EMBED Equation.3 
 EMBED Equation.3  est la probabilité de passer au nouvel état  EMBED Equation.3  à partir de l’état  EMBED Equation.3  et la probabilité  EMBED Equation.3  est celle du mouvement inverse. Comme les mouvements sont souvent réversibles, le ratio des passages est généralement égal à 1. Donc la probabilité d’acceptation de la transition est composée d’un terme rapport des vraisemblances et d’un autre terme ratio des conditions à priori. Ces itérations sont répétées plusieurs milliers de fois afin d’obtenir un état stable. L’ensemble des arbres obtenus au cours de la procédure de Markov sert à définir la probabilité à posteriori de l’arbre.
Une variante de l’algorithme MCMC est appelée algorithme de Monte-Carlo utilisant des chaînes de Markov couplé par Metropolis (MCMCMC). Ce dernier utilise des chaînes de Markov et un recuit simulé.
L’interprétation des résultats de l’inférence bayésienne se fait en sommant pour chaque clade possible les probabilités à posteriori des différents arbres contenant ce clade. Finalement, l’arbre phylogénétique final est obtenu en rangeant l’ensemble des arbres par probabilité à posteriori décroissante. Ensuite on additionne les arbres jusqu’à obtenir une probabilité cumulée de 95%.
Cette méthode tout comme le maximum de vraisemblance est une méthode demandant de gros temps de calculs. Je n’ai pas utilisé cette méthode lors de ma thèse.


Comparaison de méthodes

Chaque méthode de phylogénie possède des caractéristiques propres et des hypothèses de calculs qu’il est nécessaire de connaître lorsque l’on les utilise. Les points importants sont les hypothèses explicites ou implicites induites par l’utilisation de telle méthode, le temps de calcul, la cohérence et les performances selon certaines conditions. Les performances d’une méthode sont généralement déterminées par des simulations et des tests empiriques. Ces derniers ne peuvent être utilisés que dans des cas où l’histoire évolutive est parfaitement connue.
Le maximum de parcimonie ne fait qu’une seule supposition : l’arbre qui requière le moins de substitution est le meilleur. Quand la divergence entre les séquences est faible, on a peu de chance d’avoir un grand nombre d’homéoplasie. Le critère du maximum de parcimonie est donc parfaitement adapté à une utilisation dans ce cadre. Si on a une forte divergence des séquences où on est à même d’inférer beaucoup d’homéoplasies, le maximum de parcimonie a de gros problèmes pour correctement trouver la bonne phylogénie. En particulier si une espèce a fortement divergé des autres par un taux de mutation élevé, de même si ces taux varient entre les sites. Il est aussi a noté que l’apparition d’homéoplasies dépend aussi du modèle d’évolution que suivent les séquences et d’un biais dans le taux transition/transversion. Le maximum de parcimonie demande normalement de regarder tous les arbres possibles afin de pouvoir les comparer. Mais devant l’accroissement exponentiel du nombre d’arbre avec le nombre de taxons, des méthodes heuristiques sont employées pour limiter l’espace de recherche. On est dans le même cas avec le minimum d’évolution. La parcimonie est donc une méthode demandant de lourds calculs.
Les méthodes des distances assument que les distances reflètent parfaitement les distances évolutives réelles. Il est donc nécessaire d’utiliser des distances et des modèles en accord avec les données. Si les distances entre espèces sont faibles, on a peu de problèmes avec la méthode des distances. Des difficultés apparaissent si les distances sont longues ou si les taux varient beaucoup entre les sites et pour un site donné. L’UPGMA soutient que les sites évoluent tous de la même manière. Cela n’est pas le cas avec les autres. L’algorithme de reconstruction Neighbor Joining fait l’hypothèse que le critère longueur de l’arbre est le plus à même de déterminer le meilleur arbre. Ce n’est pas forcément le meilleur critère et d’autres méthodes de reconstruction en utilisent d’autres. La méthode des distances est une méthode très rapide et est donc très souvent employée, à des fins de comparaison avec d’autres méthodes par exemple.
Le maximum de vraisemblance fait des hypothèses qui sont explicites en utilisant un modèle d’évolution précis. Afin d’inférer correctement l’arbre phylogénétique, il est nécessaire de choisir des modèles de substitution qui ne soient pas incompatibles avec les données. Des inconsistances ont aussi été montrées si on supposait les taux uniformes alors qu’ils ne l’était pas. Cette méthode est celle qui demande le plus de ressources en calculs. Devant ce problème de calcul, on peut être amené à utiliser des heuristiques de calculs ou alors à choisir un modèle de substitution plus simple.


Validité

Les différentes méthodes phylogénétiques permettent d’obtenir le ou les arbres phylogénétiques les meilleurs suivant le critère choisi. Il est primordial de pouvoir quantifier la confiance que l’on peut avoir en cet arbre à l’aide de statistiques. Plusieurs méthodes existent, mais la plus fréquemment employée est la méthode du bootstrap  ADDIN EN.CITE Felsenstein19855300000000053Felsenstein, J.1985Confidence limits on phylogenies : an approach using the bootstrapEvolution439783-791(Felsenstein, 1985).
Cette méthode consiste à simuler à partir du jeu de données initial (dans le cas des méthodes phylogénétiques classiques, l’alignement) un ensemble de jeux de données de même taille par un tirage aléatoire avec remise. C’est-à-dire que chaque position de l’alignement généré sera obtenu par un tirage aléatoire parmi tous les sites de l’alignement initial. Pour chaque jeu de données bootstrap généré, on infère un arbre phylogénétique. Enfin, on indique pour chaque branche interne de l’arbre phylogénétique initial le pourcentage de fois que cette branche est retrouvée dans l’ensemble des arbres bootstrap. Cet indice permet d’évaluer la confiance que l’on peut donner aux branches internes.
Une autre méthode permettant d’évaluer la confiance en une phylogénie obtenue est le Jacknife. Cette méthode consiste à inférer un arbre phylogénétique à partir du jeu de données initial où une ou quelques espèces prises au hasard ont été omises. On répète cette procédure un grand nombre de fois afin d’obtenir autant d’arbres. Pour chaque branche interne de l’arbre phylogénétique non-perturbé, on indique le pourcentage de fois que cette branche est présente dans les arbres phylogénétiques jacknife.
Si on souhaite comparer deux arbres phylogénétiques, on peut décider d’employer une métrique d’arbre. La plus utilisée est celle de Robinson-Foulds dT  ADDIN EN.CITE Robinson19815400000000054Robinson, D.F.Foulds, L.R.1981Comparaison of phylogenetic treesMath. Biosci.53131-147(Robinson and Foulds, 1981), qui est une mesure de la dissimilarité structurale entre arbres binaires. Cette méthode permet de comparer des arbres n’ayant qu’exactement les mêmes taxons. Cette distance est une métrique topologique qui calcule le nombre de bipartitions présentes dans un seul des arbres. Cette distance ne peut excéder  EMBED Equation.3  où N est le nombre d’espèces étudiées et N-3 le nombre de branches internes. À partir de cette distance, un indice peut être défini  EMBED Equation.3 . Il s’agit de la proportion de branches internes différentes.
Afin de déterminer si deux arbres sont semblables ou très différents, des tests de congruences sont possibles. Pour effectuer ses tests, on peut utiliser soit la distance de Robinson-Foulds  ADDIN EN.CITE Penny19855500000000055Penny, D.Hendy, M.D.1985The use of tree comparaison metricsSystematic Zoology3475-82(Penny and Hendy, 1985), soit on utilise le score de vraisemblance  ADDIN EN.CITE Feil20015600000000056111362559812001Jan 2Recombination within natural populations of pathogenic bacteria: short-term empirical estimates and long-term phylogenetic consequences182-7Wellcome Trust Centre for the Epidemiology of Infectious Disease (WTCEID), University of Oxford, South Parks Road, Oxford OX1 3FY, United Kingdom. ed.feil@ceid.ox.ac.ukFeil, E. J.Holmes, E. C.Bessen, D. E.Chan, M. S.Day, N. P.Enright, M. C.Goldstein, R.Hood, D. W.Kalia, A.Moore, C. E.Zhou, J.Spratt, B. G.Proc Natl Acad Sci U S AAllelesBacteria/classification/*genetics/pathogenicityBase SequenceGenes, Bacterial/geneticsGenotypeKineticsMolecular Sequence DataMutagenesis/genetics*PhylogenyPoint Mutation/genetics*Recombination, GeneticStatisticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.Transformation, BacterialVariation (Genetics)/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11136255(Feil et al., 2001). Il s’agit de comparer l’arbre phylogénétique que l’on a obtenu avec des arbres phylogénétiques obtenus par différentes méthodes ou par des données différentes qui serviront d’arbres de référence et avec des arbres générés aléatoirement. Si le critère montre que l’arbre que nous avons inféré est significativement plus proche de l’arbre de référence que des arbres aléatoires, alors on pourra dire que notre arbre est congruent avec l’arbre de référence. Par exemple, avec le score de vraisemblance, le critère est  EMBED Equation.3  où L est la vraisemblance. En se basant sur un arbre de référence, on peut définir  EMBED Equation.3 . Le  EMBED Equation.3  suit pour les arbres aléatoires une distribution nulle. Si le  EMBED Equation.3  pour l’arbre considéré n’est pas compris dans le 99ème percentile de la distribution nulle, alors cet arbre est congruent avec l’arbre de référence.
Guénoche et Garreta  ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) a développé un ensemble de critères statistiques qui permettent de déterminer si la matrice des distances qui a été calculée est correctement représentée par l’arbre phylogénétique inféré ou l’inverse. Ces critères sont topologiques et numériques et seront discutés ultérieurement (voir Guénoche  ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) pour une description plus exhaustive des différents critères).


Problèmes rencontrés dans la réalisation d’une phylogénie moléculaire

Alignement

Comme la phylogénie classique n’utilise que des séquences homologues, l’alignement est une étape primordiale dans toutes les méthodes de phylogénie moléculaire. Elle permet d’identifier les sites homologues. Les méthodes d’alignement sont des méthodes demandant beaucoup de calculs. Ces méthodes peuvent permettre de trouver l’alignement optimal, mais celui ci n’est pas forcément biologiquement fiable. Les méthodes d’alignement travaillent en alignant localement les séquences, il est donc fort probable qu’elles conduisent à aligner des positions non homologues. Les parties des séquences, comprises entre deux zones alignées, ne sont pas forcément homologues, or par construction celles-ci sont mises en vis-à-vis. Elles seront donc comparées et pourront conduire à une mauvaise estimation des différences entre les espèces. Un autre problème de l’alignement est le fait qu’il peut être sensible à la matrice de similarité et à la fonction de gap choisies (voir l’article de Brocchieri  ADDIN EN.CITE Brocchieri20015800000000058http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11243926Brocchieri, L.Phylogenetic inferences from molecular sequences: review and critiqueAnimalBias (Epidemiology)Data Interpretation, StatisticalEvolutionGene Transfer, Horizontal/geneticsHumanModels, GeneticMutation/geneticsPhenotype*PhylogenyReproducibility of ResultsSensitivity and SpecificitySequence Alignment*Sequence Analysis, DNA/methods/standards*Sequence Analysis, Protein/methods/standards*Sequence Analysis, RNA/methods/standardsSupport, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, Stanford, California 94305-2125, USA.11243926Theor Popul Biol200159127-40.(Brocchieri, 2001) pour plus de renseignements). Malgré ces problèmes, le plus grand problème des alignements est l’aspect calculatoire.


Séquences homologues

La phylogénie représente le chemin évolutif de l’ensemble des espèces que l’on prend en compte, c'est-à-dire l’arbre des espèces. Or la phylogénie moléculaire basée sur l’étude d’un gène ne correspond qu’à l’évolution de ce gène, l’arbre du gène. L’arbre du gène peut être différent de l’arbre d’espèce sous deux aspects. Lorsque l’on étudie les copies d’un même gène chez deux espèces, la différenciation des copies peut être antérieure à celle des espèces. Dans ce cas, on surestimerait le temps de divergence entre les espèces. Cependant la topologie pourrait être correcte. Un problème plus grave est que le gène peut avoir évolué de manière radicalement différente des espèces. Les pressions sélectives qui ont abouti à la séparation des espèces peuvent ne pas avoir eu les même effets sur le gène étudié. Dans ce cas-là, l’arbre phylogénétique inféré représentera l’histoire évolutive du gène et non celui des espèces.
Une fois que les espèces se sont séparées, les séquences évoluent de manière indépendante, accumulant des différences de nucléotides. À partir de ces différences, les méthodes de phylogénie moléculaire permettent de reconstruire l’arbre phylogénétique. Cependant si un site a subi un grand nombre de substitutions, on a perte d’information  ADDIN EN.CITE Philippe199860000000000609914208861998DecHow good are deep phylogenetic trees?616-23Laboratoire de Biologie Cellulaire (URA CNRS 2227), Batiment 444, Universite Paris-Sud, 91405 Orsay Cedex, France. herve.philippe@bio4. bc4.u-psud.frPhilippe, H.Laurent, J.Curr Opin Genet DevAnimals*Evolution, MolecularHumans*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9914208(Philippe and Laurent, 1998). Les méthodes de phylogénie sont incapables de déterminer toutes les substitutions qui ont eu lieu. On parle alors de saturation. Ces phénomènes de saturation peuvent aussi être observé lorsque l’on est en présence d’homoplasie. Ce problème de saturation se pose particulièrement lorsque l’on observe des espèces très éloignées comme avec les bactéries. Certains gènes qui sont peu contraints ont fortement divergé permettent d’obtenir des phylogénies pour des espèces proches, mais en aucun cas des phylogénies plus anciennes. À l’opposé, des gènes plus conservés comme l’ARN ribosomal sont plus adaptés à l’étude phylogénétique d’espèces éloignées que d’espèces proches.
Cette saturation est amenée par des taux d’évolution élevés. Une forte différence de taux d’évolution entre les espèces peut conduire à l’apparition d’artefact de reconstruction dit d’attraction des longues branches  ADDIN EN.CITE Felsenstein19785900000000059Felsenstein, J.1978Cases in wich parsimony or compability methods will be positively misleading.Systematic Zoology27401-10(Felsenstein, 1978). Il s’agit d’un cas où les branches ayant un taux de substitution bien plus élevé que les autres vont se retrouver regroupées ensemble. Plaçons nous dans le cas d’un arbre à 4 taxons ((A,B),(C,D)) où certaines branches ont des taux de substitutions bien plus élevé que les autres, c’est-à-dire si on regarde la  REF _Ref508266730 \h Figure 17 que p>> q.


Figure  SEQ Figure \* ARABIC 17 - Phénomène d’attraction des longues branches.

Dans ce cas-là, les séquences de A et C vont subir beaucoup plus de mutations que les séquences de B et D. Il y a aura perte de signal phylogénétique de l’arbre vrai par saturation et les méthodes de phylogénie regrouperont plutôt A et C ensemble. Le phénomène d’attraction des longues branches s’apparente à une exclusion des longues branches. Celles-ci se regroupe et se place avec l’espèce la plus éloignée qui est le groupe externe  ADDIN EN.CITE Philippe199860000000000609914208861998DecHow good are deep phylogenetic trees?616-23Laboratoire de Biologie Cellulaire (URA CNRS 2227), Batiment 444, Universite Paris-Sud, 91405 Orsay Cedex, France. herve.philippe@bio4. bc4.u-psud.frPhilippe, H.Laurent, J.Curr Opin Genet DevAnimals*Evolution, MolecularHumans*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9914208(Philippe and Laurent, 1998). Ces phénomènes peuvent aussi apparaître au niveau de clades où des espèces par un artefact des longues branches peuvent être placées à la base de leur groupe taxonomique d’appartenance (par exemple des Gram- pour le cas des bactéries).


Transfert Horizontaux

D’autres phénomènes biologiques peuvent perturber le signal phylogénétique. Un de ses phénomènes est la possibilité qu’ont les organismes, surtout les Procaryotes, d’échanger du matériel génétique entre espèces par transfert horizontal  ADDIN EN.CITE Ochman20006200000000062Ochman, H.Lawrence, J., G.Groisman, E., A.2000lateral gene transfer and the nature of bacterial innovationNature405299-304Lawrence20026300000000063 Lawrence, JG. Ochman, H.2002Reconciling the many faces of lateral gene transferTrends Microbiol.101-42002 JanDufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005; Lawrence and Ochman, 2002; Ochman et al., 2000). Ces transferts sont des intégrations de fragments d’ADN étranger dans le génome à l’aide de différents mécanismes moléculaires  ADDIN EN.CITE Zgur-Bertok19996400000000064107308964531999Mechanisms of horizontal gene transfer (review)91-6Department of Biology, Biotechnical Faculty, Ljubljana, Slovenia. Darja.Zgur@uni-Lj.SiZgur-Bertok, D.Folia Biol (Praha)AnimalsConjugation, GeneticDNA Transposable Elements/geneticsEukaryotic CellsModels, GeneticPlasmids/classification/geneticsProkaryotic CellsRepetitive Sequences, Nucleic AcidTransduction, GeneticTransformation, Bacterial/genetics*Transformation, Genetic/physiologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10730896(Zgur-Bertok, 1999). Ces événements sont rares, mais assez difficile à évaluer car seuls ceux qui réussissent à être parfaitement intégré dans le génome de l’hôte sont détectables. Mais des chiffres permettent d’évaluer, chez les Procaryotes, le pourcentage de transferts horizontaux à des valeurs pouvant atteindre 17% du génome  ADDIN EN.CITE Ochman20006200000000062Ochman, H.Lawrence, J., G.Groisman, E., A.2000lateral gene transfer and the nature of bacterial innovationNature405299-304(Ochman et al., 2000). Une fois l’ADN étranger intégré, celui-ci exprime un certain nombre de gènes susceptibles d’être sélectionnés lors d’une analyse phylogénétique. Or ses derniers à cause de leurs provenances étrangères ne permettent pas d’obtenir une phylogénie correcte. Ainsi, certaines phylogénies contiennent de fortes incongruences dues à la présence de transfert horizontaux. D’ailleurs, l’étude des incongruences dans les phylogénies moléculaires est une des méthodes mises en œuvre afin de détecter les transferts horizontaux.


Bootstrap

Le bootstrap de la manière dont il est employé en phylogénie moléculaire pose quelques problèmes théoriques. En effet, les conditions d’utilisation du bootstrap supposent que toutes les variables soient indépendantes ce qui n’est pas le cas dans le cas d’études de séquences nucléiques ou protéiques. Dans le cas de l’ARN 16S, plus de la moitié des bases sont appariées entre elles dans la structure tertiaire de la molécule, ce qui perturbent la confiance que l’on peut donné au bootstrap  ADDIN EN.CITE Teichmann19996500000000065103684384911999JulIs there a phylogenetic signal in prokaryote proteins?98-107MRC Laboratory of Molecular Biology, Hills Road, Cambridge CB2 2QH, UK. sat@mrc-lmb.cam.ac.ukTeichmann, S. A.Mitchison, G.J Mol EvolArginine-tRNA Ligase/geneticsBacterial Proteins/*geneticsGenome, BacterialModels, BiologicalPhenylalanine-tRNA Ligase/geneticsPhosphoglycerate Kinase/genetics*PhylogenyRNA, Ribosomal/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10368438(Teichmann and Mitchison, 1999). De plus des corrélations entre positions ont été observées et plus particulièrement entre positions adjacentes (biais de codons, biais d’oligonucléotides).
Les coefficients de bootstrap sont aussi très dépendants de l’hétérogénéité des taux de mutations. Si les taux de mutations sont constants ou relativement homogènes, les coefficients de bootstrap supérieur à 50% sous-estiment la probabilité réelle. Alors que dans le cas de taux de mutations fortement hétérogènes, les coefficients ont tendance à surestimer  ADDIN EN.CITE Hillis19936600000000066Hillis, D.M.Bull, J.J.1993An empirical test of bootstrapping as a method for assessing confidence in phylogenetic analysisSyst. Biol.42182-92(Hillis and Bull, 1993).


Différentes méthodes - différents résultats

Différentes études ont montré que différentes méthodes de phylogénies employées sur un même gène pouvaient aboutir à des phylogénies différentes. De même, des arbres phylogénétiques obtenus à partir de gènes différents sont fréquemment différents  ADDIN EN.CITE Rokas200367000000000671457440342569602003Oct 23Genome-scale approaches to resolving incongruence in molecular phylogenies798-804Howard Hughes Medical Institute, Laboratory of Molecular Biology, R. M. Bock Laboratories, University of Wisconsin-Madison, 1525 Linden Drive, Madison, Wisconsin 53706, USA.Rokas, A.Williams, B. L.King, N.Carroll, S. B.NatureGenes, Fungal/*genetics*Genome, FungalGenomics/*methods*PhylogenyRegression AnalysisReproducibility of ResultsResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Saccharomyces/*classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14574403(Rokas et al., 2003). Ainsi Russo et al  ADDIN EN.CITE Russo19966800000000068Russo,C. A. M.Takezaki, N.Nei, M.1996Efficiencies of different genes and different tree-building methods in recovering a known vertebrate phylogenyMol. Biol. Evol.13525-536(Russo et al., 1996) ont testé l’efficacité de 4 méthodes de reconstruction à retrouver une phylogénie connue de vertébrés. Cette étude a été effectuée sur 13 gènes mitochondriaux. Le résultat a été que même si globalement les différentes méthodes retrouvaient le « bon » arbre, il était fréquent que les arbres de différents gènes soient différents même pour une même méthode.
Avec la méthode du maximum de vraisemblance, l’emploi de différents modèles de substitution conduit à des résultats différents et même l’utilisation de mauvais modèle peuvent conduire à de bien meilleurs résultats que ceux obtenus avec un modèle correspondant à celui qu’ont suivi les séquences  ADDIN EN.CITE Yang19976900000000069Yang, Z.1997How often do wrong models produce better phylogenies?Mol. Biol. Evol.14105-108(Yang, 1997).
Ces difficultés d’obtenir toujours le même arbre phylogénétique indiquent qu’il est difficile de définir un arbre « vrai » phylogénétique. Souvent la taxonomie influence le choix de l’arbre vrai de référence. Mais ce choix est de temps en temps discutable quand il s’agit de comparer des espèces très éloignés (comme avec les procaryotes).


Nouvelles méthodes

Avec l’apparition récente d’un nombre de plus en plus grand de données moléculaires, de nouvelles méthodes de phylogénies moléculaires se sont développées. Elles tiennent compte de la disponibilité croissante de génomes et de protéomes. Ces méthodes emploient pour la plupart des nouveaux types de caractéristiques, différents de la simple comparaison de séquences homologues.


Grand nombre de séquences

Comme je l’ai déjà indiqué, l’arbre phylogénétique d’un gène contient deux signaux évolutifs : l’évolution des espèces, mais aussi l’évolution propre du gène. Une des premières idées qui est apparu afin de s’affranchir de cette évolution de gène est d’utiliser un grand nombre de gènes  ADDIN EN.CITE Brown1997700000000007094091496141997DecArchaea and the prokaryote-to-eukaryote transition456-502Canadian Institute for Advanced Research, Department of Biochemistry, Dalhousie University, Halifax, Nova Scotia, Canada. James_R_Brown@sbphrd.comBrown, J. R.Doolittle, W. F.Microbiol Mol Biol RevArchaea/enzymology/*geneticsBacteria/geneticsEukaryotic Cells*Evolution*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9409149Gray199976000000000761006616128354071999Mar 5Mitochondrial evolution1476-81Department of Biochemistry, Dalhousie University, Halifax, Nova Scotia B3H 4H7, Canada. M.W.Gray@Dal.CaGray, M. W.Burger, G.Lang, B. F.ScienceAnimalArchaea/geneticsBacteria/geneticsDNA, Mitochondrial/chemistry/*genetics*Eukaryotic Cells/physiology/ultrastructure*EvolutionEvolution, MolecularGenesMitochondria/*geneticsModels, BiologicalPhylogenySupport, Non-U.S. Gov'tSymbiosishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10066161Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Brown and Doolittle, 1997; Daubin et al., 2002; Daubin et al., 2001; Gray et al., 1999). En effet, en prenant en compte un plus grand nombre de gènes donc de données moléculaires, on renforce le signal évolution de l’espèce. De plus, augmenter la nombre des positions prises en compte permet d’augmenter l’information disponible et ainsi la probabilité que les méthodes de phylogénie puissent inférer l’arbre phylogénétique représentatif de l’évolution des espèces étudiées.
Une fois que les alignements des séquences des différents gènes choisis, deux possibilités sont ouvertes :
L’ensemble des alignements est concaténé afin d’obtenir un « super-alignement ». À partir de cet alignement de grandes tailles, on applique une des différentes méthodes de phylogénie moléculaire. Cette méthode conduit à de lourds temps de calculs.
L’autre possibilité consiste à calculer pour chaque gène un arbre à partir d’une méthode phylogénétique. Une fois chaque arbre inféré, on calcule un arbre consensus  ADDIN EN.CITE Holland20037730000000077Holland, B.Moulton, V.2003Consensus networks: A method for visualising incompatibilities in collections of treesLecture Notes in BioinformaticsWABI 20032812165-76(Holland and Moulton, 2003).
L’utilisation de nombreux gènes n’empêche pas d’obtenir des résultats incorrects avec un fort taux de confiance  ADDIN EN.CITE Naylor19977800000000078925218438866421997Aug 7Structural biology and phylogenetic estimation527-8Naylor, G. J.Brown, W. M.NatureAnimalsMitochondria/*genetics*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9252184Brown20017900000000079114317012832001JulUniversal trees based on large combined protein sequence data sets281-5Anti-Microbial Bioinformatics Group, GlaxoSmithKline,1250 South Collegeville Road, UP1345 P.O. Box 5089, Collegeville, Pennsylvania 19426-0989, USA. James_R_Brown@gsk.comBrown, J. R.Douady, C. J.Italia, M. J.Marshall, W. E.Stanhope, M. J.Nat GenetAmino Acid SequenceArchaea/geneticsBacteria/geneticsComparative StudyConserved SequenceDatabases, FactualEukaryotic Cells*Evolution, Molecular*Genomics*PhylogenyResearch Support, Non-U.S. Gov'tSequence AlignmentSequence Analysis, Protein/*methodshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11431701Teichmann19996500000000065103684384911999JulIs there a phylogenetic signal in prokaryote proteins?98-107MRC Laboratory of Molecular Biology, Hills Road, Cambridge CB2 2QH, UK. sat@mrc-lmb.cam.ac.ukTeichmann, S. A.Mitchison, G.J Mol EvolArginine-tRNA Ligase/geneticsBacterial Proteins/*geneticsGenome, BacterialModels, BiologicalPhenylalanine-tRNA Ligase/geneticsPhosphoglycerate Kinase/genetics*PhylogenyRNA, Ribosomal/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10368438(Brown et al., 2001; Naylor and Brown, 1997; Teichmann and Mitchison, 1999). Ces erreurs peuvent provenir de la présence dans les gènes choisis de transfert horizontaux. Ainsi Brown et al  ADDIN EN.CITE Brown20017900000000079114317012832001JulUniversal trees based on large combined protein sequence data sets281-5Anti-Microbial Bioinformatics Group, GlaxoSmithKline,1250 South Collegeville Road, UP1345 P.O. Box 5089, Collegeville, Pennsylvania 19426-0989, USA. James_R_Brown@gsk.comBrown, J. R.Douady, C. J.Italia, M. J.Marshall, W. E.Stanhope, M. J.Nat GenetAmino Acid SequenceArchaea/geneticsBacteria/geneticsComparative StudyConserved SequenceDatabases, FactualEukaryotic Cells*Evolution, Molecular*Genomics*PhylogenyResearch Support, Non-U.S. Gov'tSequence AlignmentSequence Analysis, Protein/*methodshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11431701(Brown et al., 2001) ne gardèrent que 14 des 23 gènes qu’ils avaient étudiés, mais après ce tri le résultat se détériora notablement. Il est donc nécessaire d’effectuer une sélection afin d’avoir des gènes congruents  ADDIN EN.CITE Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Daubin et al., 2002; Daubin et al., 2001). Les gènes choisis partagent alors la même histoire.


Superarbre

La concaténation des gènes ne prend en compte que les gènes dont on connaît la séquence pour l’ensemble des espèces. Cela réduit à l’heure actuelle considérablement le nombre d’espèces qui peuvent être comparées. Des méthodes de reconstruction dites de « superarbre » ont été développées afin de pouvoir prendre en compte des espèces qui n’ont pas toutes les séquences des gènes que l’on considère. Ces méthodes combinent l’information provenant de plusieurs arbres de « petite » taille afin d’obtenir un seul arbre de taille beaucoup plus grande.
Depuis la sortie de l’article de Sanderson en 1998  ADDIN EN.CITE Sanderson19988000000000080Sanderson, M.J.1998Phylogenetic supertrees: assembling the trees of lifeTrends Ecol. Evol13105-9(Sanderson, 1998), de nombreuses techniques de superarbre ont été développées (voir l’article de Bininda-Edmonds O.R.P. pour une liste exhaustive des différentes techniques  ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004)). Même si de nombreuses critiques  ADDIN EN.CITE Gatesy20028400000000084122280075142002AugResolution of a supertree/supermatrix paradox652-64Department of Biology, University of California, Riverside, California 92521, USA.Gatesy, J.Matthee, C.DeSalle, R.Hayashi, C.Syst BiolAnimalsArtiodactyla/classification*PhylogenyResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12228007Gatesy20048270000000082Gatesy, J.Springer, M.S.2004A critique of the matrix representation with parsimony supertreesBininda-Edmonds, O.R.P.Phylogenetic Supertrees: Combining Informaion ti Reveal the Tree of LifeKluwer Academic3369-388Springer200183000000000831125319329155092001Mar 2Phylogenetics. Which mammalian supertree to bark up?1709-11Department of Biology, University of California, Riverside, CA 92521 USA. springer@citrus.ucr.eduSpringer, M. S.de Jong, W. W.ScienceAnimalsDNA, Mitochondrial/geneticsEvolutionGenomicsHumansMammals/anatomy & histology/*classification/geneticsMeta-AnalysisPedigree*PhylogenySequence Analysis, DNAhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11253193(Gatesy et al., 2002; Gatesy and Springer, 2004; Springer and de Jong, 2001) sont apparues pour l’utilisation de superarbres, ils sont de plus en plus utilisés, car il semble à l’heure actuelle la seule solution afin de construire des arbres de très grandes tailles  ADDIN EN.CITE Soltis200385000000000851291313713242003AugThe role of phylogenetics in comparative genetics1790-800Department of Botany and the Genetics Institute, University of Florida, Gainesville, Florida 32611, USA. dsoltis@botany.ufl.eduSoltis, D. E.Soltis, P. S.Plant Physiol*Evolution, Molecular*Genetics*PhylogenyPlants/*classification/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12913137Pennisi200386000000000861280553230056262003Jun 13Modernizing the tree of life1692-7Pennisi, E.ScienceAccess to InformationAnimalsAutomatic Data ProcessingClassification/*methodsDNA/*analysis/geneticsDatabases, Factual*EcosystemElectron Transport Complex IV/geneticsEvolutionGenesInternetMammals/classificationMutation*PhylogenySoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12805532Gatesy20048270000000082Gatesy, J.Springer, M.S.2004A critique of the matrix representation with parsimony supertreesBininda-Edmonds, O.R.P.Phylogenetic Supertrees: Combining Informaion ti Reveal the Tree of LifeKluwer Academic3369-388(Gatesy and Springer, 2004; Pennisi, 2003; Soltis and Soltis, 2003). Ces critiques se basent principalement sur le fait que les techniques de superarbre s’appuient sur les arbres et non plus sur les données moléculaires. Cependant des études ont démontré la validité de l’utilisation de telles méthodes  ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654Chen200327870000000278Chen, D.Diao, L.Eulenstein, O.Fernandez-Baca, D.Sanderson, M. J.2003Flipping: a supertree construction method.Janowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61135-160Levasseur200327970000000279Levasseur, C.Lapointe, F.-J.2003Increasing phylogenetuc accuracy with global congruenceJanowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61221-30Sanderson19988000000000080Sanderson, M.J.1998Phylogenetic supertrees: assembling the trees of lifeTrends Ecol. Evol13105-9(Bininda-Emonds and Sanderson, 2001; Chen et al., 2003; Levasseur and Lapointe, 2003; Sanderson, 1998). L’avantage de superarbre utilisant les arbres phylogénétiques est que l’on peut combiner des arbres provenant d’études très différentes : gènes différents, emploi de différentes méthodes de reconstruction et même pas forcément le même matériel biologique (séquences nucléiques, séquences protéiques, hybridation ADN-ADN, etc& ).
Auparavant les superarbres n étaient qu un assemblage d arbres disjoints. On construisait des arbres de groupes distincts (par exemple un arbre að-protéobactérie, un autre bð-protéobactérie puis un gð-protéobactérie). Puis un arbre était inféré à partir d un ensemble d espèces constitué d un représentant par arbre précédemment construit. La position de ces représentants servant enfin à placer l arbre de leur groupe dans le superarbre (voir la  REF _Ref508266777 \h Figure 18a). Les nouvelles techniques de superarbre introduites pour la première fois par Gordon  ADDIN EN.CITE Gordon19868700000000087Gordon, A.D.1986Consensus supertrees: the synthesis of rooted trees containing overlapping set of labeled leavesJ. Classif331-9(Gordon, 1986) se basent sur l’emploi d’arbres redondants. Une espèce est présente dans plus d’un arbre permettant de relier les différents arbres entre elles ( REF _Ref508266777 \h Figure 18b).



Figure  SEQ Figure \* ARABIC 18 - Méthodes de superarbre : ancienne et nouvelles. (a) Dans le passé, les différents arbres sources étaient assemblés ensemble de manière indépendante. (b) Actuellement, les arbres sources sont choisis de manière à posséder des chevauchements au niveau des espèces. La construction n’est pas obligatoirement la MRP comme l’exemple de la figure le montre. Les portions du superarbre qui proviennent d’un même arbre source sont codés par le même code couleur. (Figure tirée de  ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004))

Je vais vous présenter ici plus en détail la méthode de Représentation de Matrice par parcimonie (MRP : « Matrice Representation using parsimony »). Cette technique est la plus employée à l’heure actuelle  ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004). Cela peut s’expliquer d’un point de vue historique (une des premières méthodes employées), d’un point de vue pratique (déjà implémenté par de nombreux logiciels, peut utiliser n’importe quel arbre) et d’un point de vue méthodologique (facile à comprendre, nombreux travaux de validation). Les résultats sur des simulations ont aussi montré que la validité de la MRP  ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654(Bininda-Emonds and Sanderson, 2001). Les plus grands arbres phylogénétiques, qui ont été publiés, ont utilisé la MRP (916 espèces de chauve-souris par Jones et al  ADDIN EN.CITE Jones20028900000000089Jones, K.E.Purvis, A.McLarnon, A.Bininda-Edmonds, O.R.P.Simmons, N.B.2002A phylogenetic supertree of the bats (Mammalia: Chioptera)Biol. Rev.77223-59(Jones et al., 2002), voir Beninda-Emonds  ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004) pour plus de détails sur les grands arbres).
Cette méthode a été décrite pour la première fois par Baum  ADDIN EN.CITE Baum19929100000000091Baum, B.R.1992Combining trees as a way of combining data sets for phylogenetic inferenceTaxon413-10(Baum, 1992) et par Ragan  ADDIN EN.CITE Ragan199290000000000901342924111992MarPhylogenetic inference based on matrix representation of trees53-8Institute for Marine Biosciences, National Research Council of Canada, Halifax, Nova Scotia.Ragan, M. A.Mol Phylogenet EvolAnimalsComparative StudyDNA/geneticsDictyostelium/classification/geneticsGenetic TechniquesHumansMicrocomputersOrganelles/metabolism*PhylogenyRNA, Transfer/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1342924(Ragan, 1992) de manière indépendante. Son but premier était de pouvoir combiner des données moléculaires et morphologiques. Plus tard, Liu et al  ADDIN EN.CITE Liu200192000000000921123069429155092001Mar 2Molecular and morphological supertrees for eutherian (placental) mammals1786-9Department of Zoology, Box 118525, University of Florida, Gainesville, FL 32611-8525, USA.Liu, F. G.Miyamoto, M. M.Freire, N. P.Ong, P. Q.Tennant, M. R.Young, T. S.Gugel, K. F.ScienceAnimalsEvolutionHumansMammals/anatomy & histology/*classification/geneticsPedigree*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11230694(Liu et al., 2001) (2001) et Jones et al  ADDIN EN.CITE Jones20028900000000089Jones, K.E.Purvis, A.McLarnon, A.Bininda-Edmonds, O.R.P.Simmons, N.B.2002A phylogenetic supertree of the bats (Mammalia: Chioptera)Biol. Rev.77223-59(Jones et al., 2002) ont proposé d’utiliser la MRP sur des arbres provenant de la littérature. Le principe de la MRP est de recoder l’ensemble des arbres sous la forme d’une matrice binaire. Chaque nœud interne d’un arbre compose les nouveaux caractères de la matrice binaire. Les espèces sont codées en fonction de la partition à laquelle elles appartiennent. Ainsi, si on se base sur la  REF _Ref508266827 \h Figure 19, pour le nœud 1, les espèces A, B et C appartiennent à la même partition que l’on note 1 et l’espèce D à la partition 0. On fait de même pour l’ensemble des nœuds présents sur tous les arbres étudiés. Si une espèce n’est pas présent dans un des arbres, on lui assigne pour les nœuds de cet arbre le caractère absent « ? », comme pour l’espèce C pour le nœud 3 de l’arbre (b). Une fois que l’on a la matrice finale, on ajoute un groupe externe fictif dont tous les caractères ont la valeur 0. Enfin cette matrice est traitée par la méthode de parcimonie afin de produire des arbres. Au cas où on obtiendrait plusieurs arbres les plus parcimonieux, on applique un consensus.


Figure  SEQ Figure \* ARABIC 19 - Méthode d’encodage des arbres en une matrice binaire dans la méthode MRP. (a,b) arbres sources. Les nœuds internes sont numérotés. (c) matrice binaire encodée.

Une des améliorations possibles de la MRP est la prise en compte des coefficients bootstrap des différents arbres sources  ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654(Bininda-Emonds and Sanderson, 2001). Les différents caractères de la matrice binaire sont alors pondérés par le coefficient bootstrap du nœud dans l’arbre. Cette MRP pondérée a montré des très bons résultats sur des simulations  ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654Chen200327870000000278Chen, D.Diao, L.Eulenstein, O.Fernandez-Baca, D.Sanderson, M. J.2003Flipping: a supertree construction method.Janowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61135-160Levasseur200327970000000279Levasseur, C.Lapointe, F.-J.2003Increasing phylogenetuc accuracy with global congruenceJanowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61221-30(Bininda-Emonds and Sanderson, 2001; Chen et al., 2003; Levasseur and Lapointe, 2003) et sur des données réelles  ADDIN EN.CITE Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345(Daubin et al., 2002; Daubin et al., 2001).


Emploi de caractéristiques structurales

La seule lecture de la séquence primaire permet aux méthodes classiques de tirer assez d’information pour construire des arbres phylogéniques. Mais la séquence primaire n’est pas tout. Une protéine n’est active que grâce à sa structure en 3D. De nombreuses méthodes se sont appuyées sur les données de structures secondaires des protéines afin d’affiner les résultats  ADDIN EN.CITE Xiong199393000000000937519520241993DecPhylogeny of sibling species of Simulium venustum and S. verecundum (Diptera: Simuliidae) based on sequences of the mitochondrial 16S rRNA gene293-303Department of Zoology, University of New Hampshire, Durham 03824.Xiong, B.Kocher, T. D.Mol Phylogenet EvolAnimalsBase SequenceComparative StudyComputer SimulationDNA, Mitochondrial/chemistry/geneticsDNA, Ribosomal/chemistry/genetics*Genes, InsectModels, GeneticMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA/*geneticsRNA, Ribosomal, 16S/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Sequence Homology, Nucleic AcidSimuliidae/*geneticsSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7519520Haase1995940000000009485264776811995JulPhylogenetic analysis of ten black yeast species using nuclear small subunit rRNA gene sequences19-33Institute for Medical Microbiology, Klinikum RWTH Aachen, Germany.Haase, G.Sonntag, L.van de Peer, Y.Uijthof, J. M.Podbielski, A.Melzer-Krick, B.Antonie Van LeeuwenhoekAscomycota/geneticsBase SequenceExophiala/classification/geneticsFungi/*classification/geneticsMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Fungal/chemistry/*geneticsRNA, Ribosomal/chemistry/*geneticsSequence Analysis, DNAhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8526477Ellis1995950000000009585705878181995Effects of sequence alignment on the phylogeny of Sarcocystis deduced from 18S rDNA sequences696-9Department of Cell and Molecular Biology, University of Technology Sydney, Gore Hill, New South Wales, Australia.Ellis, J.Morrison, D.Parasitol ResAnimalsDNA, Ribosomal/*genetics*PhylogenyRNA, Ribosomal, 18S/*geneticsSarcocystis/*classification/geneticsSequence Alignmenthttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8570587(Ellis and Morrison, 1995; Haase et al., 1995; Xiong and Kocher, 1993). Ces méthodes n’emploient pas en fait directement la structure secondaire. Cette dernière est utilisée pour améliorer la qualité des alignements  ADDIN EN.CITE Hendriks1991960000000009619010933221991FebThe evolutionary position of the rhodophyte Porphyra umbilicalis and the basidiomycete Leucosporidium scottii among other eukaryotes as deduced from complete sequences of small ribosomal subunit RNA167-77Departement Biochemie, Universiteit Antwerpen (UIA), Belgium.Hendriks, L.De Baere, R.Van de Peer, Y.Neefs, J.Goris, A.De Wachter, R.J Mol EvolAlgae, Red/*geneticsBase SequenceBasidiomycota/*geneticsComparative StudyDNA, FungalEukaryotic Cells*EvolutionMolecular Sequence DataNucleic Acid ConformationPhylogenyRNA, Ribosomal/*geneticsResearch Support, Non-U.S. Gov'tSequence Alignmenthttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1901093Corpet1994970000000009775286301041994JulRNAlign program: alignment of RNA sequences using both primary and secondary structures389-99Institut National de la Recherche Agronomique (INRA), Laboratoire de Genetique Cellulaire, Castanet Tolosan, France.Corpet, F.Michot, B.Comput Appl BiosciAlgorithmsBase SequenceDatabases, FactualMolecular Sequence DataNucleic Acid ConformationRNA/chemistry/*geneticsRNA, Bacterial/chemistry/geneticsRNA, Ribosomal, 23S/chemistry/geneticsSequence Alignment/*methods/statistics & numerical dataSequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7528630(Corpet and Michot, 1994; Hendriks et al., 1991). Billoud et al  ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) propose eux d’utiliser uniquement la structure secondaire comme signal phylogénétique. Pour cela, il a utilisé l’ARN ribosomal qui est connu pour avoir une structure relativement conservée au cours de l’évolution  ADDIN EN.CITE Zwieb1981990000000009970249189151981Aug 11Secondary structure comparisons between small subunit ribosomal RNA molecules from six different species3621-40Zwieb, C.Glotz, C.Brimacombe, R.Nucleic Acids ResAnimalsBase SequenceChloroplasts/analysisComparative StudyEscherichia coli/analysisHumansMiceMitochondria/analysisMolecular WeightNucleic Acid ConformationPlants/analysis*RNA, RibosomalResearch Support, Non-U.S. Gov'tSaccharomyces cerevisiae/analysisSpecies SpecificityXenopusZea mays/analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7024918(Zwieb et al., 1981). Les caractères informatifs qui ont été choisis sont le nombre de nucléotides qui sont impliqués dans diverses structures secondaires : boucles, segments séparés, double brins alignés. Une fois la table obtenue ( REF _Ref508266851 \h Figure 20), deux opérations sont effectués : une parcimonie est effectuée sur la table où chaque état est discret et quantitatif et une matrice des distances est calculée grâce à la métrique euclidienne, matrice qui sera inféré en arbre par Neighbor-Joining.
Cette méthode est appelée méthode morphométrique moléculaire.


Figure  SEQ Figure \* ARABIC 20 - Méthode morphométrique moléculaire. Les différentes structures sélectionnées sont encodées en une matrice de charactères qui produira des arbres par maximum de parcimonie et méthode des distances.


Billoud et al  ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) ont appliqué leur méthode à l’étude des cirripèdes et de leurs relations phylogénétiques. Les résultats sont comparables à ceux qui sont obtenus avec les autres méthodes de phylogénie. Ces résultats seront détaillés plus en détail dans les chapitres ultérieurs.

Présence des gènes

Profitant de la disponibilité de plus en plus de génomes complets, Huynen et Bork  ADDIN EN.CITE Huynen199810100000000101960088395111998May 26Measuring genome evolution5849-56European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012 Heidelberg, Germany, and Max-Delbruck-Centrum for Molecular Medicine, 13122 Berlin-Buch, Germany. huynen@embl-heidelberg.deHuynen, M. A.Bork, P.Proc Natl Acad Sci U S AAnimals*Computer Simulation*Evolution, Molecular*GenomeHumans*Models, GeneticResearch Support, Non-U.S. Gov't*Sequence Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9600883(Huynen and Bork, 1998) puis Snel et al  ADDIN EN.CITE Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Snel et al., 1999) ont proposé de comparer les espèces à l’aide de la fraction de gènes en commun qu’elles possèdent. Le travail de Snel proposait d’utiliser une distance entre espèces qui consiste en le rapport du nombres de gènes orthologues en commun sur le nombre minimal de gène du plus petit des deux génomes. Ici la définition du gène orthologue est différente de celle fournie par Fitch  ADDIN EN.CITE Fitch19701020000000010254493251921970JunDistinguishing homologous from analogous proteins99-113Fitch, W. M.Syst ZoolEvolution*Models, TheoreticalMolecular BiologyProteins/*classificationhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=5449325(Fitch, 1970). Deux gènes sont dits orthologues si, en utilisant l’algorithme de Smith-Waterman, les deux gènes sont détectés comme étant les plus proches dans les deux génomes considérés. Une fois que l’on a la matrice de distance, l’arbre est obtenu à l’aide du Neighbor-Joining.
La distance employée par Snel et al  ADDIN EN.CITE Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Snel et al., 1999) est la suivante :  EMBED Equation.3  où  EMBED Equation.3  est le nombre de gène du génome i et  EMBED Equation.3  est le nombre de gènes en commun en tre le génome i et le génome j. Diverses transformations sur cette distance ont été proposées  ADDIN EN.CITE Snel200211600000000116117798271212002JanGenomes in flux: the evolution of archaeal and proteobacterial gene content17-25European Molecular Biology Laboratory, 69117 Heidelberg, Germany. snel@EMBL-heidelberg.deSnel, B.Bork, P.Huynen, M. A.Genome ResAmino Acid Substitution/geneticsArchaea/*geneticsBacteria/*genetics*Evolution, MolecularGene DeletionGene DuplicationGene Transfer, Horizontal/geneticsGenes, Archaeal/*geneticsGenes, Structural, Bacterial/*genetics*Genome, Archaeal*Genome, BacterialModels, GeneticMutagenesis/geneticsPhylogenyProteobacteria/*geneticsRecombination, Genetic/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11779827Korbel200211500000000115118588401832002MarSHOT: a web server for the construction of genome phylogenies158-62EMBL, Meyerhofstrasse 1, 69117, Heidelberg, Germany. korbel@embl-heidelberg.deKorbel, J. O.Snel, B.Huynen, M. A.Bork, P.Trends GenetAnimals*Databases, GeneticEvolution, MolecularGene OrderGene Transfer, Horizontal*Genome*Internet*PhylogenyRNA, Ribosomal/geneticsResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11858840Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Korbel et al., 2002; Snel et al., 1999, 2002). Tout d’abord d’employé le logarithme de la similitude :  EMBED Equation.3 . Une autre normalisation est l’emploi de la taille moyenne pondérée des génomes et non plus la taille du plus petit génome. Cette distance représente mieux les données avec l’augmentation du nombre d’orthologues entre archées et bactéries pour les grands génomes. Cette taille est égale à :  EMBED Equation.3 . Ces différentes distances ont été implémentées dans le site web SHOT ( HYPERLINK "http://www.bork.EMBL-Heidelberg.de/SHOT" http://www.bork.EMBL-Heidelberg.de/SHOT)  ADDIN EN.CITE Korbel200211500000000115118588401832002MarSHOT: a web server for the construction of genome phylogenies158-62EMBL, Meyerhofstrasse 1, 69117, Heidelberg, Germany. korbel@embl-heidelberg.deKorbel, J. O.Snel, B.Huynen, M. A.Bork, P.Trends GenetAnimals*Databases, GeneticEvolution, MolecularGene OrderGene Transfer, Horizontal*Genome*Internet*PhylogenyRNA, Ribosomal/geneticsResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11858840(Korbel et al., 2002). Enfin un autre estimateur a été proposé. Il s agit d un estimateur issu du maximum de vraisemblance. Si on suppose que les gènes sont perdus avec un taux de mð et acquis de manière indépendante avec un taux lð, la nouvelle distance peut être notée :  EMBED Equation.3  où  EMBED Equation.3 ,  EMBED Equation.3 ,  EMBED Equation.3  et  EMBED Equation.3   ADDIN EN.CITE Huson200411700000000117Huson, D.H.Steel, M.2004Distances that perfectly misleadSyst Biol532327-32(Huson and Steel, 2004).
Snel et al  ADDIN EN.CITE Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Snel et al., 1999) ont employé cette méthode afin de comparer 13 génomes complets. La plupart des groupes proposés par l’étude de l’ARN16S sont retrouvés par Snel et al, comme les protéobactéries et les bactéries Gram+ à bas G+C. Korbel et al  ADDIN EN.CITE Korbel200211500000000115118588401832002MarSHOT: a web server for the construction of genome phylogenies158-62EMBL, Meyerhofstrasse 1, 69117, Heidelberg, Germany. korbel@embl-heidelberg.deKorbel, J. O.Snel, B.Huynen, M. A.Bork, P.Trends GenetAnimals*Databases, GeneticEvolution, MolecularGene OrderGene Transfer, Horizontal*Genome*Internet*PhylogenyRNA, Ribosomal/geneticsResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11858840(Korbel et al., 2002) publièrent des résultats aussi encourageant en portant le nombre d espèces étudiées à 50. On retrouve des très bons résultats avec la formation de la plupart des groupes taxonomiques attendus. Les protéobactéries sont bien regroupées avec seul les eð-protéobactéries un peu mis à l’écart. Enfin les bactéries Gram+ à bas G+C sont très séparées des bactéries Gram+ à haut G+C. Il semble donc que les différentes pertes et obtention de gènes au cours de l’évolution ne sont pas suffisantes pour perturber l’information phylogénétique que l’on peut tirer de l’observation du contenu en gènes orthologues entre espèces.
Doolittle  ADDIN EN.CITE Doolittle1999200000000002Doolittle, W. F.1999Phylogenetic classification and the universal treeScience2842124-2129(Doolittle, 1999) a critiqué les interprétations basées sur ces méthodes, car il a suggéré que les arbres obtenus par l’étude du contenu en gènes ne permettent que de se prononcer sur l’aptitude qu’ont les espèces à s’échanger des gènes par transferts horizontaux. Ces résultats peuvent aussi s’expliquer par le fait que l’on ne compare les génomes que par ce qu’ils ont en commun. D’autres questions ont été soulevées par Tamames  ADDIN EN.CITE Tamames200111800000000118Tamames, J.2001Evolution of gene order conservation in prokaryotesGenome Biol2611423009Conserved Sequence*Evolution, Molecular*Gene Order*Genome, Archaeal*Genome, BacterialPhylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11423009Centro de Astrobiologia, INTA/CSIC, Carretera de Ajalvir Km, 4, 28850 Torrejon de Ardoz, Madrid, Spain. tamames@almabioinfo.com(Tamames, 2001). Tamames montra que la méthode du contenu en gène tendait à surestimer les distances entre espèces proches mais qui vivent dans des environnements différents. Ces différents environnements conduisent les espèces à s’adapter différemment.
D’autres méthodes ont été proposées afin de déterminer les relations entre les espèces, non plus sur le contenu en gène mais sur la présence ou absence de familles de gènes  ADDIN EN.CITE Fitz-Gibbon1999119000000001191051861327211999Nov 1Whole genome-based phylogenetic analysis of free-living microorganisms4218-22Department of Microbiology and Molecular Genetics, University of California, Los Angeles, CA 90095-1489, USA. sorel@mbi.ucla.euFitz-Gibbon, S. T.House, C. H.Nucleic Acids ResComputational BiologyGenes, Archaeal/geneticsGenes, Bacterial/geneticsGenes, Fungal/genetics*Genome, Archaeal*Genome, Bacterial*Genome, Fungal*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10518613House200212000000000120119566925442002AprUsing homolog groups to create a whole-genomic tree of free-living organisms: an update539-47Penn State Astrobiology Research Center and Department of Geosciences, Pennsylvania State University, 212 Deike Building, University Park, PA 16802, USA. chouse@geosc.psu.eduHouse, C. H.Fitz-Gibbon, S. T.J Mol EvolAnimalsCaenorhabditis elegans/geneticsGene Transfer, Horizontal*Genome, Archaeal*Genome, Bacterial*Genome, Fungal*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSequence Homologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11956692Lin200010700000000107108544121062000JunWhole-genome trees based on the occurrence of folds and orthologs: implications for comparing genomes on different levels808-18Department of Molecular Biophysics and Biochemistry, Yale University, New Haven, CT 06520 USA.Lin, J.Gerstein, M.Genome ResComparative StudyComputational Biology*GenomeGenome, ArchaealGenome, BacterialGenome, Fungal*PhylogenyRNA, Ribosomal/analysis*Sequence Homology, Nucleic AcidSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10854412Tekaia19991120000000011210400922961999JunThe genomic tree as revealed from whole proteome comparisons550-7Unite de Genetique Moleculaire des Levures [URA1300 Centre National de la Recherche Scientifique (CNRS) and UFR927 University Pierre and Marie Curie], Institut Pasteur, 75724 Paris Cedex 15, France. tekaia@pasteur.frTekaia, F.Lazcano, A.Dujon, B.Genome ResAnimalsBase SequenceComparative Study*Evolution, Molecular*GenomeGenome, HumanHumanMiceOpen Reading Frames/geneticsSchizosaccharomyces/geneticsSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10400922(Fitz-Gibbon and House, 1999; House and Fitz-Gibbon, 2002; Lin and Gerstein, 2000; Tekaia et al., 1999). Dans les familles de gènes, on englobe les orthologues et les paralogues. Les résultats obtenus sont assez semblables même si les méthodes sont quelque peu différentes. Les trois domaines sont retrouvés ainsi que les groupes taxonomiques de niveau assez bas. Mais l’utilisation de familles de gènes au lieu de gènes conduit à une perte d’information qui conduit à certaines erreurs. Ainsi House et Fitz-Gibbon  ADDIN EN.CITE House200212000000000120119566925442002AprUsing homolog groups to create a whole-genomic tree of free-living organisms: an update539-47Penn State Astrobiology Research Center and Department of Geosciences, Pennsylvania State University, 212 Deike Building, University Park, PA 16802, USA. chouse@geosc.psu.eduHouse, C. H.Fitz-Gibbon, S. T.J Mol EvolAnimalsCaenorhabditis elegans/geneticsGene Transfer, Horizontal*Genome, Archaeal*Genome, Bacterial*Genome, Fungal*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSequence Homologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11956692(House and Fitz-Gibbon, 2002) ont montré que les génomes les plus courts se regroupent entre eux.

Ordre des Gènes

Huynen et Bork  ADDIN EN.CITE Huynen199810100000000101960088395111998May 26Measuring genome evolution5849-56European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012 Heidelberg, Germany, and Max-Delbruck-Centrum for Molecular Medicine, 13122 Berlin-Buch, Germany. huynen@embl-heidelberg.deHuynen, M. A.Bork, P.Proc Natl Acad Sci U S AAnimals*Computer Simulation*Evolution, Molecular*GenomeHumans*Models, GeneticResearch Support, Non-U.S. Gov't*Sequence Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9600883(Huynen and Bork, 1998) proposèrent une autre mesure d’évolution des génomes, autre que le contenu en gènes. Il s’agit de la conservation de l’organisation des gènes sur les chromosomes (synténie). Aucune hypothèse sur la fonction des gènes est effectuée, seule la manière dont sont organisés les gènes homologues est étudiée. L’étude de l’arrangement des gènes commença à la fin des années 30 par des travaux de Dobzhansky et Sturtevant  ADDIN EN.CITE Sturtevant193612300000000123Sturtevant, A.H.Dobzhansky, Th1936Inversions in the third chromosome of wild races of Drosophila pseudoobscura and their use in the study of the history of the speciesProc Natl Acad Sci U S A22448-50(Sturtevant and Dobzhansky, 1936), mais l’intérêt se développa avec la disponibilité d’un grand nombre de séquences et d’une cartographie plus fournie des génomes  ADDIN EN.CITE Palmer199212670000000126Palmer, J. D.1992Chloroplast and mitochondrial genome evolution in land plants.Hermann, R.Cell Organelles99-133Palmer198812400000000124Palmer, J.D.Herbon, L.A.1988Plant mitochondrial DNA evolves rapidly in structure, but slowly in sequence.J Mol Evol2787-97Olmstad199412900000000129Olmstad, R.Palmer, J. D.1994Chloroplast DNA systematics: a review of methods and data analysis.Amer. J. Bot.811205-24Bafna199512800000000128Bafna, V.Pevzner, P.1995Sorting by reversals: Genome rearrangements in plant organelles and evolutionnary history of X chromosomeMol Biol Evol12239-46Blanchette199913000000000130104416714921999AugGene order breakpoint evidence in animal mitochondrial phylogeny193-203Department of Computer Science & Engineering, University of Washington, Seattle, WA 98195-2350, USA.Blanchette, M.Kunisawa, T.Sankoff, D.J Mol EvolAnimals*Chromosome MappingDNA, Mitochondrial/*genetics*Evolution, Molecular*Gene Rearrangement*GenomeHumansInversion, ChromosomeMitochondria/*genetics*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10441671Hannenhalli19951310000000013185864313021995Nov 20Genome sequence comparison and scenarios for gene rearrangements: a test case299-311Department of Computer Science and Engineering, Pennsylvania State University, University Park 16802, USA.Hannenhalli, S.Chappey, C.Koonin, E. V.Pevzner, P. A.GenomicsComparative StudyDNA, Viral*Gene RearrangementGenome, ViralHerpesviridae/*geneticsMolecular Sequence DataPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8586431Sankoff199212700000000127163115889141992Jul 15Gene order comparisons for phylogenetic inference: evolution of the mitochondrial genome6575-9Centre de recherches mathematiques, Universite de Montreal, Canada.Sankoff, D.Leduc, G.Antoine, N.Paquin, B.Lang, B. F.Cedergren, R.Proc Natl Acad Sci U S AComparative StudyDNA, Fungal/geneticsDNA, Mitochondrial/*genetics*EvolutionGene Rearrangement*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1631158(Bafna and Pevzner, 1995; Blanchette et al., 1999; Hannenhalli et al., 1995; Olmstad and Palmer, 1994; Palmer, 1992; Palmer and Herbon, 1988; Sankoff et al., 1992).
Considérons un ensemble de génomes  EMBED Equation.3  et un ensemble de gènes orthologues communs  EMBED Equation.3 . Chaque génome peut être représenté sous la forme d’une suite ordonnée :  EMBED Equation.3  et si on connaît dans quel brin le gène est placé sous la forme d’une suite ordonnée signée :  EMBED Equation.3 . Trois types de changements évolutifs peuvent intervenir sur l’ordre des gènes.
Une inversion sur un interval (i,j) :  EMBED Equation.3 
Une transposition d’un interval (i,j) en la position k :  EMBED Equation.3 
Une transversion qui est une combinaison d’une inversion et d’une transposition :  EMBED Equation.3 

La méthode basée sur l’ordre des gènes emploie trois distances : la distance ITT qui correspond au nombre minimal d’événements nécessaires pour convertir la séquence d’un génome en un autre, la distance d’inversion qui est le nombre minimum d’inversions et enfin le nombre de transpositions nécessaires. La distance d’inversion peut être facilement calculée pour des génomes signés  ADDIN EN.CITE Hannenhalli199513230000000132Hannenhalli, S.Pevzner, P.1995Transforming cabbage into turnip (polynomial algorithm for sorting signed permutations by reverseals)Twenty-seventh Annual ACM-SIAM Symposium on the Theory of ComputingNew YorkACM press178-189Sankoff199213330000000133Sankoff, D.1992Edit distance for genome comparaison based on non-local operations.Apostolico, A.Third Annual Symposium on Combinatorial Pattern MachineBerlinSpringer-Verlag121-35(Hannenhalli and Pevzner, 1995; Sankoff, 1992), mais devient NP complexe si on ne peut les signer  ADDIN EN.CITE Caprara199728030000000280Caprara, A.1997Sorting by reversals is difficult1st Annual Internationnal Conference on Computational Molecular BiologyNew York, USAACM75-83(Caprara, 1997). Les distances obtenues sont normalisées par la taille du plus petit génome. Cette taille est définie soit par le nombre de gènes, soit par le nombre de gène ayant au moins un homologue dans les autres génomes, soit par le nombre de gène ayant au moins un orthologue dans les autres génomes, soit une normalisation entre chaque paire de génomes par le nombre d’orthologues communs.
Une autre distance est basée sur le nombre de rupture (« breakpoint distance ») au sein de l’organisation  ADDIN EN.CITE Nadeau19841340000000013465836818131984FebLengths of chromosomal segments conserved since divergence of man and mouse814-8Nadeau, J. H.Taylor, B. A.Proc Natl Acad Sci U S AAnimalsChromosome MappingComparative Study*EvolutionHumans*Linkage (Genetics)MathematicsMice/*geneticsModels, Genetic*Recombination, GeneticResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Species Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=6583681(Nadeau and Taylor, 1984). Une rupture entre deux génomes G1 et G2 est définie comme une paire de gènes qui sont consécutifs pour le génome G1 mais pas pour le génome G2. Cette distance est actuellement la plus utilisée dans l’utilisation de réarrangements multiples (c’est-à-dire de plusieurs espèces à la fois)  ADDIN EN.CITE Blanchette199713530000000135Blanchette, M.Bourque, G.Sankoff, D.1997Breakpoint phylogenyMiyamo, S.Takagi, T.Genome Informatics WorkshopTokyoUniversity Academy Press25-34Sankoff199713630000000136Sankoff, D.Blanchette, M.1997The median problem for breakpoints in comparative genomicsComputing and CombinatoricsNew YorkSpringer-Verlag251-263Lectures Notes in Computer Science(Blanchette et al., 1997; Sankoff and Blanchette, 1997). En effet, la distance d’inversion est difficile à mettre en œuvre d’un point de vue calculatoire dans ce cas. Cependant Bourque et Pevzner  ADDIN EN.CITE Bourque200213700000000137117798281212002JanGenome-scale evolution: reconstructing gene orders in the ancestral species26-36Department of Mathematics, University of Southern California, California 90089, USA. gbourque@usc.eduBourque, G.Pevzner, P. A.Genome ResAlgorithmsAnimalsCatsChromosomes/geneticsChromosomes, Human/genetics*Evolution, MolecularGene Order/*geneticsGene Rearrangement/genetics*GenomeGenome, HumanHumansMiceModels, GeneticResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11779828(Bourque and Pevzner, 2002) ont développé des algorithmes afin de résoudre ces problèmes et permettre d’inférer les « séquences » ancestrales. Dans ce même article, Bourque et Pevzner ont pointé que la distance de rupture ne correspondait pas au nombre minimum de réarrangements, contrairement à la distance d’inversion.
Les premiers travaux sur l’arrangement des gènes ont permis de montrer que cet arrangement était bien conservé pour les espèces proches  ADDIN EN.CITE Tamames19971380000000013890101374411997JanConserved clusters of functionally related genes in two bacterial genomes66-73Protein Design Group, CNB-CSIC, Campus U. Autonoma, Cantoblanco, E-28049 Madrid, Spain.Tamames, J.Casari, G.Ouzounis, C.Valencia, A.J Mol EvolBinomial DistributionComparative StudyEscherichia coli/classification/*geneticsGenes, Bacterial/physiology*Genome, BacterialHaemophilus influenzae/classification/*geneticsModels, StatisticalMultigene Family/*geneticsResearch Support, Non-U.S. Gov'tTranscription, Genetichttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9010137(Tamames et al., 1997). Mais, lorsque les espèces sont plus éloignées, la conservation est beaucoup plus faible  ADDIN EN.CITE Huynen199810100000000101960088395111998May 26Measuring genome evolution5849-56European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012 Heidelberg, Germany, and Max-Delbruck-Centrum for Molecular Medicine, 13122 Berlin-Buch, Germany. huynen@embl-heidelberg.deHuynen, M. A.Bork, P.Proc Natl Acad Sci U S AAnimals*Computer Simulation*Evolution, Molecular*GenomeHumans*Models, GeneticResearch Support, Non-U.S. Gov't*Sequence Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9600883(Huynen and Bork, 1998), conduisant à proposer que l’ordre des gènes se perd facilement au cours de l’évolution. Les premiers travaux sur les gènes mitochondriaux  ADDIN EN.CITE Sankoff199212700000000127163115889141992Jul 15Gene order comparisons for phylogenetic inference: evolution of the mitochondrial genome6575-9Centre de recherches mathematiques, Universite de Montreal, Canada.Sankoff, D.Leduc, G.Antoine, N.Paquin, B.Lang, B. F.Cedergren, R.Proc Natl Acad Sci U S AComparative StudyDNA, Fungal/geneticsDNA, Mitochondrial/*genetics*EvolutionGene Rearrangement*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1631158(Sankoff et al., 1992) ont néanmoins montré qu’il était possible en s’intéressant à certains gènes conservés d’obtenir suffisamment de signal phylogénétique. D’autres travaux ont identifié d’autres séries de gènes adéquats à l’utilisation de la méthode de l’arrangement des gènes  ADDIN EN.CITE Nikolaichik2000139000000001391114541410812000Conservation of gene order amongst cell wall and cell division genes in Eubacteria, and ribosomal genes in Eubacteria and Eukaryotic organelles1-7Department of Microbiology, Belarusian State University, Minsk.Nikolaichik, Y. A.Donachie, W. D.GeneticaBacteria/*cytologyBacterial Proteins/geneticsCell Division/geneticsCell Wall/*geneticsConserved Sequence/*geneticsEukaryotic Cells/*cytologyGenes, BacterialMultigene Family/geneticsOrganelles/*geneticsRibosomes/geneticsSequence Homology, Nucleic Acidhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11145414(Nikolaichik and Donachie, 2000). Lathe et al  ADDIN EN.CITE Lathe2000140000000001401105042825102000OctGene context conservation of a higher order than operons474-9European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012, Heidelberg, Germany.Lathe, W. C., 3rdSnel, B.Bork, P.Trends Biochem SciBase SequenceConserved SequenceEvolution, Molecular*Gene Order*OperonPhylogeny*Protein BiosynthesisRibosomal Proteins/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11050428(Lathe et al., 2000) ont réussi à identifier une grand nombre de régions très conservées. Même si des réarrangements peuvent se dérouler, dans ses régions, la tendance générale est de conserver l’arrangement des gènes.
La conservation de l’arrangement des gènes s’explique généralement de trois manières :
Les espèces ont divergé depuis peu de temps et l’arrangement n’a pas eu le temps de disparaître.
Il y a eu des transferts horizontaux.
Enfin l’intégrité du groupement de gènes est indispensable au bon fonctionnement de la cellule.
C’est dans le dernier cas que l’on doit travailler.

Phylogénie basée sur le score BLAST

Pour comparer des génomes, Henz et al  ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004) proposent d’utiliser une distance basée sur BLAST (« GBDP « genome blast distance phylogeny »). Dans un premier temps, les différents génomes sont comparés à l’aide de BLAST  ADDIN EN.CITE Altschul199014100000000141223171221531990Oct 5Basic local alignment search tool403-10National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894.Altschul, S. F.Gish, W.Miller, W.Myers, E. W.Lipman, D. J.J Mol BiolAlgorithmsAmino Acid Sequence*Base SequenceDatabases, Factual*MutationResearch Support, U.S. Gov't, P.H.S.Sensitivity and SpecificitySequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2231712(Altschul et al., 1990) (BLASTN si on souhaite travailler sur l’Adn ou tBLASTx pour travailler en traduction). Grâce au BLAST, on obtient une série de HSP (« high-scoring segment pairs ») qui sont des paires de segments, un pour chaque génome, de taille à peu près comparable et dont la similarité est définie par un score ou une E-value. A l’aide d’un de ses trois critères (taille, score ou E-value), un seuil est fixé permettant de choisir les HSP qui serviront à l’étude. La prochaine étape consiste à calculer une distance entre les deux génomes. La première distance est la distance de couverture :  EMBED Equation.3  où  EMBED Equation.3  et  EMBED Equation.3  sont les tailles en nucléotides des génomes X et Y,  EMBED Equation.3  et  EMBED Equation.3  correspondent au nombre totale de nucléotides respectivement dans les HSP sélectionnés de X et Y. Le fait qu’une partie d’un génome puisse être dans plusieurs HSG peut fausser les résultats en faisant paraître les espèces plus proches qu’elles ne le sont réellement  ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004). Pour corriger cela, Henz et al propose d’utiliser une seconde distance, la distance des matchs (« matched distance »). Pour cela, on fait une selection sur les HSG de telle manière qu’un site d’un des génomes ne puisse être au plus présent que sur un HSG. La nouvelle distance devient :  EMBED Equation.3  avec  EMBED Equation.3  correspondant aux nombres de bases dans les HSG sélectionnés. Une fois la distance choisie, il est nécessaire d’effectuer une transformation, car les résultats de BLAST ne sont pas symétriques  ADDIN EN.CITE Altschul199014100000000141223171221531990Oct 5Basic local alignment search tool403-10National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894.Altschul, S. F.Gish, W.Miller, W.Myers, E. W.Lipman, D. J.J Mol BiolAlgorithmsAmino Acid Sequence*Base SequenceDatabases, Factual*MutationResearch Support, U.S. Gov't, P.H.S.Sensitivity and SpecificitySequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2231712(Altschul et al., 1990). La distance employée pour reconstruire l’arbre est :  EMBED Equation.3 . L’arbre sera inféré à partir des différents algorithmes de reconstruction UPGMA, NJ, BIONJ,… .
Cette méthode est relativement récente et donc les résultats doivent être pris avec précaution et demande des études supplémentaires. Henz et al ont employé cette méthode pour déterminer les relations phylogénétiques entre les procaryotes  ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004) ( REF _Ref508266940 \h Figure 21). Les résultats présentés par Henz et al sont très comparables à ceux que l’on obtient par l’étude de l’ARN 16S. Les principaux groupes taxonomiques sont bien formés, mais des différences de placements sont notables.
Les principaux sont les suivants :
Placement des Aquificales et des Thermotogales à la base des archées.
Séparation nette des eð-protéobactéries des autres protéobactéries.
Formation de deux groupes distincts de gð-protéobactérie
Position basale des Rickettsia


Figure  SEQ Figure \* ARABIC 21 - Phylogénie de 91 procaryotes basée sur l utilisation de BLAST. Distance utilisée : « matched distance » et BIONJ. Les différents groupes taxonomiques sont indiqués. Tirée de Henz et al  ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004).

La question importante que pose cette méthode, est sa sensibilité aux transferts horizontaux. L’utilisation de BLAST fait craindre que les transferts horizontaux aient un poids très fort.


Utilisation d’événements rares, de petites séquences caractéristiques : la signature de séquence

Les signatures de séquences sont définies comme des régions dans les alignements où un changement spécifique est observé dans les séquences pour tous les taxons ou pour une partie  ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491Gupta199414500000000145Gupta, R.S.Singh, B.1994Cloning of HSP70 gene from Halobacterium marismortui: relatedness of archaebacterial HSP70 to its eubacterial homologs and a model for the evolution of the HSP70 gene.J. Bacteriol.1744594-605Gupta199714400000000144Gupta, R.S.1997Protein phylogenies and signature sequences: evolutionnary relationships within prokaryotes and between prokaryotes and eukaryotes.Antonie Leeuwenhoek7249-61(Gupta, 1997, 1998a; Gupta and Singh, 1994). Les changements peuvent être une présence particulière d’un caractère (nucléotide ou protéine) sur un site, une insertion ou une délétion. Dans tous les cas, la signature doit être entourée de régions très stables pour toutes les séquences, servant ainsi à assurer que la signature n’est pas artéfactuelle. Les insertions/délétions sont les événements qui ont été les plus utilisés pour inférer des arbres phylogénétiques  ADDIN EN.CITE Baldauf199614600000000146875554793151996Jul 23The root of the universal tree and the origin of eukaryotes based on elongation factor phylogeny7749-54Canadian Institute for Advanced Research and Department of Biochemistry, Dalhousie University, Halifax, Canada.Baldauf, S. L.Palmer, J. D.Doolittle, W. F.Proc Natl Acad Sci U S AAdenosinetriphosphatase/geneticsAmino Acid SequenceAnimalsBacteria/geneticsConsensus Sequence*Evolution, MolecularHumansMolecular Sequence Data*Multigene FamilyPeptide Elongation Factor GPeptide Elongation Factor Tu/chemistry/*geneticsPeptide Elongation Factors/chemistry/*genetics*PhylogenyPlants/geneticsResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Sequence Homology, Amino AcidVariation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8755547Bapteste200214700000000147120322551962002JunThe potential value of indels as phylogenetic markers: position of trichomonads as a case study972-7Bapteste, E.Philippe, H.Mol Biol EvolAmino Acid SequenceAnimalsArchaea/geneticsBacteria/genetics*DNA Transposable ElementsGenetic MarkersLikelihood FunctionsMolecular Sequence DataPhosphopyruvate Hydratase/*geneticsPhylogenySequence Alignment*Sequence DeletionTrichomonadida/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12032255Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491Gupta19981480000000014898389303Gupta, R.S.What are archaebacteria: life's third domain or monoderm prokaryotes related to gram-positive bacteria? A new proposal for the classification of prokaryotic organismsMol MicrobiolMolecular Microbiology293695-70719980950-382XENGLANDAmino Acid SequenceArchaeaEukaryotic CellsEvolutionGram-Positive BacteriaMolecular Sequence DataProkaryotic CellsSupport, Non-U.S. Gov'thttp://www.biomednet.com/db/medline/98389303Gupta200015000000000150108903532622000The natural evolutionary relationships among prokaryotes111-31Department of Biochemistry, McMaster University Hamilton, Ontario, Canada. gupta@fhs.mcmaster.caGupta, R. S.Crit Rev Microbiol*Archaea/genetics/physiology*Bacteria/geneticsBacterial PhysiologyBacterial Proteins/geneticsDrug Resistance, Microbial/genetics*Evolution*Gram-Positive Bacteria/genetics/physiologyPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10890353(Baldauf et al., 1996; Bapteste and Philippe, 2002; Gupta, 1998a, b; Gupta, 2000), en effet ils ont moins de chance de provenir d’une mutation ponctuelle  ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491(Gupta, 1998a). La justification de la signature de séquence est que si on trouve un indel d’une dimension précise à une position déterminée pour un certain nombre de séquences, l’explication la plus parcimonieuse est que ce changement est apparu une fois au cours de l’évolution est qu’il s’est transmis aux descendants.
Gupta  ADDIN EN.CITE Gupta200214900000000149121673626142002JunCritical issues in bacterial phylogeny423-34Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada L8N 3Z5. gupta@mcmaster.caGupta, R. S.Griffiths, E.Theor Popul BiolAmino Acid SequenceBacteria/*classification/geneticsGene Transfer, HorizontalGenetic MarkersMolecular Sequence Data*PhylogenyRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'tSequence Homology, Amino AcidTranscription Factors/chemistryhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12167362(Gupta and Griffiths, 2002) utilisa la signature de séquence afin de déterminer les relations entre les procaryotes. Pour cela, il sélectionna 17 protéines dont il avait déterminé les sites propres à être utilisé  ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491Gupta20011510000000015112051562442001DecThe branching order and phylogenetic placement of species from completed bacterial genomes, based on conserved indels found in various proteins187-202Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada. gupta@mcmaster.caGupta, R. S.Int MicrobiolAmino Acid SequenceBacteria/*classification/geneticsBacterial Proteins/geneticsComparative Study*Genome, BacterialMolecular Sequence DataPhylogenyProteobacteria/geneticsSequence AlignmentSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12051562Gupta200015000000000150108903532622000The natural evolutionary relationships among prokaryotes111-31Department of Biochemistry, McMaster University Hamilton, Ontario, Canada. gupta@fhs.mcmaster.caGupta, R. S.Crit Rev Microbiol*Archaea/genetics/physiology*Bacteria/geneticsBacterial PhysiologyBacterial Proteins/geneticsDrug Resistance, Microbial/genetics*Evolution*Gram-Positive Bacteria/genetics/physiologyPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10890353(Gupta, 1998a; Gupta, 2000, 2001). L’arrangement qu’il produisît est présenté en  REF _Ref508267057 \h Figure 22 . En comparant ces résultats à ceux obtenus par ARN 16S, Gupta  ADDIN EN.CITE Gupta200214900000000149121673626142002JunCritical issues in bacterial phylogeny423-34Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada L8N 3Z5. gupta@mcmaster.caGupta, R. S.Griffiths, E.Theor Popul BiolAmino Acid SequenceBacteria/*classification/geneticsGene Transfer, HorizontalGenetic MarkersMolecular Sequence Data*PhylogenyRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'tSequence Homology, Amino AcidTranscription Factors/chemistryhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12167362(Gupta and Griffiths, 2002) montra que la quasi totalité des espèces était correctement placée (l’exception provient de la place des Clostidium). D’autres résultats sur Fusobacterium nucleatum et son placement parmi les Clostidrium sont aussi très intéressants.
Bapteste et Philippe  ADDIN EN.CITE Bapteste200214700000000147120322551962002JunThe potential value of indels as phylogenetic markers: position of trichomonads as a case study972-7Bapteste, E.Philippe, H.Mol Biol EvolAmino Acid SequenceAnimalsArchaea/geneticsBacteria/genetics*DNA Transposable ElementsGenetic MarkersLikelihood FunctionsMolecular Sequence DataPhosphopyruvate Hydratase/*geneticsPhylogenySequence Alignment*Sequence DeletionTrichomonadida/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12032255(Bapteste and Philippe, 2002) montrèrent que la méthode utilisant les indels était très sensible aux transferts horizontaux et à l’homoplasie. Gupta  ADDIN EN.CITE Gupta200214900000000149121673626142002JunCritical issues in bacterial phylogeny423-34Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada L8N 3Z5. gupta@mcmaster.caGupta, R. S.Griffiths, E.Theor Popul BiolAmino Acid SequenceBacteria/*classification/geneticsGene Transfer, HorizontalGenetic MarkersMolecular Sequence Data*PhylogenyRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'tSequence Homology, Amino AcidTranscription Factors/chemistryhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12167362(Gupta and Griffiths, 2002) dit lui que ses phénomènes de transferts horizontaux ne sont pas si importants. Mais ses résultats semblent provenir d’un choix particulier de gènes. D’autres phénomènes peuvent perturber le signal dû aux indels. Il est possible que l’indel observé soit apparu à de multiples occasions pour différentes espèces à cause de contraintes fonctionnelles similaires  ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491(Gupta, 1998a).


Figure  SEQ Figure \* ARABIC 22 – Placement des génomes complets basé sur la signature de séquence de différentes protéines. La flèche au-dessus de la ligne indique où sont supposés être placés des indels. Le modèle prédit que les espèces à gauche de la flèche possède l’indes et qu’à droite l’indel est manquant. 936 observations sur les génomes complets ont été nécessaire pour obtenir ce diagramme.


MUMer

Une autre approche de phylogénie est en cours de développement. Elle s’appuie sur l’utilisation de MUMs (« Maximum Unique Matches »), qui sont des séquences uniques de grandes tailles (environ 20 nucléotides) et communes à deux génomes  ADDIN EN.CITE Delcher1999152000000001521032542727111999Jun 1Alignment of whole genomes2369-76Department of Computer Science, Loyola College in Maryland, Baltimore, MD 21210, USA.Delcher, A. L.Kasif, S.Fleischmann, R. D.Peterson, J.White, O.Salzberg, S. L.Nucleic Acids Res*AlgorithmsAnimalsBase SequenceDna*Genome, BacterialHumansMiceMolecular Sequence DataMycoplasma/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Sequence Alignment/*methodshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10325427(Delcher et al., 1999). Si un mot (un oligonucléotide) partagé entre deux génomes est suffisamment long, ils ont de fortes chances de provenir d’un ancêtre commun aux deux génomes. Les MUMs ont été proposé pour servir aux alignements multiples  ADDIN EN.CITE Hohl2002153000000001531216956118 Suppl 12002Efficient multiple genome alignmentS312-20Faculty of Technology, University of Bielefeld, PO Box 10 01 31, Bielefeld D-33501, Germany.Hohl, M.Kurtz, S.Ohlebusch, E.Bioinformatics*AlgorithmsAnimalsBase SequenceChromosome Mapping/*methodsComparative Study*Evolution, MolecularGene Expression Profiling/*methodsHumansMolecular Sequence DataPhylogenyResearch Support, Non-U.S. Gov'tSequence Alignment/*methodsSequence Analysis, DNA/*methodsSequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12169561(Hohl et al., 2002).
Guyon et Guénoche  ADDIN EN.CITE Guyon2005154200000000154Guyon, F.Guénoche, A.2005Comparing bacterial genomes from maximal unique matches linear orders16p(Guyon and Guénoche, 2005) ont calculé de nombre de MUMs de taille supérieure ou égale à l que l’on est amené à avoir entre deux génomes de taille T1 et T2. Ce nombre est le suivant :
 EMBED Equation.3 
p est la probabilité qu’un caractère soit identique entre les deux séquences. Dans ce cas, elle est supposée identique pour tous les caractères.

Guyon et Guénoche ont montré que, pour deux séquences de 1 Mb et p=0.25, on s’attend à avoir 1 MUM de taille 20 et 0 MUM de taille 21. En étudiant l’occurrence de MUMs de taille supérieur à 21 dans les génomes bactériens complets, on pourrait mettre en évidence des convergences évolutives entre les génomes.
Pour cela on peut définir deux similitudes entre les génomes :
 EMBED Equation.3  où NS est le nombre de MUMs de taille supérieur à S entre les génomes G1 et G2, et LS est la somme des longueurs de tous les MUMs de taille supérieur où égale à S. A partir de ces similitudes, il est possible de construire des matrices de distances et donc des arbres. Les distances employées sont :  EMBED Equation.3  avec s la similitude choisie.
Cette méthode a été employée chez les procaryotes en comparaison avec l’arbre de L’ARN 16S. Les résultats préliminaires (Données non publiées) ont montré des résultats très intéressants pour des MUMs de taille supérieure à 14. Pour des MUMs plus longs, les différences avec l’arbre du 16S sont plus importantes, mais ces MUMs permettent néanmoins d’obtenir des résultats intéressants (rapprochement des Firmicutes par exemple).
Il semble que l’utilisation des MUMs permet de retrouver les relations entre espèces proches mais l’interprétation des relations plus éloignées est plus difficile. En effet, pour des espèces éloignées, les temps de divergences entre les espèces sont suffisamment longs pour que le fait d’obtenir des MUMs, long mot exact, soit hasardeux. Il y aura de fortes chances que ces MUMs proviennent alors de transferts horizontaux par exemple.


Signature Génomique

Définition

Comme nous l’avons vu précédemment, une séquence d’ADN est composée de 4 nucléotides A, T, C et G. La séquence peut être vu comme une suite de lettres et de mots (oligonucléotides) qui sont un assemblage consécutif de lettres. Les mots peuvent avoir des tailles diverses allant dans notre étude de 1 lettre à 10 lettres. Pour des mots plus longs, on se rapproche de la notion de MUM que j’ai abordé précédemment. Comme nous l’avons vu avec les MUMs, plus les mots sont longs, plus la probabilité d’observer un mot dans une séquence d’ADN est faible. L’analyse des fréquences des mots d’une taille donnée permet de caractériser une séquence d’ADN  ADDIN EN.CITE Karlin199317000000000170Karlin, S.Brendel, V.Patchiness and correlations in DNA sequencesScience259677-6791993(Karlin and Brendel, 1993)  ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Graham200020600000000206Graham, DE.Overbeek, R.Olsen, GJ.Woese, CR.2000An archaeal genomic signatureProc Natl Acad Sci U S A973304-82000 Mar 28Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999; Graham et al., 2000; Karlin et al., 1994). La signature génomique, que j’utiliserai, est celle qui a été définie comme l’ensemble des fréquences de ces mots par Deschavanne et al  ADDIN EN.CITE Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999).


L’état des connaissances

L’analyse des fréquences en courts oligonucléotides est un sujet qui a déjà été très étudié. Il peut s’agir d’étudier les biais de codons  ADDIN EN.CITE Karlin199217500000000175http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=1465457Karlin, S.Bucher, P.Correlation analysis of amino acid usage in protein classesAmino Acids/*chemistryAmino Acyl-tRNA Ligases/metabolismAnimal*CodonComparative StudyHerpesviridae/geneticsHumanHydrogen BondingIons*PhylogenyProteins/*chemistry/geneticsRNA, Transfer/geneticsStructure-Activity RelationshipSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, CA 94305.1465457Proc Natl Acad Sci U S A1992892412165-9.Bernardi198520900000000209http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3936938Bernardi, G.Codon usage and genome compositionAnimalBacteria/geneticsBase Sequence*CodonComparative Study*Genes, Structural*Phylogeny*RNA, MessengerSpecies SpecificityViruses/genetics39369381985J Mol Evol224363-5McInerney19982070000000020796328331441998GCUA: general codon usage analysis372-3Department of Zoology, The Natural History Museum, Cromwell Road, London SW7 5BD, UK. J.McInerney@nhm.ac.ukMcInerney, J. O.Bioinformatics*Amino Acid Sequence*Codon*Database Management SystemsMultivariate Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9632833(Bernardi, 1985; Karlin and Bucher, 1992; McInerney, 1998) ou alors l’écart entre les fréquences des mots observées et les fréquences attendues  ADDIN EN.CITE Karlin199317000000000170Karlin, S.Brendel, V.Patchiness and correlations in DNA sequencesScience259677-6791993Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Karlin199719900000000199Karlin, S.Mràzek, J.Campbell, A. M.Compositional biases of bacterial genomes and evolutionary implicationsJ. Bact.1793899-39131997Mrazek199921000000000210http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10415493Mrazek, J.Karlin, S.Detecting alien genes in bacterial genomesBorrelia burgdorferi/geneticsCodonGenes, Bacterial*Genome, BacterialHaemophilus influenzae/geneticsMethanococcus/geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Synechocystis Group/geneticsDepartment of Mathematics, Stanford University, California 94305-2125, USA.10415493Ann N Y Acad Sci1999870314-29.Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393Schbath1995219000000002198521272231995FallExceptional motifs in different Markov chain models for a statistical analysis of DNA sequences417-37INRA, Departement de Biometrie et Intelligence Artificielle, Jouy-en-Josas, France.Schbath, S.Prum, B.de Turckheim, E.J Comput BiolBacillus subtilis/geneticsBase SequenceCodon/geneticsComparative StudyDNA, Bacterial/geneticsEscherichia coli/genetics*Markov Chains*Models, StatisticalMolecular Sequence DataResearch Support, Non-U.S. Gov'tSequence Analysis, DNA/*statistics & numerical datahttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8521272(Karlin and Brendel, 1993; Karlin et al., 1994; Karlin et al., 1997; Mrazek and Karlin, 1999; Pride et al., 2003; Schbath et al., 1995). Karlin et ses collaborateurs ont étudié, pour différentes espèces, l’écart entre les fréquences des dinucléotides observés et ceux que l’on attend à partir de la fréquence en nucléotides. Ils ont établi que pour certaines espèces, des dinucléotides étaient sur- ou sous-exprimés de manière significative. Ces différences ont permis d’obtenir une classification des espèces. Ces méthodes ont été aussi employées pour des mots de 4 lettres et on conduit à l’obtention de résultats très comparables  ADDIN EN.CITE Karlin199317000000000170Karlin, S.Brendel, V.Patchiness and correlations in DNA sequencesScience259677-6791993Karlin199418300000000183Karlin, S.Cardon, L. R.Computational DNA sequence analysisAnnu. Rev. Microbiol.48619-6541994Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Mrazek199921000000000210http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10415493Mrazek, J.Karlin, S.Detecting alien genes in bacterial genomesBorrelia burgdorferi/geneticsCodonGenes, Bacterial*Genome, BacterialHaemophilus influenzae/geneticsMethanococcus/geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Synechocystis Group/geneticsDepartment of Mathematics, Stanford University, California 94305-2125, USA.10415493Ann N Y Acad Sci1999870314-29.Karlin199520100000000201http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=7592482Karlin, S.Weinstock, G. M.Brendel, V.Bacterial classifications derived from recA protein sequence comparisonsAmino Acid SequenceBacteria/*classification/enzymology/genetics*Bacterial Typing TechniquesComparative StudyDatabases, FactualGram-Negative Bacteria/classification/enzymology/geneticsGram-Positive Bacteria/classification/enzymology/geneticsMolecular Sequence DataRec A Protein/*chemistry/genetics*Sequence AlignmentSequence Homology, Amino AcidSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, California 94305-2125, USA.7592482J Bacteriol1995177236881-93.(Karlin and Brendel, 1993; Karlin and Cardon, 1994; Karlin et al., 1994; Karlin et al., 1995; Mrazek and Karlin, 1999). Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont utilisé la signature de courts oligonucléotides (mots de 4 lettres) afin d’établir une phylogénie bactérienne. Pour cela, ils se sont appuyés sur des fréquences corrigées des mots. La correction a été effectuée grâce à un Markov d’ordre 0 (voir le chapitre  REF _Ref506894285 \r \h 3.7.1). Son travail a permis de montrer des résultats encourageants, et je m’appuierai sur ceux-ci dans les résultats que j’exposerai plus tard. Cependant, Pride et al n’ont pas testé si les mots pouvaient être utilisés pour construire des arbres phylogénétiques. C’est ce que mon travail apporte à cette méthode.
Comme je l’ai exposé précédemment, les tri-nucléotides ou codons sont traduits en acides aminés. L’étude de l’usage des codons dans les séquences a permis de mettre à jour un biais  ADDIN EN.CITE Grantham1981208000000002087208352911981Jan 10Codon catalog usage is a genome strategy modulated for gene expressivityr43-74Grantham, R.Gautier, C.Gouy, M.Jacobzone, M.Mercier, R.Nucleic Acids ResAmino Acid SequenceBase SequenceCodon*Dna*GenesGenetic CodeRNA, Messenger/geneticsSpecies Specificity*Transcription, Genetichttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7208352(Grantham et al., 1981). Lorsque plusieurs tri-nucléotides peuvent être traduit en un même acide aminé, il a été démontré que, selon l’espèce et la fonction de la séquence, tous les différents codons n’avaient pas la même probabilité d’être exprimés  ADDIN EN.CITE Grantham198021100000000211Grantham, R.Gautier, C.Gouy, M.1980Codon frequencies in 119 individual genes confirm consistent choices of degenerate bases according to genome typeNucleic Acid Research81893-1912Kanaya200122000000000220115914752761-22001Oct 3Analysis of codon usage diversity of bacterial genes with a self-organizing map (SOM): characterization of horizontally transferred genes with emphasis on the E. coli O157 genome89-99Department of Bio-System Engineering, Faculty of Engineering, Yamagata University, Yonezawa, 992-8510, Yamagata-ken, Japan.Kanaya, S.Kinouchi, M.Abe, T.Kudo, Y.Yamada, Y.Nishi, T.Mori, H.Ikemura, T.Gene*AlgorithmsBase CompositionClassification/methodsCodon/*geneticsEscherichia coli O157/geneticsGC Rich Sequence/geneticsGene Transfer, HorizontalGenes, Bacterial/*geneticsGenome, Bacterial*Neural Networks (Computer)Species SpecificityVariation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11591475Medigue199121200000000212176215122241991Dec 20Evidence for horizontal gene transfer in Escherichia coli speciation851-6Atelier de BioInformatique, Section Physique-Chimie, Institut Curie, Paris, France.Medigue, C.Rouxel, T.Vigier, P.Henaut, A.Danchin, A.J Mol BiolAmino Acids/metabolismBase SequenceCodon/geneticsComparative StudyDNA ReplicationEscherichia coli/*geneticsGene Library*Genes, BacterialGenome, BacterialModels, GeneticModels, StatisticalOligodeoxyribonucleotidesResearch Support, Non-U.S. Gov't*Transfectionhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1762151Sharp1994213000000002137888755461994DecCodon usage and genome evolution851-60Department of Genetics, University of Nottingham, Queens Medical Centre, UK.Sharp, P. M.Matassi, G.Curr Opin Genet DevAnimalsBase CompositionCodon/*geneticsDNA, Helminth/geneticsDinucleoside Phosphates/metabolismDrosophila/genetics*Evolution*Gene Expression RegulationGenes, Insect/genetics*GenomeGenome, BacterialGenome, FungalGenome, HumanHumansMammals/genetics*Protein BiosynthesisResearch Support, Non-U.S. Gov'tSelection (Genetics)Species Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7888755(Grantham et al., 1980; Kanaya et al., 2001; Medigue et al., 1991; Sharp and Matassi, 1994). Il a été proposer d’utiliser ce biais pour calculer des distances entre les séquences et ainsi de construire des arbres hierachiques  ADDIN EN.CITE McInerney19982070000000020796328331441998GCUA: general codon usage analysis372-3Department of Zoology, The Natural History Museum, Cromwell Road, London SW7 5BD, UK. J.McInerney@nhm.ac.ukMcInerney, J. O.Bioinformatics*Amino Acid Sequence*Codon*Database Management SystemsMultivariate Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9632833(McInerney, 1998). Mais le biais de codon a aussi été étudié par Karlin  ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Karlin199418600000000186Karlin, S.Ladunga, I.Comparisons of eukaryotic genomic sequencesProc. Natl. Acad. Sci. USA9112832-128361994Perriere200221400000000214Perriere, GThioulouse, J.2002Use and misuse of correspondence analysis in codon usage studiesNucleic Acid Research30204548-4555(Karlin and Ladunga, 1994; Karlin et al., 1994; Perriere and Thioulouse, 2002), et celui ci a montré que l’utilisation du biais de codon posait de gros problèmes, car il était très dépendant de la fonction de la séquence.
Au lieu de construire une signature de l’espèce à partir des nucléotides, de nombreux auteurs ont proposé d’utiliser des acides aminés. Basu et al  ADDIN EN.CITE Basu199721500000000215Basu, S.Pan, A.Dutta, C.Das, J.1997Chaos game representation of proteins.J Mol Graph Model155279-89(Basu et al., 1997) et Pleibðner et al  ADDIN EN.CITE Pleissner199721600000000216950480218151997DecRepresentation of amino acid sequences as two-dimensional point patterns2709-13Department of Internal Medicine/Cardiology, Virchow-Klinikum of the Humboldt University and German Heart Institute Berlin. pleiss@dhzb.dePleissner, K. P.Wernisch, L.Oswald, H.Fleck, E.Electrophoresis*AlgorithmsAmino Acid SequenceDatabases, FactualMolecular Sequence Data*Nonlinear DynamicsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9504802(Pleissner et al., 1997) ont proposé d’utiliser l’algorithme du « Chaos Game Representation » qui sera détaillé par la suite, aux protéines. Plusieurs méthodes ont été proposées. Tout d’abord de revenir à un alphabet à 4 lettres  ADDIN EN.CITE Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Yu et al., 2004) en codant les différents acides aminés suivant leurs propriétés physico-chimiques : non-polaire, polaire non chargé, polaire chargé positivement, polaire chargé négativement. Yu et al  ADDIN EN.CITE Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Yu et al., 2004) utilisèrent ce codage afin d’obtenir un ensemble de fréquences qui seront comparées pour différentes espèces afin d’obtenir un arbre. L’arbre obtenu est globalement en accord avec celui de Woese  ADDIN EN.CITE Woese199828100000000281961850295121998Jun 9The universal ancestor6854-9Department of Microbiology, University of Illinois at Urbana-Champaign, B103 Chemical and Life Sciences Laboratory, MC-110, 601 South Goodwin Avenue, Urbana, IL 61801, USA. carl@ninja.life.uiuc.eduWoese, C.Proc Natl Acad Sci U S AAnimals*EvolutionGene Transfer Techniques*GenesHumans*Models, BiologicalResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9618502(Woese, 1998), mais présente néanmoins de différences. Une autre méthode est celle de Stuart et al  ADDIN EN.CITE Stuart200221800000000218118362171812002JanIntegrated gene and species phylogenies from unaligned whole genome protein sequences100-8Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Baker, S.BioinformaticsAlgorithmsAnimalsComputational BiologyDatabases, ProteinGenomeMammals/classification/geneticsMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11836217Stuart200221700000000217119192971942002AprA comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes554-62Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Leader, J. J.Mol Biol EvolAlgorithmsAnimalsComputational BiologyDatabases, Protein*GenomeMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies SpecificityVertebrates/classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11919297(Stuart et al., 2002a; Stuart et al., 2002b). Stuart et al proposent de calculer l’ensemble des fréquences de tri- ou tetra-peptides. Ces fréquences seront mises sous la forme d’un vecteur. Avec des tetra-peptides, il y a 160 000 mots différents. Stuart et al ont donc utilisé des vecteurs à 160 000 dimensions. Pour réduire le nombre de dimensions étudiées, il utilise la « Singular Values Decomposition » (SVD). Ainsi 832 protéines de 64 génomes complets mitochondriaux de vertébrés ont été comparées (13 protéines par génome mitochondrial). Chaque protéine est représentée dans l’espace SVD par un vecteur. La distance du cosine est calculée entre chaque paire de vecteurs : c’est-à-dire le cosinus de l’angle que forment les deux vecteurs. Stuart et al  ADDIN EN.CITE Stuart200221700000000217119192971942002AprA comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes554-62Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Leader, J. J.Mol Biol EvolAlgorithmsAnimalsComputational BiologyDatabases, Protein*GenomeMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies SpecificityVertebrates/classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11919297(Stuart et al., 2002b) ont montré que l’ensemble des 832 protéines mitochondriales se regroupent en fonction du gène. On peut donc construire un arbre des gènes et pour chaque gène un arbre des espèces. Tous les arbres d’espèces ne sont pas identiques, ce qui montre qu’il y a une dépendance suivant le gène. Néanmoins, en effectuant un consensus de ces arbres, on obtient un arbre des vertébrés très proches de celui que l’on pourrait attendre  ADDIN EN.CITE Lecointre20011810000000018Lecointre, G.Le Guyader, H.2001Classification phylogénétique du vivantParisBelin15442-7011-2137-Xphylogeny(Lecointre and Le Guyader, 2001). Enfin, Qi et al  ADDIN EN.CITE Qi2004268000000002681521534732Web Server issue2004Jul 1CVTree: a phylogenetic tree reconstruction tool based on whole genomesW45-7The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China. qiji@itp.ac.cnQi, J.Luo, H.Hao, B.Nucleic Acids ResAlgorithmsBacteria/classificationDNA, Chloroplast/classification*GenomeGenome, BacterialGenome, ViralInternet*Phylogeny*SoftwareViruses/classificationhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15215347Qi200410800000000108147433105812004JanWhole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach1-11The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China, qiji@itp.ac.cnQi, J.Wang, B.Hao, B. I.J Mol EvolAlgorithmsArchaea/*geneticsBacteria/*geneticsClassification/*methodsComparative StudyDatabases, Nucleic AcidOligopeptides/*genetics*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14743310(Qi et al., 2004a; Qi et al., 2004b) ont développé une méthode de signature protéique se rapprochant sur la définition de celle de Karlin. Il se propose d’étudier l’écart entre les fréquences de peptides observés et celles qui sont attendues connaissant les fréquences des mots de tailles inférieures. Les nouvelles variables sont définies par :  EMBED Equation.3  avec  EMBED Equation.3  où  EMBED Equation.3  est un mot de K lettres et  EMBED Equation.3  est la fréquence observée de ce mot  ADDIN EN.CITE Yu200111300000000113Yu, Z.-G.Anh, V.Lau, K.-S.2001Measure representation and multifractal analysis of complete genomesPhys Rev E6431-924 August 20011063-651xhttp://scitation.aip.org/dbt/dbt.jsp?KEY=PLEEE8&Volume=64&Issue=3Yu200111400000000114Yu, Z.-G.Jiang, P.2001Distance, correlation and mutual information among portraits of organisms based on complete genomesPhys. Lett. A286134-4616 July 20010375-9601Portrait; Gray-level; Correlation coefficient; Mutual information; Complete genomehttp://www.sciencedirect.com/science/journal/03759601(Yu et al., 2001; Yu and Jiang, 2001). Cette signature protéomique a été calculée pour l’ensemble des peptides de 6 lettres et pour 109 protéomes complets (103 procaryotes et 6 eucaryotes). Ces signatures ont permis d’obtenir un arbre phylogénétique présentant de fortes corrélations avec celui qui est proposé par le Manuel Bergey  ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001). Même si ces résultats sont très encourageants, il demeure quelques questions sur l’utilisation des fréquences des peptides. Tout d’abord le fait que la plupart des travaux ont utilisé des mots peptidiques longs (4 à 6 lettres) est discutable. Des mots de 6 lettres consistent à étudier 64 000 000 possibilités, or en étudiant la banque SWISS-PROT seul 26 % des hexapeptides étaient exprimés et par exemple certaines espèces en utilisent très peu (0.3 % pour Mycoplasma Genitalium). Ce manque de représentativité conduit à comparer des vecteurs de fréquences presque entièrement remplis de valeur nulle et donc soulève des problèmes statistiques. De plus aucune étude n’a permis de montrer que la signature protéique était spécifique à chaque espèce, contrairement à la signature de nucléotides (voir plus loin).


Construction des signatures

Pour calculer la signature, nous avons utilisé une méthode graphique qui permet de représenter les fréquences des différents mots. Cette méthode graphique permet obtenir une image à structure fractale grâce à un algorithme développé par Jeffrey en 1990  ADDIN EN.CITE Jeffrey199022100000000221Jeffrey, H. J.Chaos game representation of gene structureNucleic Acids Research182163-21701990(Jeffrey, 1990) : « Chaos Game Representation » (CGR). Cet algorithme permet d’obtenir très rapidement (une seconde pour un génome bactérien de 4 Mb) une matrice de fréquences des mots qui peut être représentée par une image à structure fractale. Les signatures obtenues ainsi peuvent être comparées de manière qualitative et quantitative quelle que soit la nature des séquences, homologues ou non. Almeida et al  ADDIN EN.CITE Almeida200122300000000223Almeida, J.S.Carriçao, J.A.Maretzek, A.Noble, P.A.Fletcher, M.2001Analysis of genomic sequences by chaos game representationBioinformatics17429-437Almeida200222400000000224Almeida, J.S.Vinga, S.2002Universal sequence map (USM) of arbitrary discrete sequencesBMC Bioinformatics316(Almeida et al., 2001; Almeida and Vinga, 2002) ont montré que la signature définie par la CGR était une généralisation des chaînes de Markov et non l’inverse  ADDIN EN.CITE Goldman199322500000000225Goldman, N.Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representations of DNA sequencesNucleic Acids Research212487-24911993(Goldman, 1993) et qu’il était possible de travaillé avec des mots de tailles non-entières  ADDIN EN.CITE Almeida200122300000000223Almeida, J.S.Carriçao, J.A.Maretzek, A.Noble, P.A.Fletcher, M.2001Analysis of genomic sequences by chaos game representationBioinformatics17429-437(Almeida et al., 2001).

Le Chaos Game est né, il y a environ 25 ans, dans le domaine de la physique  ADDIN EN.CITE Barnsley198822610000000226Barnsley, M.1988Fractals EverywhereAcademic PressDevaney198922710000000227Devaney, R.L.1989Chaos, Fractals and Dynamics: Computer Experiments in Dynamics(Barnsley, 1988; Devaney, 1989). Il s’agit d’un algorithme qui permet de produire des images de structures fractales. Le principe de calcul est le même que celui qui a été mis en place par Sierpinski (1915) dans ses « triangles de Sierpinski ». Le Chaos Game a été appliqué aux séquences d’ADN par Jeffrey  ADDIN EN.CITE Jeffrey199022100000000221Jeffrey, H. J.Chaos game representation of gene structureNucleic Acids Research182163-21701990Jeffrey199222200000000222Jeffrey, H. J.1992Chaos Game Visualization Of SequencesComputers Graphics16125-33ENGI: Engineering, Technology & Applied Sciences.90-0803-1-1 diffusion limited aggregation; fractal growth; non 90-1875-1-1 hausdorff dimension; fractal sets; continuous self 90-3154-1-1 random number generators; monte-carlo simulation;(Jeffrey, 1990, 1992). En utilisant cette méthode, Jeffrey souhaitait mettre en évidence dans les séquences nucléotidiques des structures caractéristiques de la structure de la protéine correspondante.

Pour mieux comprendre comment fonctionne l’algorithme, je propose d’illustrer la méthode par l’étude de la séquence suivante :
ATGTACAGTTGGCCTGA

Le calcul se fait en utilisant un carré dont les 4 sommets représentent les 4 nucléotides. On pose la convention de placement suivante :


Les lettres de la séquence étudiée sont lues les unes après les autres et placées au fur et à mesure dans carré initial.
Pour initialiser l’algorithme, on place un point () au centre du carré. Pour représenter la lecture de la première lettre A, on place un point ()à mi-chemin entre le milieu du carré () et le sommet A :


La lecture de la lettre suivante, qui est un T, permet de placer un point à mi-chemin () entre le point précédemment placé () et le sommet T :


On effectue la même procédure pour la lettre suivante G, qui est à son tour placée () à mi-chemin entre le point que l’on vient de placer () et le sommet G :


Cette procédure est répétée pour toutes les lettres présentes dans la séquence d’ADN étudiée. Ainsi, pour la séquence que l’on a choisi comme exemple, on obtient la figure suivante :


Chaque point de la CGR correspond à une sous-séquence de la séquence initial et sera toujours placée dans le cadran (quart du carré initial) correspondant à la dernière lettre lue. Les sous-séquences, que nous voulons étudiée dans notre cas, sont des mots de taille choisie. Si l’on travaille avec des mots de 1 lettre, la matrice de base est divisée en 4 cadrans ou sous-carrés.



En observant la manière dont les points sont répartis dans les 4 cadrans, on peut vérifier, à partir de la séquence de départ ATGTACAGTTGGCCTGA, que l’on retrouve bien les 3 C, 5 G, 4 A, 5 T.
Si l’on souhaite étudier des mots de 2 lettres, on divise à nouveau chaque sous-carré en 4 sous-carrés, on obtient ainsi 16 carrés (42). Chaque nouveau sous-carré correspondra à un mot bien identifié. Ainsi le sous-carré « C » contiendra les cadrans correspondant aux mots CC, GC, AC et TC qui seront placés en conservant la convention de placement : haut à gauche C, haut à droite G, bas à gauche A et bas à droite T.


On retrouve bien, en observant les occurrences dans les différentes cases, une fois le mot CC, 1 fois le mot GC etc.....
Si l’on étudie des mots de 3 lettres, on appliquera une grille de 64 cases, et ainsi de suite pour les différentes tailles de mots. Pour des mots de taille n, on utilisera 4n sous-carrés. La matrice finale CGR correspond au comptage des points se trouvant dans chacun des sous-carrés. On obtient ainsi une matrice de valeur. Pour obtenir une matrice de fréquences, il suffit de diviser la matrice d’occurrence par le nombre de mots lus dans la séquence.
L’image est une représentation graphique de la signature génomique. Chaque valeur de la matrice, ou pixel, correspond à la fréquence d’un mot donné d’une certaine longueur  ADDIN EN.CITE Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999). Dans un souci de représentation graphique, les différents pixels possèdent un code couleur qui sera toujours le même au cours de mon travail ( REF _Ref508267038 \h Figure 23) : Blanc pour la fréquence observée la plus faible et noir pour la fréquence la plus élevée.



Figure  SEQ Figure \* ARABIC 23 - Images CGR correspondantes à la séquence de l’exemple pour des mots de 1, 2 et 3 lettres.


Une autre propriété de cette méthode issue du Chaos Game est qu’à partir d’une seule lecture des séquences, on obtient la fréquence de tous les mots d’une taille donnée et de toutes les tailles inférieures. En effet, il suffit de réduire la matrice d’un facteur 4 (2 sur chaque dimension), par une opération matricielle, d’obtenir les fréquences des mots de taille n-1. Le fait de lire une seule fois la séquence permet d’obtenir un gain de temps de calcul conséquent lorsqu’il s’agit de calculer l’ensemble des fréquences des mots de grandes tailles. Si on souhaitait calculer les fréquences des mots de taille n une par une, il faudrait lire n fois la séquence.


Principaux résultats
Diversité

Dans un premier temps, nous avons calculé la signature génomique pour un grand nombre de génomes de plusieurs espèces ( REF _Ref508267123 \h Figure 24).


Figure  SEQ Figure \* ARABIC 24 - Signatures génomiques pour des mots de 8 lettres de quelques espèces obtenues à partir de l’étude de leurs génomes complets.

En observant les différentes signatures, on remarque une grande diversité. En regardant plus en détail les signatures, on peut distinguer des caractéristiques des génomes. Ainsi les lignes horizontales correspondent à des génomes riches en G+C (D. radiodurans) ou A+T (P. falciparium, données non montrées). Les diagonales quant à elles indiquent des génomes riches en suites de purines/pyrimidines (A. fulgidus). Enfin les contresélections CG se distinguent très facilement (M. jannaschii et H. sapiens). Cette grande diversité des signatures peut amener à penser que les signatures sont caractéristiques de chaque espèce.


Spécificité

Différentes études ont été conduites afin de mettre en évidence la spécificité d’espèce des signatures.
Dans un premier temps, nous avons sélectionné plusieurs génomes complets. Ces génomes ont été découpés en fragments de taille identique. Les signatures de l’ensemble des fragments ont été traitées par une analyse en composante principale (ACP) afin de placer les signatures dans un espace qui représente le mieux la disposition et les relations de ces dernières ( REF _Ref508267226 \h Figure 25).

Figure  SEQ Figure \* ARABIC 25 - Analyse en composante principale des signatures de fragments de génomes complets. Projection sur les deux premiers axes. Quatre tailles de fragments ont été utilisées : 5kb, 10 kb, 25 kb et 100kb. 9 espèces sont représentées.


L’ACP révéla que les signatures des fragments d’une même espèce sont regroupées et séparées des autres signatures provenant de fragments étrangers. Donc les caractéristiques communes aux signatures provenant d’une même espèce sont plus fortes que la variabilité qui est présente au sein d’un génome. Quelle que soit la nature du fragment, sa signature est placée avec les signatures des fragments du même génome. En comparant les axes de l’ACP à la composition en base, on observe que l’axe 1 de l’ACP est parfaitement corrélé à la composition en base ( REF _Ref508267284 \h 
Tableau 1).

axe12345pourcentage de variance expliquée48,210,88,554,313,7corrélation à la composition en base0,990,0030,0050,0000030,002
Tableau  SEQ Tableau \* ARABIC 1 - Corrélation entre les axes de l’ACP et la composition en base.


Si nous comparons les signatures de fragments de séquence allant de 1 à 100 kb à celles obtenues à partir des génomes complets, on observe que les signatures des fragments conservent les caractéristiques de la signature du génome complet ( REF _Ref508267358 \h Figure 26).


Figure  SEQ Figure \* ARABIC 26 - Signatures génomiques de fragments allant de 1kb à 100kb et signatures de génomes complets pour quatre espèces.


Cette conservation est nette pour des fragments allant jusqu’à 5kb. Pour les signatures de fragments plus petits, l’observation visuelle fait apparaître plus de bruit, Pour vérifier cela de manière systématique, nous avons effectué une classification par la méthode des plus proches voisins sur des signatures de fragments de génomes complets (34 génomes de procaryotes). La méthode des plus proches voisins consiste à comparer la signature d’un fragment aux 34 signatures obtenues à partir des génomes complets. Un fragment est bien attribué la signature génomique de génome complet la plus proche est celle de son génome d’origine. Nous avons calculé le pourcentage de fragments pris au hasard dans un génome correctement assigné à son génome d’origine. Ce pourcentage a été calculé pour différentes tailles de mots (1 à 8 lettres) et pour des longueurs de fragment variables (50 nt à 100 kb) ( REF _Ref508267386 \h Figure 27).


Figure  SEQ Figure \* ARABIC 27 - Classification par la méthode des plus proches voisins des signatures de fragments issus de 34 génomes. Les différentes courbes correspondent à des tailles de mots différentes. En abscisse, taille des fragments en kb (échelle logarithmique). En ordonnée, proportion de fragments correctement assignés.

La  REF _Ref508267386 \h Figure 27 permet de voir que les mots de 1 lettre, c’est-à-dire la composition en base, ne permet pas de correctement classer les fragments. Par contre, dès des mots de 2 lettres, les résultats s’améliorent de façon notable. On peut distinguer deux tendances :
Plus les fragments sont longs, meilleure est la classification. Plus les fragments sont longs, plus ils contiennent de l’information et donc leurs signatures seront plus proches de celle du génome complet.
Plus les mots sont longs,meilleure est la classification. Ainsi pour des fragments de 1kb, la classification passe de 77% pour des mots de 3 lettres et 88% pour des mots de 8 lettres.


Pour tester l’influence de la référence, nous avons effectué une autre classification par plus proche voisin, où des fragments de génomes ont servi de référence. Nous avons utilisé des signatures de 8 lettres et, comme référence, des signatures obtenues à partir de fragments allant de 5kb au génome complet. Comme précédemment, les signatures, qui ont été classées, proviennent de fragments de 50 nt à 100 kb. Nous avons trouvé que l’utilisation d’une référence plus petite ne détériore pas les résultats. La limite de la référence est 10 % du génome complet. En dessous de cette taille, les classifications se détériorent mais les résultats restent corrects ( REF _Ref508267454 \h Figure 28).


Figure  SEQ Figure \* ARABIC 28 - Classification des plus proches voisins. Étude de l’influence de la taille de la référence sur les résultats.

Il y a donc conservation de la signature pour des fragments de génome. Les résultats provenant de cette étude permettent de confirmer ce que l’on avait montré avec l’ACP et, de déterminer, de plus, les paramètres de la signature (taille des mots, longueur du fragment) pour laquelle on a une signature représentative de l’espèce.


Stabilité

Nous venons de montrer que la signature était spécifique de l’espèce (espèce-spécifique). Il est important de savoir comment elle varie à l’intérieur d’un génome.
Pour visualiser l’homogénéité de la signature le long du génome, il est possible de juxtaposer les différentes signatures obtenues à partir d’un génome. Pour cela, nous découpons les génomes en fragments consécutifs et nous calculons les différentes signatures consécutives. Ces signatures sont mises sous la forme de vecteur verticaux. Les vecteurs sont alors concaténés ( REF _Ref508267481 \h Figure 29) :


Figure  SEQ Figure \* ARABIC 29 - Homogénéité de la signature le long du génome. Les signatures de fragments consécutifs sont juxtaposées sous la forme d’une matrice. Les différents mots sont en ordonnée. Donc les lignes horizontales correspondent à la conservation de la fréquence d’un mot. Trois génomes ont été découpés.

Nous avons montré que la signature était spécifique de l’espèce et que des fragments pris au hasard dans un génome conservaient cette spécificité, même pour des fragments courts. On peut donc conclure que les mécanismes spécifiques à chaque espèce imposent le style du « texte », indépendamment de la fonction codée. On parle alors de style de l’ADN (« DNA style »)  ADDIN EN.CITE Edwards200222800000000228Edwards, S.V.Fertil, B.Giron, A.Deschavanne, P.J.2002A genomic schism in birds revealed by phylogenetic analysis of DNA stringsSyst Biol51599-6132002 AugLespinats200322900000000229Lespinats, S.Deschavanne, P.Giron, A.Fertil, B.2003L’ADN en tant que texte : style et syntaxeRevue des Nouvelles Technologies de l’Information1193-202(Edwards et al., 2002; Lespinats et al., 2003).
Sur ces images, les lignes horizontales correspondent à la conservation d’un mot le long d’un génome. On observe que la signature est conservée le long du génome avec des signatures très proches les unes des autres. Néanmoins quelques passages dans le génome semblent présentés des signatures significativement différentes de celle du génome complet. Ces fragments ont donc un style différent de celui du génome. L’étude de ces fragments originaux à partir de la signature a permis de mettre au point une technique de détection et d’identification des transferts horizontaux au sein des bactéries.


Transfert horizontaux

Dufraigne et al  ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont développé une technique de détection des transferts horizontaux basée sur l’étude de la variabilité de la signature génomique le long d’un génome.
L’hypothèse de base est que tout intégration de fragment d’ADN étranger modifie le style de l’ADN. En effet, l’ADN étranger possède son propre style d’ADN provenant de celui de son génome d’origine. En étudiant la variation de la signature le long du génome, on mettra à jour des candidats au statut de transferts horizontaux.
Pour cela, les génomes sont découpés en fragments de 5kb. Ces fragments d’ADN sont recouvrant et sont obtenus en décalant la fenêtre d’étude de 500 nt. Les signatures de mots de 4 lettres des fragments ainsi formés sont comparées à l’aide de la métrique euclidienne à la signature du génome complet.

Figure  SEQ Figure \* ARABIC 30 - Distances entre les signatures des différents fragments et la signature du génome complet (ligne bleue). Le seuil de détection des régions originales est indiqué par une ligne violette.

Cette comparaison est ensuite suivie d’une classification par k-means et optimisation du nombre de groupes k-means, afin de définir des clusters de signatures basées sur leurs ressemblances. La classification par k-means permet de définir quelle est la signature de l’hôte. On détecte alors les signatures originales en définissant un seuil correspond au 99ème percentile de la variabilité de la signature de l’hôte. Les signatures dont la distance par rapport à la signature du génome sont supérieures à ce seuil, sont considérées originales, pouvant représentées un transfert horizontal ( REF _Ref508267511 \h Figure 30).
Nous avons vu que la signature était spécifique de l’espèce, donc il est possible d’identifier la signature originale du transfert horizontal et de proposer pour cela un hôte d’origine potentiel. On s’appuie sur une banque de 12000 signatures (une signature par espèce) provenant de fragment d’au moins 1.5 kb.
Cette méthode a été employée pour détecter les transferts horizontaux dans 22 génomes bactériens  ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) et pour identifier l’origine de ces derniers. Les pourcentages de transferts horizontaux qui ont été détectés grâce à la signature sont en accord avec ceux d’autres méthodes de détection de transferts horizontaux précédemment développées  ADDIN EN.CITE Garcia-Vallve200320500000000205Garcia-Vallve, S.Guzman, E.Montero, M. A.Romeu, A.2003HGT-DB: a database of putative horizontally transferred genes in prokaryotic complete genomesNucleic Acids Research311187-189Moszer199923200000000232Moszer, I.Rocha, E. P.Danchin, A.1999Codon usage and lateral gene transfer in Bacillus subtilisCurr Opin Microbiol25524-8Nakamura200423000000000230Nakamura, Y.Itoh, T.Matsuda, H.Gojobori, T.2004Biased biological functions of horizontally transferred genes in prokaryotic genomesNature Genetics36760-766Nicolas200223100000000231 Nicolas, P. Bize, L. Muri, F. Hoebeke, M. Rodolphe, F. Ehrlich, SD. Prum, B. Bessieres, P.2002Mining Bacillus subtilis chromosome heterogeneities using hidden Markov modelsNucleic Acids Res301418-262002 Mar 15(Garcia-Vallve et al., 2003; Moszer et al., 1999; Nakamura et al., 2004; Nicolas et al., 2002). En explorant plus en détail les transferts détectés chez Bacillus subtilis (analysé par 4 méthodes différentes) et Escherichia coli (analysé par 5 méthodes différentes), Haemophilus influenzae (analysé par 2 méthodes), non plus en pourcentage mais gène par gènes, Dufraigne et al  ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont montré que les résultats provenant de la méthode utilisant la signature sont en accord avec le consensus (voir pour le détail Dufraigne et al  ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005)). Cependant cette méthode a des limites. Dufraigne et al  ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont montré qu’elle n’était pas adaptée à la détection de transferts horizontaux de petites tailles (moins de 400 nt) et isolés.


Pourquoi utiliser la signature pour déterminer les relations entre espèces.

Comme nous venons de le voir, la signature est un outil d’analyse statistique des séquences d’ADN rapide et facile à utiliser. La signature présente des caractéristiques qui lui permettent d’être utilisée afin de comparer des génomes : elle est spécifique à chaque espèce et elle est stable le long du génome. Cette spécificité nous permet de dire qu’en comparant les signatures on compare aussi les espèces. Le fait que la signature soit homogène le long d’un génome conduit à ce que toute portion du génome présente une signature proche de celle du génome complet. La signature est donc indépendante de la fonction de la séquence et de l’homologie. Il est donc possible de comparer des séquences non-homologues.
Notre hypothèse de travail est que deux espèces proches ont des signatures proches. La signature correspond à l’usage des mots d’une espèce. Une espèce ne peut pas changer brutalement de signature au cours de l’évolution. Des changements de signature traduisent un temps évolutif entre les espèces. Ce temps est alors évalué grâce à un paramètre simple : la signature. Une explication de la spécificité et l’homogénéité de la signature pourrait être que des processus internes, telles la réplication de l’ADN, la recombinaison, la réparation de l’ADN, et des contraintes physico-chimiques et structurales locales, joueraient un rôle prédominant (voir Karlin et al  ADDIN EN.CITE Karlin199719900000000199Karlin, S.Mràzek, J.Campbell, A. M.Compositional biases of bacterial genomes and evolutionary implicationsJ. Bact.1793899-39131997(Karlin et al., 1997) pour de plus amples discussions). Les pressions évolutives conduisent à des changements progressifs de la machinerie moléculaire. En comparant les signatures de séquences entre elles et en établissant des relations de proximité, nous comparons aussi les espèces d’origine des séquences. De plus, la classification en plus proches voisins de fragments de génome a permis de montrer qu’il était possible d’utiliser des signatures provenant de petits fragments. Ces résultats nous ont encouragés à déterminer en quoi la signature permettait d’établir les relations entre les espèces.
Nous avons d’abord cherché à savoir si la signature pouvait être utilisée afin de comparer les espèces. Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont établi un arbre phylogénétique des procaryotes à partir de la signature. Mais il n’a pas établi si l’utilisation de la signature était justifiée. Mon premier travail a consisté en cela. Pour cela, les signatures ont d’abord été classées afin de retrouver des relations taxonomiques entre les espèces. Puis j’ai développé une méthode employant la signature afin d’explorer les données phylogénétiques utilisées dans les méthodes phylogénétiques : les séquences homologues. Cette méthode a été testé par des simulations et différents tests statistiques. On a pu ainsi valider l’utilisation de la signature. Cette méthode a été employée pour étudier différents gènes.
La signature n’est pas dépendante d’une notion d’homologie, il est possible de comparer des signatures provenant de séquences non-homologues. Pour 10 espèces procaryotes, 335 signatures ont été comparées et les résultats ont permis de proposer d’éventuels transferts horizontaux. De plus, une phylogénie procaryote, utilisant la signature, est proposée utilisant l’ensemble des données moléculaires procaryotes connues. Cette dernière permettra d’étendre les résultats de Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003).

Utilisation de la signature pour étudier les relations taxonomiques

Classification et taxonomie

Analyse discrimante

À partir de la seule connaissance de la signature, nous avons effectué des classifications d’espèces en se basant sur des relations taxonomiques.
Dans un premier temps, nous avons effectué une classification par analyse discriminante de 10 000 espèces. Pour cela, nous avons utilisé des signatures pour des mots de 5 lettres. Pour chaque espèce, une unique signature a été calculée à partir de séquences dont la taille variat de 1.5 kb à plusieurs dizaines de mégabases chez certains eucaryotes. Afin de classer ces 10 000 signatures, nous avons au préalable effectué une ACP et nous avons conservé seulement les 95 premiers axes. Ensuite une analyse discriminante leave-one out sur ces 95 axes pour les 10 000 espèces a été conduite. Une analyse discriminante leave-one out est une méthode de classification supervisée, composée de deux étapes :
Pour chaque espèce, on sépare sa signature de l’ensemble des autres signatures. On effectue un apprentissage sur cet ensemble expurgé de signatures. L’apprentissage est réalisé à partir de l’assignation au préalable de l’ensemble des espèces à un groupe taxonomique. Grâce à l’apprentissage, on définit un ensemble de règles qui permettent de classer au mieux les signatures.
On attribue la signature de l’espèce qui l’on avait écarté, à un des différents groupes.
On répète la procédure pour toutes les espèces et on calcule le nombre d’espèces qui ont été correctement assignées au bon groupe taxonomique.

Nous avons effectué deux analyses discriminantes : une en divisant les 10 000 espèces en trois groupes correspondant aux trois domaines du vivant ( REF _Ref508267552 \h Figure 31) et une autre en utilisant cette fois ci 13 groupes ( REF _Ref508267554 \h Figure 32).

Figure  SEQ Figure \* ARABIC 31 - Analyse discriminante de 10 000 espèces à l’aide de la signature pour des mots de 5 lettres. Classification en trois groupes taxonomiques. Des délimitations des différents domaines ont été ajoutées.


Figure  SEQ Figure \* ARABIC 32 - Analyse discriminante de 10 000 espèces à l’aide de la signature pour des mots de 5 lettres. Classification en 13 groupes. Les différents groupes ainsi que leurs codes couleur sont indiqués à droite de la projection.

L’analyse discriminante en 3 groupes a permis de classer correctement 95 % des signatures des espèces. Lorsque l’on classe ces signatures en 13 groupes, on obtient alors un résultat de 83 %. L’analyse discriminante a permis de séparer les signatures en fonction du groupe taxonomique de l’espèce dont elles sont issues.


Analyse discriminante « top-down »

Afin de déterminer si la signature permettait de retrouver des relations taxonomiques entre les espèces, nous avons effectué à nouveau des analyses discriminantes mais cette fois ci en utilisant la méthode dite « top-down ».
Une analyse discriminante « top-down » consiste à diviser progressivement les individus que l’on souhaite classer, à l’aide d’analyses discriminantes successives. Pour cela, il est nécessaire d’avoir des données qui puissent être rangées dans des cases imbriquées, ce qui est le cas des données taxonomiques. Au lieu de classer directement les espèces en une dizaine de groupes, on commence par faire une analyse discriminante avec un petit nombre de groupe. Puis chacun de ses groupes est à nouveau divisé et sert de groupe de départ à une nouvelle analyse discriminante.
Pour donner un exemple, prenons un ensemble de signatures que l’on souhaite classer par analyse discriminante « top-down ». Pour cela, nous allons d’abord effectuer une classification en deux groupes. Les signatures de chaque groupe précédent et non seulement ceux qui ont été correctement classées sont séparées. On obtient alors deux nouveaux jeux de données. Chaque jeu sera soumis à nouveau à une analyse discriminante en un nombre de groupe dépendant des données étudiées. Le nombre de classes que l’on choisit d’utiliser est dépendant du nombre d’individus que l’on doit ranger par classe. Il faut, pour que la classification par analyse discriminante ait un sens, que ce nombre soit suffisamment élevé. C’est pourquoi plus le nombre de fragments est petit, moins le nombre de groupes classés par les analyses discriminantes est grand. Cela est le cas quand on descend dans la taxonomie. Les différentes classifications successives sont résumées sous la forme d’un graphe hierarchique, où à chaque étape est indiqué le résultat de la classification.
Deux analyses discriminantes « top-down » ont été effectuées. Tout d’abord, 63 espèces ont été découpés en fragments de tailles différentes et chaque fragment a servi à calculé une signature de mot de 6 lettres. Trois tailles de fragments ont été utilisées 1kb, 10kb et 100kb. Les signatures sont été classées suivant le schéma de la  REF _Ref508267608 \h Figure 33.


Figure  SEQ Figure \* ARABIC 33 - Analyse discriminante « top-down » de signatures (mot de 6 lettres) de fragments de 63 espèces. Trois tailles de fragments ont été testées : 100 kb, 10 kb et 1kb. A chaque analyse discriminante, le pourcentage de signature correctement classées est indiqué avec le code couleur correspondant à la taille des fragments utilisés.

Tout d’abord, la classification dans les trois domaines du vivant est très bonne quelle que soit la taille des fragments. Les résultats de cette analyse discriminante « top-down » montre que la taille des fragments influence les résultats. Plus la taille des fragments est petite, moins bonne sera la classification. Pour des fragments supérieurs à 10 kb, la classification est très bonne sauf pour celle des primates, alors que pour des fragments de 1kb les résultats se détériorent rapidement (70% pour les eucaryotes) et deviennent faibles chez les primates. En ce qui concerne les fragments de 100 kb, les classifications sont proches de perfection dans la majorité des cas. Cette détérioration des classifications peut s’expliquer par la variabilité des signatures pour des tailles de fragments faibles. Cela a été observé lors de la classification des plus proches voisins dont j’ai exposé les résultats précédemment.
On observe de plus que plus on essaie de classer des espèces profondes, plus le nombre de signatures de fragments mal assignées sera important. Ce résultat peut s’expliquer par le fait qu’en descendant dans la taxonomie, on a de moins en moins d’individus servant à l’analyse discriminante et que les signatures se ressemblent de plus en plus (comme pour les primates). Une autre explication est la variabilité observée des génomes eucaryotes : présence d’isochores, par exemple, chez les vertébrés à sang chaud.

La première classification par analyse discrimante « top-down » a été effectué sur des signatures calculées pour des fragments de même taille et pour seulement 63 espèces différentes. Une autre analyse a été réalisée cette fois ci à partir de 10787 signatures (6 lettres), chacune correspondante à une espèce différente. Ces signatures ont été calculées à partir de fragments de 1.5 kb de taille minimale ( REF _Ref508267637 \h Figure 34).


Figure  SEQ Figure \* ARABIC 34 - Analyse discriminante « top-down » des 10 787 signatures (mot de 6 lettres). Chaque signature correspond à une espèce, qui est représentée par une seule signature. Les signatures ont été calculées à partir de fragments de taille allant de 1.5 kb à plusieurs dizaines de megabases. Le nombre d’espèces à chaque étape et les pourcentages de chaque classification sont indiqués sur le graphe.

Les résultats ( REF _Ref508267637 \h Figure 34) montrent que les signatures ont été bien classées selon des groupes taxonomiques. Les pourcentages de signatures correctement assignées sont élevés dans chacune des 5 classifications qui ont été réalisées. Le résultat sur les fragments avait montré que les résultats diminuaient plus on descendait dans l’arbre taxonomique. Cependant ici, cela n’est pas le cas. L’analyse discriminante sur les plantes a un meilleur pourcentage de classification que celui des eucaryotes. La faible performance de l’analyse discriminante des vertébrés peut s’expliquer par le nombre relativement faible du nombreux d’individus ayant servi. Malgré cela, on obtient près de 80%.

On a donc vu que les signatures permettaient à l’aide d’analyse discriminante de retrouver les relations taxonomiques entre les espèces. Cela est possible avec des signatures provenant de fragments de tailles identiques ou même hétérogènes.


Cartes de Kohonen

À l’aide d’une méthode de classification non supervisée, nous avons classé 1000 signatures de mots de 4 lettres correspondant à 1000 espèces appartenant aux trois domaines taxonomiques. Pour cela, la méthode non supervisée que nous avons utilisée est la carte de Kohonen ( REF _Ref508267680 \h Figure 35).


Figure  SEQ Figure \* ARABIC 35 - Classification de 1000 signatures par carte de Kohonen. La taille des mots est de 4 lettres.

La carte de Kohonen obtenue montre que les espèces appartenant à un même domaine sont proches, à l’exception des virus. Les virus sont quant à eux proches de leurs hôtes  ADDIN EN.CITE Mrazek199828200000000282http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=9520433Mrazek, J.Karlin, S.Strand compositional asymmetry in bacterial and large viral genomesDNA, Bacterial/*geneticsDNA, Viral/*geneticsEvolution, Molecular*Genome, Bacterial*Genome, ViralHumanReplication OriginSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, 450 Serra Mall, Bldg. 380, Stanford, CA 94305-2125, USA.9520433Proc Natl Acad Sci U S A19989573720-5.(Mrazek and Karlin, 1998). De même, si on divise les eucaryotes en 3 groupes (vertébrés, invertébrés et plantes), les signatures de chacun de ces groupes sont rassemblées sur la carte de Kohonen ( REF _Ref508267696 \h Figure 36). Cela confirme ce que l’on avait trouvé en classification supervisée, c’est-à-dire que les espèces proches ont des signatures proches.



Figure  SEQ Figure \* ARABIC 36 - Classification par carte de Kohonen de 900 signatures de 4 lettres. Pour chacun des cinq groupes taxonomiques, leurs signatures sont mises en avant sur la carte de Kohonen. Il est aussi indiqué l’arbre phylogénétique représentant les relations entre ces cinq groupes.


Si on regarde comment se positionne sur la carte de Kohonen les signatures en fonction de leurs compositions en bases, un gradient apparaît. En effet, une des diagonales de la carte de Kohonen est parfaitement corrélée à la composition en base ( REF _Ref508267724 \h Figure 37).


Figure  SEQ Figure \* ARABIC 37 - Carte de Kohonen où chaque signature est représentée par un point avec un code-couleur proportionnel à la composition en base.

Donc la classification par carte de Kohonen des signatures permet de montrer que ces dernières se placent en fonction de leurs taxonomies. Les deux diagonales de la carte portent un signal : une permet de séparer les signatures en fonction de la taxonomie des séquences qui ont servi à les calculer, l’autre les sépare les signatures en fonction de la composition en base. La composition en base ne sépare pas les espèces, mais introduit de la variabilité à l’intérieur de chaque groupe.


Distance et corrélation

Afin de déterminer si la signature pouvait être utilisé afin dans le cadre d’analyse phylogénétique, les distances entre les signatures de deux séquences ont été calculées en fonction de l’identité de séquences observée.
Pour cela, nous avons utilisé une approche naïve dans laquelle, pour un certain pourcentage d’identité, nous avons simulé 100 séquences nucléiques de 5kb à partir d’une séquence de référence. Pour cela, des mutations aléatoires sans homoplasie ont été effectuées. Les pourcentages d’identité observée ont été pris entre 70 et 100%, ce qui correspond aux cadres des séquences homologues utilisées en phylogénie moléculaire. Ensuite les signatures des séquences simulées et celle de la séquence de référence ont été calculées et comparées à l aide de la métrique euclidienne et de cð2 (les métriques seront détaillées dans le chapitre suivant). Les distances entre signatures sont tracées en fonction de l identité et pour chaque point, il est aussi indiqué l’écart-type ( REF _Ref508011866 \h Figure 38).


Figure  SEQ Figure \* ARABIC 38 - Distance entre signature en fonction de l’identité de séquences. Distance obtenue en comparant des signatures de sequences de 5kb à l’aide de la métrique euclidienne.

La même courbe est observée pour la métrique du cð2. Elle possède une pente un peu plus forte, ce qui permet de dire que la métrique du cð2 sature moins pour des séquences de 5kb homologues. Cependant même la courbe de la  REF _Ref508011866 \h Figure 38 montre que la distance entre signatures augmente de manière monotone avec la diminution de l’identité. De plus les écarts-types sont faibles, donc il est possible de déterminer avec une bonne confiance l’identité entre deux séquences si on connaît la distance entre leurs signatures. Cela n’est possible que dans le cas où je me suis placé, c’est-à-dire des mutations ponctuelles non-homoplasiques.
La monotonie de la fonction distance entre signatures permet de suggérer que cette distance puisse être un moyen d’évaluer les différences entre les séquences.


Méthode utilisant la signature

Nous avons montré grâce aux classifications que la signature permettait de retrouver des relations taxonomiques entre les espèces et nous avons aussi vu que la distance entre signatures était corrélée aux différences entre les séquences. Nous avons donc décidé d’employer la distance entre signature afin de déterminer les relations entre les espèces.
Nous partons tout d’abord d’un ensemble de séquences homologues si on souhaite faire une comparaison directe avec les méthodes classiques, puis des séquences non-homologues.


Gestion des séquences et moyens informatiques employées

Au cours de mon travail de thèse, j’ai utilisé des séquences qui ont été téléchargées à partir du site de GenBank ( HYPERLINK http://www.ncbi.nlm.nih.gov:80/entrez/ http://www.ncbi.nlm.nih.gov:80/entrez/) et du site de Genome Information Broker ( HYPERLINK http://gib.genes.nig.ac.jp/ http://gib.genes.nig.ac.jp/). Pour certaines études, je me suis servi de banques de données spécifiques déjà préparées comme celle du “Green Plant Phylogeny Research Coordination Group” ( HYPERLINK "http://ucjeps.berkeley.edu/bryolab/GPphylo/RNA/18S_12.html" http://ucjeps.berkeley.edu/bryolab/GPphylo/RNA/18S_12.html), banque qui est spécialisée dans l’ARN 18S des plantes. Une autre banque qui m’a servi est celle du site SYSTERS ( HYPERLINK "http://systers.molgen.mpg.de/" http://systers.molgen.mpg.de/)  ADDIN EN.CITE Krause200023400000000234105922442812000Jan 1The SYSTERS protein sequence cluster set270-2Deutsches Krebsforschungszentrum, Theoretische Bioinformatik, Im Neuenheimer Feld 280, D-69120 Heidelberg, Germany. a.krause@dkfz-heidelberg.deKrause, A.Stoye, J.Vingron, M.Nucleic Acids ResAmino Acid Sequence*Database Management Systems*Databases, FactualInternetMolecular Sequence DataProteins/*chemistrySequence Homology, Amino AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10592244(Krause et al., 2000). SYSTERS est une banque de données de familles de protéines homologues.
Une fois les séquences sélectionnées, les signatures sont calculées à l’aide de l’algorithme CGR implémenté dans le logiciel MATLAB( ( HYPERLINK "http://www.mathworks.com/" http://www.mathworks.com/) et les manipulations sur la signature, ainsi que le calcul des distances seront effectués dans le même logiciel. Les analyses statistiques des données seront réalisées à partir du logiciel JMP( de SAS software ( HYPERLINK "http://www.jmp.com" http://www.jmp.com).
Les alignements multiples de séquences sont obtenus grâce au logiciel ClustalW  ADDIN EN.CITE Higgins19963000000000030http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=8743695Higgins, D. G.Thompson, J. D.Gibson, T. J.Using CLUSTAL for multiple sequence alignments*Amino Acid SequenceAnimal*Base SequenceDNA/*chemistry*Databases, FactualEvolution, MolecularGlobins/*chemistry/geneticsHorsesHumanLeghemoglobin/chemistryLegumes/geneticsMolecular Sequence DataNucleic Acid Conformation*PhylogenyProtein Structure, SecondaryProtein-Tyrosine Kinase/chemistry/geneticsProteins/*chemistry*Softwaresrc Homology DomainsEuropean Molecular Biology Laboratory Outstation-European Bioinformatics Institute, Hinxton, Cambridge, United Kingdom.87436951996Methods Enzymol266383-402(Higgins et al., 1996) avec les paramètres par défaut. Les arbres phylogénétiques, que cela soit à partir de la méthode utilisant la signature ou les méthodes classiques de phylogénie, seront inférés grâce au logiciel PAUP*  ADDIN EN.CITE Swofford200323360000000233Swofford, D. L.2003PAUP*, Phylogenetic Analysis Using Parsimony (*and Other Methods)Sinauer Associates, Sunderland, Massachusetts4(Swofford, 2003) et à la suite de programmes PHYLIP  ADDIN EN.CITE Felsenstein20045060000000050Felsenstein, J.2004PHYLIP (Phylogeny Inference Package)3.6(Felsenstein, 2004). Les fichiers de résultats seront traités en partir à l’aide de scripts écrits en C ou en Python ( HYPERLINK "http://www.python.org" http://www.python.org).
Les différents calculs ont été effectués sur un macintosh G5 à 933 Mhz disposant de 512 Mo de mémoire et, dans le cas de calculs plus lourds et quand cela fut possible, un cluster de 6 ordinateurs fut utilisé.


Méthodologie développée

Je vais vous indiquer ici la méthodologie que j’ai employé afin d’utiliser les signatures dans la recherche de relations taxonomiques entre les espèces.
Une fois les séquences que l’on souhaite utiliser sont sélectionnées, les signatures pour une taille de mot donnée (allant de 1 lettre à 10 lettres) sont calculées à l’aide de l’algorithme CGR. Pour les séquences homologues, nous avons utilisé les signatures simple brin et pour les séquences non homologues les signatures double brin. Le choix des signatures simple brin s’explique par le fait qu’avec les séquences homologues le sens de lecture est une information supplémentaire. Pour les séquences non homologues, comme les génomes complets, l’information est codée dans les deux sens de lecture. Il est donc nécessaire d’utiliser les signatures double brin pour comparer les espèces, pour éviter le biais de brin.
Ensuite les signatures sont comparées à l’aide d’une métrique afin d’obtenir une matrice de distance. Les métriques qui sont employées sont :
La métrique euclidienne :  EMBED Equation.3  où X et Y sont deux signatures et (Xi) et (Yi) les valeurs des fréquences des signatures.
La métrique du cð2 : Supposons que l on mette toutes les signatures sous la forme d un vecteur ligne et que l on regroupe toutes les signatures dans une matrice (Xij) où la signature d une espèce i correspond à  EMBED Equation.3 . La métrique du cð2 s écrit  EMBED Equation.3  où  EMBED Equation.3 ,  EMBED Equation.3  et  EMBED Equation.3 .
La métrique city-block : En partant de la même convention que celle de la distance du cð2, la métrique s écrit :  EMBED Equation.3 

D autres métriques ont été testées comme la distance de Mahalanobis, la distance du cosine ou les distances fractionnaires  ADDIN EN.CITE Lespinats200428330000000283Lespinats, S.Deschavanne, P.Giron, A.Fertil, B.2004Pertinence des métriques fractionnaires pour l'analyse des données de grande dimension (signature génomique). Fouille de données complexes dans un processus d'extraction des connaissances.EGC'04Clermont-Ferrand, France135-141(Lespinats et al., 2004), mais les résultats obtenus étaient soit équivalents soit moins bon que ceux obtenus avec les métriques précédentes et je n’en parlerai pas dans la suite de ce travail.
Une fois la matrice des distances obtenue, un arbre phylogénétique est inféré à l’aide des algorithmes de reconstruction Neighbor-Joining  ADDIN EN.CITE Saitou19874300000000043http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3447015Saitou, N.Nei, M.The neighbor-joining method: a new method for reconstructing phylogenetic treesAnimalBiometryEvolution*Models, Genetic*PhylogenyRanidae/*geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Center for Demographic and Population Genetics, University of Texas Health Science Center, Houston 77225.3447015Mol Biol Evol198744406-25.(Saitou and Nei, 1987) ou fastME  ADDIN EN.CITE Desper2002490000000004912487758952002Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle687-705National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, 45 Center Drive, Bethesda, MD 20892, USA.Desper, R.Gascuel, O.J Comput Biol*AlgorithmsComparative StudyComputer Simulation*Evolution, MolecularModels, Genetic*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12487758(Desper and Gascuel, 2002). Ces deux algorithmes donnent la plupart du temps le même résultat ( REF _Ref508267794 \h Figure 39).


Figure  SEQ Figure \* ARABIC 39 - Schéma récapitulatif de la méthode issue de la signature en comparaison avec les méthodes classiques. Ici, il est représenté l’exemple de l’utilisation de séquences homologues.

Afin de valider la topologie que l’on trouvait avec la méthode issue de la signature, un bootstrap a été développé. Deux bootstrap sont possibles et les deux ont été mis en œuvre mais dans deux cas de figure différents.
Le premier bootstrap est un bootstrap sur les variables qui sont les fréquences des mots. À partir du jeu de données initial, des jeux bootstrap sont générés par tirage aléatoire des variables ( REF _Ref508267822 \h Figure 40). De la même manière que le bootstrap est appliqué dans les méthodes de phylogénie classique, chaque jeu bootstrap contient les mêmes individus que le jeu de données initial. Mais pour remplacer les N variables (fréquences des mots), N nouvelles variables ont été sélectionnées par tirage aléatoire avec remise. Pour chaque jeu bootstrap, l’arbre est inféré à partir de la méthode précédemment décrite. À partir de ces arbres, un arbre consensus est généré. Cette méthode de bootstrap présente l’avantage d’être applicable dans tous les cas d’application de la signature, mais elle viole un principe du bootstrap qui est l’indépendance des variables échantillonnées. En effet, les différents mots sont clairement corrélés. Cependant, ce problème est aussi présent dans les méthodes classiques  ADDIN EN.CITE Brocchieri20015800000000058http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11243926Brocchieri, L.Phylogenetic inferences from molecular sequences: review and critiqueAnimalBias (Epidemiology)Data Interpretation, StatisticalEvolutionGene Transfer, Horizontal/geneticsHumanModels, GeneticMutation/geneticsPhenotype*PhylogenyReproducibility of ResultsSensitivity and SpecificitySequence Alignment*Sequence Analysis, DNA/methods/standards*Sequence Analysis, Protein/methods/standards*Sequence Analysis, RNA/methods/standardsSupport, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, Stanford, California 94305-2125, USA.11243926Theor Popul Biol200159127-40.(Brocchieri, 2001) où les positions dans les séquences ne sont pas indépendantes (par exemple dans l’ARN).


Figure  SEQ Figure \* ARABIC 40 - Bootstrap sur les mots. À partir de l’échantillon initial, on construit des échantillons bootstrap par tirage aléatoire avec remise. Ici, les fréquences d’un mot pour toutes les espèces ont été surligné. Ce mot se retrouve une fois dans le premier échantillon bootstrap et trois fois dans le deuxième.

L’autre méthode bootstrap est un échantillonnage sur les séquences ( REF _Ref508267849 \h Figure 41). Si les séquences qui servent à calculer les signatures sont suffisamment longues, on décide d’utiliser non plus les séquences en entier mais seulement une partie (un pourcentage ou alors une taille fixe identiques pour toutes). Ainsi, on sélectionne au hasard un morceau de chaque séquence. Des signatures sont alors calculées à partir de ces morceaux (un par séquence initiale). On appliquera la méthode précédemment décrite pour générer un arbre. La procédure de sélection aléatoire des morceaux sera répétée un grand nombre de fois. L’arbre consensus permettant de vérifier la validité des résultats est inféré à partir de l’ensemble des arbres bootstrap. Cette méthode a l’avantage d’utiliser cette fois ci un échantillonnage du jeu de données initial. On est dans de meilleures conditions d’application de la méthode du bootstrap. Le problème de cette méthode est qu’il est nécessaire d’utiliser comme données de départ des séquences de grandes tailles (supérieure à 50 kb par exemple), ce qui n’est pas le cas des séquences homologues.


Figure  SEQ Figure \* ARABIC 41 - Schéma de la méthode du bootstrap se basant sur l’utilisation de fragments des séquences initiales.

Pour chaque étude de séquences homologues, j’ai aussi employé les méthodes de phylogénie classiques : méthode des distances, maximum de parcimonie et maximum de vraisemblance. Les différents paramètres de ces méthodes ont été détaillés précédemment. Pour la méthode des distances, j’ai utilisé les modèles HKY85 et K2P. Une fois la matrice des distances obtenue, les arbres phylogénétiques seront inférés à l’aide de l’algorithme du Neighbor-Joining ou du Minimum d’évolution. Pour la méthode de parcimonie, tous les résultats que je présenterai utiliseront les gaps comme un 5ème état ou ignorés. Enfin, le maximum de vraisemblance utilise le modèle de substitution HKY85. De plus, une hétérogénéité du taux de substitution a été prise en compte par une distribution gamma. Les différents paramètres du modèle ont été estimés à partir des données : le paramètre d hétérogénéité að, les fréquences des nucléotides et le taux transition/transversion.


Étude statistique de la méthode de la signature

Est-ce que la distance entre signatures est une distance d’arbre ?

Nous avons essayé de déterminer dans quelle mesure les distances qui proviennent de l’étude de la signature étaient des distances d’arbres. C’est-à-dire, est-ce que ces distances peuvent être représentées par un arbre. Nous avons aussi déterminé qu’elle était l’influence des paramètres de la signature dans les distances.
Pour cela, nous avons utilisé les travaux de Guénoche et Garreta  ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000). Ils ont défini de nombreux critères aussi bien topologiques que numériques. Les différents critères seront calculés à partir des matrices de distances calculées sur les signatures des séquences du gène RAG1 (voir le chapitre  REF _Ref506894285 \r \h 3.7.1 pour l’étude du gène RAG1). Les signatures seront comparées par la métrique euclidienne et pour des mots de 1 à 10 lettres. Ce choix assez vaste de la longueur des mots s’explique par le fait que l’on ne pose aucun a priori sur la longueur de mot optimum. En effet, on recherche la longueur des mots qui produit les meilleurs résultats.

Pour expliciter les différents critères, je pose les notations suivantes :
D est la matrice de distances initiale, calculé à partir des signatures
Da est la matrice des distances que l’on lit sur l’arbre.
X est l’ensemble des espèces étudiées.

Les différents critères numériques sont :
La différence moyenne des distances :  EMBED Equation.3 
La distorsion : la moyenne des pourcentages de différences  EMBED Equation.3 
L’écart quadratique moyen :  EMBED Equation.3  qui est le carré de l’écart type. L’écart type a déjà employé en phylogénie moléculaire (Edwards 2003, plus d’autres cf Edwards)
La variance expliquée :  EMBED Equation.3  où Dm est la moyenne des distances de D.
La corrélation :  EMBED Equation.3  où SD,Da est la covariance alors que SD et SDa sont les écarts-type respectivement de D et Da.  EMBED Equation.3  et  EMBED Equation.3 
Le stress : correspond à un écart quadratique moyen standardisé (ref 66 papier)  EMBED Equation.3 

Pour expliquer les différents critères topologiques, rappelons la condition des 4 points  ADDIN EN.CITE Buneman197123510000000235Buneman, T.1971The recovery of trees from measures of dissimilarity.Hodson et alMathematics in the Archeological and Historical SciencesEdinbourgEdinburg University Press(Buneman, 1971). Dans un arbre, si les deux éléments a et b d’un arbre sont séparés des éléments c et b par au moins une branche, alors :
 EMBED Equation.3 
D(a,b) est la distance entre l’espèce a et b.

Donc, pour déterminer la topologie d’un quadruplet, il suffit de calculer trois sommes  EMBED Equation.3 ,  EMBED Equation.3  et  EMBED Equation.3 . Si D est une distance d’arbre alors, les deux plus grandes sommes sont identiques. Si  EMBED Equation.3  (respectivement  EMBED Equation.3 ,  EMBED Equation.3 ) est la plus faible des trois distances, alors on a la topologie T1 (respectivement T2, T3) ( REF _Ref508267956 \h Figure 42).


Figure  SEQ Figure \* ARABIC 42 - Topologies pour le quadruplet {a,b,c,d} correspondant à la condition précédemment énoncée.

Les différents critères topologiques sont :
L’arboricité : Posons Smin, Smed et Smax les trois sommes que l’on rencontre dans la condition de quatre points rangés par ordre croissant. L’arboricité est le pourcentage de quadruplets dont Smed est plus proche de Smax que de Smin. En effet, si un quadruplet vérifiait la condition des quatre points, Smed serait égale à Smax.
Le taux de quadruplets corrects : Ce taux est le nombre de quadruplets qui ont la même topologie dans D et dans Da.
Le taux de quadruplets élémentaires : Prenons en considération une branche interne e d’un arbre T ( REF _Ref508267972 \h Figure 43). Cette branche délimite quatre sous-arbres Xa, Xb, Xc et Xd comme on peut le voir sur la figure X. Si la branche e est correcte, alors pour tout  EMBED Equation.3 , tout  EMBED Equation.3 , tout  EMBED Equation.3 et tout  EMBED Equation.3  la condition des 4 points doit être vérifiée. Le taux de quadruplets élémentaires est donné par :
 EMBED Equation.3 
où  EMBED Equation.3  est le nombre d’espèces dans le sous arbre Xa.


Figure  SEQ Figure \* ARABIC 43 - Les 4 sous-arbres définis par une branche interne e.


Figure  SEQ Figure \* ARABIC 44 - Critères statistiques des matrices de distances en fonction de la taille des mots. Les matrices de distances proviennent de l’étude du gène RAG1. L’axe des abscisses à droite correspond aux valeurs du stress. Sur l’axe des abscisse gauche, les valeurs des critères pour la méthode des distances (distance de Kimura 2-paramètres) sont indiqués par un point et une ligne pour l’arboricité.

Nous avons montré que, quand la longueur des mots augmente, l’arboricité augmente elle aussi, montrant que l’arbre obtenu représente mieux les distances entre signatures ( REF _Ref508267992 \h Figure 44). Cette amélioration est nette pour des signatures de 2 à 5 lettres et les résultats demeurent stables pour des mots plus longs. Les valeurs des différents critères ont été aussi calculées sur la matrice des distances obtenues à partir de la distance Kimura 2-paramètres. À partir de 5 à 6 lettres et au-dessus, les critères de la signature sont meilleurs que ceux de la méthode des distances. On retrouve ici ce que l’on avait obtenu avec la classification des plus proches voisins (voir  REF _Ref506899739 \r \h 2.3.4.2), c’est-à-dire : les mots longs produisent de meilleurs résultats que les mots courts.
Cependant, pour pouvoir utiliser les signatures, il est nécessaire que l’ensemble de mots possibles soit suffisamment présent dans les séquences étudiées. Ainsi, la comparaison des signatures calculées sera une bonne estimation de la vraie différence de mots entre les espèces. Or dans notre cas et dans la première partie de mon travail de thèse, j’utiliserai des séquences homologues, donc ayant une longueur comprise entre 1 et 5 kb. Il est donc nécessaire de prendre en compte cette taille lorsque l’on décide du choix de la taille des mots.
Une des conséquences de ce problème est le rapport entre les longueurs de branches internes sur les longueurs de branches externes. Ce rapport diminue fortement avec l’augmentation de la longueur des mots lors de l’utilisation de séquences homologues. Cela conduit à obtenir des arbres avec de très longues branches externes.La distance entre les espèces est pratiquement utilisée entièrement pour séparer les espèces et il en reste peu pour organiser les groupes. La méthode issue de la signature pourrait avoir du mal à organiser les groupes entre eux lors de l’utilisation de séquences homologues.
Les différents critères (topologiques et numériques) semblent atteindre la stabilité et une bonne valeur pour une longueur de mot proche de 6 lettres. En tenant en compte de la longueur des séquences, il semble que cette longueur de mot soit un bon compromis.


Convergence de la topologie avec l’augmentation de la longueur des mots

Le prochain point que j’ai étudié est le fait de savoir si les arbres obtenus pour différentes tailles de mots convergeaient vers un arbre stable où si tous les arbres étaient différents.
Pour cela, j’ai à nouveau utilisé le gène RAG1. 46 séquences du gène RAG1 ont été sélectionnées chez 46 vertébrés. Les résultats de cette étude seront explicités ultérieurement (cf.  REF _Ref506894285 \r \h 3.7.1).
Pour comparer les différents arbres, la distance de Robinson-Foulds dT a été utilisée. Cette distance a été calculée, dans un premier temps, entre les arbres obtenus pour des tailles de mots consécutives n et n+1 (n égal de 1 à 9), puis entre les arbres obtenus pour des mots de n lettres et ceux inférés par les méthodes classiques de phylogénie (n égal de 1 à 10). Les méthodes classiques de phylogénie qui ont été utilisées sont la méthode des distances et le maximum de vraisemblance. La distance obtenue entre deux arbres aléatoires est aussi indiquée.
Les résultats sont présentés dans la  REF _Ref508268036 \h Figure 45. Tout d’abord quand on regarde les comparaisons entre les arbres de taille de mots consécutives, on observe que la distance dT diminue fortement que cela soit avec la métrique euclidienne ou celle du cð2. Cela montre que les arbres convergent vers une topologie. Un plateau stable est atteint pour des mots de 6 lettres.
En comparant les arbres de la signature à ceux qui sont obtenus par les méthodes classiques, on constate que la distance diminue aussi fortement avec la taille des mots. Cela signifie que les arbres issus de la signature se rapprochent de plus en plus de ceux des méthodes classiques. Pour des mots de 1 lettre, les arbres issus de la signature sont très différents de ceux des méthodes classiques. La distance de Robinson-Foulds est proche de celle entre deux arbres aléatoires.
Sur la  REF _Ref508268036 \h Figure 45, j’ai aussi indiqué la distance entre les différents arbres obtenus pour les méthodes classiques. Pour des mots supérieurs à 5 lettres, les arbres signatures sont aussi proche de l’arbre du maximum de vraisemblance que ce dernier de l’arbre de la méthode des distances. Donc la variabilité entre les méthodes classiques est la même qu’avec la méthode de la signature.
En comparant les distances obtenues à la distance moyenne entre deux arbres aléatoires on constate que la différence avec une distance aléatoire est significative. Donc les arbres signature/méthodes classiques présentent des topologies congruentes.
Cette étude permet de définir une longueur de mot optimale de 6 lettres, compromis que l’on a trouvé lors de l’étude statistique précédente.


Figure  SEQ Figure \* ARABIC 45 - Analyse de la distance de Robinson-Foulds pour les arbres issus de la signature. Les distances ont été calculées à partir des séquences provenant de l’étude du gène RAG1. Pour chaque taille de mot, l’arbre signature a été comparé aux arbres de deux méthodes classiques et à des arbres aléatoires. Pour la distance aléatoire, 100 arbres aléatoires sont utilisés. On a une distance aléatoire moyenne légèrement inférieure à 86 (distance maximum pour des arbres à 46 taxons).


Conclusion

Les études ont montré que les meilleurs résultats ont été obtenus pour des mots de 6 lettres. Il existe 4096 mots possibles de 6 lettres. Or les séquences homologues que j’ai utilisées durant ma thèse ont une taille inférieure à 4 kb nucléotides. Cela signifie qu’une proportion plus ou moins grande des mots aura une fréquence nulle. On se trouve dans le problème statistique que j’ai évoqué précédemment. L’explication de ces résultats peut s’expliquer par le fait que comparer des mots longs revient d’une certaine manière à une utilisation d’un alignement. En effet, pour des séquences homologues la présence d’un mot long (supérieur à 6 lettres) exact revient à considérer un motif caractéristique. Le partage de ce motif permet de rapprocher des séquences et donc les espèces.


Simulation

Afin de déterminer si la signature permettait d’inférer des arbres phylogénétiques, nous avons effectué des simulations. Pour cela, nous avons comparé les arbres issus de la signature à des arbres « vrais » en utilisant des séquences simulées à partir d’une topologie connue.

Pour cela, nous avons utilisé un protocole établi par Kumar  ADDIN EN.CITE Kumar1996140000000001488825011341996AprA stepwise algorithm for finding minimum evolution trees584-93Department of Biology, Pennsylvania State University, USA. imeg@psuvm.psu.eduKumar, S.Mol Biol EvolAlgorithmsAnimals*Computer Simulation*EvolutionHumans*Models, TheoreticalResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8882501(Kumar, 1996) et Gascuel et al  ADDIN EN.CITE Kumar1996140000000001488825011341996AprA stepwise algorithm for finding minimum evolution trees584-93Department of Biology, Pennsylvania State University, USA. imeg@psuvm.psu.eduKumar, S.Mol Biol EvolAlgorithmsAnimals*Computer Simulation*EvolutionHumans*Models, TheoreticalResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8882501Gascuel1997120000000001292543301471997JulBIONJ: an improved version of the NJ algorithm based on a simple model of sequence data685-95GERAD, Ecole des HEC, Montreal, Quebec, Canada. gascuel@lirmm.frGascuel, O.Mol Biol EvolAlgorithms*EvolutionModels, Biological*PhylogenySequence Analysis/*methodsSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9254330Gascuel200423870000000238Gascuel, O.2004Getting a Tree Fast: Neighbor Joining and Distance Based MethodsBaxevanis, A.Davison, D.Page, R.Stein, L.Stormo, G.Petsko, G.Current Protocols in BioinformaticsWiley & Sons6.3.1-6.3.18Wiley & SonsCurrent Protocols0-471-25093-7(Gascuel, 1997, 2004; Kumar, 1996). En partant d’une topologie connue, des séquences nucléiques d’une taille donnée sont générées en suivant un modèle d’évolution. Les séquences ainsi simulées seront utilisées par les différentes méthodes de phylogénie que l’on souhaite comparer. Les arbres obtenus seront comparés aux arbres de référence ayant servi à générer les séquences. Pour cela, on pourra utiliser la distance de Robinson-Foulds ou alors le pourcentage d’arbres ayant exactement la même topologie que l’arbre de référence.
Comme choix d’arbres de références, j’ai choisi d’utiliser des arbres qui sont mis à la disposition de la communauté scientifique par O. Gascuel sur son site web ( HYPERLINK "http://www.lirmm.fr/~w3ifa/MAAS/US-MAAS.html" http://www.lirmm.fr/~w3ifa/MAAS/US-MAAS.html). Ces arbres sont proposés afin de tester des méthodes de phylogénie moléculaire. J’ai selectionné au hasard 100 arbres dans chacun des deux cas de figure suivants : arbres possédant 24 taxons et arbres possédant 96 taxons. Pour chacun des arbres T, j’ai construit des jeux de séquences (10 jeux par arbre) à l’aide du logiciel SEQGEN  ADDIN EN.CITE Rambaut19972370000000023791835261331997JunSeq-Gen: an application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees235-8Department of Zoology, University of Oxford, UK. andrew.rambaut@zoo.ox.ac.ukRambaut, A.Grassly, N. C.Comput Appl BiosciAlgorithmsBase SequenceDNA/*genetics*Evolution, MolecularModels, GeneticMonte Carlo Method*PhylogenyResearch Support, Non-U.S. Gov't*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9183526(Rambaut and Grassly, 1997). Plusieurs essais ont été effectués en changeant la longueur des séquences. L’étude a été faite sur des séquences de 1 kb, 3 kb et enfin 5kb. Les séquences ont été obtenues en simulant l’évolution de séquences suivant l’arbre T et selon un modèle d’évolution correspondant à celui de Kimura 2-paramètres.
Les paramètres du modèle d’évolution sont les suivants :
Taux de transition/transversion égale à 2.
Prise en compte d’une hétérogénéité des taux de mutations. Cette hétérogénéité suit une distribution selon la loi gamma avec un paramètre að = 0.75. C est à dire une hétérogénéité forte des taux de mutations dans les sites.

Enfin, pour chaque longueur de séquences et pour chaque nombre de taxons dans les arbres de références, 1000 jeux de séquences sont créés.
À partir de ces séquences, deux méthodes de reconstruction sont appliquées : celle utilisant la signature et la méthode des distances. La méthode utilisant la signature est employée à partir de signature de différentes longueurs de mots (4 à 6 lettres) et avec différentes métriques (euclidienne et cð2). La méthode des distances utilise la distance de Kimura 2-paramètres avec les mêmes paramètres que ceux du modèle d évolution servant à générer les séquences. Ensuite, les arbres sont inférés grâce au Neighbor-Joining. Afin de comparer les résultats des différentes méthodes, les arbres inférés sont comparés aux arbres de références à l’aide de la distance de Robinson-Foulds et permettent de définir un indice égal au pourcentage de branches internes différentes (voir  REF _Ref506886654 \r \h 2.2.3.6 pour plus de détails). Les résultats sont indiqués dans le  REF _Ref508268160 \h Tableau 2.


24 taxons96 taxonslongueur de la séquence1kb3kb5kb3kbeuclidiennemots de 4 lettres17,816,316,420,5mots de 5 lettres13,812,011,916,0mots de 6 lettres12,910,710,614,9cð2mots de 4 lettres17,616,416,4 mots de 5 lettres14,312,112,0 mots de 6 lettres14,411,410,9 Kimura 2-parameter
Méthode de référence10,56,15,09,2
Tableau  SEQ Tableau \* ARABIC 2 - Résultats de la simulation. Les chiffres correspondent au pourcentage moyen de branches internes différentes entre les arbres de références et les arbres obtenues à partir des séquences pour les différentes méthodes. Pour la signature, deux métriques ont été utilisées pour trois longueurs de mots.

La méthode des distances sert de référence dans l’étude. En effet, en utilisant la distance de Kimura 2-paramètres, on s’attend à ce que les distances reflètent parfaitement celles qui peuvent être observées dans l’arbre de référence. Si on a des erreurs dans la reconstruction, elles seront imputables à l’algorithme du Neighbor-Joining  ADDIN EN.CITE Gascuel200423870000000238Gascuel, O.2004Getting a Tree Fast: Neighbor Joining and Distance Based MethodsBaxevanis, A.Davison, D.Page, R.Stein, L.Stormo, G.Petsko, G.Current Protocols in BioinformaticsWiley & Sons6.3.1-6.3.18Wiley & SonsCurrent Protocols0-471-25093-7(Gascuel, 2004). Comme dans les deux cas, l’algorithme du Neighbor-Joining est utilisé, la différence de résultats peut s’expliquer par l’utilisation d’une part de distances issues de la signature et d’autre part de celle « parfaite » Kimura 2-paramètres. Les résultats de la signature s’expliquent par l’addition de deux erreurs : erreur de reconstruction de l’algorithme du Neighbor-Joining que l’on observe aussi sur la méthode de référence et aussi erreur provenant de l utilisation de la signature.
En comparant les résultats, la métrique euclidienne et la métrique du cð2 donnent des résultats tout à fait comparables. On voit de plus sur le  REF _Ref508268160 \h Tableau 2 que le pourcentage de mauvaises branches avec la méthode des distances diminuent avec l’augmentation de la longueur des mots. De même, plus les séquences sont longues, meilleurs sont les résultats de la signature. Cependant, ils ne sont pas aussi bons que ceux obtenus en utilisant la distance de Kimura 2-paramètres. Pour les arbres à 24 taxons, si à 1kb l’écart est faible entre les différentes méthodes, il est beaucoup plus important à 5kb. La méthode utilisant la signature s’améliore moins avec l’augmentation de la longueur des séquences que celle qui utilise les distances nucléiques. Cela peut s’expliquer par le fait que la distance de Kimura 2-paramètres connaît le modèle d’évolution des séquences. Plus les séquences sont longues, plus la distance trouvera des données permettant d’évaluer correctement les distances entre les taxons. Quand on regarde la distance moyenne de Robinson-Foulds pour les arbres provenant de la signature pour des mots de 6 lettres, métrique euclidienne et pour des séquences de 5 kb, on constate que la distance moyenne est de 4, soit 2 branches internes fausses. J’ai donc inspecté les 1000 arbres dans ce seul cas et observé que cela était dû, dans la plupart des cas, à une espèce présentant une branche beaucoup plus longue que les autres. Les autres relations étaient correctement inférées. Donc la méthode de la signature semble sensible à des espèces possédant des séquences ayant fortement divergées. On se retrouve dans le cas de l’attraction des longues branches.
En ce qui concerne les arbres à 96 taxons, seule la métrique euclidienne a été employée pour comparer les signatures. Les pourcentages de mauvaises branches des méthodes utilisant la signature sont plus élevés que ceux pour 24 taxons, mais cela est aussi le cas pour la méthode de référence des distances. Même, on peut dire que la détérioration a été moins importante pour la signature puisque que le pourcentage d’erreur a augmenté de 51% avec la méthode des distances et seulement progressé de 40% pour la signature.
Malgré le fait qu’aucun modèle d’évolution n’a été utilisé avec la signature et que l’on n’a posé aucun a priori sur les séquences, les résultats de la méthode de la signature sont bons. Ils ne sont pas aussi bons que ceux de la méthode des distances, mais ils restent néanmoins corrects.


Effet du bruit sur les résultats

Une autre façon de tester la stabilité des arbres obtenus, à partir de l’étude de la signature, est d’étudier comment variait la topologie des arbres que l’on obtenait en introduisant du bruit dans les signatures.
En bruitant les signatures que l’on compare, on perturbe le signal présent dans les signatures et ainsi on peut changer les distances et même la topologie. Il est important de connaître dans quelle mesure les signatures sont sensibles au bruit.
Pour cette étude ; j’ai à nouveau utilisé les signatures pour des mots de 6 lettres obtenues dans l’étude du gène RAG1. Pour bruiter les signatures, j’ai utilisé une méthode tenant en compte des propriétés des signatures.
La somme des fréquences présentes dans chaque signature doit être égale à 1.
Il est nécessaire que le bruit introduit tienne compte des relations entre les différentes fréquences de mots.

Pour pendre en compte ces propriétés, j’ai choisi d’utiliser comme bruit les écarts des fréquences des mots par rapport celles que l’on pourrait prédire. Pour calculer ces dernières, on utilise les fréquences en nucléotides que l’on observe dans la séquence. On suppose alors que la séquence suit un processus markovien parfait, c’est à dire que l’on utilise les fréquences en nucléotide (mot de 1 lettre) pour calculer les mots de n lettres.

Si les fréquences en nucléotides est : F0= EMBED Equation.3 , pour des mots de 2 lettres, on aura une signature qui peut être représenté sous la forme d’une matrice 4x4 qui est composée à partir de F0 comme suit : F1= EMBED Equation.3 . On continue ensuite de manière récurrente jusqu’à ce que l’on obtienne la taille voulue de mots. Si les fréquences des mots de taille n s’écrivent  EMBED Equation.3  alors pour les fréquences pour les mots de taille n+1, on a  EMBED Equation.3 .

Fn correspond à la signature de mots de taille n que l’on attendrait en ne tenant compte que de la fréquence en nucléotides. Pour calculer l’écart à la prédiction En, on soustrait à la signature de mots de taille n Sn la fréquence attendue Fn :  EMBED Equation.3 . Cet écart possède de nombreux avantages : tout d’abord la somme de tous ses coefficients est nulle et il possède la structure d’une signature (on retrouve les mêmes relations entre les mots).

Pour bruiter une signature, j ajoute à celle-ci un pourcentage d un écart à l attendu.
 EMBED Equation.3 

Dans la pratique, j ai calculé les 46 écarts à l attendu présent dans l étude du gène RAG1. Ensuite, j ai fait varier deux paramètres :
Le paramètre að correspondant au taux de bruit ajouté aux signatures. að varie de 0.1 à 1 par pas de 0.1.
Le nombre de signatures qui seront bruitées. De 1% à 10% par pas de 1% puis par pas de 10%.

J ai ensuite cherché dans quelle mesure le bruit que je vais utiliser est significatif. Pour cela, j’ai comparé chaque fréquence non-nulle de mot aux fréquences de ce même mot dans tous les écarts à l’attendu. Pour cela j’ai utilisé le rapport  EMBED Equation.3 . Si la valeur moyenne de ce rapport est trop faible, l’impact du bruit est négligeable. J’ai indiqué dans le tableau suivant la valeur moyenne de ce rapport, ainsi que la valeur minimale et maximale. Ces deux dernières valeurs sont extrêmes et ne sont présentées qu’à titre indicatif. La valeur minimale correspond à un mot dont la fréquence est exceptionnellement élevée par rapport à la prédiction. De même, la valeur maximale correspond à un mot sous exprimé dans la séquence. On voit que l’utilisation de l’écart comme bruitage est crédible car il n’est pas négligeable par rapport à la signature. De plus il s’agit ici que des fréquences non nulles de la signature ( REF _Ref508268229 \h Tableau 3). Or l’écart par construction ne possède aucune fréquence nulle quelque soit la taille du mot, donc son poids en temps que bruit sera d’autant plus fort. En effet, la formule  EMBED Equation.3  implique tous les mots.

 EMBED Excel.Sheet.8 
Tableau  SEQ Tableau \* ARABIC 3 - Rapport entre les fréquences de l’écart à la prédiction par rapport à celles de la signature observée pour un mot donné. Les fréquences utilisées sont celles de tous les mots de 6 lettres pour les 46 signatures du gène RAG1.

Pour chaque valeur de ces deux paramètres, 100 essais sont effectués en tirant au sort les signatures qui seront bruitées et par quel écart à l’attendu. Ainsi une signature ne sera pas automatiquement bruitée par son écart à la prédiction. On a donc une vraie indépendance.

Les arbres obtenus sont comparés à l’arbre non-perturbé par la distance de Robinson-Foulds. La distance moyenne pour chaque couple de paramètres a été représentée par une surface sur la  REF _Ref508268247 \h Figure 46.

Figure  SEQ Figure \* ARABIC 46 - Distance de Robinson-Foulds entre l’arbre non-perturbé et les arbres perturbés. L’intensité du bruit dépend de deux facteurs correspondant aux deux axes : le pourcentage de signatures d’espèces qui sont perturbés et le taux de bruit qui est introduit. La distance de Robinson-Foulds maximale est de 86.

Les résultats montrent que les arbres sont peu perturbés par le pourcentage des signatures bruitées. Les résultats se détériorent de manière quasi linéaire avec le taux de bruit que l’on introduit. Pour að inférieur à 0.5 et un taux d espèce de 100%, on a une distance de 8 soit moins de 10 % de branches différentes entre l arbre non-bruité et ceux bruités. Pour des bruitages plus fort, le taux de branches différentes monte jusqu à 18%. Pour des bruitages plus faibles, pour un að inférieur à 30%, la distance moyenne est inférieure ou égale à 4, c est-à-dire seulement 2 branches internes différentes ce qui est très peu.
En conclusion, la méthode issue de la signature est sensible à un bruitage dans une certaine mesure. Mais cette sensibilité n’est pas excessive car le bruit n’affecte pour des valeurs raisonnables (bruit de moins de 30 %) que 5% des branches internes. Un bruit de 10% correspond déjà à un bruit fort lors de l’étude de séquences homologues. La méthode issue de la signature est donc robuste au bruit que pourrait contenir les signatures.


Applications aux séquences homologues

Nous venons de montrer qu’il était possible d’employer la signature afin d’établir les relations entre les espèces. Nous avons appliqué cette méthode issue de la signature dans plusieurs cas sur des gènes homologues.

RAG1

Nous avons utilisé le gène RAG1 pour déterminer les relations chez les vertébrés. Le gène RAG1 est un des gènes de l’activation de la recombinaison  ADDIN EN.CITE Agrawal199824100000000241972361439466951998Aug 20Transposition mediated by RAG1 and RAG2 and its implications for the evolution of the immune system744-51Department of Pharmacology, Yale University School of Medicine, New Haven, Connecticut 06510, USA.Agrawal, A.Eastman, Q. M.Schatz, D. G.NatureAmino Acid SequenceAnimalsAntibodies/geneticsB-Lymphocytes/physiologyBinding SitesCatalysisCell LineDNA/metabolism*DNA Transposable ElementsDNA, Circular/geneticsDNA-Binding Proteins/genetics/*physiologyDrug Resistance, Microbial/genetics*Evolution, Molecular*Gene Rearrangement, B-Lymphocyte*Gene Rearrangement, T-LymphocyteHigh Mobility Group Proteins/metabolismHomeodomain Proteins/genetics/*physiologyImmune System/*physiologyMiceMolecular Sequence DataReceptors, Antigen, T-Cell/geneticsRecombination, GeneticResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Restriction MappingTransposases/metabolismVertebrates/genetics/immunologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9723614Yu1999240000000002401045816540067451999Aug 12Continued RAG expression in late stages of B cell development and no apparent re-induction after immunization682-7Laboratory of Molecular Immunology, The Rockefeller University, New York, New York 10021, USA.Yu, W.Nagaoka, H.Jankovic, M.Misulovin, Z.Suh, H.Rolink, A.Melchers, F.Meffre, E.Nussenzweig, M. C.NatureAllelesAnimalsB-Lymphocytes/*cytology/immunology/metabolism/transplantationBone Marrow Cells/cytologyCell DifferentiationDNA-Binding Proteins/biosynthesis/*genetics*Gene Expression Regulation, EnzymologicGene Rearrangement, B-LymphocyteGerminal Center/cytologyGreen Fluorescent ProteinsImmunoglobulin M/biosynthesisInterleukin-4/immunologyLeukopoiesis/physiologyLipopolysaccharides/immunologyLuminescent Proteins/geneticsMiceMice, TransgenicRNA, Messenger/metabolismResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Spleen/cytologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10458165Yu19992390000000023911232286641999RAG expression in B cells in secondary lymphoid tissues207-10Laboratory of Molecular Immunology, Howard Hughes Medical Institute, Rockefeller University, New York, New York 10021, USA.Yu, W.Nagaoka, H.Misulovin, Z.Meffre, E.Suh, H.Jankovic, M.Yannoutsos, N.Casellas, R.Besmer, E.Papavasiliou, F.Qin, X.Nussenzweig, M. C.Cold Spring Harb Symp Quant BiolAnimalsB-Lymphocytes/*immunology/metabolismDNA-Binding Proteins/*geneticsGene ExpressionGene Rearrangement, B-LymphocyteGreen Fluorescent ProteinsHomeodomain Proteins/*geneticsIn VitroLuminescent Proteins/geneticsLymphoid Tissue/cytology/immunology/metabolismMiceMice, TransgenicRecombinant Fusion Proteins/geneticsRecombination, Genetichttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11232286(Agrawal et al., 1998; Yu et al., 1999a; Yu et al., 1999b). RAG1 est un gène très conservé au cours de l’évolution  ADDIN EN.CITE Greenhalgh19952430000000024378062784111995Recombination activating gene 1 (Rag1) in zebrafish and shark54-5Dept. of Biology, Massachusetts Institute of Technology, Cambridge 02139.Greenhalgh, P.Steiner, L. A.ImmunogeneticsAmino Acid SequenceAnimalBase SequenceDNA ProbesMolecular Sequence DataProteins/*geneticsSequence AlignmentSharks/*geneticsSupport, U.S. Gov't, P.H.S.Zebrafish/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7806278(Greenhalgh and Steiner, 1995) produisant ainsi de très faibles distances entre les espèces. La taille de la séquence du gène RAG1 est assez discutée  ADDIN EN.CITE Iglesias200528400000000284Iglesias, S.P.Lecointre, G.Sellos, D.Y.2005Extensive paraphylies within sharks of the order Carcharhiniformes inferred from nuclear and mitochondrial genes.Mol Phylogenet Evol343569-83Oettinger199024200000000242236004724849621990Jun 22RAG-1 and RAG-2, adjacent genes that synergistically activate V(D)J recombination1517-23Whitehead Institute for Biomedical Research, Cambridge, MA 02142.Oettinger, M. A.Schatz, D. G.Gorka, C.Baltimore, D.ScienceAmino Acid SequenceAnimalsBase SequenceCattleCell LineChickensDNA/*geneticsDNA Nucleotidyltransferases/*genetics*DNA-Binding ProteinsDogsEvolutionFemale*Gene Rearrangement, B-Lymphocyte*Gene Rearrangement, T-LymphocyteHamsters*Homeodomain ProteinsHumansMaleMiceMolecular Sequence Data*Multigene FamilyNucleic Acid HybridizationOpossumsProteins/*geneticsRabbitsRecombination, Genetic/*geneticsResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Restriction MappingTransfectionTurtlesVDJ Recombinaseshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2360047(Iglesias et al., 2005; Oettinger et al., 1990) entre 3 kb et 6kb. Nous avons choisi d’utiliser le gène RAG1, car c’est un gène très utilisé pour la phylogénie de métazoaire et qui est très conservé  ADDIN EN.CITE Greenhalgh19952430000000024378062784111995Recombination activating gene 1 (Rag1) in zebrafish and shark54-5Dept. of Biology, Massachusetts Institute of Technology, Cambridge 02139.Greenhalgh, P.Steiner, L. A.ImmunogeneticsAmino Acid SequenceAnimalBase SequenceDNA ProbesMolecular Sequence DataProteins/*geneticsSequence AlignmentSharks/*geneticsSupport, U.S. Gov't, P.H.S.Zebrafish/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7806278(Greenhalgh and Steiner, 1995). De plus, la très forte homologie entre les séquences de RAG1 est un point de difficulté pour la signature, car les distances entre signatures seront particulièrement faibles.
Nous avons sélectionné dans les banques de données 46 séquences du gène RAG1 chez les vertébrés : 12 requins, 3 poissons, 2 batraciens, 14 oiseaux, 2 crocodiliens et 13 mammifères dont 7 chauve-souris. Ces séquences avaient une taille allant de 1 kb à 3.3 kb. ( REF _Ref508268292 \h Tableau 4)

Nom de l'espèceGroupe taxonomiqueAlligator mississippiensisCrocodilienAlopias pelagicusRequinAlopias superciliosusRequinAnas streperaOiseauCarcharhinus leucasRequinCarcharias taurusRequinCarcharodon carchariasRequinCetorhinus maximusRequinCharadrius vociferusOiseauChauna torquataOiseauCoracias caudataOiseauCynocephalus variegatusMammifèreCynopterus sphinxMammifère : chauve-sourisDanio rerioPoissonFelis catusMammifèreFugu rubripesPoissonGallus gallusOiseauGavia immerOiseauGavialis gangeticusCrocodilienGrus canadensisOiseauHipposideros commersoniMammifère : chauve-sourisHomo sapiensMammifèreIsurus oxyrinchusRequinLamna ditropisRequinMegachasma pelagiosRequinMegaderma lyraMammifère : chauve-sourisMegapodius freycinetOiseauMitsukurina owstoniRequinMonodelphis domesticaMammifèreMus musculusMammifèreMyotis daubentoniMammifère : chauve-sourisOdontaspis feroxRequinOncorhynchus mykissPoissonOryctolagus cuniculusMammifèrePasser montanusOiseauPleurodeles waltlBatracienPseudocarcharias kamoharaiRequinSpheniscus humboldtiOiseauStruthio camelusOiseauTadarida brasiliensisMammifère : chauve-sourisTaphozous spMammifère : chauve-sourisTinamus guttatusOiseauTonatia bidensMammifère : chauve-sourisTurnix hottentottaOiseauTyrannus tyrannusOiseauXenopus laevisBatracien
Tableau  SEQ Tableau \* ARABIC 4 - Nom et groupe taxonomique d’appartenance des espèces étudiés avec le gène RAG1.

Nous avons calculé les signatures pour des mots de 4 à 6 lettres et nous avons comparé ces dernières à l’aide de la métrique du cð2 et euclidienne.
L analyse des 46 séquences dans notre jeu de données a montré que quatre séquences étaient annotées comme complètes (Homo sapiens, Carcharhinus leucas, Oncorhynchus mykiss et Xenopus laevis) et possédaient une taille très supérieure à celles des autres séquences (3kb au lieu de 1 à 1.2kb). En comparant les signatures de ces dernières aux autres signatures, on observe que quelque soit la taille des mots ces signatures sont mises à part et regroupés dans une sorte de groupe externe très éloigné des autres. Ce résultat préliminaire peut facilement s’expliquer par l’extrême conservation du gène RAG1. Les séquences courtes proviennent du séquençage du cœur hyper conservé du gène. Les signatures sont donc très proches. Or pour les séquences plus longues, on ajoute 2 fois de mots provenant de parties plus variables. Les signatures sont donc fortement bruitées et très différentes, ce qui conduit aux résultats préliminaires observés. Au vue de ce problème particulier au gène RAG1 et à sa représentativité dans les banques de données et pour pouvoir comparer aux résultats déjà publiés (ref 45 article), nous avons décidé de ne conserver que la partie des séquences correspondant à celles présentes dans les autres espèces. Pour cela, je me suis basé sur l’alignement pour effectuer cette sélection.

Une fois cette étape effectuée, les signatures sont à nouveau calculées et les arbres sont produits par la méthode de la signature ( REF _Ref508268338 \h Figure 47). J’ai aussi inféré les arbres phylogénétiques à partir des méthodes de distances (HKY85) sur les séquences nucléiques ( REF _Ref508268339 \h Figure 48) et protéiques ( REF _Ref508268340 \h Figure 49), et de parcimonie ( REF _Ref508268343 \h Figure 50).


Figure  SEQ Figure \* ARABIC 47 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode issue de la signature. Signatures pour des mots de 6 lettres et métrique du cð2. Les coefficients bootstrap supérieurs à 50% sont indiqués.


Figure  SEQ Figure \* ARABIC 48 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences nucléiques. Distance utilisée suivant le modèle d’évolution HKY85. Taux de transition/transversion = 2. Algorithme NJ. Les coefficients bootstrap supérieurs à 50% sont indiqués.



Figure  SEQ Figure \* ARABIC 49 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences protéiques. Distance utilisée à partir de la matrice PAM 50. Algorithme NJ.


Figure  SEQ Figure \* ARABIC 50 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode du maximum de parcimonie.

Les arbres obtenus pour les différentes méthodes montrent que les positions des différents clades de vertébrés (oiseaux, requins, mammifères, poissons et batraciens) sont en accord avec les données paléontologiques. L’arbre obtenu par méthode des distances sur les séquences protéiques présente des erreurs assez importantes ( REF _Ref508268340 \h Figure 49). La principale est la formation d’un groupe stable d’oiseau à l’intérieur des mammifères. De plus les relations entre les espèces à l’intérieur de chacun des groupes sont souvent incongruentes avec celles des autres méthodes. La méthode de parcimonie conduit à plusieurs arbres les plus parcimonieux qui sont résumés par consensus en un seul arbre ( REF _Ref508268343 \h Figure 50). Les groupes taxonomiques sont formés, mais les positions des espèces à l’intérieur sont faiblement résolues. Par exemple les oiseaux sont définis par une fourche.
L’arbre de la signature présente lui aussi des clades en accord avec la taxonomie. Les différents clades sont très stables avec un coefficient de bootstrap élevé. De même, les relations entre clades sont particulièrement fortes, avec là aussi des coefficients élevés. Les relations des oiseaux sont congruentes avec les analyses classiques. La méthode issue de la signature est la seule méthode à regrouper les chauve-souris en un groupe monophylétique stable. Le chat, Felis catus, est mal placé dans toutes les méthodes et ainsi sa mauvaise place ne peut être imputée à une méthode en particulier. De même, Carcharhinus leucas, bien que placé à chaque fois dans les requins, présentent une longue branche séparant fortement cette espèce. Il serait nécessaire de regarder de plus près la séquence placée dans les banques de données. La non-monophylie des tétrapodes avec la signature peut être expliquée par le nombre faible d’espèces prises en compte ce qui conduirait à rapprocher les batraciens des poissons.

Guénoche et Garreta  ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) ont développé une méthode permettant d évaluer le bruit présent dans les matrices de distances. Nous avons évalué ce bruit pour l arbre de la signature (mot de 6 lettres  cð2) et pour la méthode de distances. Pour les deux matrices de distances, le bruit peut être estimé à moins de 5 %.

Afin de comparer les différentes topologies inférées et pour connaître la puissance du signal phylogénétique présent dans l’arbre de la signature, j’ai réalisé une analyse de la congruence des arbres phylogénétiques  ADDIN EN.CITE Feil20015600000000056111362559812001Jan 2Recombination within natural populations of pathogenic bacteria: short-term empirical estimates and long-term phylogenetic consequences182-7Wellcome Trust Centre for the Epidemiology of Infectious Disease (WTCEID), University of Oxford, South Parks Road, Oxford OX1 3FY, United Kingdom. ed.feil@ceid.ox.ac.ukFeil, E. J.Holmes, E. C.Bessen, D. E.Chan, M. S.Day, N. P.Enright, M. C.Goldstein, R.Hood, D. W.Kalia, A.Moore, C. E.Zhou, J.Spratt, B. G.Proc Natl Acad Sci U S AAllelesBacteria/classification/*genetics/pathogenicityBase SequenceGenes, Bacterial/geneticsGenotypeKineticsMolecular Sequence DataMutagenesis/genetics*PhylogenyPoint Mutation/genetics*Recombination, GeneticStatisticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.Transformation, BacterialVariation (Genetics)/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11136255(Feil et al., 2001). Pour cela, on calcule, pour les topologies obtenues par maximum de vraisemblance, parcimonie (les deux arbres les plus parcimonieux), l’arbre des distances et les arbres de la signature (mot de 4 à 6 lettres et métrique euclidienne et du cð2), la vraisemblance ( REF _Ref508268479 \h Figure 51). Pour tester statistiquement si les arbres sont congruents, 100 topologies aléatoires ont, à leur tour, leurs vraisemblances calculés. Les vraisemblances sont comparés à celle du maximum de vraisemblance (par construction la topologie ayant la vraisemblance la plus faible) afin d’obtenir une distribution de  EMBED Equation.3 . Le  EMBED Equation.3  des arbres aléatoires peuvent être considéré comme la distribution nulle. Si le  EMBED Equation.3  d’un arbre est dans le 99ème percentile de la distribution nulle deux arbres sont significativement différents.


Figure  SEQ Figure \* ARABIC 51 - Analyse par la vraisemblance de la congruence phylogénétique pour le gène RAG1. Les topologies obtenues par les méthodes traditionnelles sont comparées à elles obtenues par la signature et à des topologies aléatoires. Pour les arbres de la signature et pour chaque métrique, la taille utilisée des mots est représentée à coté de chaque point.


 EMBED Excel.Sheet.8 

Tableau  SEQ Tableau \* ARABIC 5 - Différences de log de vraisemblance. Les différences sont calculées à partir du maximum de vraisemblance.

Cette étude montre que les arbres de la signature ont un signal phylogénétique congruent avec ceux obtenus à partir des méthodes de phylogénie basé sur l’utilisation d’un alignement. Les arbres de la signature pour des mots longs sont plus congruents que ceux pour des tailles plus petites. L’arbre de la signature obtenue pour des mots de 6 lettres et la métrique du cð2 est l arbre obtenu par la méthode issue de la signature qui est le plus congruent avec l arbre du maximum de vraisemblance (ML) ( REF _Ref508268499 \h Tableau 5). La congruence signature/ML est similaire à celle de ML/méthode de distance (table ).


Utilisation de l’ARN 18S

L’ARN a été et est toujours dans une certaine mesure la molécule de base de la phylogénie moléculaire. Il a été employé pour effectuer les premières reconstructions phylogénétiques  ADDIN EN.CITE Fox198024500000000245677187020944551980Jul 25The phylogeny of prokaryotes457-63Fox, G. E.Stackebrandt, E.Hespell, R. B.Gibson, J.Maniloff, J.Dyer, T. A.Wolfe, R. S.Balch, W. E.Tanner, R. S.Magrum, L. J.Zablen, L. B.Blakemore, R.Gupta, R.Bonen, L.Lewis, B. J.Stahl, D. A.Luehrsen, K. R.Chen, K. N.Woese, C. R.ScienceBacteria/*classificationBase SequenceChloroplasts/analysisClostridium/classificationCyanobacteria/classificationDNA/analysisEvolution*PhylogenyRNA, Ribosomal/*analysisResearch Support, U.S. Gov't, Non-P.H.S.Species Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=6771870Olsen1987246000000002463454291521987Earliest phylogenetic branchings: comparing rRNA-based evolutionary trees inferred with various techniques825-37Department of Biology, Indiana University, Bloomington 47405.Olsen, G. J.Cold Spring Harb Symp Quant BiolAnimalsBacteria/genetics*EvolutionHumansMathematics*Models, Genetic*PhylogenyRNA, Ribosomal/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=3454291Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744Woese1987700000000007Woese, C.1987Bacterial evolutionMicrobiological Review51221-271(Fox et al., 1980; Olsen, 1987; Woese, 1987; Woese and Fox, 1977). L’ARN 18S (chez les eucaryotes, 16S chez les procaryotes) possèdent de nombreux avantages qui expliquent son grand usage. Tout d’abord, l’ARN de par sa fonction dans la transmission d’information dans la cellule est fortement exprimé et est présent dans l’ensemble des génomes. Cette forte expression a facilité son séquençage dans un grand nombre d’espèces, faisant que ces molécules sont celles qui ont été le plus largement séquencée dans l’arbre du vivant. De plus, le séquençage de l’ARN est facile, car il ne nécessite pas de clonage de séquences. Une autre propriété importante est que l’ARN ribosomal ou ARNr est hautement conservé. Celui-ci a évolué suivant des taux de mutations faibles et est supposé ne pas avoir été impliqué dans des transferts horizontaux  ADDIN EN.CITE Gogarten199624700000000247898463727452931996Dec 6Dating the cenancester of organisms1750-1; author reply 1751-3Gogarten, J. P.Olendzenski, L.Hilario, E.Simon, C.Holsinger, K. E.ScienceAmino Acid Sequence*Archaea/chemistry/genetics*Bacteria/chemistry/genetics*Eukaryotic CellsEvolution*Evolution, MolecularGene Transfer TechniquesModels, StatisticalPhylogenyProteins/*chemistry/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8984637Jain199924800000000248100971189671999Mar 30Horizontal gene transfer among genomes: the complexity hypothesis3801-6Molecular Biology Institute and Molecular, Cell, and Developmental Biology, University of California, Los Angeles, CA 90095, USA.Jain, R.Rivera, M. C.Lake, J. A.Proc Natl Acad Sci U S AEscherichia coli/genetics*Evolution*Gene Transfer, Horizontal*GenomeMethanococcus/genetics*Models, GeneticOpen Reading FramesPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10097118(Gogarten et al., 1996; Jain et al., 1999). Ces propriétés lui permettent d’être un outil idéal à l’étude d’un grand nombre d’espèces, particulièrement celles qui sont très éloignées. Cependant sa relative petite taille (1500 à 1800 nucléotides) conduit à ce que l’information présente soit limitée. Les nucléotides de l’ARN sont, pour une grande partie, structuré en paire ce qui implique une forte dépendance entre les sites. Enfin des expériences ont montré que l’ARN n’est peut-être pas aussi résistant aux mutations ou aux transferts horizontaux  ADDIN EN.CITE Asai199925100000000251100515799651999Mar 2An Escherichia coli strain with all chromosomal rRNA operons inactivated: complete exchange of rRNA genes between bacteria1971-6Department of Molecular Biology and Microbiology, Tufts University School of Medicine, Boston, MA 02111, USA.Asai, T.Zaporojets, D.Squires, C.Squires, C. L.Proc Natl Acad Sci U S ABase SequenceChromosomes, Bacterial/*geneticsComparative StudyEscherichia coli/*genetics/growth & development*Genes, Structural, Bacterial*OperonPolymerase Chain ReactionRNA, Bacterial/*geneticsRNA, Ribosomal/*geneticsRNA, Ribosomal, 16S/geneticsRNA, Ribosomal, 23S/geneticsResearch Support, U.S. Gov't, P.H.S.Restriction MappingSalmonella typhimurium/geneticsSequence Deletionhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10051579Nomura199924900000000249100515519651999Mar 2Engineering of bacterial ribosomes: replacement of all seven Escherichia coli rRNA operons by a single plasmid-encoded operon1820-2Department of Biological Chemistry, University of California-Irvine, Irvine, CA 92697-1700, USA. mnomura@uci.eduNomura, M.Proc Natl Acad Sci U S AChromosomes, Bacterial/geneticsEscherichia coli/*geneticsGenetic Engineering*Operon*PlasmidsRNA, Bacterial/*geneticsRNA, Ribosomal/*geneticsRibosomes/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10051551Yap19992500000000025010464188181171999SepDistinct types of rRNA operons exist in the genome of the actinomycete Thermomonospora chromogena and evidence for horizontal transfer of an entire rRNA operon5201-9Microbial Collection and Screening Laboratory, Institute of Molecular and Cell Biology, National University of Singapore, Singapore 117609.Yap, W. H.Zhang, Z.Wang, Y.J BacteriolActinomycetales/classification/*geneticsBase SequenceBlotting, SouthernCloning, MolecularDNA, BacterialDNA, Ribosomal/analysisEvolution, MolecularGene AmplificationGene ExpressionGenome, BacterialMolecular Sequence DataNucleic Acid ConformationPolymerase Chain Reaction*RNA, BacterialRNA, Ribosomal, 16SResearch Support, Non-U.S. Gov'tSequence Analysis, DNAVariation (Genetics)*rRNA Operonhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10464188(Asai et al., 1999; Nomura, 1999; Yap et al., 1999).

Nous avons décidé d’étudier les relations entre espèces à partir du gène de l’ARN 18S à travers deux phylogénies : pour les cirripèdes et les plantes.


La phylogénie des cirripèdes

Les cirripèdes sont des crustacés comprenant les bernacles, les anatifes, etc… . Les jeunes ressemblent à beaucoup de crustacés par la forme, mais arrivés à l’age mûr ils sont toujours attachés à des substrats (directement ou au moyen d’une tige).


Photo d’un cirripède

Nous avons déterminé la phylogénie des cirripèdes à l’aide de l’ARN 18S. Pour cela, onze espèces de cirripèdes et 2 branchiopodes ont été sélectionnés ( REF _Ref508268524 \h Tableau 6). Les branchiopodes servent de groupe externe. Nous nous sommes basés sur un article de Billoud et al (), afin de comparer nos résultats à la littérature. L’étude des cirripèdes a été motivée par la possibilité de comparer les arbres issus de la comparaison des signatures à ceux qui sont proposés par Billoud et al. En effet, Billoud et al ont utilisé les caractéristiques morphométriques des séquences d’ARN (voir  REF _Ref507507109 \r \h 2.2.5.3) ainsi que des méthodes classiques sur les séquences, afin d’établir la phylogénie des cirripèdes. Les méthodes classiques employées par Billoud et al  ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) sont la méthode des distances et le maximum de parcimonie. Nous avons calculé les signatures pour des mots de 6 lettres pour les 13 séquences. Ces signatures seront comparées par la métrique du cð2 ( REF _Ref508268555 \h Figure 52).

EspèceGroupe taxonomiqueArtemia salinaBranchiopodeBranchinecta packardiBranchiopodeUlophysema oeresundenseAscothoracidaBerndtia purpureaAcrothoracicaTrypetesa lampasAcrothoracicaLoxothylacus texanuRhizocephalaCalantica villosaPedeunculataOctolasmis loweiPedeunculataLepas anatiferaPedeunculataBalanus eburneusSessiliaChelonibia patulaSessiliaChthamalus fragilisSessiliaTetraclita stalactiferaSessilia
Tableau  SEQ Tableau \* ARABIC 6 - Nom des espèces impliquées dans l’étude de l’ARN 18S des cirripèdes.


Figure  SEQ Figure \* ARABIC 52 - Phylogénie des cirripèdes. A Parcimonie : arbre obtenu à partir de l’alignement que nous avons effectué. B Méthode de la signature : mot de 6 lettres  métrique du cð2. L arbre a été inféré par Neighbor-Joining. Les coefficients de bootstrap supérieur à 50% sont indiqués. La signature moyenne de chaque groupe taxonomique est positionnée à la droite de l arbre de la signature. Le clade dont la formation est discutée est indiqué par un rond vert.


Figure  SEQ Figure \* ARABIC 53 - Arbres phylogénétiques obtenus par Billoud et al à partir de l’étude des caractéristiques morphométriques. Gauche : utilisation de la méthode des distances sur les données morphométriques. Droite : méthode de la parcimonie sur ces données. Figure tirée de Billoud et al  ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000).

En utilisant la signature, nous avons inféré un arbre proche de celui proposé par Billoud et al  ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) ( REF _Ref508268584 \h Figure 53). Les différents groupes taxonomiques des cirripèdes sont formés et possèdent un fort coefficient bootstrap. Il est à noter que les Ascothoracica et les Acrothoracica sont regroupés dans l’arbre de la signature avec un coefficient bootstrap maximal. Billoud et al ont indiqués que ce regroupement a déjà été observé dans la littérature  ADDIN EN.CITE Spears1994400000000004Spears, T.Abele, L. G.Applegate, M. A.1994Phylogenetic study of cirripedes and selected relatives (Thecostraca) based on 18S rDNAJ. Crustac. Biol.14641-656(Spears et al., 1994), mais ils considèrent que celui-ci est un artefact de calcul. Pour cela, ils se basent sur leur étude des données morphométriques, ainsi que celles des méthodes classiques de phylogénie (Données non montrées). Au vue de cette différence avec l’arbre des signatures, nous avons inféré l’arbre phylogénétique des cirripèdes à partir de la méthode du maximum de parcimonie. L’arbre obtenu est le même que celui que nous avons déterminé à l’aide des signatures ( REF _Ref508268555 \h Figure 52A). Nos résultats sont en accord avec ceux de Spears et al  ADDIN EN.CITE Spears1994400000000004Spears, T.Abele, L. G.Applegate, M. A.1994Phylogenetic study of cirripedes and selected relatives (Thecostraca) based on 18S rDNAJ. Crustac. Biol.14641-656(Spears et al., 1994) et tendent à confirmer l’existence d’un clade (Ascothoracica + Acrothoracica). Les coefficients bootstrap de l’arbre de la signature pour l’organisation à l’intérieur des Sessilia sont faibles et peuvent être expliqués par des distances inter espèces très faibles.
L’application des méthodes de mesure du bruit proposées par Guénoche et Garetta  ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) sur les données de cette étude du gène ARN 18S ont permis d’établir qu’elles comportaient 10% de bruit, aussi bien les signatures que les matrices de distances classiques.
En conclusion, grâce à la seule utilisation de la signature, on a pu établir rapidement une phylogénie des cirripèdes à l’aide des signatures de l’ARN 18S. L’arbre obtenu est congruent avec la littérature.


La phylogénie des plantes

Le gène de l’ARN 18S a aussi été utilisé afin d’établir la phylogénie des plantes à l’aide de la signature. Pour cela, nous nous sommes basés sur une étude de Soltis et al  ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999) qui avaient utilisé une centaine de séquences d’ARN 18S. Pour mener cette étude, 92 espèces de plantes terrestres (Embryophytes) et 7 algues vertes (Coléochaetophyte et Charophyte) ont été sélectionnées. Le nom de ces espèces et ainsi que le groupe taxonomique auquel elles appartiennent sont indiqués dans le tableau suivant ( REF _Ref508268606 \h Tableau 7).

CodeNomGroupe taxonomiqueA1Asarum canadenseAngiospermeA2Sparganium eurycarpumAngiospermeA3Tetracentron sinenseAngiospermeA4Trochodendron aralioidesAngiospermeA5Austrobaileya scandensAngiospermeA6Sassafras albidumAngiospermeA7Akebia quinataAngiospermeA8Amborella trichopodaAngiospermeA9Camptotheca acuminataAngiospermeA10Gossypium hirsutumAngiospermeA11Celtis yunnanensisAngiospermeA12Canna coccineaAngiospermeA13Ceratophyllum demersumAngiospermeA14Dipsacus spAngiospermeA15Liquidambar styracifluaAngiospermeA16Zea maysAngiospermeA17Nymphaea tuberosaAngiospermeA18Oncidium excavatumAngiospermeA19Phytolacca americanaAngiospermeA20Pisum sativumAngiospermeA21Symphoricarpos albusAngiospermeA22Saururus cernuusAngiospermeA23Saxifraga integrifoliaAngiospermeA24Saruma henryiAngiospermeC1Araucaria excelsaConnifèreC2Cephalotaxus wilsonianaConnifèreC3Juniperus chinensisConnifèreC4Phyllocladus trichomonoidesConnifèreC5Pinus elliottiiConnifèreC6Pinus luchuensisConnifèreC7Dacrycarpus imbricatusConnifèreC8Amentotaxus formosanaConnifèreC9Torreya nuciferaConnifèreC10Taiwania cryptomerioidesConnifèreC11Podocarpus costalisConnifèreC12Nageia nagiConnifèreC13Taxus chinensis var. maireiConnifèreC14Abies lasiocarpaConnifèreCyca1Cycas taitungensisCycadeCyca2Zamia pumilaCycadeEquisetumEquisetum hyemaleEquisetumF1Adiantum raddianumFougèreF2Blechnum occidentaleFougèreF3Dicksonia antarcticaFougèreF4Dicranopteris linearisFougèreF5Hypolepis muelleriFougèreF6Lonchitis hirsutaFougèreF7Osmunda cinnamomeaFougèreF8Odontosoria chinensisFougèreF9Ophioglossum petiolatumFougèreF10Pteridium aquilinumFougèreF11Salvinia natansFougèreF12Vandenboschia davallioidesFougèreG1Welwitschia mirabilisGnétaleG2Ephedra sinicaGnétaleG3Ephedra torreyanaGnétaleG4Gnetum nodiflorumGnétaleG5Gnetum urensGnétaleG6Gnetum gnemonGnétaleGinkgoGinkgo bilobaGinkgoHw1Anthoceros agrestisAnthocéroteHw2Notothylas breuteliiAnthocéroteHw3Phaeoceros laevisAnthocéroteL1Huperzia lucidulaLycophyteL2Isoetes durieuiLycophyteL3Isoetes engelmanniiLycophyteL4Lycopodiella inundataLycophyteL5Huperzia phlegmariaLycophyteL6Huperzia taxifoliaLycophyteL7Lycopodium tristachyumLycophyteL8Selaginella umbrosaLycophyteL9Selaginella vogeliiLycophyteLw1Marchantia polymorphaMarchantaleLw2Fossombronia pusillaMarchantaleLw3Pellia epiphyllaMarchantaleLw4Reboulia hemisphaericaMarchantaleLw5Sphaerocarpos donnelliMarchantaleLw6Scapania nemoreaMarchantaleLw7Riccardia pinguisMarchantaleM1Physcomitrella patensMousseM2Atrichum undulatumMousseM3Eurhynchium hiansMousseM4Funaria hygrometricaMousseM5Leptobryum pyriformeMousseM6Polytrichum formosumMousseM7Physcomitrium pyriformeMousseM8Sphagnum cuspidatumMoussePsilo1Psilotum nudumPsilotalePsilo2Tmesipteris tannensiPsilotaleO1aChara australisGroupe externeO1bChara connivensGroupe externeO1cChara foetidaGroupe externeO2aNitella flexilisGroupe externeO2bNitella spGroupe externeCMitPseudotsuga menziesiiConifèreCycaMitCycas revolutaCycadeFMitAsplenium nidusFougèreO3aColeochaete orbicularisGroupe externeO3bColeochaete scutataGroupe externeTableau  SEQ Tableau \* ARABIC 7 - Nom des espèces de plantes impliquées dans l’étude phylogénétique à l’aide du gène ARN 18S. Pour chaque espèce, son nom, son groupe taxonomique d’appartenance ainsi que son code. Les espèces qui sont grisés correspondent à des espèces dont la copie mitochondriale du gène ARN18S a été employée.

Les séquences ont été récupérées dans la banque de données du « Green Phylogeny Research Coordination Group ». Les espèces peuvent être regroupées en 9 clades :
Angiospermes (les plantes à fleur).
Conifères
Gnétales
Cycades (les palmiers)
Marchantales
Anthocérotes
Lycophytes
Fougères
Mousses

Nous avons calculé l’arbre de la signature grâce à l’utilisation de mots de 6 lettres et la métrique du cð2 ( REF _Ref508268637 \h Figure 54). Un bootstrap a aussi été effectué pour 500 répliquats. Les coefficients bootstrap supérieur à 50% des principaux groupes ont été indiqués.



Figure  SEQ Figure \* ARABIC 54 - Arbre phylogénétique de 99 espèces de plantes à l aide de la signature. Signatures de 6 lettres et métrique du cð2. La signature moyenne du groupe des Angiospermes et celle du groupe des copies mitochondriales sont placées à droite de chaque groupe.

L’arbre de la signature présente de nombreuses similarités avec celui publié par Soltis et al  ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999). Les angiospermes, les conifères, les gnétales, les cycades et les fougères forment chacune un groupe monophylétique. Un point important de cet arbre est la position des différentes espèces appartenant au groupe externe. Ce groupe est divisé en deux. D’un coté, les espèces O1 et O2, qui sont des charophytes, sont placées à la base des plantes à graines (angiospermes, gnétales, conifères). D’un autre, les espèces O3, des coléochaetophytes, sont placées à la base des plantes terrestres. De plus, 4 espèces attirent notre attention : Pseudotsuga menziesii (Conifère), Cycas revoluta (Cycade), Asplenium nidus (Fougère) et Notothylas breutelii (Anthocérote). Les signatures de ces 4 espèces sont séparées de leurs groupes taxonomiques d’appartenance et sont placées à coté du groupe externe O1-O2, avec de longues branches. En regardant les séquences et l’origine de celles-ci, nous avons effectué deux conclusions :
La séquence de Notothylas breutelii est incomplète dans les banques de données. Le grand nombre de nucléotides indéterminés a grandement perturbé la signature de la séquence, rendant impossible son utilisation.
Les copies du gène de l’ARN 18S des espèces Pseudotsuga menziesii, Cycas revoluta et Asplenium nidus ne sont pas nucléaires mais mitochondriales. Or la signature de séquences d’ADN mitochondrial d’une espèce diffère considérablement de celle de séquence d’ADN nucléaire  ADDIN EN.CITE Cornille200328530000000285Cornille, F.Dufraigne, C.Giron, A.Fertil, B.Deschavanne, P.2003Detection of DNA encoding structural RNAs in genomesChristophe, C.Lenhof, H.-S.Sagot, M-F.European Conference on Computational BiologyParis, France483-4(Cornille et al., 2003) ( REF _Ref508268655 \h Figure 55).


Figure  SEQ Figure \* ARABIC 55 - Comparaison de la signature d’une copie nucléaire de l’ARN 18S et celle d’une copie mitochondriale. La signature de l’ARN 18S nucléaire d’une espèce proche est aussi représentée. Les signatures nucléaires sont plus proches que les signatures de la même espèce.


Afin de confirmer la position du groupe externe, les signatures des séquences de l’ARN 18S de Homo sapiens, Saccharomyces cerevisiae et Scizosaccharomyces pombe ont été ajoutées. Les signatures de ces trois espèces sont venues se brancher sur l’arbre au niveau du groupe O1-O2 (Données non montrées), confirmant ce dernier en tant que groupe externe. Nous avons décidé par la suite de ne pas prendre en compte les 4 signatures atypiques ainsi que les signatures du groupe O3. L’arbre que l’on obtient par la signature est représenté sur la  REF _Ref508268691 \h Figure 56.

Page précédente :
Figure  SEQ Figure \* ARABIC 56 - Arbre phylogénétique des plantes obtenu par comparaison des signatures de l ARN 18S. Signatures de 6 lettres  métrique du cð2. Les coefficients bootstrap (500 réplicats) supérieurs à 50% des principaux groupes sont indiqués. Les noms des espèces sont indiqués par un code (voir tableau X pour la correspondance).



On retrouve dans cet arbre les résultats précédemment obtenus par la signature. L’organisation des plantes à fleur (Angiosperme + ((Cycade + Gingko) + (Conifère + Gnétale))) qui est le principal résultat de l’article de Soltis  ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999) est retrouvé par notre étude et d’autres études phylogénétiques classiques  ADDIN EN.CITE Chaw200025200000000252107602779782000Apr 11Seed plant phylogeny inferred from all three plant genomes: monophyly of extant gymnosperms and origin of Gnetales from conifers4086-91Institute of Botany, Academia Sinica, Taipei 11529, Taiwan.Chaw, S. M.Parkinson, C. L.Cheng, Y.Vincent, T. M.Palmer, J. D.Proc Natl Acad Sci U S ADNA, Ribosomal/genetics*Genome, PlantGymnosperms/*geneticsMolecular Sequence Data*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Trees/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10760277Källersjö199825500000000255Källersjö, M.Farris, J.S.Chase, W.Bremer, B.Fay, M.F.Humpries, C.J.Petersen, G.Seberg, O.Bremer, K.1998Simultaneous parsimony jackknife analysis of 2538 rbcl DNA sequences reveals upport for major clades of green plants, land plants, seed plants and flowering plants.Plant Syst. Evol.2132599-287(Chaw et al., 2000; Källersjö et al., 1998). Ces relations sont originales, car les gnétales sont plus souvent reliés aux angiospermes par les données morphologiques (voir  ADDIN EN.CITE Crepet199825400000000254Crepet, W. L.1998The abominable mysteryScience2821653–1654Doyle198625300000000253Doyle, J. A.Donoghue, M. J.1986Seed plant phylogeny and the origin of the angiosperms: an experimental cladistic approachBot. Rev.52321-431Lecointre20011810000000018Lecointre, G.Le Guyader, H.2001Classification phylogénétique du vivantParisBelin15442-7011-2137-Xphylogeny(Crepet, 1998; Doyle and Donoghue, 1986; Lecointre and Le Guyader, 2001)).
De plus, le rapprochement des Equisetum et Psilotales avec les Fougères est lui aussi confirmé. Cette position a été retrouvée dans d’autres travaux  ADDIN EN.CITE Kenrick1997256100000002561560987308 (cloth : alk. paper) 1560987294 (paper : alk. paper)The origin and early diversification of land plants : a cladistic studyWashington, DCSmithsonian Institution Press1997xi, 441 p.Smithsonian series in comparative evolutionary biologyPaleobotany.Evolution Land plantsKenrick, PaulCrane, Peter R.Kenrick199725700000000257Kenrick, P.Crane, P.R.1997The origin and early evolution of plants on land.nature389664633-9Manhart1994258000000002588075831321994JunPhylogenetic analysis of green plant rbcL sequences114-27Department of Biology, Texas A&M University, College Station 77843.Manhart, J. R.Mol Phylogenet EvolAmino Acid SequenceBase SequenceDNA/geneticsEvolutionGenes, Plant/*geneticsMolecular Sequence Data*PhylogenyPlants/*geneticsSupport, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8075831(Kenrick and Crane, 1997a; Kenrick and Crane, 1997b; Manhart, 1994) et ces espèces sont considérées comme sœurs. L’arbre de la signature regroupe les Psilotales et les Ophioglossaceae dans les fougères, ce qui est aussi proposé par JR. Manhart  ADDIN EN.CITE Manhart1994258000000002588075831321994JunPhylogenetic analysis of green plant rbcL sequences114-27Department of Biology, Texas A&M University, College Station 77843.Manhart, J. R.Mol Phylogenet EvolAmino Acid SequenceBase SequenceDNA/geneticsEvolutionGenes, Plant/*geneticsMolecular Sequence Data*PhylogenyPlants/*geneticsSupport, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8075831(Manhart, 1994). Cependant contrairement aux résultats de Soltis  ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999), les fougères sont paraphylétiques dans l’arbre de la signature.
Le bruit dans la matrice des distances issues de la signature a été évalué à entre 5 et 10%, grâce au travail de Guénoche et Garreta  ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000).
La position du groupe externe sépare les plantes entre les plantes à fleur et les autres plantes terrestres. Ce résultat, contraire à celui de Soltis et al  ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999) qui ont obtenu leurs résultats par parcimonie, est assez étrange et fait penser au phénomène d’attraction des longues branches. En effet, la signature de la séquence d’une plante à fleur est très différente de celle des autres plantes terrestres. De plus, les signatures atypiques, provenant de copies mitochondriales ou d’une séquence mal séquencée, se placaient aussi à cette position. La position du groupe externe O3 est plus proche de ce que l’on est amené à attendre d’après les résultats de Soltis et al. Cependant, ce dernier a obtenu le même résultat quand il a étudié ses données par la méthode de distances. De même, avec la méthode des distances, Soltis et al ont trouvé que les lycophytes étaient divisés en deux groupes et que les mousses et les marchantiales ne formaient pas de groupes monophylétiques. Ces résultats correspondent à ce que l’on obtient avec la signature. Ainsi, la méthode de la signature a conduit à des résultats similaires à ceux obtenus par la méthode des distances.


La signature de l’ARN

Dufraigne et al  ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont montré, lors de la détection de transferts horizontaux, que les signatures d’ARNr étaient détectées comme originale par rapport à la signature de l’hôte. La signature de l’ARNr dans chaque génome est significativement différente de celui de l’hôte  ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005). Nous avons cherché à déterminer si toutes les séquences d’ARNr présentent une signature commune, différente de l’ensemble des signatures d’espèces. Pour cela, nous avons utilisé une classification par la méthode des k-means. Les différentes séquences d’ARNr de 27 génomes procaryotes sont concaténées. Nous avons comparé les signatures des fragments d’ARNr (c’est-à-dire de fragment de la séquence concaténée) à celles de fragments des différentes espèces. Les signatures utilisées sont celles de mot de 4 lettres et pour des fragments de 1 kb.

Type de fragmentFragments bien classés (%)27 espèces83.9ARNr98,9
Tableau  SEQ Tableau \* ARABIC 8 - Classification par k-means des fragments hôte de 27 génome et de fragment d’ARNr, selon leur classe.

Un fragment d’une espèce est bien classé s’il est assigné à un groupe correspondant à son espèce d’origine, et un fragment d’ARN est bien classé s’il est placé dans un groupe ARNr.
Les résultats montre que presque 99% des fragments d’ARNr sont placés dans un groupe d’ARNr ( REF _Ref508268606 \h Tableau 7). Donc ces résultats confirment que les signatures de l’ARNr se regroupent entre elles plutôt que d’être assigné à leur génome d’origine.

Nous avons ensuite utilisé la méthode du plus proche voisin (cf.  REF _Ref506899739 \r \h 2.3.4.2). Pour cela, l’ensemble des fragments des 27 espèces et d’ARNr sont comparés à 28 signatures de référence : la signature moyenne des 27 génomes et la signature moyenne des ARNr. Chaque fragment est assigné au groupe de référence où la distance entre la signature du fragment et celle du groupe est la plus faible.

FragmentsFragments bien classés (%)ARNr88Espèce d’origine87
Tableau  SEQ Tableau \* ARABIC 9 - Classification par les plus proches voisins.

87 % des fragments de génomes sont correctement assignés à leur génome d’origine ( REF _Ref508268762 \h Tableau 8). On retrouve le résultat précédemment trouvé par Deschavanne et al  ADDIN EN.CITE Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999) (cf.  REF _Ref506899739 \r \h 2.3.4.2). De plus, 88 % des fragments d’ARNr sont quand à eux assignés à la signature moyenne de l’ARNr. Donc les séquences d’ARNr présentent une signature commune quel que soit leur origine.

Pour vérifier si les signatures forment bien un groupe homogène, nous avons calculé les distributions des distances intra-groupes et inter-groupes et nous les avons comparées. Pour cela, nous avons utilisé à nouveau des fragments de 1kb d’ARNr provenant de différentes sources : procaryotes, eucaryotes, mitochondrial et chloroplasmique. Les distances inter-espèces ont été calculées sur les 27 génomes procaryotes précédemment utilisés. Les distances inter-espèces et la moyenne des distances intra-espèces pour chacun des génomes procaryotes servent de contrôle afin de vérifier que l’on a un groupe d’ARNr.

ARNr MitochondialARNr ChloroplastiqueARNr ProcaroyteARNr EucaryoteARNr Euc/ProcMoyenne
Intra-espèce (27)Inter-espèceMédiane0,03240,02800,02280,02280,02410,02510,0440Moyenne0,03650,03070,02540,02440,02620,02600,0485Ecart type0,01480,00950,00720,00700,00720,00450,0227
Tableau  SEQ Tableau \* ARABIC 10 - Distribution des distances entre signatures en fonction de l’origine des fragments. L’ARNr Euc/Pro correspond à la réunion des ARNr eucaryotes et procaryotes, hors mitochondriaux et chloroplastiques.

La distribution des distances intra-ARNr procaryotes, eucaryotes et chloroplastiques sont très semblables à celle que l’on observe en moyenne pour un génome procaryote ( REF _Ref508268780 \h Tableau 9). Nous n’avons pas incorporé les eucaryotes, car ceux-ci sont plus hétérogènes. Les distributions des distances sont très différentes de celle des distances inter-espèces, montrant ainsi que les ARNr forment un groupe homogène possèdant une signature commune. L’ARNr mitochondrial est lui un cas à part, car la distribution des distances intra-ARNr mitochondrial est plus proche de celle des distances inter-espèce que de celle des distances intra-espèces. Cela suggère que l’ARNr mitochondrial, en plus d’avoir une signature différente, ne forme pas un groupe homogène.
La signature de l’ARNr semble donc aussi spécifique que celle d’une espèce : L’ARNr possède une signature commune.
Cette propriété des séquences d’ARNr peut s’expliquer par la grande conservation de l’ARNr au cours de l’évolution. De plus, l’ARNr possède de fortes contraintes structurales dues à sa fonction dans la cellule. Or Karlin  ADDIN EN.CITE Karlin199815900000000159Karlin, S.Global dinucleotide signatures and analysis of genomic heterogeneityBacteria/*classification*Base CompositionGenome, Archaeal*Genome, Bacterial*OligodeoxyribonucleotidesPhylogenySequence Analysis, DNA/*methodsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, Stanford, CA 94305- 2125, USA.10066522http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10066522 http://biomednet.com/article/JMCR.mc1502Curr Opin Microbiol199815598-610.(Karlin, 1998) a proposé comme explication à la signature, la présence de contraintes structurales fortes dans le génome. Pour l’ARNr, ces contraintes sont clairement identifiées par le fait que celui-ci doit se replier et que de nombreux nucléotides sont appariés deux à deux.
Cette signature, différente de celle de l’espèce, conduit à se poser des questions quant à l’utilisation de l’ARN 18S en phylogénie. Il semble que l’ARNr a suivi une évolution différente ou parallèle à celle de son hôte. Les signatures des ARNr forment un groupe homogène significativement différent de celles des espèces. Donc l’échelle d’évolution de l’ARNr n’est pas la même que celles des espèces. Les temps d’évolution inférés à partir des séquences d’ARNr ne correspondent pas à ceux des espèces.


Arbre multi-gène

Les arbres phylogénétiques présentent deux types de signal : l’évolution des espèces, mais aussi celle propre au gène (voir les chapitres  REF _Ref507587490 \r \h 2.2.4.5,  REF _Ref507587506 \r \h 2.2.5.1). De même, la comparaison des signatures provenant d’un seul gène, peut conduire à ne pas inférer l’arbre des espèces, mais celui du gène. En effet, comme nous venons de la voir pour l’ARNr, certains gènes possèdent une signature propre. Les signatures de ces séquences comporteront donc deux signaux : la signature de l’espèce, mais aussi la signature du gène. Cette signature peut provenir de contraintes structurales fortes, imposant un certain site actif ou une certaine composition en base. La classification de fragments de génomes de 1 kb a montré que ceux-ci se classaient en fonction de leur génome d’appartenance (cf.  REF _Ref506899739 \r \h 2.3.4.2,  REF _Ref507587780 \r \h 3.1.2). Mais il s’agit de fragments de 1kb pris au hasard dans les génomes et qui étaient non corrélés. Cela n’est pas le cas avec lorsque l’on étudie les séquences homologues, car elles sont liées par le fait qu’elles correspondent à un même gène.
Une des manières de résoudre ce problème est de prendre en compte un grand nombre de gènes et d’étudier l’ensemble des séquences ainsi recueillies. Ensuite un consensus est effectuer
Nous proposons d’utiliser la signature dans le cadre de la prise en compte de plusieurs gènes. La signature est un ensemble de fréquences donc il est facile de combiner des signatures. Il suffit d’appliquer des opérations de statistiques sur les signatures. Nous proposons deux méthodes. Premièrement, on suppose que chaque gène apporte la même quantité d’information. Dans ce cas, pour chaque espèce, on calcule la signature moyenne des signatures de l’ensemble des gènes étudiés. L’autre possibilité est de considérer que chaque gène apporte une information proportionnelle à la longueur de la séquence du gène. Ainsi, pour chaque espèce, les séquences de tous les gènes sont concaténées et la signature de l’espèce est calculée à partir de cette séquence ( REF _Ref508268882 \h Figure 57).


Figure  SEQ Figure \* ARABIC 57 - Méthode pour l’arbre multi-gène en utilisant la signature.

Les signatures de chaque espèce seront alors comparées par la même méthode que celle que l’on a développée pour les signatures de séquences homologues.
Une autre possibilité est d’effectuer une étude phylogénétique à l’aide de la signature pour tous les gènes que l’on étudie. L’ensemble des arbres obtenus sert alors à construire un arbre consensus.

Pour mener notre étude, nous avons sélectionné 10 espèces de procaryotes : 9 bactéries (Bacillus subtilis, Clostridium perfringens, Escherichia coli, Lactococcus lactis, Neisseria meningitides, Salmonella typhimurium, Staphylococcus aureus, Vibrio cholerae, Xanthomonas axonopodis) et une archaebactérie (Archaeoglobus fulgidus). Nous avons ensuite utilisé la banque de données SYSTERS  ADDIN EN.CITE Krause200023400000000234105922442812000Jan 1The SYSTERS protein sequence cluster set270-2Deutsches Krebsforschungszentrum, Theoretische Bioinformatik, Im Neuenheimer Feld 280, D-69120 Heidelberg, Germany. a.krause@dkfz-heidelberg.deKrause, A.Stoye, J.Vingron, M.Nucleic Acids ResAmino Acid Sequence*Database Management Systems*Databases, FactualInternetMolecular Sequence DataProteins/*chemistrySequence Homology, Amino AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10592244(Krause et al., 2000) pour déterminer quels étaient les gènes homologues dont une séquence était séquencée pour chacune des espèces. SYSTERS est une banque de données de familles de séquences protéiques commune à un ensemble d’espèces. L’interrogation de SYSTERS a renvoyé 119 familles de protéines. Ces 119 familles ont ensuite triées pour ne conserver que celles qui avaient réellement une séquence nucléique supérieur à 1 kb dans les banques de données pour chacune de ces espèces. De plus, afin d’éviter de biaiser les résultats en n’ayant qu’un seul type de gènes dans le jeu de données, nous avons aussi supprimé certains gènes codant pour le transport d’acides aminés, même si ceux ci restent nombreux. Au final, 33 gènes ont été utilisés. Les noms de ces gènes ainsi que la taille moyenne des séquences sont indiqués dans le tableau suivant ( REF _Ref508268959 \h Tableau 11). L’ensemble des séquences représente environ 57.2 kb par espèce.


Adenylosuccinate lyase1.3 kbAdenylosuccinate synthetase1.3 kbAlanyl-tRNA synthetase2.6 kbArgininosuccinate synthase1.3 kbArgininosuccinate lyase1.4 kbArginyl-tRNA synthetase1.7 kbAspartate aminotransferase1.2 kbAspartyl-tRNA synthetase1.8 kbCarbamyl-phosphate synthase3.2 kbCell division protein ftsZ1.2 kbChorismate synthase1.1 kbCTP synthase1.6 kbDNA-directed RNA polymerase2.6 kbDNA topoisomerase I2.0 kbElongation factor 22.1 kbEnolase1.3 kb5-enolpyruvylshikimate-3-phosphate synthetase1.3 kbGlutamine synthetase1.5 kbLeucyl-tRNA synthetase2.8 kbMethionyl-tRNA synthetase2.1 kbOrnithine carbamoyltransferase1.0 kbPantothenate metabolism flavoprotein1.2 kbD-3-phosphoglycerate dehydrogenase1.2 kbPhosphoglycerate kinase1.2 kbPhosphomannomutase1.3 kbPhosphoribosylformylglycinamidine synthase II3.8 kbQueuine tRNA-ribosyltransferase1.1 kbRibonucleotide reductase2.3 kbSerine hydroxymethyltransferase1.2 kbThermosome alpha subunit1.6 kbThreonyl-tRNA synthetase2.0 kbTranslation elongation factor EF-Tu1.3 kbValyl-tRNA synthetase2.6 kb
Tableau  SEQ Tableau \* ARABIC 11 - Nom et taille des gènes étudiés dans l étude multi-gène.

Nous avons calculé, pour chacun des gènes, l arbre de la signature pour des mots de 6 lettres et pour la métrique du cð2. Les arbres des méthodes des distances ont aussi été inférés. Pour la méthode des distances, nous avons utilisé le modèle d’évolution HKY85 et l’algorithme de reconstruction fastME. Les autres méthodes de phylogénies classiques (parcimonie et maximum de vraisemblance) utiliseront les conditions que j’ai exposé dans le chapitre  REF _Ref507593063 \r \h 3.3.2. Les mêmes méthodes seront utilisées sur l’ensemble des gènes. Pour cela, nous avons concaténé les alignements obtenus pour les différents gènes. Des études bootstrap ont été effectuées pour trois méthodes (distance, parcimonie et signature). La topologie de l’arbre du maximum de vraisemblance n’a pas été testée par bootstrap, car le temps de calcul nécessaire était trop important.

Par souci de lisibilité, je ne présente que les arbres consensus et non les 132 arbres phylogénétiques produits (33 (gènes) x 4 (méthode)). Les arbres consensus obtenus pour les deux méthodes de consensus utilisant la signature, c’est-à-dire moyenne des signatures pondérées ou non, sont identiques. Seul l’arbre consensus calculé à partir des signatures moyennes non-pondérées est montré. Sur la  REF _Ref508269071 \h Figure 58, les différents arbres consensus sont affichés.


Figure  SEQ Figure \* ARABIC 58 - Arbre consensus obtenu par quatre méthodes : méthode de distances, maximum de parcimonie, maximum de vraisemblance et la méthode de la signature. Le consensus pour la méthode de la signature correspond à l’arbre non-pondéré. Les coefficients de bootstrap des arbres sont indiqués pour trois méthodes. En ce qui concerne la méthode des distances, les branches plus épaisses et grises correspondent à des longueurs de branches négatives.

Dans toutes les méthodes, l’arbre consensus sépare les bactéries en deux groupes correspondant aux bactéries Gram+ et Gram-. Cependant, cette division est rarement observée dans les différents arbres de gènes individuels obtenus par les méthodes de phylogénie classiques.
Pour les bactéries Gram+, les méthodes de la signature et de parcimonie conduisent à obtenir les relations suivantes : (B. subtilis + (L. lactis + (S. aureus + C. perfingens))). La méthode des distances inverse quant à elle la position de L. lactis et S. aureus dans les bactéries Gram+. Cependant, la branche négative dans la méthode des distances indique que celle-ci a eu des problèmes pour distinguer la position de ces deux espèces. Les relations taxonomiques entre ces espèces Gram+, selon le Bergey’s  ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001), sont les suivantes : (C. perfringens + (L. lactis + (B. subtilis + S. aureus))). Aucune des méthodes ne donne ce résultat. Elles sont toutes équivalentes.
Pour les bactéries Gram-, E. coli et S. typhimurium sont toujours groupées ensemble quelque soit la méthode employée. Ce résultat n’est pas étonnant, car ces deux espèces sont très proches  ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001) et ont divergé depuis relativement peu de temps. N. meningitides et X. axonopodis sont regroupés en un même groupe stable dans la majorité des méthodes (à l’exception encore de la méthode des distances). La principale différence vient de la place de V. cholerae dans les différents arbres consensus. Toutes les méthodes classiques placent V. cholerae à la base du groupe (E. coli + S. typhimurium) , ce qui est sa place selon la taxonomie du Bergeys  ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001). V. cholerae est à la base des bactéries Gram- dans l’arbre de la signature. Ce mauvais placement peut s’expliquer par un problème de reconstruction de l’arbre phylogénétique par Neighbor-Joining. En effet, en étudiant la matrice des distances, on peut voir que V. cholerae est beaucoup plus proche de E. coli et S. typhimurium que des autres bactéries ( REF _Ref508268939 \h Tableau 12). La place de V. cholerae est du au fait que la distance entre les signatures de B. subtilis et V. cholerae est faible. Donc V. cholerae est attiré par les bactéries Gram+. Cette distance faible entre B. subtilis et certaines gð-protéobactérie sera discutée plus tard.

C. perfringens1.4728541.2118881.4705541.0804021.6257701.4863060.9244741.3864221.896021X. axonopodis1.4355821.2596400.9813631.5162171.0277210.9120981.6219051.140998V. cholerae1.1109610.6870640.5956550.8679050.8696880.6516870.997121S. aureus1.3563430.8551721.1093880.6870351.2888451.148608S. typhimurium1.1485410.7689020.3515251.0313640.744923N. meningitidis1.2772680.9058560.7823941.142616L. lactis1.2033400.7257950.986221E. coli1.1510350.750900B. subtilis1.009837 A. fulgidusB. subtilisE. coliL. lactisN. meningitidisS. typhimuriumS. aureusV. choleraeX. axonopodisTableau  SEQ Tableau \* ARABIC 12 - matrice de distance issue de la méthode de la signature

En observant les arbres obtenues par les méthodes classiques pour les différents gènes, on observe une grande différence ( REF _Ref508269125 \h Figure 59). Pour un même gène, les arbres inférés présentent souvent des topologies très différentes. Ainsi, par exemple, pour le gène ADN topoisomérase I, la méthode des distances propose un arbre très différent de l’arbre consensus et même la division Gram+/Gram- n’est pas retrouvée. Ce résultat est soutenu par un fort bootstrap. L’arbre du maximum de vraisemblance est lui correct. A contrario, pour le gène Leucine-ARNt, l’arbre de la méthode des distances est proche de l’arbre consensus, mais c’est l’arbre du maximum de vraisemblance qui est incongruent avec le consensus de la vraisemblance.


Figure  SEQ Figure \* ARABIC 59 - Diversité des arbres de gènes obtenus avec les méthodes classiques. Ici sont représentés les arbres obtenus pour deux gènes et deux méthodes. Les coefficients des arbres de la méthode des distances sont indiqués.

Afin de tester les résultats des phylogénies des différents gènes et la dispersion des arbres, nous avons comparé, par la distance de Robinson-foulds, les différents arbres consensus à l’ensemble des 33 arbres de gènes pour toutes les méthodes de phylogénie utilisées. ( REF _Ref508269143 \h Figure 60,  REF _Ref508269162 \h Tableau 13).

Figure  SEQ Figure \* ARABIC 60 - Distribution des distances de Robinson-Foulds entre l’arbre consensus et les 33 arbres de gènes pour les quatre méthodes prises en compte. La distance dT a été calculée pour la méthode des distances, le maximum de parcimonie, le maximum de vraisemblance (ML) et la méthode de la signature (mots de 6 lettres – métrique du cð2).

 EMBED Excel.Sheet.8 
Tableau  SEQ Tableau \* ARABIC 13 - Statistiques de la distribution des distances dT en fonction de la méthode utilisée.

Les différentes distributions de la distance de dissimilarité sont assez différentes. La méthode de la signature semble assez indépendante du gène étudié. En effet, la distance dT moyenne est faible et la distribution est fine. Chaque arbre de gène est très proche de l’arbre consensus. La principale différence entre les arbres de gènes consiste en la place de V. cholerae : soit à la base des Gram- comme avec l’arbre consensus, soit à la base du groupe (E. coli + S. typhimurium). Cette stabilité peut s’expliquer par les propriétés de la signature. Nous avons montré que cette dernière était conservée pour des fragments courts d’ADN, il n’est donc pas étonnant que les arbres de la signature soient peu dépendants de la fonction du gène.
À l’opposé, les arbres de la méthode des distances sont très différents de l’arbre consensus. La distance moyenne entre ces derniers et l’arbre consensus est forte et en plus l’écart type est faible. L’utilisation du consensus a permis de faire disparaître l’hétérogénéité des résultats et de corriger les relations. Car, si la distance moyenne avec le consensus est forte, cela signifie que la plupart des arbres de la méthode des distances ont une topologie relativement fausse. Dans une moindre mesure, les méthodes de la parcimonie et de la vraisemblance possèdent une forte variabilité. Ces deux méthodes présentent une distribution très semblable, aussi bien par la distance moyenne que pour l’écart type ( REF _Ref508269162 \h Tableau 13).
Donc un arbre de gène pour la signature semble plus proche de l’arbre consensus que pour les méthodes phylogénétiques classiques.

La méthode de la signature consiste à effectuer la moyenne des signatures calculées pour l’ensemble des gènes que l’on étudie. Nous venons de voir que les arbres de gènes de la signature étaient très proches de l’arbre consensus et ne dépendaient que peu de la fonction du gène. Il est donc possible pour calculer la signature moyenne d’une espèce de prendre en compte des gènes dont il n’existe pas, dans les banques de données, des séquences pour l’ensemble des espèces étudiées. Nous avons pris en compte 9 nouveaux gènes et nous avons ajouté leurs séquences à notre jeu de données ( REF _Ref508269162 \h Tableau 13). Grâce à cela, la taille maximale de séquences pour une espèce que nous avons utilisée a été portée à 65 kb.

nomTailleNombre de séquencesAcetolactate synthase large subunit1.7 kb8Cysteinyl-tRNA synthetase1.4 kb8Galactosyltransferase1.1 kb4GTP cyclohydrolase II1.1 kb7Histidine kinase2.0 kb6Phosphoenolpyruvate synthase2.4 kb7dTDP-glucose 4,6-dehydratase1.1 kb9Tryptophan synthase subunit beta1.2 kb9X-pro aminopeptidase1.3 kb3
Tableau  SEQ Tableau \* ARABIC 14 - Nom des gènes additionnés à l’étude et ne possédant pas une séquence pour l’ensemble des espèces.

La signature pour des mots de 6 lettres pour chacune des séquences ajoutées a été calculée, puis la signature moyenne de chaque espèce. Nous avons alors inféré alors l’arbre phylogénétique à partir de ces signatures. L’arbre obtenu est identique à celui que a été construit à partir du jeu de données ne contenant que des gènes exprimés chez toutes les espèces.

La robustesse de la topologie a aussi été testée en faisant varier le nombre de gènes que l’on prend en compte pour chaque espèce. Cette procédure se rapproche de celle du Jacknife  ADDIN EN.CITE Li199726010000000260Li, W. H.1997Molecular EvolutionSinauer, AndrewSinauer487Sinauer0-87893-463-4(Li, 1997). Pour effectuer cette étude, nous avons choisi de prendre en compte un certain pourcentage de signatures de gène pour chaque espèce. Les signatures sélectionnées au hasard servent alors à calculer la signature moyenne de l’espèce. On construit alors un arbre phylogénétique à partir de la méthode des distances. La procédure est répétée un grand nombre de fois (100 fois pour cette étude) et on effectue un consensus sur les arbres trouvés. Nous avons choisi de faire cette étude pour 30, 50, 75 et 90 % des gènes. Les résultats sont rassemblés dans le tableau suivant ( REF _Ref508269219 \h Tableau 15).

Pourcentage de gènes utilisés30 %50 %75 %100 %Commentaires sur les résultatsMême topologie que l’arbre consensus. La majorité des coefficients sont égaux à 100 %. Les différences sont :
- (E. coli + S. typhimurium)=91 %
- (N. meningitides + X. axonopodis)=96 %Même topologie que l’arbre con-sensus. Tous les coefficients sont égaux à 100 %.Même topologie que l’arbre con-sensus. Tous les coefficients sont égaux à 100 %.Même topologie que l’arbre con-sensus. Tous les coefficients sont égaux à 100 %.
Tableau  SEQ Tableau \* ARABIC 15 - Récapitulatif du test de robustesse de l’arbre consensus de la signature par Jacknife.


Comme la comparaison de signatures ne s’appuie pas sur une hypothèse d’homologie, il est possible de déterminer à l’aide de la signature les relations entre les différents gènes. Stuart et al  ADDIN EN.CITE Stuart200221700000000217119192971942002AprA comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes554-62Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Leader, J. J.Mol Biol EvolAlgorithmsAnimalsComputational BiologyDatabases, Protein*GenomeMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies SpecificityVertebrates/classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11919297(Stuart et al., 2002b) ont utilisé cette méthode sur des signatures protéiques pour démontrer que ces signatures se rassemblait en fonction du gène. Nous allons comparer l’ensemble des signatures que nous avons calculées, c’est-à-dire 393 signatures pour des mots de 6 lettres. Cette comparaison a permis de comparer l’influence de l’évolution de gènes par rapport à l’évolution des espèces. Un arbre hiérarchique avec les 393 signatures est inféré à l’aide de la méthode de Ward. Le choix d’une analyse par arbre hiérarchique provient du fait que celle-ci est une méthode non supervisée de classification qui permet de détecter les proximités entre les séquences. L’arbre obtenu est présenté sur la Figure 61.

Le principal résultat de l’arbre hiérarchique est que les signatures se regroupent globalement en fonction des espèces. De plus, les relations entre les espèces présentent quelques différences avec elle de l’arbre consensus. Tout d’abord la topologie des gð-protéobactéries est plus en accord avec celle qui est attendue. V. cholerae se rapproche de E. coli et S. typhimurium ( REF _Ref508269306 \h Figure 62). Les signatures de ces dernières sont toujours entre-mélés. C est-à-dire que les signatures de E. coli et S. typhimurium sont regroupés par gène. La différenciation entre ces deux espèces est très récente et les signatures des séquences homologues n’ont pas eu le temps d’acquérir une signature différente. Dans certains cas, on a même le regroupement de signature d’un même gène pour le trio d’espèce E. coli, S. typhimurium et V. cholerae. Les espèces X. axonopodis et N. meningitides ne sont plus regroupées. La distance entre les deux groupes de signatures pour ces deux espèces est si grande que l’algorithme du classement hiérarchique n’a pas pu les relier. En ce qui concerne les bactéries Gram+, la signature des séquences de C. perfingens est très différente de celles de autres bactérie Gram+. En conséquence, le groupe de signatures de C. perfingens est placé à la base des signatures Gram+.
Ces résultats confirment que la signature est conservée dans des petits morceaux d’ADN  ADDIN EN.CITE Deschavanne200020430000000204Deschavanne, P.Giron, A.Vilain, J.Dufraigne, C.Fertil, B.2000Genomic signature is preserved in short DNA fragmentsBIBE2000 IEEE international Symposium on bio-informatics & biomedical engineeringWashington, USA161-167(Deschavanne et al., 2000). La spécificité d’espèce est plus forte que l’homologie.



Page précédente : Figure  SEQ Figure \* ARABIC 61 - Classication hiérarchique des 393 signatures de mots de 6 lettres. Toutes les signatures appartenant à une même espèce possèdent le même code couleur. Les noms des espèces impliquées dans un groupe sont indiqués sur la gauche de l’arbre. Les signatures correspondant au gène EF-Tu sont aussi mises en avant.


Figure  SEQ Figure \* ARABIC 62 - Partie de l’arbre de la classification hiérarchique centrée sur les espèces E. coli, S. typhimurium et V. cholerae. Les symboles à gauche des noms correspondent aux gènes.

Dans l’arbre hiérarchique, certaines signatures se sont regroupées en fonction du gène et non comme pour les autres en fonction de l’espèce. C’est le cas de toutes les signatures du gène EF-Tu (Figure 61). Les signatures forment un groupe à la base de V. cholerae/E. coli/S. typhimurium. Les séquences du gène EF-Tu sont tellement conservées que les signatures se rassemblent. Cela peut s’expliquer par le fait que les contraintes sur les séquences du gène EF-Tu sont beaucoup plus fortes que pour les autres gènes. Les deux seules copies du gène qui ne sont pas rassemblés avec les autres sont celles de C. perfingens et A. fulgidus. En observant les arbres de la signature et de la méthode des distances pour ces espèces, on constate que ces séquences sont très différentes des autres, suffisamment pour que les signatures de ces deux espèces soint regroupées dans avec celles de leur espèce et non avec les autres signatures de EF-Tu.
D’autres signatures se placent non pas dans le groupe correspondant à leur espèce d’origine, mais ailleurs dans l’arbre hiérarchique. Ces signatures sont placées à côté de signature provenant du même gène mais pour d’autres espèces. Il faut différencier ce cas du cas précédent concernant le gène EF-Tu. On n’a pas un arbre de gène incorporé dans l’arbre hiérarchique, mais des signatures isolées, groupées en paire avec une signature du même gène. Ces placements pourraient provenir de transferts horizontaux. Par exemple, la signature du gène phosphomannomutase de S. typhimurium est placée dans le groupe S. aureus ( REF _Ref508269372 \h Figure 63). Or ces deux espèces ne sont pas proches, donc ce placement amène des questions. L’arbre de la signature et celui de la méthode de distances pour le gène phosphomannomutase présentent des relations complètement fausses entre les différentes espèces procaryotes. Malgré cela, les signatures du gène phosphomannomutase pour les autres espèces se sont correctement placées dans le groupe espèce. La position de la copie S. typhimurium pourrait être le résultat d’un transfert horizontal. Deux autres transferts horizontaux potentiels peuvent être proposés au vue de l’arbre hiérarchique :
La signature du gène « elongation factor 2 » pour N. meningitides placée à l’intérieur du groupe V. cholerae ( REF _Ref508269306 \h Figure 62).
La signature de « l’ornithine carbamoyltransferase » pour V. cholerae placée à la base du groupe C. perfingens.




Figure  SEQ Figure \* ARABIC 63 - Partie de l’arbre hiérarchique centré sur le groupe S. aureus.

Pour valider les résultats, nous avons interrogé des banques de transfert horizontaux : HGT-DB  ADDIN EN.CITE Garcia-Vallve200320500000000205Garcia-Vallve, S.Guzman, E.Montero, M. A.Romeu, A.2003HGT-DB: a database of putative horizontally transferred genes in prokaryotic complete genomesNucleic Acids Research311187-189(Garcia-Vallve et al., 2003) et HGT Analysis Database  ADDIN EN.CITE Nakamura200423000000000230Nakamura, Y.Itoh, T.Matsuda, H.Gojobori, T.2004Biased biological functions of horizontally transferred genes in prokaryotic genomesNature Genetics36760-766(Nakamura et al., 2004). Dans la banque HGT-DB, la séquence du gène phosphomannomutase est annotée comme un transfert horizontal. Par contre, les deux autres transferts horizontaux ne sont pas considérés comme des transferts horizontaux par les deux banques de données. On détecte néanmoins ici les signatures originales qui doivent être étudiées de manière approfondies avant d’incorporer ces gènes dans un arbre multi-gène.
L’utilisation de la signature est aisée et rapide et la classification hiérarchique a permis de distinguer des séquences originales, comme les transferts horizontaux. Cela peut être très utile, en tant que prétraitement dans les études multi-gène afin de effectuer le tri des gènes qui seront employés  ADDIN EN.CITE Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Daubin et al., 2002; Daubin et al., 2001).

Nous avons utilisé un grand nombre de gènes pour déterminer les relations entre nos 10 espèces procaryotes. Puis on a utilisé des gènes dont on n’avait pas les séquences pour l’ensemble des espèces prises en compte. On a donc comparé des séquences non-homologues grâce à la signature.
Pour chaque espèce, j ai calculé la signature pour des mots de 6 lettres à partir des génomes complets. Ces signatures ont été comparées à l aide la métrique du cð2 afin d obtenir une matrice de distance, qui a servi à inférer un arbre phylogénétique à l’aide de l’algorithme du Naighbor-Joining.


Figure  SEQ Figure \* ARABIC 64 - Arbre phylogénétique obtenu par la méthode de la signature, à partir de signatures de génomes complets pour des mots de 6 lettres. La métrique employée est la métrique du cð2.

L arbre obtenu ( REF _Ref508269415 \h Figure 64) à partir des signatures des génomes est le même que celui que l on avait obtenu précédemment. La place de V. cholerae s explique de la même façon. Malgré le fait que V. cholerae soit très proche de E. coli et S. typhimurium, la faible distance entre V. cholerae et B. subtilis conduit ces deux espèces à se placer à la base de leur groupe Gram respectif.


Application de la signature aux séquences non-homologues

Phylogénie des gð-protéobactéries

Nous venons de montrer que l’utilisation de signatures de séquences non-homologues comme les génomes complets a permis de déterminer les relations entre les espèces. Pour cela, on a étudié 10 espèces de procaryotes. Pour étendre les résultats, nous nous sommes intéressé à un groupe taxonomique des bactéries bien étudié : les gð-protéobactéries. Nous avons sélectionné 16 espèces appartenant aux gð-protéobactéries dont le génome complet est disponible. Ces espèces peuvent être regroupées en 6 groupes taxonomiques ( REF _Ref508269219 \h Tableau 15).

NomGroupeShewanella oneidensisAlteromonadaleBuchnera aphidicolaEnterobactérieEscherichia coliEnterobactérieSalmonella TyphiEnterobactérieSalmonella typhimuriumEnterobactérieShigella flexneriEnterobactérieYersinia pestisEnterobactérieHaemophilus influenzaePasteurellesPasteurella multocidaPasteurellesPseudomonas aeruginosaPseudomonacePseudomonas putidaPseudomonaceVibrio choleraeVibrionaleVibrio vulnificusVibrionaleXanthomonas axonopodisXanthomonadalesXanthomonas campestrisXanthomonadalesXylella fastidiosaXanthomonadales
Tableau  SEQ Tableau \* ARABIC 16 - Nom des espèces de gð-protéobactéries prises en compte.

Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont développé une méthode permettant à partir de la signature d’inférer l’arbre phylogénétique. Dans cet article, 30 espèces procaryotes ont été comparées à l’aide de mots de 4 lettres dont on avait corrigé la signature par un Markov d’ordre 0. Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont déterminé que cette correction était celle qui permettait d’obtenir l’arbre des signatures le plus congruent avec celui que l’on obtenait à partir des séquences d’ARN 16S. L’utilisation de signatures non corrigées et celles corrigés par la méthode proposée par Karlin  ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Schbath1995219000000002198521272231995FallExceptional motifs in different Markov chain models for a statistical analysis of DNA sequences417-37INRA, Departement de Biometrie et Intelligence Artificielle, Jouy-en-Josas, France.Schbath, S.Prum, B.de Turckheim, E.J Comput BiolBacillus subtilis/geneticsBase SequenceCodon/geneticsComparative StudyDNA, Bacterial/geneticsEscherichia coli/genetics*Markov Chains*Models, StatisticalMolecular Sequence DataResearch Support, Non-U.S. Gov'tSequence Analysis, DNA/*statistics & numerical datahttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8521272(Karlin et al., 1994; Schbath et al., 1995) ne permettaient pas, quant à elle, d’obtenir de bons résultats.
La correction que propose Pride et al consiste à changer les valeurs des fréquences observées des mots en les divisant par la fréquence des mots provenant d’un Markov d’ordre 0 (voir  REF _Ref507680671 \r \h 3.6 pour savoir comment construire ces valeurs). Pride emploie alors une distance de City-Block pour comparer les espèces. En utilisant cette correction, on permet de diminuer l’influence de la composition en base. En effet si on effectue une ACP sur les nouvelles fréquences et que l’on calcule la corrélation entre les axes de l’ACP et la composition en base, on observe que les premiers axes sont beaucoup moins corrélés que lorque l’on utilise seulement les signatures non corrigées (cf.  REF _Ref506899739 \r \h 2.3.4.2). La répartition de la composition en base s’effectue sur plusieurs axes, mais globalement de manière moins forte ( REF _Ref508269494 \h Tableau 17).

axe12345pourcentage de variane expliquée24,916,510,17,86,6corrélation à la composition en base0,1780,350,0020,0020,02
Tableau  SEQ Tableau \* ARABIC 17 - Corrélation entre les axes de l’ACP et la composition en base. L’ACP a été effectué sur 50 signatures de génomes complets, corrigées par un Markov d’ordre 0. Les corrélations, ainsi que les pourcentages de variance expliquée des 5 premiers axes de l’ACP sont indiqués.

Un point négatif de la méthode de Pride est qu’il ne considère qu’un brin du génome considérant que les deux étaient corrélés  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). Or, en faisant cela, il permet de regrouper les espèces possédant la même organisation, c’est-à-dire les gènes dans le même brin. Cependant, nous allons utiliser ce type de correction sur des signatures double-brin afin de déterminer les relations entre les espèces.
Les arbres montrant les relations entre les g-protéobactéries ont êté établis à partir des signatures non corrigées et pour celles corrigées par un Markov d’ordre 0. Les signatures utilisées seront des signatures double-brin. La métrique qui a été employée est la métrique City Block. Afin d’établir une référence, l’ARN 16S est utilisé à partir de la méthode du maximum de vraisemblance et de la méthode de la signature simple brin. Deux séquences d’ARN 16S ont été utilisées pour B. adiphidicola, car elles étaient présentes toutes les deux dans les banques de données.
Les quatre arbres inférés sont représentés dans les figures suivantes ( REF _Ref508269525 \h Figure 65,  REF _Ref508269526 \h Figure 66,  REF _Ref508269528 \h Figure 67 et  REF _Ref508269529 \h Figure 68).



Figure  SEQ Figure \* ARABIC 65 - Arbre des gð-protéobactéries obtenu à partir des signatures non-corrigées. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.


Figure  SEQ Figure \* ARABIC 66 - Arbre des gð-protéobactéries obtenu à partir des signatures corrigées par un Markov d ordre 0. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.


Figure  SEQ Figure \* ARABIC 67 - Arbre des gð-protéobactéries obtenu à partir des signatures des séquences d ARN 16S. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.

Figure  SEQ Figure \* ARABIC 68 - Arbre des gð-protéobactéries obtenu à partir de la méthode du maximum de vraisemblance pour les séquences d ARN 18S. Chaque couleur correspond à un groupe taxonomique.

Les arbres du 16S obtenus par le maximum de vraisemblance et la méthode issue des signatures permettent d’établir des relations de référence entre les. Certains groupes taxonomiques sont formés : les Xanthomonadales, Les Pseudonomaces ainsi que les Pasteurelles. Pour les arbres de référence, les entérobactéries sont regroupées de manière différente. L’arbre de la signature regroupe cinq entérobactéries : les 2 Salmonella, E. coli, S. flexneri et Y. pestis. Le maximum de vraisemblance ne place pas Y. pestis dans ce groupe, mais juste à sa base. Les deux arbres rapprochent les Xanthomonadales et les Pseudodomaces, et les séquences de B. aphidicola des Pasteurelles. Dans ce dernier cas, les espèces semblent être plus éloignées des autres et possèdent des longues branches. Ces longues branches peuvent expliquer le mauvais placement des Pasteurelles dans les Entérobactéries pour l’arbre du maximum de vraisemblance (le phénomène d’attraction des longues branches).
En ce qui concerne les arbres calculés en utilisant les signatures des génomes complets, les résultats montrent que l’arbre obtenu en utilisant les signatures corrigées est celui qui est le plus en accord avec les arbres de l’ARN 16S. On obtient le même groupe d’Enterobactéries qu’avec l’arbre ARN 16S de la signature, avec les signatures corrigées. L’arbre des signatures non corrigés est perturbé par le positionnement du groupe des Xanthomonadales et des Pseudomaces au milieu du groupe des Entérobactéries. Ce groupe possède un longue branche sur l’arbre et ce placement peut peut-être s’expliquer par l’attraction des longues branches. La correction des signatures a permis de replacer ce groupe correctement. Cependant la monophylie des Xanthomonadales n’est plus assuré dans aucun des arbres obtenus à partir de signatures de génomes complets. X. fastidiosa se place à la base du groupe (Xanthomonadale + Pseudomace). Une autre différence entre les arbres des génomes complets et ceux de l’ARN 16S est un rapprochement des Pasteurelles des Vibrionales et de S. oneidensis. Dans l’arbre des signatures corrigées comme dans celui des signatures de l’ARN 16S, S. oneidensis et les deux Vibrionales forment un clade. Ce que l’on n’observe pas dans l’arbre du maximum de vraisemblance et dans l’arbre des signatures non corrigées de génomes complets.
Dans les deux arbres de la signature de génomes complets, B. aphidicola est très mal placée. Elle est toujours positionnée en dehors du clade des Entérobactéries, malgré son appartenance à ce groupe taxonomique. Nous avons donc décidé de nous intéresser aux fréquences des mots de B. aphidicola. Pour cela, nous avons calculé la signature moyenne corrigée des Entérobactéries (en dehors de B. aphidicola), et nous avons comparé les fréquences des mots de cette signature à celles de B. aphidicola qui devrait être une entérobactérie à une autre gð-protéobactérie n appartenant pas à ce groupe : V. cholerae. Les différences entre les fréquences corrigées des mots sont représentées sur la  REF _Ref508269589 \h Figure 69, et la moyenne et l écart type des deux distributions sont indiqués dans le  REF _Ref508269602 \h Tableau 18.


Figure  SEQ Figure \* ARABIC 69 - Différence de fréquences corrigées de mot de 6 lettre entre la signature moyenne corrigée des entérobactéries et de deux espèces : V. cholerae et B. aphidicola.



B. aphidicolaV. choleraedifférence moyenne0,30460,2167écart type0,29030,1943
Tableau  SEQ Tableau \* ARABIC 18 - Distribution de la valeur absolue des différences de fréquences corrigées de mots entre la signature moyenne des entérobactéries et de deux espèces : V. cholerae et B. aphodicola.

Comme on peut le voir, B. aphidicola est beaucoup plus éloignée des Entérobactéries en terme de fréquences de mots que V. cholerae. Il est donc normal que la signature ne permettent pas de relier B. aphidicola aux Entérobactéries. Pour expliquer ce résultat, il est nécessaire de rappeler la nature de B. aphidicola. B. aphidicola est une bactérie symbiotique. Elle a un génome très petit (650 kb) comparé à ceux des autres Entérobactéries non symbiotiques (4 à 5 Mb). Cette compression de génome provient de sa nature symbiotique et est le résultat de nombreuses pertes de matériels génétiques. B. aphidicola a subi de très fortes pressions évolutives qui ont conduit à un changement très important de sa signature. Elle a effectué de nombreux transferts horizontaux avec son hôte  ADDIN EN.CITE Moran200127000000000270117902572122001The process of genome shrinkage in the obligate symbiont Buchnera aphidicolaRESEARCH0054Department of Ecology and Evolutionary Biology, University of Arizona, Tucson, AZ 85721, USA. nmoran@email.arizona.eduMoran, N. A.Mira, A.Genome BiolBuchnera/*genetics/metabolismComparative StudyDNA RepairDNA, Bacterial/geneticsDNA, IntergenicEscherichia coli/genetics*Evolution, Molecular*Gene DeletionGene Expression Regulation, BacterialGene FrequencyGene Rearrangement*Genome, BacterialPhylogenyPromoter Regions (Genetics)RNA, Bacterial/geneticsResearch Support, U.S. Gov't, Non-P.H.S.SymbiosisSyntenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11790257(Moran and Mira, 2001). Ces espèces symbiotiques ont été décrites dans la littérature comme posant de nombreux problèmes phylogénétiques  ADDIN EN.CITE Itoh2002269000000002691223536899202002Oct 1Acceleration of genomic evolution caused by enhanced mutation rate in endocellular symbionts12944-8Institute of Molecular Evolutionary Genetics and Department of Biology, Pennsylvania State University, 328 Mueller Laboratory, University Park, PA 16802, USA.Itoh, T.Martin, W.Nei, M.Proc Natl Acad Sci U S ABuchnera/*geneticsDatabasesEscherichia coli/genetics*Evolution, MolecularHaemophilus influenzae/genetics*MutationPhylogenyRNA, Ribosomal, 16S/metabolismResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12235368(Itoh et al., 2002).
Les arbres des signatures de génomes complets pour des mots de 6 lettres possèdent un ratio branches internes/branches externes beaucoup plus grand que celui des signatures d’ARN 16S. En utilisant les génomes complets, on prend en compte plus d’information, résolvant ainsi un problème soulevé lors de l’étude statistique des arbres (voir le chapitre  REF _Ref507768258 \r \h 3.4.1) : la résolution des relations entre les groupes inférés.


Augmentation du nombre d’espèces prises en compte et technique de superarbre

Nous venons de montrer que les signatures de génomes complets permettaient d’obtenir de bons résultats. Or la signature permet de comparer rapidement non seulement les génomes complets, mais aussi des génomes partiels. Nous avons étendu notre étude des relations entre les procaryotes à l’ensemble des espèces dont au moins 50 kb de séquences sont connues. Le choix des 50 kb s’explique par le résultat de la classification des plus proches voisins (cf  REF _Ref506899739 \r \h  \* MERGEFORMAT 2.3.4.2). Pour des signatures de séquences de 50 kb, les résultats montrent que les signatures sont quasiment toujours bien classées. Nous avons sélectionné 551 espèces de procaryotes, qui sont regroupées en 16 groupes taxonomiques pour 510 d’entre elles. Les 16 groupes taxonomiques sont les suivants : crénarchées, euryarchées, actinobactéries, bacillales, lactobacillales, clostridiales, paramycetes, bactéroïdes, cyanobactéries, að-protéobactéries, bð-protéobactéries, dð-protéobactéries, eð-protéobactéries, gð-protéobactéries, spirochètes, thermophiles.

Les noms des espèces sélectionnées par groupe taxonomique sont indiqués ci-dessous.

Crénarchées : Acidianus ambivalens, Acidianus brierleyi, Aeropyrum pernix, Cenarchaeum symbiosum, Desulfurococcus mobilis, Metallosphaera sedula, Pyrobaculum aerophilum, Pyrobaculum islandicum, Pyrobaculum oguniense, Pyrodictium occultum, Staphylothermus marinus, Sulfolobus acidocaldarius, Sulfolobus shibatae, Sulfolobus solfataricus, Sulfolobus tengchongensis, Sulfolobus tokodaii, Sulfurisphaera ohwakuensis, Thermofilum pendens, Thermoproteus tenax.
Euryarchées : Archaeoglobus fulgidus, Ferroplasma acidarmanus, Ferroplasma acidarmanus Faci03, Ferroplasma acidarmanus Type I, Ferroplasma sp. Type II, Haloarcula japonica, Haloarcula marismortui, Haloarcula vallismortis, Halobacterium cutirubrum, Halobacterium halobium, Halobacterium salinarum, Halobacterium sp NRC-1, Halococcus morrhuae, Haloferax mediterranei, Haloferax volcanii, Methanobacterium thermoautotrophicum, Methanobacterium wolfei, Methanobrevibacter smithii, Methanococcoides burtonii, Methanococcus jannaschii, Methanococcus maripaludis, Methanococcus vannielii, Methanococcus voltae, Methanopyrus kandleri, Methanosaeta concilii, Methanosarcina acetivorans, Methanosarcina barkeri, Methanosarcina barkeri fusaro, Methanosarcina mazei, Methanosarcina thermophila, Methanosphaera stadtmanae, Methanothermococcus thermolithotrophicus, Nanoarchaeum equitans Kin4-M, Natrialba magadii, Natronobacterium pharaonis, Picrophilus torridus DSM 9790, Pyrococcus abyssi, Pyrococcus furiosus, Pyrococcus horikoshii, Pyrococcus kodakaraensis, Pyrococcus woesei, Thermococcus celer, Thermococcus fumicolans, Thermococcus hydrothermalis, Thermococcus kodakaraensis, Thermococcus litoralis, Thermoplasma acidophilum, Thermoplasma volcanium, Thermoplasmatales archaeon Gp1.
Actinobactéries : Actinomadura madurae, Actinomadura verrucosospora, Actinomyces naeslundii, Actinomyces viscosus, Actinoplanes friuliensis, Actinoplanes teichomyceticus, Actinosynnema pretiosum, Aeromicrobium erythreum, Agromyces mediolanus, Amycolatopsis azurea, Amycolatopsis mediterranei, Amycolatopsis methanolica, Amycolatopsis orientalis, Arcanobacterium pyogenes, Arthrobacter aurescens, Arthrobacter globiformis, Arthrobacter ilicis, Arthrobacter nicotinovorans, Arthrobacter sp, Bifidobacterium adolescentis, Bifidobacterium animalis, Bifidobacterium bifidum, Bifidobacterium breve, Bifidobacterium infantis, Bifidobacterium lactis, Bifidobacterium longum DJO10A, Bifidobacterium longum NCC2705, Brevibacterium flavum, Brevibacterium linens, Cellulomonas fimi, Cellulomonas pachnodae, Clavibacter michiganensis, Corynebacterium ammoniagenes, Corynebacterium callunae, Corynebacterium crenatum, Corynebacterium diphtheriae, Corynebacterium efficiens, Corynebacterium glutamicum, Corynebacterium jeikeium, Corynebacterium pseudotuberculosis, Corynebacterium striatum, Corynebacterium ulcerans, Frankia sp. EuIK1, Kineococcus radiotolerans, Kitasatospora griseola, Kitasatospora setae, Lechevalieria aerocolonigenes, Leifsonia xyli, Microbispora bispora, Micrococcus luteus, Micromonospora chersinia, Micromonospora echinospora, Micromonospora griseorubida, Micromonospora megalomicea, Micromonospora purpurea, Mycobacterium abscessus, Mycobacterium aurum, Mycobacterium avium, Mycobacterium avium paratuberculosis, Mycobacterium bovis, Mycobacterium chelonae, Mycobacterium fortuitum, Mycobacterium gastri, Mycobacterium leprae TN, Mycobacterium mageritense, Mycobacterium marinum, Mycobacterium microti, Mycobacterium rhodesiae, Mycobacterium smegmatis, Mycobacterium tuberculosis, Mycobacterium tuberculosis CDC1551, Mycobacterium tuberculosis H37RV, Mycobacterium ulcerans, Mycobacterium vanbaalenii, Nocardia lactamdurans, Nocardia uniformis, Nocardioides sp., Propionibacterium acnes KPA171202, Propionibacterium freudenreichii, Renibacterium salmoninarum, Rhodococcus equi, Rhodococcus erythropolis, Rhodococcus fascians, Rhodococcus globerulus, Rhodococcus opacus, Rhodococcus rhodochrous, Rhodococcus ruber, Rhodococcus sp. AD45, Rhodococcus sp. CIR2, Rhodococcus sp. I24, Rubrobacter xylanophilus, Saccharopolyspora erythraea, Saccharopolyspora spinosa, Saccharothrix mutabilis, Streptomyces acidiscabies, Streptomyces aerocolonigenes, Streptomyces albulus, Streptomyces albus, Streptomyces ambofaciens, Streptomyces ansochromogenes, Streptomyces antibioticus, Streptomyces arenae, Streptomyces argillaceus, Streptomyces atroolivaceus, Streptomyces aureofaciens, Streptomyces avermitilis, Streptomyces caelestis, Streptomyces carzinostaticus, Streptomyces cattleya, Streptomyces cavourensis, Streptomyces chrysomallus, Streptomyces cinnamonensis, Streptomyces cinnamoneus, Streptomyces citricolor, Streptomyces clavuligerus, Streptomyces coelicolor, Streptomyces collinus, Streptomyces diastaticus, Streptomyces exfoliatus, Streptomyces flavopersicus, Streptomyces fradiae, Streptomyces galbus, Streptomyces galilaeus, Streptomyces ghanaensis, Streptomyces glaucescens, Streptomyces globisporus, Streptomyces granaticolor, Streptomyces griseochromogenes, Streptomyces griseoflavus, Streptomyces griseolosporeus, Streptomyces griseoruber, Streptomyces griseus, Streptomyces halstedii, Streptomyces hygroscopicus, Streptomyces kanamyceticus, Streptomyces kaniharaensis, Streptomyces kasugaensis, Streptomyces laurentii, Streptomyces lavendulae, Streptomyces lincolnensis, Streptomyces lipmanii, Streptomyces lividans, Streptomyces macromomyceticus, Streptomyces maritimus, Streptomyces murayamaensis, Streptomyces nanchangensis, Streptomyces narbonensis, Streptomyces natalensis, Streptomyces netropsis, Streptomyces nodosus, Streptomyces nogalater, Streptomyces noursei, Streptomyces olivaceoviridis, Streptomyces olivaceus, Streptomyces parvulus, Streptomyces peucetius, Streptomyces pristinaespiralis, Streptomyces purpurascens, Streptomyces resistomycificus, Streptomyces reticuli, Streptomyces rimosus, Streptomyces rishiriensis, Streptomyces rochei, Streptomyces roseochromogenes, Streptomyces roseofulvus, Streptomyces scabies, Streptomyces sp MA6548, Streptomyces sp. MA6548, Streptomyces spectabilis, Streptomyces spheroides, Streptomyces tendae, Streptomyces tenebrarius, Streptomyces thermotolerans, Streptomyces thermoviolaceus, Streptomyces toyocaensis, Streptomyces venezuelae, Streptomyces verticillus, Streptomyces vinaceus, Streptomyces violaceoruber, Streptomyces virginiae, Streptomyces viridifaciens, Streptomyces viridochromogenes, Streptomyces wedmorensis, Symbiobacterium thermophilum, Thermobifida fusca, Thermobifida fusca Tfus02, Thermomonospora chromogena, Thermomonospora curvata, Thermomonospora fusca, Tropheryma whipplei str. Twist, Tropheryma whipplei TW08 27.
Bacillales : Alicyclobacillus acidocaldarius, Aneurinibacillus thermoaerophilus, Bacillus alcalophilus, Bacillus amyloliquefaciens, Bacillus anthracis, Bacillus anthracis A2012, Bacillus anthracis Australia 94, Bacillus anthracis CNEVA-9066, Bacillus anthracis str. A1055, Bacillus anthracis str. Ames 0581, Bacillus anthracis str. Sterne, Bacillus anthracis str. Vollum, Bacillus brevis, Bacillus caldolyticus, Bacillus caldotenax, Bacillus cereus ATCC 10987, Bacillus cereus ATCC 14579, Bacillus cereus G9241, Bacillus cereus ZK, Bacillus circulans, Bacillus clausii, Bacillus ehimensis, Bacillus firmus, Bacillus halodurans, Bacillus licheniformis, Bacillus licheniformis ATCC14580, Bacillus megaterium, Bacillus mojavensis, Bacillus mycoides, Bacillus pasteurii, Bacillus polymyxa, Bacillus pseudofirmus, Bacillus pumilus, Bacillus sp, Bacillus sp. BP23, Bacillus sphaericus, Bacillus stearothermophilus, Bacillus subtilis, Bacillus thermoglucosidasius, Bacillus thermoleovorans, Bacillus thuringiensis, Brevibacillus agri, Brevibacillus brevis, Brevibacillus choshinensis, Caldibacillus cellulovorans, Exiguobacterium sp. 255-15, Gemella haemolysans, Geobacillus kaustophilus, Geobacillus kaustophilus HTA426, Geobacillus stearothermophilus, Geobacillus thermocatenulatus, Listeria innocua, Listeria ivanovii, Listeria monocytogenes, Listeria monocytogenes h7858, Listeria monocytogenes str. 4b , Listeria seeligeri, Listeria welshimeri, Oceanobacillus iheyensis, Paenibacillus alginolyticus, Paenibacillus azotofixans, Paenibacillus lentimorbus, Paenibacillus macerans, Paenibacillus polymyxa, Paenibacillus popilliae, Sporosarcina globispora, Staphylococcus aureus COL, Staphylococcus aureus MRSA252, Staphylococcus aureus MSSA476, Staphylococcus aureus Mu50, Staphylococcus aureus MW2, Staphylococcus aureus N315, Staphylococcus capitis, Staphylococcus caprae, Staphylococcus carnosus, Staphylococcus epidermidis, Staphylococcus epidermidis RP62A, Staphylococcus haemolyticus, Staphylococcus hominis, Staphylococcus intermedius, Staphylococcus lentus, Staphylococcus lugdunensis, Staphylococcus saprophyticus, Staphylococcus simulans, Staphylococcus warneri, Staphylococcus xylosus, Thermoactinomyces vulgaris.
Lactobacillales : Abiotrophia defectiva, Carnobacterium divergens, Carnobacterium piscicola, Enterococcus avium, Enterococcus casseliflavus, Enterococcus faecalis V583, Enterococcus faecium, Enterococcus faecium Efae02, Enterococcus flavescens, Enterococcus gallinarum, Enterococcus hirae, Enterococcus mundtii, Lactobacillus acidophilus, Lactobacillus brevis, Lactobacillus casei, Lactobacillus collinoides, Lactobacillus crispatus, Lactobacillus delbrueckii, Lactobacillus fermentum, Lactobacillus gasseri, Lactobacillus helveticus, Lactobacillus hilgardii, Lactobacillus johnsonii, Lactobacillus paracollinoides, Lactobacillus pentosus, Lactobacillus plantarum WCFS1, Lactobacillus reuteri, Lactobacillus rhamnosus, Lactobacillus sakei, Lactobacillus salivarius, Lactobacillus sanfranciscensis, Lactococcus lactis, Lactococcus raffinolactis, Leuconostoc citreum, Leuconostoc mesenteroides, Leuconostoc paramesenteroides, Oenococcus oeni, Oenococcus oeni PSU-1, Pediococcus damnosus, Pediococcus pentosaceus, Streptococcus agalactiae 2603V, Streptococcus agalactiae NEM316, Streptococcus anginosus, Streptococcus bovis, Streptococcus constellatus, Streptococcus criceti, Streptococcus crista, Streptococcus cristatus, Streptococcus downei, Streptococcus dysgalactiae, Streptococcus equi, Streptococcus gordonii, Streptococcus iniae, Streptococcus intermedius, Streptococcus mitis, Streptococcus mitis NCTC 12261, Streptococcus mutans UA159, Streptococcus oralis, Streptococcus parasanguis, Streptococcus pneumoniae, Streptococcus pneumoniae R6, Streptococcus pyogenes, Streptococcus pyogenes M1 GAS, Streptococcus pyogenes MGAS10394, Streptococcus pyogenes MGAS315, Streptococcus pyogenes MGAS8232, Streptococcus pyogenes SSI-1, Streptococcus salivarius, Streptococcus sanguinis, Streptococcus sanguis, Streptococcus sobrinus, Streptococcus suis, Streptococcus thermophilus, Streptococcus uberis, Streptococcus zooepidemicus, Tetragenococcus halophilus.
Clostridiales : Acetivibrio cellulolyticus, Acetobacterium woodii, Butyrivibrio fibrisolvens, Caldicellulosiruptor saccharolyticus, Caldicellulosiruptor sp. Tok7B, Clostridium acetobutylicum 824, Clostridium beijerinckii, Clostridium bifermentans, Clostridium botulinum, Clostridium butyricum, Clostridium cellulolyticum, Clostridium cellulovorans, Clostridium difficile, Clostridium histolyticum, Clostridium josui, Clostridium longisporum, Clostridium paraputrificum, Clostridium pasteurianum, Clostridium perfringens, Clostridium saccharobutylicum, Clostridium saccharoperbutylacetonicum, Clostridium septicum, Clostridium sordellii, Clostridium sporogenes, Clostridium stercorarium, Clostridium sticklandii, Clostridium tetani E88, Clostridium thermocellum, Desulfitobacterium dehalogenans, Desulfitobacterium hafniense, Finegoldia magna, Heliobacillus mobilis, Moorella thermoacetica, Ruminococcus albus, Ruminococcus flavefaciens, Ruminococcus gnavus, Selenomonas ruminantium, Thermoanaerobacter ethanolicus, Thermoanaerobacter tengcongensis, Thermoanaerobacterium thermosaccharolyticum, Thermoanaerobacterium thermosulfurigenes.
Paramycetes : Acholeplasma laidlawii, Erysipelothrix rhusiopathiae, Mesoplasma florum L1, Mycoplasma agalactiae, Mycoplasma arthritidis, Mycoplasma bovis, Mycoplasma capricolum, Mycoplasma conjunctivae, Mycoplasma fermentans, Mycoplasma gallisepticum, Mycoplasma genitalium G37, Mycoplasma hominis, Mycoplasma hyopneumoniae, Mycoplasma hyopneumoniae 232, Mycoplasma hyorhinis, Mycoplasma mobile 163K, Mycoplasma mycoides, Mycoplasma penetrans, Mycoplasma pneumoniae, Mycoplasma pneumoniae M129, Mycoplasma pulmonis, Mycoplasma synoviae, Onion yellows phytoplasma, Phytoplasma, Spiroplasma citri, Spiroplasma kunkelii, Ureaplasma parvum, Ureaplasma urealyticum.
Bactéroïdes : Bacteroides cellulosolvens, Bacteroides forsythus, Bacteroides fragilis, Bacteroides ovatus, Bacteroides thetaiotaomicron, Bacteroides uniformis, Chlorobium limicola, Chlorobium tepidum, Chlorobium vibrioforme, Chryseobacterium meningosepticum, Cytophaga hutchinsonii, Cytophaga hutchinsonii Chut03, Flavobacterium johnsoniae, Porphyromonas gingivalis, Prevotella albensis, Prevotella bryantii, Prevotella intermedia, Prevotella intermedia 17, Prevotella ruminicola, Rhodothermus marinus, Tannerella forsythensis.
Cyanobactéries : Acaryochloris marina, Agmenellum quadruplicatum, Anabaena cylindrica, Anabaena sp, Anabaena variabilis, Aphanizomenon ovalisporum, Calothrix viguieri, Crocosphaera watsonii, Cyanothece sp. PCC 8801, Fremyella diplosiphon, Gloeobacter violaceus, Lyngbya majuscula, Mastigocladus laminosus, Microcystis aeruginosa, Nodularia spumigena, Nostoc punctiforme, Nostoc punctiforme PCC 73102, Nostoc sp. PCC 7120, Planktothrix agardhii, Plectonema boryanum, Prochlorococcus marinus CCMP1375, Prochlorococcus marinus CCMP1378, Prochlorococcus marinus MIT 9313, Prochlorothrix hollandica, Spirulina platensis, Synechococcus elongatus, Synechococcus elongatus PCC 6301, Synechococcus PCC7002, Synechococcus sp, Synechococcus sp. WH 8102, Synechococcus sp. WH 8102, Synechococcus vulcanus, Synechocystis sp PCC6803, Thermosynechococcus elongatus, Trichodesmium erythraeum, Trichodesmium erythraeum Tery03.
að-Protéobactéries : Acetobacter aceti, Acetobacter diazotrophicus, Acetobacter pasteurianus, Acetobacter xylinus, Acidiphilium rubrum, Afipia felis, Agrobacterium radiobacter, Agrobacterium rhizogenes, Agrobacterium tumefaciens C58, Agrobacterium tumefaciens wash, Agrobacterium vitis, Anaplasma centrale, Anaplasma marginale, Anaplasma marginale str. St. Maries, Anaplasma phagocytophila, Astrakhan rickettsia, Azorhizobium caulinodans, Azospirillum brasilense, Azospirillum irakense, Azospirillum lipoferum, Bartonella bacilliformis, Bartonella clarridgeiae, Bartonella grahamii, Bartonella henselae, Bartonella quintana, Bartonella tribocorum, Bartonella vinsonii, Bradyrhizobium elkanii, Bradyrhizobium japonicum, Brucella abortus, Brucella melitensis, Brucella suis 1330, Caulobacter crescentus, Caulobacter vibrioides, Cowdria ruminantium, Ehrlichia canis, Ehrlichia chaffeensis, Ehrlichia phagocytophila, Ehrlichia risticii, Ehrlichia ruminantium, Ehrlichia ruminantium str. Gardel, Ehrlichia ruminantium str. Welgevonden, Ehrlichia sp CGE agent, Gluconacetobacter diazotrophicus, Gluconacetobacter europaeus, Gluconacetobacter xylinus, Gluconobacter oxydans, Hyphomicrobium chloromethanicum, Hyphomicrobium methylovorum, Hyphomicrobium zavarzinii, Magnetospirillum gryphiswaldense, Magnetospirillum magnetotacticum , Marinosulfonomonas methylotropha, Mesorhizobium huakuii, Mesorhizobium loti, Mesorhizobium sp. BNC1, Methylobacterium chloromethanicum, Methylobacterium dichloromethanicum, Methylobacterium extorquens, Methylobacterium sp CT4, Methylosinus trichosporium, Nitrobacter winogradskyi, Novosphingobium aromaticivorans, Ochrobactrum anthropi, Oligotropha carboxidovorans, Paracoccus denitrificans, Paracoccus pantotrophus, Paracoccus zeaxanthinifaciens, Rhizobium etli, Rhizobium fredii, Rhizobium galegae, Rhizobium leguminosarum, Rhizobium leguminosarum viciae, Rhizobium lupini, Rhizobium meliloti, Rhizobium sp, Rhizobium sp. NGR234, Rhizobium trifolii, Rhizobium tropici, Rhizobium vitis, Rhodobacter blasticus, Rhodobacter capsulatus, Rhodobacter sphaeroides, Rhodobacter sphaeroides denitrificans, Rhodocista centenaria, Rhodopseudomonas palustris, Rhodospirillum centenum, Rhodospirillum rubrum, Rhodovulum sulfidophilum, Rickettsia aeschlimanni, Rickettsia africae, Rickettsia akari, Rickettsia australis, Rickettsia conorii Malish 7, Rickettsia felis, Rickettsia heilongjiangensis, Rickettsia helvetica, Rickettsia honei, Rickettsia japonica, Rickettsia massiliae, Rickettsia mongolotimonae, Rickettsia montanensis, Rickettsia parkeri, Rickettsia prowazekii, Rickettsia rhipicephali, Rickettsia rickettsii, Rickettsia sibirica, Rickettsia slovaca, Rickettsia typhi str. wilmington, Roseobacter denitrificans, Silicibacter pomeroyi DSS-3, Silicibacter sp. TM1040, Sinorhizobium fredii, Sinorhizobium medicae, Sinorhizobium meliloti 1021, Sphingobium chlorophenolicum, Sphingomonas elodea, Sphingomonas herbicidovorans, Sphingomonas macrogoltabidus, Sphingomonas paucimobilis, Sphingomonas S88, Sphingomonas sp, Sphingopyxis macrogoltabida, Starkeya novella, Wolbachia endosymbiont DM, Wolbachia pipientis wMel, Xanthobacter autotrophicus, Xanthobacter flavus, Zymomonas mobilis, Zymomonas mobilis subsp. mobilis ZM4.
bð-Protéobactéries : Achromobacter cycloclastes, Achromobacter xylosoxidans, Acidovorax avenae avenae, Alcaligenes eutrophus, Alcaligenes faecalis, Alcaligenes xylosoxidans, Azoarcus evansii, Azoarcus sp. EbN1, Bordetella avium, Bordetella bronchiseptica, Bordetella parapertussis, Bordetella pertussis, Burkholderia caryophylli, Burkholderia cenocepacia, Burkholderia cepacia, Burkholderia cepacia R1808, Burkholderia cepacia R18194, Burkholderia fungorum, Burkholderia fungorum LB400, Burkholderia gladioli, Burkholderia glumae, Burkholderia kururiensis, Burkholderia mallei, Burkholderia mallei atcc 23344, Burkholderia multivorans, Burkholderia pseudomallei, Burkholderia pseudomallei K96243, Burkholderia pyrrocinia, Burkholderia sacchari, Burkholderia sp. RP007, Burkholderia thailandensis, Candidatus Glomeribacter, Candidatus Tremblaya, Chromobacterium violaceum, Collimonas fungivorans, Comamonas testosteroni, Dechloromonas aromatica, Delftia acidovorans, Eikenella corrodens, Herbaspirillum seropedicae, Hydrogenophaga pseudoflava, Hydrogenophilus thermoluteolus, Ideonella dechloratans, Leptothrix cholodnii, Leptothrix discophora, Methylobacillus flagellatus, Methylophilus methylotrophus, Methylovorus sp SS1, Neisseria gonorrhoeae, Neisseria lactamica, Neisseria meningitidis MC58, Neisseria meningitidis Z2491, Neisseria polysaccharea, Neisseria subflava, Nitrosomonas europaea, Pigmentiphaga kullae, Polaromonas sp JS666, Pseudomonas butanovora, Pseudomonas cepacia, Pseudomonas huttiensis, Pseudomonas lemoignei, Ralstonia eutropha, Ralstonia metallidurans, Ralstonia oxalatica, Ralstonia pickettii, Ralstonia solanacearum, Ralstonia sp, Ralstonia sp. E2, Roseateles depolymerans, Rubrivivax gelatinosus, Thauera aromatica, Thauera selenatis, Thiobacillus denitrificans, Thiobacillus intermedius, Thiobacillus sp. KCT001, Variovorax paradoxus, Vitreoscilla sp, Vogesella indigofera.
dð-Protéobactéries : Angiococcus disciformis, Bacteriovorax marinus, Bdellovibrio bacteriovorus, Bilophila wadsworthia, Cystobacter fuscus, Desulfobacula toluolica, Desulfotalea psychrophila, Desulfovibrio desulfuricans, Desulfovibrio gigas, Desulfovibrio vulgaris, Geobacter metallireducens, Geobacter metallireducens GS-15, Geobacter sulfurreducens, Malonomonas rubra, Melittangium lichenicola, Myxococcus xanthus, Polyangium cellulosum, Sorangium cellulosum, Stigmatella aurantiaca, Thermodesulforhabdus norvegicus.
eð-Protéobactéries : Campylobacter coli, Campylobacter coli RM2228, Campylobacter fetus, Campylobacter hyoilei, Campylobacter jejuni, Campylobacter jejuni RM1221, Campylobacter lari, Campylobacter rectus, Campylobacter sp, Dehalospirillum multivorans, Helicobacter bilis, Helicobacter bizzozeronii, Helicobacter felis, Helicobacter hepaticus, Helicobacter mustelae, Helicobacter pylori 26695, Helicobacter pylori J99, Wolinella succinogenes.
gð-Protéobactéries : Acidithiobacillus ferroxidans, Acinetobacter baumannii, Acinetobacter calcoaceticus , Acinetobacter lwoffii, Acinetobacter sp, Acinetobacter sp. ADP1, Actinobacillus actinomycetemcomitans, Actinobacillus pleuropneumoniae, Actinobacillus suis, Aeromonas caviae, Aeromonas hydrophila, Aeromonas punctata, Aeromonas salmonicida, Aeromonas sobria, Aeromonas veronii, Alcanivorax borkumensis, Allochromatium vinosum, Azotobacter chroococcum, Azotobacter vinelandii, Buchnera aphidicola 1, Buchnera aphidicola 2, Buchnera aphidicola 3, Candidatus Blochmannia, Candidatus Portiera, Carsonella ruddii, Cellvibrio japonicus, Cellvibrio mixtus, Chromatium vinosum, Citrobacter freundii, Citrobacter rodentium, Colwellia maris, Coxiella burnetii, Coxiella burnetii rsa 493, Dichelobacter nodosus, Edwardsiella ictaluri, Edwardsiella tarda, Enterobacter aerogenes, Enterobacter cloaceae, Enterobacter intermedius, Erwinia amylovora, Erwinia carotovora, Erwinia carotovora atroseptica, Erwinia chrysanthemi, Erwinia herbicola, Erwinia pyrifoliae, Erwinia rhapontici, Escherichia coli 042, Escherichia coli CFT073, Escherichia coli E2348-69, Escherichia coli K-12 W3110, Escherichia coli MG1655, Escherichia coli O157-H7, Escherichia coli O157-H7 1, Escherichia fergusonii, Flavobacterium lutescens, Francisella tularensis, Francisella tularensis subsp. tularensis Schu 4, Frateuria sp. ANA-18, Haemophilus aegyptius, Haemophilus ducreyi, Haemophilus influenzae, Haemophilus influenzae 86-028NP, Haemophilus influenzae R2866, Haemophilus paragallinarum, Haemophilus parasuis, Haemophilus somnus, Hafnia alvei, Halomonas elongata, Halomonas maura, Histophilus somni, Hydrogenovibrio marinus, Idiomarina loihiensis L2TR, Klebsiella aerogenes, Klebsiella oxytoca, Klebsiella pneumoniae, Kluyvera ascorbata, Kluyvera cryocrescens, Legionella longbeachae, Legionella pneumophila, Listonella anguillarum, Lysobacter enzymogenes, Lysobacter lactamgenus, Mannheimia glucosida, Mannheimia haemolytica, Mannheimia succiniciproducens MBEL55E, Methylococcus capsulatus, Microbulbifer degradans, Microbulbifer degradans Mdeg03, Microbulbifer hydrolyticus, Moraxella bovis, Moraxella catarrhalis, Morganella morganii, Moritella marina, Nitrosococcus oceani, Oleispira antarctica, Pantoea agglomerans, Pantoea citrea, Pantoea stewartii, Pasteurella aerogenes, Pasteurella haemolytica, Pasteurella multocida PM70, Pasteurella trehalosi, Pectobacterium atrosepticum, Pectobacterium carotovorum, Pectobacterium chrysanthemi, Photobacterium damselae, Photobacterium phosphoreum, Photobacterium profundum, Photorhabdus asymbiotica, Photorhabdus luminescens, Photorhabdus temperata, Piscirickettsia salmonis, Plesiomonas shigelloides, Proteus mirabilis, Proteus rettgeri, Proteus vulgaris, Providencia rettgeri, Pseudoalteromonas haloplanktis, Pseudoalteromonas sp S9, Pseudoalteromonas tunicata, Pseudomonas abietaniphila, Pseudomonas aeruginosa PA01, Pseudomonas aeruginosa UCBPP-PA14, Pseudomonas alcaligenes, Pseudomonas aurantiaca, Pseudomonas aureofaciens, Pseudomonas azelaica, Pseudomonas brassicacearum, Pseudomonas cellulosa, Pseudomonas chlororaphis, Pseudomonas diterpeniphila, Pseudomonas fluorescens, Pseudomonas fluorescens PfO-1, Pseudomonas mendocina, Pseudomonas oleovorans, Pseudomonas pavonaceae, Pseudomonas pseudoalcaligenes, Pseudomonas putida KT2440, Pseudomonas resinovorans, Pseudomonas savastanoi, Pseudomonas sp, Pseudomonas sp DJ77, Pseudomonas sp. G-179, Pseudomonas straminea, Pseudomonas stutzeri, Pseudomonas syringae, Pseudomonas syringae B728a, Pseudomonas syringae glycinea, Pseudomonas tolaasii, Pseudomonas xiamenensis, Psychrobacter sp. 273-4, Rahnella aquatilis, Raoultella terrigena, Salmonella bongori, Salmonella choleraesuis, Salmonella dublin, Salmonella enterica, Salmonella enterica PT4, Salmonella enterica subsp. enterica serovar Paratypi A str. ATCC 9150, Salmonella enterica typhi Ty2, Salmonella enteritidis, Salmonella gallinarum 287-91, Salmonella paratyphi A, Salmonella Typhi CT18, Salmonella typhimurium, Salmonella typhimurium DT104, Salmonella typhimurium SL1344, Serratia fonticola, Serratia liquefaciens, Serratia marcescens, Serratia marcescens strain Db11, Serratia plymuthica, Shewanella frigidimarina, Shewanella oneidensis MR-1, Shewanella putrefaciens, Shewanella putrefasciens, Shewanella sp, Shewanella violacea, Shigella boydii, Shigella dysenteriae, Shigella dysenteriae M131649, Shigella flexneri 2a, Shigella flexneri 2a str. 2457T, Shigella sonnei, Shigella sonnei 53G, Sodalis glossinidius, Stenotrophomonas maltophilia, Thiobacillus ferrooxidans, Thiobacillus neapolitanus, Thiocapsa roseopersicina, Thiocystis violacea, Vibrio alginolyticus, Vibrio anguillarum, Vibrio cholerae, Vibrio fischeri, Vibrio harveyi, Vibrio metschnikovii, Vibrio mimicus, Vibrio parahaemolyticus, Vibrio proteolyticus, Vibrio salmonicida, Vibrio vulnificus CMCP6, Vibrio vulnificus YJ016, Wigglesworthia brevipalpis, Wigglesworthia glossinidia, Xanthomonas albilineans, Xanthomonas axonopodis citri, Xanthomonas campestris, Xanthomonas campestris phaseoli, Xanthomonas campestris vesicatoria, Xanthomonas oryzae, Xenorhabdus bovienii, Xenorhabdus nematophilus, Xylella fastidiosa, Xylella fastidiosa Temecula1, Yersinia aldovae, Yersinia bercovieri, Yersinia enterocolitica, Yersinia frederiksenii, Yersinia intermedia, Yersinia kristensenii, Yersinia mollaretii, Yersinia pestis, Yersinia pestis KIM, Yersinia pestis mediaevails, Yersinia pestis strain CO92, Yersinia pseudotuberculosis, Yersinia pseudotuberculosis IP32953, Yersinia rohdei, Yersinia ruckeri.
Spirochètes : Borrelia afzelii, Borrelia burgdorferi, Borrelia burgdorferi B31, Borrelia garinii, Borrelia hermsii, Brachyspira hyodysenteriae, Brachyspira pilosicoli, Leptospira biflexa, Leptospira borgpetersenii, Leptospira interrogans copen, Leptospira interrogans serovar, Leptospira interrogans serovar Lai str. 56601, Leptospira kirschneri, Serpulina hyodysenteriae, Spirochaeta aurantia, Treponema denticola, Treponema lecithinolyticum, Treponema maltophilum, Treponema medium, Treponema pallidum.
Thermophiles : Aquifex aeolicus, Aquifex pyrophilus, Deinococcus radiodurans, Fervidobacterium pennivorans, Hydrogenobacter thermophilus, Meiothermus ruber, Thermotoga maritima, Thermotoga neapolitana, Thermotoga sp RQ2, Thermus aquaticus, Thermus aquaticus flavus, Thermus brockianus, Thermus caldophilus, Thermus filiformis, Thermus thermophilus HB27, Thermus thermophilus HB8.
Autres : cf. Actinobacteria, cf. Alphaproteobacteria, cf. Archaea SAR-1, cf. Bacteria SAR-1, cf. Bordetella, cf. Burkholderia SAR-1, cf. Burkholderiaceae, cf. Caulobacter, cf. Crenarchaeota, cf. Cyanobacteria, cf. Enterobacteriaceae, cf. Gammaproteobacteria SAR-1, cf. Haemophilus, cf. Magnetococcus, cf. Magnetospirillum, cf. Microbulbifer, cf. Prochlorococcus, cf. Proteobacteria SAR-1, cf. Pseudomonadaceae, cf. Ralstonia, cf. Rhizobiales, cf. Shewanella SAR-1, cf. Sinorhizobium, cf. Spirochaetales, cf. Streptomyces, cf. Streptomycetaceae, cf. Vibrionaceae, Chlamydia muridarum, Chlamydia pneumoniae, Chlamydia pneumoniae AR39CG, Chlamydia psittaci, Chlamydia suis, Chlamydia trachomatis, Chlamydophila abortus, Chlamydophila caviae GPIC, Chlamydophila pneumoniae J138, Chlamydophila pneumoniae TW-183, Chloroflexus aurantiacus, Dehalococcoides ethenogenes, environmental seq MS, environmental seq SAR-1, Environmental sequence, Fibrobacter succinogenes, Fusobacterium necrophorum, Fusobacterium nucleatum, Ilyobacter tartaricus, Leptospirillum ferrooxidans, Leptospirillum sp, Leptospirillum sp. Group II, Leptospirillum sp. Group III, Magnetococcus sp. MC-1, Parachlamydia sp. UWE25, Pirellula sp. strain 1.


Le nom des souches des espèces est indiqué s’il est connu. Les espèces « cf. » correspondent à des espèces dont une partie du génome a été séquencée et qui sont apparentées à d’autres espèces, sans qu’un nom leur soit assigné à l’heure actuelle.

Dans un premier temps, les signatures pour des mots de 6 lettres de l’ensemble des espèces ont été calculées. Puis, elles ont été corrigées par un Markov d’ordre 0. Pour chacun des 16 groupes taxonomiques, un arbre à partir de la méthode de la signature a été inféré à l’aide de la métrique euclidienne. Les 16 arbres sont représentés ci-dessous. (Figures 70 à 85).

Figure  SEQ Figure \* ARABIC 70 - Phylogénie des crénarchée (8 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 71 - Phylogénie des euryarchées (30 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 72 - Phylogénie des actinobactéries (70 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 73 - Phylogénie des bacillales (45 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 74 - Phylogénie des lactobacillales (39 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 75 - Phylogénie des clostridiales (13 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 76 - Phylogénie des paramycetes (19 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 77 - Phylogénie des bactéroïdes (9 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 78 - Phylogénie des cyanobactéries (23 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 79 - Phylogénie des að-protéobactéries (53 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 80 - Phylogénie des bð-protéobactéries (38 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 81 - Phylogénie des dð-protéobactéries (15 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 82 - Phylogénie des eð-protéobactéries (8 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.


Page précédente : Figure  SEQ Figure \* ARABIC 83 - Phylogénie des gð-protéobactéries (124 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 84 - Phylogénie des spirochètes (9 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Figure  SEQ Figure \* ARABIC 85 - Phylogénie du groupe « thermophiles » (7 espèces) à l’aide de la signature. Mots de 6 lettres et métrique euclidienne.


Les arbres obtenus présentent globalement de bonnes relations taxonomiques. Les espèces sont regroupées en fonction de leur groupe taxonomique d’appartenance. Les différentes souches d’une espèce forment des clades dans tous les groupes (par exemple, pour les bacillales, les souches de B. anthracis, B. ceureus et L. monocytogenes).
Lorsqu’on regarde en détail chaque groupe taxonomique, on observe des relations particulières. Pour les euryarchées (Figure 71), M. jannaschii n’est pas avec les autres Methanococcus et se place avec N. equitans avec une longue branche. Les actinobactéries (Figure 72) sont séparées en deux, avec d’un côté les Streptomyces et de l’autre Mycobacterium et Corynobacterium. Il est à noter que Tropheryma whipplei est très éloignée des autres actinobactéries. Tropheryma whipplei possède un génome court et aussi une signature très originale. En ce qui concerne les bacillales (Figure 73), deux groupes de bacillus sont formés, avec B. subtilis et B. halodurans comme représentants d’un des groupes, et B. ceureus et B anthracis de l’autre groupe. Ces deux groupes sont séparés par les Staphylococcus et les Listeria. Pour les lactobacillales (Figure 74), on a une bonne séparation des Streptococcus et des Lactobacillus. Les clostridiales (Figure 75) forment un groupe assez hétérogène au vue des distances et C. thermocellum semble mal placé dans l’arbre. On détecte chez les paramycetes (Figure 76), une espèce qui semble être présente deux fois sous deux noms différents : U. urealyticum et U. parvum. Les deux signatures sont identiques. Chez les cyanobactéries (Figure 78), le cas le plus intéressant est l’étude de l’espèce Prochlorococcus marinus dont 3 souches sont présentes dans notre jeu de données. Deux des souches sont proches (CMP1375, CMP1378), tandis que la troisième souche (MIT 9313) est très éloignée des deux autres. Cette grande différence de signatures entre les différentes souches pose la question de la pertinance de considérer ces espèces comme des souches et non comme des espèces différentes  ADDIN EN.CITE Rocap2003272000000002721291764242469522003Aug 28Genome divergence in two Prochlorococcus ecotypes reflects oceanic niche differentiation1042-7School of Oceanography, University Of Washington, Seattle, Washington 98195, USA.Rocap, G.Larimer, F. W.Lamerdin, J.Malfatti, S.Chain, P.Ahlgren, N. A.Arellano, A.Coleman, M.Hauser, L.Hess, W. R.Johnson, Z. I.Land, M.Lindell, D.Post, A. F.Regala, W.Shah, M.Shaw, S. L.Steglich, C.Sullivan, M. B.Ting, C. S.Tolonen, A.Webb, E. A.Zinser, E. R.Chisholm, S. W.NatureAdaptation, Physiological/radiation effectsComparative StudyCyanobacteria/*classification/*genetics/radiation effects*Environment*EvolutionGenes, Bacterial/genetics*Genome, BacterialLightMolecular Sequence DataOceans and SeasPhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12917642(Rocap et al., 2003). Chez les að-protéobactéries (Figure 79), on retrouve la formation des groupes Rickettsia et Rhizobium. Les Rickettsia sont placés dans l arbre des að-protéobactéries à la base, assez éloignés des autres espèces. Pour les bð-protéobactéries (Figure 80), on retrouve les Neisseria à la base de l arbre ainsi qu un mauvais placement de Candidatus Tremblaya, avec une très longue branche. Les relations entre les eð-protéobactéries (Figure 82) sont correctes, à l exception de la séparation des deux Desulfovibrio. Le groupe des thermophiles (Figure 85) est trop hétérogène pour que l on puisse exploiter les relations, même si celles-ci sont en accord avec la nomenclature. Toutes les entérobactéries forment un clade à l intérieur de l arbre des gð-protéobactéries (Figure 83). À la base de cet arbre, on retrouve une série de symbionts (Buchnera aphidicola, Candidatus blochmannia, …) qui sont regroupés et non placés selon leur taxonomie. On trouve que Shigella est le genre le plus proche des Escherichia. Les Pasteurelles et Xanthomonadales sont placés à la base des entérobactéries. Les distances à l’intérieur de ce groupe sont élévées et comme nous le verrons plus tard, ce groupe a une importance particulière.
En résumé, en regardant les différents arbres, on constate qu’en comparant la signature les relations taxonomiques entre les espèces sont retrouvées. Les souches, sauf cas particuliers, sont regroupées. Cependant, un problème récurrent est la place des petits génomes (inférieur à 1 Mb) dans les arbres. Ces petits génomes correspondent la plupart du temps à des espèces symbiotiques qui ont une signature particulière. Ces espèces ont subi de fortes pressions évolutives (forts taux de mutation, pertes importantes de matériels génétiques, transfert d’ADN avec l’hôte, …) qui ont conduit à changer profondément la signature. La signature n’est pas un outil adapté à la détermination des relations entre ces espèces.
Par la suite, nous avons conservé qu’une souche par espèce et nous avons éliminé les espèces symbiotiques. Il nous restait 415 espèces.

Afin de déterminer si nous avions des groupes taxonomiques disjoints du point de vue de la signature, nous avons calculé pour chaque groupe les distances intragroupes et intergroupes entre signatures.


Figure  SEQ Figure \* ARABIC 86 - Moyennes des distances intra-(o) et intergroupes (x) en fonction du groupe taxonomique. La courbe bleue (respectivement rouge) est la courbe des moyennes des distances intragroupes (respectivement intergroupes). Convention : crénarchée (1), euryarchée (2), actinobactérie (3), bacillale (4), lactobacillale (5), clostridiale (6), paramycete (7), bactéroïde (8), cyanobactérie (9), að-protéobactérie (10), bð-protéobactérie (11), dð-protéobactérie (12), eð-protéobactérie (13), gð-protéobactérie (14), spirochète (15), thermophile (16).

Comme on peut le voir sur la  REF _Ref508354380 \h Figure 86, la moyenne des distances intragroupes est toujours inférieure à celle des distances intergroupes. Pour déterminer si les distributions de ces distances sont bien différentes, le test Anova et le test de t ont été effectués entre la distribution intra- et intergroupe. Pour les groupes de 1 à 15, les tests montrent que les deux distributions de distances sont différentes. Le test d’Anova du groupe 16 échoue avec une probabilité supérieure à 6%. Cela peut s’expliquer par le fait que ce groupe n’a pas de justification taxonomique, mais ne regroupe que des espèces dites « thermophiles » qui n’étaient classées dans aucun des 15 autres groupes. Les résultats de l’étude sur les distances entre signatures montrent que les groupes taxonomiques que nous avons utilisés ont des signatures qui leur sont propres.
Nous avons donc décidé de comparer les signatures moyennes de chaque groupe entre elles afin de construire un arbre ( REF _Ref508270000 \h Figure 87).


Figure  SEQ Figure \* ARABIC 87 - Arbre obtenu avec les moyennes des groupes taxonomiques.

L’arbre des signatures moyennes permet de déterminer des relations entre les différents groupes taxonomiques. Tout d’abord les thermophiles semblent avoir une signature très différentes de celles des autres, comme on pouvait le voir sur la  REF _Ref508354380 \h Figure 86 et sont placés à la base de l’arbre. Les archées sont regroupées en un clade contenant les clostridiales. Les eð-protéobactéries ne sont pas placés du même coté de l arbre que les autres protéobactéries et sont placées dans une position assez basale. Ce résultat a déjà été observé par d autres articles, dont certains utilisant la signature de protéines  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393Qi200410800000000108147433105812004JanWhole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach1-11The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China, qiji@itp.ac.cnQi, J.Wang, B.Hao, B. I.J Mol EvolAlgorithmsArchaea/*geneticsBacteria/*geneticsClassification/*methodsComparative StudyDatabases, Nucleic AcidOligopeptides/*genetics*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14743310Yu200111400000000114Yu, Z.-G.Jiang, P.2001Distance, correlation and mutual information among portraits of organisms based on complete genomesPhys. Lett. A286134-4616 July 20010375-9601Portrait; Gray-level; Correlation coefficient; Mutual information; Complete genomehttp://www.sciencedirect.com/science/journal/03759601Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Pride et al., 2003; Qi et al., 2004b; Yu and Jiang, 2001; Yu et al., 2004). Un autre point intéressant est le positionnement des actinobactéries à l’intérieur des protéobactéries et plus précisément proche des bð-protéobactéries. Enfin le résultat le plus important est le regroupement des bacillales/bactéroïdes avec les gð-protéobactéries. Nous avons déjà montré que B. subtilis bien qu elle soit détectée comme bactérie Gram+ avait une distance relativement faible avec les gð-protéobactéries (voir le chapitre  REF _Ref508195277 \r \h 3.8). Les résultats montrent que cela peut s étendre à d autres bacillales. Il semble que certaines relations entre les groupes soient en accord avec la taxonomie classique, alors que d’autres sont plus sujettes à discussion.

En prenant la signature moyenne, on ne prend pas en compte la variabilité des groupes. Il est possible qu’à l’intérieur d’un groupe certaines espèces aient un comportement différent des autres. Dans ce cas, les relations entre les groupes peuvent être perturbées. Afin de déterminer si l’ensemble des espèces suit les relations établies par les signatures moyennes de groupes taxonomiques, ou si seulement une partie des espèces conduit à obtenir ces relations, nous avons calculé l’arbre à partir de l’utilisation de l’ensemble des signatures, soit 415 signature d’espèce.
L’arbre obtenu est divisé en un ensemble de sous-arbres, représentés ci-dessous. (arbre complet : Figure 88 ; ensemble des sous-arbres Figures 89 à 97).


Page précédente : Figure  SEQ Figure \* ARABIC 88 - Arbre obtenu par l'étude de 415 signatures d'espèces procaryotes. Signature pour des mots de 6 lettres, métrique euclidienne. Chaque sous-arbre est indiqué par une flèche et son numéro.


Figure  SEQ Figure \* ARABIC 89 - Sous-arbre n°1 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 90 - Sous-arbre n°2 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 91 - Sous-arbre n°3 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 92 - Sous-arbre n°4 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 93 - Sous-arbre n°5 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 94 - Sous-arbre n°6 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 95 - Sous-arbre n°7 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 96 - Sous-arbre n°8 de l'arbre des 415 signatures.


Figure  SEQ Figure \* ARABIC 97 - Sous-arbre n°9 de l'arbre des 415 signatures.

L’arbre obtenu par la comparaison des 415 signatures (Figure 88) présente des relations proches de celles de l’arbre des signatures moyennes ( REF _Ref508270000 \h Figure 87), mais certaines nouvelles relations apportent un éclairage supplémentaire. Tout d abord, cet arbre confirme le rapprochement des actinobactéries des protéobactéries ( REF _Ref508251376 \h Figure 89,  REF _Ref508251377 \h Figure 91). Les Streptomyces sont plus proches des dð-protéobactéries et les Mycobacterium des bð-protéobactéries. Les að-protéobactéries et les bð-protéobactéries sont regroupées ( REF _Ref508251377 \h Figure 91). Cependant seules les Rhizobium et quelques autres að-protéobactéries sont présentes dans ce groupe les autres, c est-à-dire les Rickettsia, sont à la base de l arbre avec les archées. Un autre groupe taxonomique de protéobactéries est positionné avec les archées, il s agit des eð-protéobactéries. Les Rickettsia, ainsi que les eð-protéobactéries, forment des groupes monophylétiques.
Ce positionnement particulier de ces deux groupes avait été aussi trouvé par Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). Une des propositions pour la position des eð-protéobactéries est le fait que la signature de ces espèces a beaucoup plus évolué que l ARN 16S, molécule qui a servi à définir les groupes bactériens  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). En effet, ces organismes semblent posséder un système de réparation de l’ADN défaillant  ADDIN EN.CITE Bhagwat19922620000000026215794572071992Apr 11DNA mismatch correction by Very Short Patch repair may have altered the abundance of oligonucleotides in the E. coli genome1663-8Department of Chemistry, Wayne State University, Detroit, MI 48202.Bhagwat, A. S.McClelland, M.Nucleic Acids Res5-MethylcytosineBase Composition/geneticsCytidine/geneticsCytosine/analogs & derivatives/metabolismDNA Repair/*geneticsDNA, Bacterial/chemistry/*geneticsEscherichia coli/*geneticsGenome, BacterialMarkov ChainsMutation/geneticsOligodeoxyribonucleotides/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSite-Specific DNA Methyltransferase(Cytosine-Specific)/genetics/metabolismThymidine/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1579457Tomb199726400000000264925218538866421997Aug 7The complete genome sequence of the gastric pathogen Helicobacter pylori539-47The Institute for Genomic Research, Rockville, Maryland 20850, USA. ghp@tigr.orgTomb, J. F.White, O.Kerlavage, A. R.Clayton, R. A.Sutton, G. G.Fleischmann, R. D.Ketchum, K. A.Klenk, H. P.Gill, S.Dougherty, B. A.Nelson, K.Quackenbush, J.Zhou, L.Kirkness, E. F.Peterson, S.Loftus, B.Richardson, D.Dodson, R.Khalak, H. G.Glodek, A.McKenney, K.Fitzegerald, L. M.Lee, N.Adams, M. D.Venter, J. C.et al.,NatureAntigenic VariationBacterial AdhesionBacterial Proteins/secretionBase SequenceCell DivisionDNA RepairDNA, Bacterial/geneticsEvolutionGene Expression Regulation, Bacterial*Genome, BacterialHelicobacter pylori/*genetics/metabolism/pathogenicityHydrogen-Ion ConcentrationMolecular Sequence DataProtein BiosynthesisRecombination, GeneticResearch Support, U.S. Gov't, P.H.S.Transcription, GeneticVirulencehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9252185(Bhagwat and McClelland, 1992; Tomb et al., 1997). Or Karlin a proposé qu’un des facteurs influant sur la signature était ce système de réparation  ADDIN EN.CITE Karlin199719900000000199Karlin, S.Mràzek, J.Campbell, A. M.Compositional biases of bacterial genomes and evolutionary implicationsJ. Bact.1793899-39131997(Karlin et al., 1997). Les Rickettsia sont quant à elles des parasites. Elles ont subi de fortes pressions évolutives, qui ont peut-être conduit à changer profondément leurs signatures.
La position des Neisseria, en un groupe monophylétique avec une très longue branche, dans l’arbre n°6 ( REF _Ref508253252 \h Figure 94) semble s’expliquer par un phénomène d’attraction des longues branches. Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) avaient montré aussi que les Neisseria formaient un groupe avec une très longue branche.
Les gð-protéobactéries peuvent être séparées en deux groupes : un groupe, comprenant les entérobactéries, monophylétique placé à la base des að/ðbð/ðdð-protéobactéries ( REF _Ref508252631 \h Figure 95 et  REF _Ref508252632 \h Figure 96) et un autre composé des Pseudomonas/Pasteurelles/Xanthomonadales. Ce dernier groupe est présent dans de nombreux sous-arbres ( REF _Ref508251377 \h Figure 91,  REF _Ref508253237 \h Figure 92,  REF _Ref508253252 \h Figure 94 et  REF _Ref508253277 \h Figure 97). De petits groupes d’espèces appartenant au même groupe taxonomique de gð-protéobactéries se placent à l intérieur de groupes différents. Les espèces appartenant aux Pseudomonas/Pasteurelles/Xanthomonadales ne sont pas classés avec les autres gð-protéobactéries. Les signatures de ces gð-protéobactéries sont très hétérogènes, ce qui peut impliquer que celles-ci aient un taux d’évolution relativement fort.
Les bacillales sont séparées, elles aussi, en deux groupes ( REF _Ref508253252 \h Figure 94,  REF _Ref508253277 \h Figure 97), comme nous l’avons vu avec l’arbre des signatures de bacillales ( REF _Ref508253907 \h Figure 73) : un côté, un groupe composé par exemple de B. subtilis et de B. halodurans, qui est placé entre les protéobactéries et de l’autre un groupe composé par exemple de B. ceureus, B. anthracis et les Listeria, qui sont regroupés avec les lactobacillales de l autre coté de l arbre par rapport aux archées. Ce rapprochement de certaines bacillales avec les protéobactéries (en particulier les gð-protéobactéries) explique que la signature moyenne des bacillales ait été regroupée avec celle des gð-protéobactéries. L arbre de la signature montre que certains bacillales, comme B. subtilis, partagent un style d ADN très proche de celui des gð-protéobactéries.
Aquifex aeolicus est placée aussi en position basale avec les archées. Cette position correspond à celle que Woese avait obtenue en utilisant l’ARN ribosomal  ADDIN EN.CITE Woese1987700000000007Woese, C.1987Bacterial evolutionMicrobiological Review51221-271(Woese, 1987). Par une approche différente, des travaux récents  ADDIN EN.CITE Brochier200226100000000261Brochier, C.Philippe, H.2002Phylogeny: a non-hyperthermophilic ancestor for bacteria.Nature417244(Brochier and Philippe, 2002) arrivent sur ce point à des résultats en contradiction avec notre approche. Un autre exemple de bactéries hyperthermophile est le genre Thermotoga. Dans l’arbre de la signature, la position de ce genre n’est pas déterminée ( REF _Ref508260915 \h Figure 90). Il semble difficile de se prononcer sur le placement de l’ensemble des bactéries thermophiles par la méthode de la signature. On doit étudier les espèces une par une. Ces espèces ont bien un positionnement particulier dans l’arbre des procaryotes.
Si on regarde la base de l’arbre, symbolisée par le regroupement d’archées ( REF _Ref508253277 \h Figure 97), on constate que l’on retrouve les paramycètes/clostridiales et les chlamydia. La position des chlamydia est conforme à celle que propose la phylogénie basée sur l’ARN ribosomal. Par contre, les paramycètes et les clostridiales sont des bactéries Gram+ à bas taux de GC. L’utilisation de la signature conduit toujours à considérer ces espèces à la base de l’arbre. Près des archées, la signature regroupe en fait toutes les espèces qui ont une signature relativement atypique. On se retrouve dans le cadre de l’attraction des longues branches. C’est pourquoi on retrouve aussi bien des espèces dont on sait qu’elles proviennent d’une ancienne différenciation que des espèces qui ont subi de fortes pressions évolutives (Rickettsia, eð-protéobactéries et clostridiale). Ces pressions ont fortement influencé les signatures et il est normal que la méthode de la signature les regroupe.

De manière générale, la signature permet d obtenir de bons groupes taxonomiques, mais les relations entre ces groupes sont assez incongruentes avec la phylogénie obtenue à partir de l’ARN ribosomal ou par étude d’un grand nombre de gène  ADDIN EN.CITE Brochier200226100000000261Brochier, C.Philippe, H.2002Phylogeny: a non-hyperthermophilic ancestor for bacteria.Nature417244Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Brochier and Philippe, 2002; Daubin et al., 2002; Daubin et al., 2001). Les différents groupes taxonomiques sont bien formés. Les relations à l’intérieur de chaque groupe sont assez proches de celles qui sont proposées par l’ARN ribosomal. Mais la signature ne permet pas d’établir de relations entre ces groupes. Un point positif de notre méthode est le nombre d’espèce qui ont été comparées, bien supérieur à ce que l’on voit généralement  ADDIN EN.CITE Brochier200226100000000261Brochier, C.Philippe, H.2002Phylogeny: a non-hyperthermophilic ancestor for bacteria.Nature417244Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Brochier and Philippe, 2002; Daubin et al., 2002; Daubin et al., 2001).
Une des explications des mauvaises entre groupe peut être la convergence de règles d’utilisation de certains mots chez les différentes espèces. Ainsi, par exemple, le mot CATG est contre-sélectionné aussi bien chez les gð-protéobactéries que chez les archées. Donc la fréquence corrigée de ce mot, qui tient compte de cette contre-sélection, rapproche ces deux groupes. Cela peut donc expliquer que les gð-protéobactéries sont placées à la base des protéobactéries dans l’arbre de la signature. Il serait donc nécessaire d’étudier l’ensemble des fréquences des mots en fonction de l’arbre obtenu par la méthode des mots afin d’expliquer les différentes relations.
Une autre explication est que la méthode de la signature est sensible à une certaine homoplasie de la signature. Les espèces procaryotes sont des espèces très difficiles à classer  ADDIN EN.CITE Teichmann19996500000000065103684384911999JulIs there a phylogenetic signal in prokaryote proteins?98-107MRC Laboratory of Molecular Biology, Hills Road, Cambridge CB2 2QH, UK. sat@mrc-lmb.cam.ac.ukTeichmann, S. A.Mitchison, G.J Mol EvolArginine-tRNA Ligase/geneticsBacterial Proteins/*geneticsGenome, BacterialModels, BiologicalPhenylalanine-tRNA Ligase/geneticsPhosphoglycerate Kinase/genetics*PhylogenyRNA, Ribosomal/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10368438(Teichmann and Mitchison, 1999). Elles ont généralement divergé depuis très longtemps et elles subissent de fortes pressions évolutives. Cela conduit à ce que la signature varie très rapidement et que l’on finisse par perdre le signal phylogénétique que contient la signature. On sature le signal contenu dans la signature. C’est pourquoi, par exemple, on regroupe en position basale les espèces comme les parasites et les symbionts. La signature semble adaptée à l’étude des groupes taxonomiques avec un très nombre d’espèce, mais il est nécessaire de faire des études complémentaires quant à son utilisation afin d’établir les relations entre ces groupes.



Conclusion et perspectives

Au cours de ma thèse, j’ai été amené à travailler sur l’établissement des relations entre les espèces à l’aide de la signature génomique.

Grâce à la prise en compte de données moléculaires, les méthodes de phylogénie permettent d’inférer les relations entre les organismes. Les méthodes classiques utilisent les séquences homologues pour déterminer ces relations. Or généralement le gène n’évolue pas de la même manière que les espèces. Les ARNr sont les gènes qui sont le plus souvent utilisés afin d’inférer un arbre phylogénétique. Mais l’emploi systématique de ces gènes est de plus en plus critiqué. Les procaryotes posent aussi de nombreux problèmes de classification. L’abondance de transferts horizontaux a bruité l’évolution des espèces. Un grand débat oppose les partisans qui nient l’existence d’une phylogénie procaryote  ADDIN EN.CITE Doolittle1999200000000002Doolittle, W. F.1999Phylogenetic classification and the universal treeScience2842124-2129(Doolittle, 1999) et ceux qui recherchent des gènes à l’abri des transferts horizontaux  ADDIN EN.CITE Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Daubin et al., 2002; Daubin et al., 2001). De nouvelles techniques de phylogénie se sont alors développées pour utiliser des nouveaux critères pour comparer les espèces. Mon travail de thèse s’inscrit dans cette optique

Pour étudier les relations entre les espèces, nous avons utilisé une analyse textuelle des séquences nucléiques : la signature génomique. La signature génomique est définie comme l’ensemble des fréquences d’oligonucléotides dans une séquence nucléique. La signature génomique est un outil simple et rapide qui permet de comparer les séquences sans nécessiter d’alignement. La méthode que nous avons développée, utilise le « style » de l’ADN pour comparer les espèces
De nombreuses méthodes ont utilisé la signature en phylogénie moléculaire  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393Qi200410800000000108147433105812004JanWhole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach1-11The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China, qiji@itp.ac.cnQi, J.Wang, B.Hao, B. I.J Mol EvolAlgorithmsArchaea/*geneticsBacteria/*geneticsClassification/*methodsComparative StudyDatabases, Nucleic AcidOligopeptides/*genetics*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14743310Yu200111400000000114Yu, Z.-G.Jiang, P.2001Distance, correlation and mutual information among portraits of organisms based on complete genomesPhys. Lett. A286134-4616 July 20010375-9601Portrait; Gray-level; Correlation coefficient; Mutual information; Complete genomehttp://www.sciencedirect.com/science/journal/03759601Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Pride et al., 2003; Qi et al., 2004b; Yu and Jiang, 2001; Yu et al., 2004), mais aucune ont fait une étude pour déterminer si la signature pouvait être utilisé. Au cours de ma thèse, nous avons effectué une approche méthodologique permettant, à l’aide de classifications, de simulations et de tests statistiques, de montrer que la signature pouvait être utilisée afin d’établir les relations entre les espèces. J’ai déterminé quelle était la longueur optimale des mots qui permettait d’obtenir les meilleurs résultats.
Nous avons ensuite utilisé la méthode issue de la signature dans le cadre de la phylogénie moléculaire classique : les séquences homologues. Trois études ont été effectuées pour deux gènes (RAG1 et l’ARN 18S) chez des eucaryotes permettant d’obtenir des arbres similaires à ceux proposés dans la littérature par des méthodes de phylogénie classiques.
Pour prendre en compte plus d’information, de nombreux gènes ont été utilisés dans une étude multi-gène. Dix espèces procaryotes ont été comparées pour une quarantaine de gènes. L’arbre obtenu est en accord avec celui que l’on obtient par les méthodes de phylogénie. La signature est aussi un puissant outil de sélection de gène. En effet, la signature permet de prendre en compte non seulement les séquences homologues, mais aussi les séquences non homologues. Grâce à cela, j’ai pu déterminer des séquences originales à l’aide de la signature en comparant l’ensemble des séquences. Ces séquences sont présentées comme des transferts horizontaux potentiels, où une investigation plus poussée est nécessaire avant de les utiliser dans une étude multi-gène.
Nous avons ensuite travaillé sur les génomes complets afin de prendre en compte le maximum d’information pour chaque espèce. Nous nous sommes placés dans le domaine des procaryotes, car c est celui qui possède le plus de génomes complets. Une phylogénie des gð-protéobactéries a été inféré à partir de signatures corrigées par un Markov d ordre 0 comme préconisé par Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). L’arbre phylogénétique obtenu est en accord avec celui de l’ARN 16S qui est le gène de référence pour la classification des procaryotes.
Comme la signature de séquences de 50 kb suffise à déterminer la signature d’espèce, comme nous l’avons montré par des classifications, nous avons étendu notre champ d’investigation à l’ensemble des espèces dont au moins 50kb sont connues. Les différents arbres de groupes taxonomiques procaryotes, pris séparément, présentent des relations taxonomiques correctes. La signature est un objet mathématique facile à étudier et qui permet de comprendre la classification et de chercher la cause d’éventuels mauvaise classification. Ainsi, nous avons pu expliquer le mauvais positionnement des symbionts dans les différents arbres de groupe. La signature permet aussi de définir une signature moyenne à chaque groupe. La comparaison des signatures moyennes permet d’établir originalement les relations entre les différents groupes taxonomiques.
Nous avons ensuite comparé l’ensemble des signatures procaryotes. Nous avons obtenu un arbre de 415 espèces où celle-ci se regroupent en fonction de petits clades qui correspondent à des groupes taxonomiques. Les relations intra-groupes sont bien définies, mais les relations intergroupes ne correspondent pas toutes à celles que l’on observe avec l’ARN 16S. Certaines espèces, comme Prochlorococcus marinus, posent la définition de l’espèce. Les signatures sont trop différentes pour que l’on puisse encore les séquences comme des séquences d’un même organisme mais pour des souches différentes. La signature semble rencontrer un problème d’homoplasie, lorsqu’il s’agit de définir les relations entre les groupes.



Un des moyens de mieux comprendre la signature serait d’essayer d’établir un modèle d’évolution de la signature. Comment une espèce en évoluant passe d’une signature a une autre ? Grâce la connaissance ce processus, il serait possible de définir des distances tenant compte des propriétés de la signature et non plus une distance mathématique entre deux vecteurs.
Un autre axe de recherche prometteur est la recherche d’une correction des signatures afin d’améliorer les résultats. Pride et al  ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) et Karlin  ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841(Karlin et al., 1994) ont proposé des corrections par des markov. D’autres corrections tenant compte des propriétés intrinsèques de la signature pourraient permettre de mieux évaluer les distances entre les espèces.
Il serait aussi intéressant d’intégrer la méthode de la signature dans d’autres méthodes de phylogénie, en particulier les méthodes probabilistes. La signature permet d’obtenir très rapidement un arbre sans avoir besoin d’utiliser un alignement. Cet arbre pourrait servir de base aux méthodes probabilistes afin de restreindre l’espace de recherche. On diminurait grandement le temps de calcul dans ces conditions. Des méthodes similaires ont conduits à l’intégration de méthodes des distances au maximum de vraisemblance : NJML  ADDIN EN.CITE Ota200028600000000286109588561792000SepNJML: a hybrid algorithm for the neighbor-joining and maximum-likelihood methods1401-9Department of Ecology and Evolution, University of Chicago, Chicago, IL 60637, USA.Ota, S.Li, W. H.Mol Biol Evol*AlgorithmsAnimalsComputer SimulationEukaryotic Cells/metabolismEvolution, MolecularHumans*Likelihood FunctionsModels, Genetic*PhylogenyRNA, Ribosomal/geneticsResearch Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10958856Ota2001287000000002871160669518112001NovNJML+: an extension of the NJML method to handle protein sequence data and computer software implementation1983-92Department of Ecology and Evolution, University of Chicago, Illinois 60637, USA.Ota, S.Li, W. H.Mol Biol EvolAmino Acid SequenceBase SequenceComparative StudyComputational Biology/*methods/*statistics & numerical data*Computer SimulationLikelihood FunctionsMyosin Light Chains/chemistry/geneticsPhylogenyProteins/*chemistry/geneticsResearch Support, U.S. Gov't, P.H.S.*Software/statistics & numerical dataSoftware Designhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11606695(Ota and Li, 2000, 2001).
Une autre possibilité serait d’utiliser des méthodes de classifications supervisées ou non (réseaux de neurones, analyse discriminante), comme pré-étape. On obtiendra alors des groupes qui seront alors étudiés séparément par la méthode que j’ai développée. De la même manière, en faisant varier la taille des mots, on pourrait classer les espèces à différentes échelles : petite taille de mots pour les groupes, et grandes tailles au niveau de l’espèce. Une telle méthode semble très prometteuse.
Enfin, l’étude des espèces procaryotes n’est pas finie. Il faut étudier chaque groupe et déterminer quelles sont les mots qui conduisent à la formation des groupes et ceux qui aboutissent aux problèmes de classification qui sont présents dans l’arbre.

Références

 ADDIN EN.REFLIST Agrawal, A., Q. M. Eastman and D. G. Schatz (1998). "Transposition mediated by RAG1 and RAG2 and its implications for the evolution of the immune system". Nature 394(6695): 744-51.
Almeida, J. S., J. A. Carriçao, A. Maretzek, P. A. Noble and M. Fletcher (2001). "Analysis of genomic sequences by chaos game representation". Bioinformatics 17: 429-437.
Almeida, J. S. and S. Vinga (2002). "Universal sequence map (USM) of arbitrary discrete sequences". BMC Bioinformatics 3(1): 6.
Altschul, S. F., W. Gish, W. Miller, E. W. Myers and D. J. Lipman (1990). "Basic local alignment search tool". J Mol Biol 215(3): 403-10.
Asai, T., D. Zaporojets, C. Squires and C. L. Squires (1999). "An Escherichia coli strain with all chromosomal rRNA operons inactivated: complete exchange of rRNA genes between bacteria". Proc Natl Acad Sci U S A 96(5): 1971-6.
Bafna, V. and P. Pevzner (1995). "Sorting by reversals: Genome rearrangements in plant organelles and evolutionnary history of X chromosome". Mol Biol Evol 12: 239-46.
Baldauf, S. L., J. D. Palmer and W. F. Doolittle (1996). "The root of the universal tree and the origin of eukaryotes based on elongation factor phylogeny". Proc Natl Acad Sci U S A 93(15): 7749-54.
Bapteste, E. and H. Philippe (2002). "The potential value of indels as phylogenetic markers: position of trichomonads as a case study". Mol Biol Evol 19(6): 972-7.
Barns, S. M., C. F. Delwiche, J. D. Palmer and N. R. Pace (1996). "Perspectives on archaeal diversity, thermophily and monophyly from environmental rRNA sequences". Proc Natl Acad Sci U S A 93(17): 9188-93.
Barnsley, M. (1988). "Fractals Everywhere".
Basu, S., A. Pan, C. Dutta and J. Das (1997). "Chaos game representation of proteins." J Mol Graph Model 15(5): 279-89.
Baum, B. R. (1992). "Combining trees as a way of combining data sets for phylogenetic inference". Taxon 41: 3-10.
Bergey (2001). "Bergey's Manual of Systematic Bacteriology". New-York, Springer-Verlag.
Bernardi, G. (1985). "Codon usage and genome composition". J Mol Evol 22(4): 363-5.
Bhagwat, A. S. and M. McClelland (1992). "DNA mismatch correction by Very Short Patch repair may have altered the abundance of oligonucleotides in the E. coli genome". Nucleic Acids Res 20(7): 1663-8.
Billoud, B., M. A. Guerrucci, M. Masselot and J. S. Deutsch (2000). "Cirripede phylogeny using a novel approach: molecular morphometrics". Mol Biol Evol 17(10): 1435-45.
Bininda-Edmonds, O. R. P. (2004). "The evolution of supertrees". Trends Ecol. Evol 19(6): 315-22.
Bininda-Emonds, O. R. and M. J. Sanderson (2001). "Assessment of the accuracy of matrix representation with parsimony analysis supertree construction". Syst Biol 50(4): 565-79.
Blanchette, M., G. Bourque and D. Sankoff (1997). "Breakpoint phylogeny". Genome Informatics Workshop, Tokyo, University Academy Press.
Blanchette, M., T. Kunisawa and D. Sankoff (1999). "Gene order breakpoint evidence in animal mitochondrial phylogeny". J Mol Evol 49(2): 193-203.
Bourque, G. and P. A. Pevzner (2002). "Genome-scale evolution: reconstructing gene orders in the ancestral species". Genome Res 12(1): 26-36.
Brocchieri, L. (2001). "Phylogenetic inferences from molecular sequences: review and critique". Theor Popul Biol 59(1): 27-40.
Brochier, C. and H. Philippe (2002). "Phylogeny: a non-hyperthermophilic ancestor for bacteria." Nature 417: 244.
Brown, J. R. and W. F. Doolittle (1997). "Archaea and the prokaryote-to-eukaryote transition". Microbiol Mol Biol Rev 61(4): 456-502.
Brown, J. R., C. J. Douady, M. J. Italia, W. E. Marshall and M. J. Stanhope (2001). "Universal trees based on large combined protein sequence data sets". Nat Genet 28(3): 281-5.
Bruno, W. J., N. D. Socci and A. L. Halpern (2000). "Weighted neighbor joining: a likelihood-based approach to distance-based phylogeny reconstruction". Mol Biol Evol 17(1): 189-97.
Buneman, T. (1971). "The recovery of trees from measures of dissimilarity." Edinbourg, Edinburg University Press.
Caprara, A. (1997). "Sorting by reversals is difficult". 1st Annual Internationnal Conference on Computational Molecular Biology, New York, USA, ACM.
Cavalli-Sforza, L. L. and A. W. F. Edwards (1967). "Phylogenetic analysis: models and estimation procedures." Am. J. Hum. Gen. 19: 233-57.
Chaw, S. M., C. L. Parkinson, Y. Cheng, T. M. Vincent and J. D. Palmer (2000). "Seed plant phylogeny inferred from all three plant genomes: monophyly of extant gymnosperms and origin of Gnetales from conifers". Proc Natl Acad Sci U S A 97(8): 4086-91.
Chen, D., L. Diao, O. Eulenstein, D. Fernandez-Baca and M. J. Sanderson (2003). "Flipping: a supertree construction method." Bioconsensus. M. F. Janowitz, F.-J. Lapointe, F. R. McMorris, B. Mirkin and F. S. Roberts. Providence, American Mathematical Society. 61: 135-160.
Cornille, F., C. Dufraigne, A. Giron, B. Fertil and P. Deschavanne (2003). "Detection of DNA encoding structural RNAs in genomes". European Conference on Computational Biology, Paris, France.
Corpet, F. and B. Michot (1994). "RNAlign program: alignment of RNA sequences using both primary and secondary structures". Comput Appl Biosci 10(4): 389-99.
Crepet, W. L. (1998). "The abominable mystery". Science 282: 1653–1654.
Darwin, C. (1859). "L'origine des espèces".
Daubin, V., M. Gouy and G. Perriere (2002). "A phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history". Genome Res 12(7): 1080-90.
Daubin, V., M. Gouy and G. Perrière (2001). "Bacterial molecular phylogeny using supertree approach." Genome Informatics 12: 155-164.
Dayhoff, M. O. (1978). "A model of evolutionnary change in proteins." Atlas of protein sequence and structure, supplément 3. N. B. R. Foundation. Washington, DC: 345-352.
Delcher, A. L., S. Kasif, R. D. Fleischmann, J. Peterson, O. White and S. L. Salzberg (1999). "Alignment of whole genomes". Nucleic Acids Res 27(11): 2369-76.
Deschavanne, P., A. Giron, J. Vilain, C. Dufraigne and B. Fertil (2000). "Genomic signature is preserved in short DNA fragments". BIBE2000 IEEE international Symposium on bio-informatics & biomedical engineering, Washington, USA.
Deschavanne, P. J., A. Giron, J. Vilain, G. Fagot and B. Fertil (1999). "Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequences". Molecular Biology and Evolution 16: 1391–1399.
Desper, R. and O. Gascuel (2002). "Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle". J Comput Biol 9(5): 687-705.
Devaney, R. L. (1989). "Chaos, Fractals and Dynamics: Computer Experiments in Dynamics".
Doolittle, W. F. (1999). "Phylogenetic classification and the universal tree". Science 284: 2124-2129.
Doyle, J. A. and M. J. Donoghue (1986). "Seed plant phylogeny and the origin of the angiosperms: an experimental cladistic approach". Bot. Rev. 52: 321-431.
Dufraigne, C., B. Fertil, S. Lespinats, A. Giron and P. Deschavanne (2005). "Detection and characterization of horizontal transfers in prokaryotes using genomic signature". Nucleic Acids Res 33(1): e6.
Eck, R. V. and M. O. Dayhoff (1966). "Atlas of Protein Sequence and Structure". Silver Spring.
Edwards, S. V., B. Fertil, A. Giron and P. J. Deschavanne (2002). "A genomic schism in birds revealed by phylogenetic analysis of DNA strings". Syst Biol 51: 599-613.
Ellis, J. and D. Morrison (1995). "Effects of sequence alignment on the phylogeny of Sarcocystis deduced from 18S rDNA sequences". Parasitol Res 81(8): 696-9.
Feil, E. J., E. C. Holmes, D. E. Bessen, M. S. Chan, N. P. Day, M. C. Enright, R. Goldstein, D. W. Hood, A. Kalia, C. E. Moore, J. Zhou and B. G. Spratt (2001). "Recombination within natural populations of pathogenic bacteria: short-term empirical estimates and long-term phylogenetic consequences". Proc Natl Acad Sci U S A 98(1): 182-7.
Felsenstein, J. (1978). "Cases in wich parsimony or compability methods will be positively misleading." Systematic Zoology 27: 401-10.
Felsenstein, J. (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". J Mol Evol 17(6): 368-76.
Felsenstein, J. (1985). "Confidence limits on phylogenies : an approach using the bootstrap". Evolution 4(39): 783-791.
Felsenstein, J. (2004). PHYLIP (Phylogeny Inference Package).
Fitch, W. M. (1970). "Distinguishing homologous from analogous proteins". Syst Zool 19(2): 99-113.
Fitch, W. M. (1977). "On the problem of discovery the most parsimonious tree". Am. Nat. 111: 223-257.
Fitz-Gibbon, S. T. and C. H. House (1999). "Whole genome-based phylogenetic analysis of free-living microorganisms". Nucleic Acids Res 27(21): 4218-22.
Fox, G. E., E. Stackebrandt, R. B. Hespell, J. Gibson, J. Maniloff, T. A. Dyer, R. S. Wolfe, W. E. Balch, R. S. Tanner, L. J. Magrum, L. B. Zablen, R. Blakemore, R. Gupta, L. Bonen, B. J. Lewis, D. A. Stahl, K. R. Luehrsen, K. N. Chen and C. R. Woese (1980). "The phylogeny of prokaryotes". Science 209(4455): 457-63.
Garcia-Vallve, S., E. Guzman, M. A. Montero and A. Romeu (2003). "HGT-DB: a database of putative horizontally transferred genes in prokaryotic complete genomes". Nucleic Acids Research 31(1): 187-189.
Gascuel, O. (1994). "A note on Sattath and Tversky's, Saittou and Nei's and Studier and Keppler's algorithms for inferring phylogenies from evolutionary distances". Mol Biol Evol 11(6): 961-3.
Gascuel, O. (1997). "BIONJ: an improved version of the NJ algorithm based on a simple model of sequence data". Mol Biol Evol 14(7): 685-95.
Gascuel, O. (2004). "Getting a Tree Fast: Neighbor Joining and Distance Based Methods". Current Protocols in Bioinformatics. A. Baxevanis, D. Davison, R. Pageet al, Wiley & Sons: 6.3.1-6.3.18.
Gatesy, J., C. Matthee, R. DeSalle and C. Hayashi (2002). "Resolution of a supertree/supermatrix paradox". Syst Biol 51(4): 652-64.
Gatesy, J. and M. S. Springer (2004). "A critique of the matrix representation with parsimony supertrees". Phylogenetic Supertrees: Combining Informaion ti Reveal the Tree of Life. O. R. P. Bininda-Edmonds, Kluwer Academic. 3: 369-388.
Gogarten, J. P., L. Olendzenski, E. Hilario, C. Simon and K. E. Holsinger (1996). "Dating the cenancester of organisms". Science 274(5293): 1750-1; author reply 1751-3.
Goldman, N. (1993). "Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representations of DNA sequences". Nucleic Acids Research 21: 2487-2491.
Gordon, A. D. (1986). "Consensus supertrees: the synthesis of rooted trees containing overlapping set of labeled leaves". J. Classif 3: 31-9.
Graham, D., R. Overbeek, G. Olsen and C. Woese (2000). "An archaeal genomic signature". Proc Natl Acad Sci U S A 97: 3304-8.
Grantham, R., C. Gautier and M. Gouy (1980). "Codon frequencies in 119 individual genes confirm consistent choices of degenerate bases according to genome type". Nucleic Acid Research 8: 1893-1912.
Grantham, R., C. Gautier, M. Gouy, M. Jacobzone and R. Mercier (1981). "Codon catalog usage is a genome strategy modulated for gene expressivity". Nucleic Acids Res 9(1): r43-74.
Gray, M. W., G. Burger and B. F. Lang (1999). "Mitochondrial evolution". Science 283(5407): 1476-81.
Green, P. J. (1995). "Reversible jump Markov chain Monte Carlo computation and Bayesian model determination." Biometrika 82: 711-32.
Greenhalgh, P. and L. A. Steiner (1995). "Recombination activating gene 1 (Rag1) in zebrafish and shark". Immunogenetics 41(1): 54-5.
Guénoche, A. and H. Garreta (2000). "Can We Have Confidence in a Tree Representation?" First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000, Montpelier, France, Springer.
Gupta, R. S. (1997). "Protein phylogenies and signature sequences: evolutionnary relationships within prokaryotes and between prokaryotes and eukaryotes." Antonie Leeuwenhoek 72: 49-61.
Gupta, R. S. (1998a). "Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes." Microbiol. Mol. Biol. Rev. 62: 1435-1491.
Gupta, R. S. (1998b). "What are archaebacteria: life's third domain or monoderm prokaryotes related to gram-positive bacteria? A new proposal for the classification of prokaryotic organisms". Molecular Microbiology 29(3): 695-707.
Gupta, R. S. (2000). "The natural evolutionary relationships among prokaryotes". Crit Rev Microbiol 26(2): 111-31.
Gupta, R. S. (2001). "The branching order and phylogenetic placement of species from completed bacterial genomes, based on conserved indels found in various proteins". Int Microbiol 4(4): 187-202.
Gupta, R. S. and E. Griffiths (2002). "Critical issues in bacterial phylogeny". Theor Popul Biol 61(4): 423-34.
Gupta, R. S. and B. Singh (1994). "Cloning of HSP70 gene from Halobacterium marismortui: relatedness of archaebacterial HSP70 to its eubacterial homologs and a model for the evolution of the HSP70 gene." J. Bacteriol. 174: 4594-605.
Guyon, F. and A. Guénoche (2005). "Comparing bacterial genomes from maximal unique matches linear orders". 16p
Haase, G., L. Sonntag, Y. van de Peer, J. M. Uijthof, A. Podbielski and B. Melzer-Krick (1995). "Phylogenetic analysis of ten black yeast species using nuclear small subunit rRNA gene sequences". Antonie Van Leeuwenhoek 68(1): 19-33.
Hannenhalli, S., C. Chappey, E. V. Koonin and P. A. Pevzner (1995). "Genome sequence comparison and scenarios for gene rearrangements: a test case". Genomics 30(2): 299-311.
Hannenhalli, S. and P. Pevzner (1995). "Transforming cabbage into turnip (polynomial algorithm for sorting signed permutations by reverseals)". Twenty-seventh Annual ACM-SIAM Symposium on the Theory of Computing, New York, ACM press.
Hasegawa, M., H. Kishino and T. Yano (1985). "Dating of the human-ape splitting by a molecular clock of mitochondrial DNA". J Mol Evol 22(2): 160-74.
Hastings, W. K. (1970). "Monte Carlo sampling methods using Markov chains and their applications." Biometrika 57: 97-109.
Hendriks, L., R. De Baere, Y. Van de Peer, J. Neefs, A. Goris and R. De Wachter (1991). "The evolutionary position of the rhodophyte Porphyra umbilicalis and the basidiomycete Leucosporidium scottii among other eukaryotes as deduced from complete sequences of small ribosomal subunit RNA". J Mol Evol 32(2): 167-77.
Henikoff, S. and J. G. Henikoff (1992). "Amino acid substitution matrices from protein blocks". Proc Natl Acad Sci U S A 89(22): 10915-9.
Henz, S. R., D. H. Huson, A. F. Auch, K. Nieselt-Struwe and S. C. Schuster (2004). "Whole-genome prokaryotic phylogeny". Bioinformatics.
Higgins, D. G., J. D. Thompson and T. J. Gibson (1996). "Using CLUSTAL for multiple sequence alignments". Methods Enzymol 266: 383-402.
Hillis, D. M. and J. J. Bull (1993). "An empirical test of bootstrapping as a method for assessing confidence in phylogenetic analysis". Syst. Biol. 42: 182-92.
Hohl, M., S. Kurtz and E. Ohlebusch (2002). "Efficient multiple genome alignment". Bioinformatics 18 Suppl 1: S312-20.
Holland, B. and V. Moulton (2003). "Consensus networks: A method for visualising incompatibilities in collections of trees". WABI 2003.
House, C. H. and S. T. Fitz-Gibbon (2002). "Using homolog groups to create a whole-genomic tree of free-living organisms: an update". J Mol Evol 54(4): 539-47.
Huber, H., M. J. Hohn, R. Rachel, T. Fuchs, V. C. Wimmer and K. O. Stetter (2002). "A new phylum of Archaea represented by a nanosized hyperthermophilic symbiont". Nature 417(6884): 63-7.
Huson, D. H. and M. Steel (2004). "Distances that perfectly mislead". Syst Biol 53(2): 327-32.
Huynen, M. A. and P. Bork (1998). "Measuring genome evolution". Proc Natl Acad Sci U S A 95(11): 5849-56.
Iglesias, S. P., G. Lecointre and D. Y. Sellos (2005). "Extensive paraphylies within sharks of the order Carcharhiniformes inferred from nuclear and mitochondrial genes." Mol Phylogenet Evol 34(3): 569-83.
Itoh, T., W. Martin and M. Nei (2002). "Acceleration of genomic evolution caused by enhanced mutation rate in endocellular symbionts". Proc Natl Acad Sci U S A 99(20): 12944-8.
Jain, R., M. C. Rivera and J. A. Lake (1999). "Horizontal gene transfer among genomes: the complexity hypothesis". Proc Natl Acad Sci U S A 96(7): 3801-6.
Jeffrey, H. J. (1990). "Chaos game representation of gene structure". Nucleic Acids Research 18: 2163-2170.
Jeffrey, H. J. (1992). "Chaos Game Visualization Of Sequences". Computers Graphics 16(1): 25-33.
Jones, K. E., A. Purvis, A. McLarnon, O. R. P. Bininda-Edmonds and N. B. Simmons (2002). "A phylogenetic supertree of the bats (Mammalia: Chioptera)". Biol. Rev. 77: 223-59.
Jukes, T. and C. Cantor (1969). "Evolution of Protein Molecules".
Källersjö, M., J. S. Farris, W. Chase, B. Bremer, M. F. Fay, C. J. Humpries, G. Petersen, O. Seberg and K. Bremer (1998). "Simultaneous parsimony jackknife analysis of 2538 rbcl DNA sequences reveals upport for major clades of green plants, land plants, seed plants and flowering plants." Plant Syst. Evol. 213: 2599-287.
Kanaya, S., M. Kinouchi, T. Abe, Y. Kudo, Y. Yamada, T. Nishi, H. Mori and T. Ikemura (2001). "Analysis of codon usage diversity of bacterial genes with a self-organizing map (SOM): characterization of horizontally transferred genes with emphasis on the E. coli O157 genome". Gene 276(1-2): 89-99.
Karlin, S. (1998). "Global dinucleotide signatures and analysis of genomic heterogeneity". Curr Opin Microbiol 1(5): 598-610.
Karlin, S. and V. Brendel (1993). "Patchiness and correlations in DNA sequences". Science 259: 677-679.
Karlin, S. and P. Bucher (1992). "Correlation analysis of amino acid usage in protein classes". Proc Natl Acad Sci U S A 89(24): 12165-9.
Karlin, S. and L. R. Cardon (1994). "Computational DNA sequence analysis". Annu. Rev. Microbiol. 48: 619-654.
Karlin, S. and I. Ladunga (1994). "Comparisons of eukaryotic genomic sequences". Proc. Natl. Acad. Sci. USA 91: 12832-12836.
Karlin, S., I. Ladunga and B. E. Blaisdell (1994). "Heterogeneity of genomes: measures and values". Proc. Natl. Acad. Sci. USA 91: 12837-12841.
Karlin, S., J. Mràzek and A. M. Campbell (1997). "Compositional biases of bacterial genomes and evolutionary implications". J. Bact. 179: 3899-3913.
Karlin, S., G. M. Weinstock and V. Brendel (1995). "Bacterial classifications derived from recA protein sequence comparisons". J Bacteriol 177(23): 6881-93.
Kenrick, P. and P. R. Crane (1997a). "The origin and early diversification of land plants : a cladistic study". Washington, DC, Smithsonian Institution Press.
Kenrick, P. and P. R. Crane (1997b). "The origin and early evolution of plants on land." nature 389(6646): 33-9.
Kimura, M. (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences." J Mol Evol 16(2): 111-20.
Kishino, H. and M. Hasegawa (1989). "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". J Mol Evol 29(2): 170-9.
Korbel, J. O., B. Snel, M. A. Huynen and P. Bork (2002). "SHOT: a web server for the construction of genome phylogenies". Trends Genet 18(3): 158-62.
Krause, A., J. Stoye and M. Vingron (2000). "The SYSTERS protein sequence cluster set". Nucleic Acids Res 28(1): 270-2.
Kumar, S. (1996). "A stepwise algorithm for finding minimum evolution trees". Mol Biol Evol 13(4): 584-93.
Lan, R. and P. R. Reeves (2000). "Intraspecies variation in bacterial genomes: the need for a species genome concept". Trends Microbiol 8(9): 396-401.
Lathe, W. C., 3rd, B. Snel and P. Bork (2000). "Gene context conservation of a higher order than operons". Trends Biochem Sci 25(10): 474-9.
Lawrence, J. and H. Ochman (2002). "Reconciling the many faces of lateral gene transfer". Trends Microbiol. 10: 1-4.
Lecointre, G. and H. Le Guyader (2001). "Classification phylogénétique du vivant". Paris, Belin.
Lespinats, S., P. Deschavanne, A. Giron and B. Fertil (2003). "L’ADN en tant que texte : style et syntaxe". Revue des Nouvelles Technologies de l’Information 1: 193-202.
Lespinats, S., P. Deschavanne, A. Giron and B. Fertil (2004). "Pertinence des métriques fractionnaires pour l'analyse des données de grande dimension (signature génomique). Fouille de données complexes dans un processus d'extraction des connaissances." EGC'04, Clermont-Ferrand, France.
Levasseur, C. and F.-J. Lapointe (2003). "Increasing phylogenetuc accuracy with global congruence". Bioconsensus. M. F. Janowitz, F.-J. Lapointe, F. R. McMorris, B. Mirkin and F. S. Roberts. Providence, American Mathematical Society. 61: 221-30.
Li, W. H. (1997). "Molecular Evolution", Sinauer.
Lin, J. and M. Gerstein (2000). "Whole-genome trees based on the occurrence of folds and orthologs: implications for comparing genomes on different levels". Genome Res 10(6): 808-18.
Liu, F. G., M. M. Miyamoto, N. P. Freire, P. Q. Ong, M. R. Tennant, T. S. Young and K. F. Gugel (2001). "Molecular and morphological supertrees for eutherian (placental) mammals". Science 291(5509): 1786-9.
Manhart, J. R. (1994). "Phylogenetic analysis of green plant rbcL sequences". Mol Phylogenet Evol 3(2): 114-27.
McInerney, J. O. (1998). "GCUA: general codon usage analysis". Bioinformatics 14(4): 372-3.
Medigue, C., T. Rouxel, P. Vigier, A. Henaut and A. Danchin (1991). "Evidence for horizontal gene transfer in Escherichia coli speciation". J Mol Biol 222(4): 851-6.
Moran, N. A. and A. Mira (2001). "The process of genome shrinkage in the obligate symbiont Buchnera aphidicola". Genome Biol 2(12): RESEARCH0054.
Moszer, I., E. P. Rocha and A. Danchin (1999). "Codon usage and lateral gene transfer in Bacillus subtilis". Curr Opin Microbiol 2(5): 524-8.
Mrazek, J. and S. Karlin (1998). "Strand compositional asymmetry in bacterial and large viral genomes". Proc Natl Acad Sci U S A 95(7): 3720-5.
Mrazek, J. and S. Karlin (1999). "Detecting alien genes in bacterial genomes". Ann N Y Acad Sci 870: 314-29.
Nadeau, J. H. and B. A. Taylor (1984). "Lengths of chromosomal segments conserved since divergence of man and mouse". Proc Natl Acad Sci U S A 81(3): 814-8.
Nakamura, Y., T. Itoh, H. Matsuda and T. Gojobori (2004). "Biased biological functions of horizontally transferred genes in prokaryotic genomes". Nature Genetics 36: 760-766.
Naylor, G. J. and W. M. Brown (1997). "Structural biology and phylogenetic estimation". Nature 388(6642): 527-8.
Needleman, S. B. and C. D. Wunsch (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". J Mol Biol 48(3): 443-53.
Nicolas, P., L. Bize, F. Muri, M. Hoebeke, F. Rodolphe, S. Ehrlich, B. Prum and P. Bessieres (2002). "Mining Bacillus subtilis chromosome heterogeneities using hidden Markov models". Nucleic Acids Res 30: 1418-26.
Nikolaichik, Y. A. and W. D. Donachie (2000). "Conservation of gene order amongst cell wall and cell division genes in Eubacteria, and ribosomal genes in Eubacteria and Eukaryotic organelles". Genetica 108(1): 1-7.
Nomura, M. (1999). "Engineering of bacterial ribosomes: replacement of all seven Escherichia coli rRNA operons by a single plasmid-encoded operon". Proc Natl Acad Sci U S A 96(5): 1820-2.
Nuttal, G. H. F. (1904). "Blood immunity and blood relationship". Cambridge.
Ochman, H., J. Lawrence, G. and E. Groisman, A. (2000). "lateral gene transfer and the nature of bacterial innovation". Nature 405: 299-304.
Oettinger, M. A., D. G. Schatz, C. Gorka and D. Baltimore (1990). "RAG-1 and RAG-2, adjacent genes that synergistically activate V(D)J recombination". Science 248(4962): 1517-23.
Olmstad, R. and J. D. Palmer (1994). "Chloroplast DNA systematics: a review of methods and data analysis." Amer. J. Bot. 81: 1205-24.
Olsen, G. J. (1987). "Earliest phylogenetic branchings: comparing rRNA-based evolutionary trees inferred with various techniques". Cold Spring Harb Symp Quant Biol 52: 825-37.
Ota, S. and W. H. Li (2000). "NJML: a hybrid algorithm for the neighbor-joining and maximum-likelihood methods". Mol Biol Evol 17(9): 1401-9.
Ota, S. and W. H. Li (2001). "NJML+: an extension of the NJML method to handle protein sequence data and computer software implementation". Mol Biol Evol 18(11): 1983-92.
Palmer, J. D. (1992). "Chloroplast and mitochondrial genome evolution in land plants." Cell Organelles. R. Hermann: 99-133.
Palmer, J. D. and L. A. Herbon (1988). "Plant mitochondrial DNA evolves rapidly in structure, but slowly in sequence." J Mol Evol 27: 87-97.
Pennisi, E. (2003). "Modernizing the tree of life". Science 300(5626): 1692-7.
Penny, D. and M. D. Hendy (1985). "The use of tree comparaison metrics". Systematic Zoology 34: 75-82.
Perriere, G. and J. Thioulouse (2002). "Use and misuse of correspondence analysis in codon usage studies". Nucleic Acid Research 30(20): 4548-4555.
Philippe, H. and J. Laurent (1998). "How good are deep phylogenetic trees?" Curr Opin Genet Dev 8(6): 616-23.
Pleissner, K. P., L. Wernisch, H. Oswald and E. Fleck (1997). "Representation of amino acid sequences as two-dimensional point patterns". Electrophoresis 18(15): 2709-13.
Pride, D. T., R. J. Meinersmann, T. M. Wassenaar and M. J. Blaser (2003). "Evolutionary implications of microbial genome tetranucleotide frequency biases". Genome Res 13(2): 145-58.
Qi, J., H. Luo and B. Hao (2004a). "CVTree: a phylogenetic tree reconstruction tool based on whole genomes". Nucleic Acids Res 32(Web Server issue): W45-7.
Qi, J., B. Wang and B. I. Hao (2004b). "Whole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach". J Mol Evol 58(1): 1-11.
Ragan, M. A. (1992). "Phylogenetic inference based on matrix representation of trees". Mol Phylogenet Evol 1(1): 53-8.
Rambaut, A. and N. C. Grassly (1997). "Seq-Gen: an application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees". Comput Appl Biosci 13(3): 235-8.
Rivera, M. C. and J. A. Lake (2004). "The ring of life provides evidence for a genome fusion origin of eukaryotes". Nature 431(7005): 152-5.
Robinson, D. F. and L. R. Foulds (1981). "Comparaison of phylogenetic trees". Math. Biosci. 53: 131-147.
Rocap, G., F. W. Larimer, J. Lamerdin, S. Malfatti, P. Chain, N. A. Ahlgren, A. Arellano, M. Coleman, L. Hauser, W. R. Hess, Z. I. Johnson, M. Land, D. Lindell, A. F. Post, W. Regala, M. Shah, S. L. Shaw, C. Steglich, M. B. Sullivan, C. S. Ting, A. Tolonen, E. A. Webb, E. R. Zinser and S. W. Chisholm (2003). "Genome divergence in two Prochlorococcus ecotypes reflects oceanic niche differentiation". Nature 424(6952): 1042-7.
Rokas, A., B. L. Williams, N. King and S. B. Carroll (2003). "Genome-scale approaches to resolving incongruence in molecular phylogenies". Nature 425(6960): 798-804.
Russo, C. A. M., N. Takezaki and M. Nei (1996). "Efficiencies of different genes and different tree-building methods in recovering a known vertebrate phylogeny". Mol. Biol. Evol. 13: 525-536.
Rzhetsky, A. and M. Nei (1995). "Tests of applicability of several substitution models for DNA sequence data". Mol Biol Evol 12(1): 131-51.
Saitou, N. and M. Nei (1987). "The neighbor-joining method: a new method for reconstructing phylogenetic trees". Mol Biol Evol 4(4): 406-25.
Sanderson, M. J. (1998). "Phylogenetic supertrees: assembling the trees of life". Trends Ecol. Evol 13: 105-9.
Sanger, F. and E. O. Thompson (1952). "The amino-acid sequence in the glycyl chain of insulin". Biochem J 52(1): iii.
Sankoff, D. (1992). "Edit distance for genome comparaison based on non-local operations." Third Annual Symposium on Combinatorial Pattern Machine, Berlin, Springer-Verlag.
Sankoff, D. and M. Blanchette (1997). "The median problem for breakpoints in comparative genomics". Computing and Combinatorics, New York, Springer-Verlag.
Sankoff, D., G. Leduc, N. Antoine, B. Paquin, B. F. Lang and R. Cedergren (1992). "Gene order comparisons for phylogenetic inference: evolution of the mitochondrial genome". Proc Natl Acad Sci U S A 89(14): 6575-9.
Schbath, S., B. Prum and E. de Turckheim (1995). "Exceptional motifs in different Markov chain models for a statistical analysis of DNA sequences". J Comput Biol 2(3): 417-37.
Sharp, P. M. and G. Matassi (1994). "Codon usage and genome evolution". Curr Opin Genet Dev 4(6): 851-60.
Smith, T. F. and M. S. Waterman (1981). "Identification of common molecular subsequences." J Mol Biol 147(1): 195-7.
Snel, B., P. Bork and M. A. Huynen (1999). "Genome phylogeny based on gene content". Nat Genet 21(1): 108-10.
Snel, B., P. Bork and M. A. Huynen (2002). "Genomes in flux: the evolution of archaeal and proteobacterial gene content". Genome Res 12(1): 17-25.
Sokal, R. R. and C. D. Michener (1958). "Univ. Kan. Sci. Bull". 28: 1409-38.
Soltis, D. E. and P. S. Soltis (2003). "The role of phylogenetics in comparative genetics". Plant Physiol 132(4): 1790-800.
Soltis, P. S., D. E. Soltis, P. G. Wolf, D. L. Nickrent, S. M. Chaw and R. L. Chapman (1999). "The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?" Mol Biol Evol 16(12): 1774-84.
Spears, T., L. G. Abele and M. A. Applegate (1994). "Phylogenetic study of cirripedes and selected relatives (Thecostraca) based on 18S rDNA". J. Crustac. Biol. 14: 641-656.
Springer, M. S. and W. W. de Jong (2001). "Phylogenetics. Which mammalian supertree to bark up?" Science 291(5509): 1709-11.
Stanier, R. and C. Van Niel (1962). "The concept of a bacterium". Arch Mikrobiol 42: 17-35.
Stuart, G. W., K. Moffett and S. Baker (2002a). "Integrated gene and species phylogenies from unaligned whole genome protein sequences". Bioinformatics 18(1): 100-8.
Stuart, G. W., K. Moffett and J. J. Leader (2002b). "A comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes". Mol Biol Evol 19(4): 554-62.
Studier, J. A. and K. J. Keppler (1988). "A note on the neighbor-joining algorithm of Saitou and Nei". Mol Biol Evol 5(6): 729-31.
Sturtevant, A. H. and T. Dobzhansky (1936). "Inversions in the third chromosome of wild races of Drosophila pseudoobscura and their use in the study of the history of the species". Proc Natl Acad Sci U S A 22: 448-50.
Swofford, D. L. (2003). PAUP*, Phylogenetic Analysis Using Parsimony (*and Other Methods), Sinauer Associates, Sunderland, Massachusetts.
Tamames, J. (2001). "Evolution of gene order conservation in prokaryotes". Genome Biol 2(6).
Tamames, J., G. Casari, C. Ouzounis and A. Valencia (1997). "Conserved clusters of functionally related genes in two bacterial genomes". J Mol Evol 44(1): 66-73.
Tamura, K. and M. Nei (1993). "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Mol Biol Evol 10(3): 512-26.
Teichmann, S. A. and G. Mitchison (1999). "Is there a phylogenetic signal in prokaryote proteins?" J Mol Evol 49(1): 98-107.
Tekaia, F., A. Lazcano and B. Dujon (1999). "The genomic tree as revealed from whole proteome comparisons". Genome Res 9(6): 550-7.
Tomb, J. F., O. White, A. R. Kerlavage, R. A. Clayton, G. G. Sutton, R. D. Fleischmann, K. A. Ketchum, H. P. Klenk, S. Gill, B. A. Dougherty, K. Nelson, J. Quackenbush, L. Zhou, E. F. Kirkness, S. Peterson, B. Loftus, D. Richardson, R. Dodson, H. G. Khalak, A. Glodek, K. McKenney, L. M. Fitzegerald, N. Lee, M. D. Adams, J. C. Venter and et al. (1997). "The complete genome sequence of the gastric pathogen Helicobacter pylori". Nature 388(6642): 539-47.
Woese, C. (1987). "Bacterial evolution". Microbiological Review 51: 221-271.
Woese, C. (1998). "The universal ancestor". Proc Natl Acad Sci U S A 95(12): 6854-9.
Woese, C. R. and G. E. Fox (1977). "Phylogenetic structure of the prokaryotic domain: the primary kingdoms". Proc Natl Acad Sci U S A 74(11): 5088-90.
Xiong, B. and T. D. Kocher (1993). "Phylogeny of sibling species of Simulium venustum and S. verecundum (Diptera: Simuliidae) based on sequences of the mitochondrial 16S rRNA gene". Mol Phylogenet Evol 2(4): 293-303.
Yang, Z. (1994). "Estimating the pattern of nucleotide substitution." J Mol Evol 39(1): 105-11.
Yang, Z. (1997). "How often do wrong models produce better phylogenies?" Mol. Biol. Evol. 14: 105-108.
Yap, W. H., Z. Zhang and Y. Wang (1999). "Distinct types of rRNA operons exist in the genome of the actinomycete Thermomonospora chromogena and evidence for horizontal transfer of an entire rRNA operon". J Bacteriol 181(17): 5201-9.
Yu, W., H. Nagaoka, M. Jankovic, Z. Misulovin, H. Suh, A. Rolink, F. Melchers, E. Meffre and M. C. Nussenzweig (1999a). "Continued RAG expression in late stages of B cell development and no apparent re-induction after immunization". Nature 400(6745): 682-7.
Yu, W., H. Nagaoka, Z. Misulovin, E. Meffre, H. Suh, M. Jankovic, N. Yannoutsos, R. Casellas, E. Besmer, F. Papavasiliou, X. Qin and M. C. Nussenzweig (1999b). "RAG expression in B cells in secondary lymphoid tissues". Cold Spring Harb Symp Quant Biol 64: 207-10.
Yu, Z.-G., V. Anh and K.-S. Lau (2001). "Measure representation and multifractal analysis of complete genomes". Phys Rev E 64(3): 1-9.
Yu, Z.-G. and P. Jiang (2001). "Distance, correlation and mutual information among portraits of organisms based on complete genomes". Phys. Lett. A 286(1): 34-46.
Yu, Z. G., V. Anh and K. S. Lau (2004). "Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses". J Theor Biol 226(3): 341-8.
Zgur-Bertok, D. (1999). "Mechanisms of horizontal gene transfer (review)". Folia Biol (Praha) 45(3): 91-6.
Zuckerkandl, E. and L. Pauling (1965). "Molecules as documents of evolutionary history". J Theor Biol 8(2): 357-66.
Zwieb, C., C. Glotz and R. Brimacombe (1981). "Secondary structure comparisons between small subunit ribosomal RNA molecules from six different species". Nucleic Acids Res 9(15): 3621-40.

PAGE 


PAGE iv





 EMBED Equation.3