Introduction - Free

Analyse de données phylogénétiques à l'aide de la signature génomique. ... Devant la commission d'examen : ..... mot de 6 lettre entre la signature moyenne corrigée des entérobactéries et de deux ..... Les fossiles servent à regrouper les espèces dont un ancêtre commun peut être trouvé à travers des fouilles géologiques.

part of the document

iversité Paris VIIAlain GUÉNOCHE(Rapporteur)Chargé de recherche CNRS, MarseilleManolo GOUY(Rapporteur)Directeur de recherche CNRS, LyonPhilippe DESSEN(Examinateur)Directeur de recherche CNRS, Villejuif

Remerciements
Table des Matières
TOC \o "1-7" 1 Introduction PAGEREF _Toc508370921 \h 1
2 État de lart PAGEREF _Toc508370922 \h 3
2.1 LADN PAGEREF _Toc508370923 \h 3
2.1.1 La molécule PAGEREF _Toc508370924 \h 3
2.1.2 Eubactéries PAGEREF _Toc508370925 \h 5
2.1.3 Archaebactéries PAGEREF _Toc508370926 \h 8
2.1.4 Eucaryotes PAGEREF _Toc508370927 \h 9
2.1.5 DACU PAGEREF _Toc508370928 \h 11
2.2 Phylogénie PAGEREF _Toc508370929 \h 11
2.2.1 Historique PAGEREF _Toc508370930 \h 11
2.2.2 Phylogénie et taxonomie PAGEREF _Toc508370931 \h 13
2.2.3 La phylogénie moléculaire PAGEREF _Toc508370932 \h 15
2.2.3.1 Historique PAGEREF _Toc508370933 \h 15
2.2.3.2 Définition PAGEREF _Toc508370934 \h 18
2.2.3.3 Les données prises en compte PAGEREF _Toc508370935 \h 20
2.2.3.4 Lalignement PAGEREF _Toc508370936 \h 20
2.2.3.5 Les méthodes de reconstruction darbres PAGEREF _Toc508370937 \h 24
2.2.3.5.1 Maximum de parcimonie PAGEREF _Toc508370938 \h 24
2.2.3.5.2 Phénétique PAGEREF _Toc508370939 \h 26
2.2.3.5.3 Maximum de vraisemblance PAGEREF _Toc508370940 \h 36
2.2.3.5.4 Méthodes bayésiennes PAGEREF _Toc508370941 \h 38
2.2.3.6 Comparaison de méthodes PAGEREF _Toc508370942 \h 40
2.2.3.7 Validité PAGEREF _Toc508370943 \h 41
2.2.4 Problèmes rencontrés dans la réalisation dune phylogénie moléculaire PAGEREF _Toc508370944 \h 43
2.2.4.1 Alignement PAGEREF _Toc508370945 \h 43
2.2.4.2 Séquences homologues PAGEREF _Toc508370946 \h 43
2.2.4.3 Transfert Horizontaux PAGEREF _Toc508370947 \h 45
2.2.4.4 Bootstrap PAGEREF _Toc508370948 \h 46
2.2.4.5 Différentes méthodes - différents résultats PAGEREF _Toc508370949 \h 46
2.2.5 Nouvelles méthodes PAGEREF _Toc508370950 \h 47
2.2.5.1 Grand nombre de séquences PAGEREF _Toc508370951 \h 47
2.2.5.2 Superarbre PAGEREF _Toc508370952 \h 48
2.2.5.3 Emploi de caractéristiques structurales PAGEREF _Toc508370953 \h 51
2.2.5.4 Présence des gènes PAGEREF _Toc508370954 \h 53
2.2.5.5 Ordre des Gènes PAGEREF _Toc508370955 \h 55
2.2.5.6 Phylogénie basée sur le score BLAST PAGEREF _Toc508370956 \h 57
2.2.5.7 Utilisation dévénements rares, de petites séquences caractéristiques : la signature de séquence PAGEREF _Toc508370957 \h 59
2.2.5.8 MUMer PAGEREF _Toc508370958 \h 60
2.3 Signature Génomique PAGEREF _Toc508370959 \h 62
2.3.1 Définition PAGEREF _Toc508370960 \h 62
2.3.2 Létat des connaissances PAGEREF _Toc508370961 \h 62
2.3.3 Construction des signatures PAGEREF _Toc508370962 \h 64
2.3.4 Principaux résultats PAGEREF _Toc508370963 \h 69
2.3.4.1 Diversité PAGEREF _Toc508370964 \h 69
2.3.4.2 Spécificité PAGEREF _Toc508370965 \h 71
2.3.4.3 Stabilité PAGEREF _Toc508370966 \h 76
2.3.4.4 Transfert horizontaux PAGEREF _Toc508370967 \h 78
2.3.5 Pourquoi utiliser la signature pour déterminer les relations entre espèces. PAGEREF _Toc508370968 \h 80
3 Utilisation de la signature pour étudier les relations taxonomiques PAGEREF _Toc508370969 \h 82
3.1 Classification et taxonomie PAGEREF _Toc508370970 \h 82
3.1.1 Analyse discrimante PAGEREF _Toc508370971 \h 82
3.1.2 Analyse discriminante « top-down » PAGEREF _Toc508370972 \h 84
3.1.3 Cartes de Kohonen PAGEREF _Toc508370973 \h 87
3.2 Distance et corrélation PAGEREF _Toc508370974 \h 90
3.3 Méthode utilisant la signature PAGEREF _Toc508370975 \h 92
3.3.1 Gestion des séquences et moyens informatiques employées PAGEREF _Toc508370976 \h 92
3.3.2 Méthodologie développée PAGEREF _Toc508370977 \h 93
3.4 Étude statistique de la méthode de la signature PAGEREF _Toc508370978 \h 97
3.4.1 Est-ce que la distance entre signatures est une distance darbre ? PAGEREF _Toc508370979 \h 97
3.4.2 Convergence de la topologie avec laugmentation de la longueur des mots PAGEREF _Toc508370980 \h 101
3.4.3 Conclusion PAGEREF _Toc508370981 \h 103
3.5 Simulation PAGEREF _Toc508370982 \h 104
3.6 Effet du bruit sur les résultats PAGEREF _Toc508370983 \h 107
3.7 Applications aux séquences homologues PAGEREF _Toc508370984 \h 111
3.7.1 RAG1 PAGEREF _Toc508370985 \h 111
3.7.2 Utilisation de lARN 18S PAGEREF _Toc508370986 \h 120
3.7.2.1 La phylogénie des cirripèdes PAGEREF _Toc508370987 \h 121
3.7.2.2 La phylogénie des plantes PAGEREF _Toc508370988 \h 124
3.7.3 La signature de lARN PAGEREF _Toc508370989 \h 133
3.8 Arbre multi-gène PAGEREF _Toc508370990 \h 135
4 Application de la signature aux séquences non-homologues PAGEREF _Toc508370991 \h 153
4.1 Phylogénie des gð-protéobactéries PAGEREF _Toc508370992 \h 153
4.2 Augmentation du nombre d espèces prises en compte et technique de superarbre PAGEREF _Toc508370993 \h 162
5 Conclusion et perspectives PAGEREF _Toc508370994 \h 201
6 Références PAGEREF _Toc508370995 \h 204
Table des Figures

TOC \c "Figure" Figure 1 - Molécule d'ADN constituée de deux brins complémentaires. PAGEREF _Toc508367980 \h 4
Figure 2 - Diversité des formes de Bactéries. (a) les Cocci, (b) les Bacilles et (c) Les Spirilles. PAGEREF _Toc508367981 \h 5
Figure 3 - Coupe d'une cellule bactérienne. (a) coupe schématique (b) Micrographie électronique de Bacillus coagulans. PAGEREF _Toc508367982 \h 6
Figure 4 - Coloration de Gram. Deux types de parois bactériennes existent. La technique de la coloration de Gram permet de les distinguer. Pour chaque type de paroi, un schéma est indiqué. PAGEREF _Toc508367983 \h 6
Figure 5 - Coupe d'une cellule eucaryote. Ici est représentée une cellule animale, où les principales structures les plus répandues sont schématisées. PAGEREF _Toc508367984 \h 10
Figure 6 - Exemple d'une matrice PAM. La matrice au-dessus correspond à PAM2. Pour chaque acide aminé initial, les probabilités de mutation sont indiquées. Tableau tiré de Dayhoff et al (Dayhoff, 1978). PAGEREF _Toc508367985 \h 17
Figure 7 - Enracinement d'un arbre à 4 taxons. Deux types denracinement sont possibles. Sur une branche externe (1) ou sur la branche interne (2). PAGEREF _Toc508367986 \h 19
Figure 8 - Monophylie et Paraphylie. Le groupe (B, C, D) est monophylétique : tous les descendants de leur ancêtre commun sont compris dans ce groupe. Le groupe (F, G, H) est paraphylétique : Leur ancêtre commun na pas tous ses descendants dans le groupe, il manque E. PAGEREF _Toc508367987 \h 19
Figure 9 - Exemple d'une matrice de score permettant d'aligner deux séquences suivant l'alogrithme de Needleman-Wunsch. La matrice de substitution utilisée est BLOSUM 62. Les paramètres douverture de gap sont d=-12 et e=-2. Le chemin jaune correspond à lalignement optimal. PAGEREF _Toc508367988 \h 22
Figure 10 - Alignement de 4 séquences nucléiques PAGEREF _Toc508367989 \h 25
Figure 11 - Nombre de changements évolutifs en fonction de la topologie. Une étoile correspond à un changement évolutif qui se déroule dans la branche. PAGEREF _Toc508367990 \h 25
Figure 12 - Différents types de mutation. Deux séquences homologues descendent dune séquence ancestrale. Les mutations sont représentées par une flèche. PAGEREF _Toc508367991 \h 27
Figure 13 - Distribution de la loi gamma pour différentes valeurs de að. Les distributions de trois valeurs de að sont représentées. að=0.5 (courbe verte), að=1 (courbe bleue) et að=2 (courbe rouge). PAGEREF _Toc508367992 \h 31
Figure 14 - Différentes étapes de l'algorithme Neighbor-Joining. Gauche : arbre étoilé initial. Droite : arbre après le regroupement des taxons 1 et 2. PAGEREF _Toc508367993 \h 33
Figure 15 - Arbre après acceptation du regroupement entre les taxons 1 et 2. PAGEREF _Toc508367994 \h 34
Figure 16 Méthode du maximum de vraisemblance : arbre à 4 taxons. Les nuds internes ainsi que les différentes longueurs de branches sont indiqués. Figure adaptée de Li et Gouy 1991 PAGEREF _Toc508367995 \h 37
Figure 17 - Phénomène dattraction des longues branches. PAGEREF _Toc508367996 \h 45
Figure 18 - Méthodes de superarbre : ancienne et nouvelles. (a) Dans le passé, les différents arbres sources étaient assemblés ensemble de manière indépendante. (b) Actuellement, les arbres sources sont choisis de manière à posséder des chevauchements au niveau des espèces. La construction nest pas obligatoirement la MRP comme lexemple de la figure le montre. Les portions du superarbre qui proviennent dun même arbre source sont codés par le même code couleur. (Figure tirée de (Bininda-Edmonds, 2004)) PAGEREF _Toc508367997 \h 49
Figure 19 - Méthode dencodage des arbres en une matrice binaire dans la méthode MRP. (a,b) arbres sources. Les nuds internes sont numérotés. (c) matrice binaire encodée. PAGEREF _Toc508367998 \h 51
Figure 20 - Méthode morphométrique moléculaire. Les différentes structures sélectionnées sont encodées en une matrice de charactères qui produira des arbres par maximum de parcimonie et méthode des distances. PAGEREF _Toc508367999 \h 52
Figure 21 - Phylogénie de 91 procaryotes basée sur lutilisation de BLAST. Distance utilisée : « matched distance » et BIONJ. Les différents groupes taxonomiques sont indiqués. Tirée de Henz et al (Henz et al., 2004). PAGEREF _Toc508368000 \h 58
Figure 22 Placement des génomes complets basé sur la signature de séquence de différentes protéines. La flèche au-dessus de la ligne indique où sont supposés être placés des indels. Le modèle prédit que les espèces à gauche de la flèche possède lindes et quà droite lindel est manquant. 936 observations sur les génomes complets ont été nécessaire pour obtenir ce diagramme. PAGEREF _Toc508368001 \h 60
Figure 23 - Images CGR correspondantes à la séquence de lexemple pour des mots de 1, 2 et 3 lettres. PAGEREF _Toc508368002 \h 68
Figure 24 - Signatures génomiques pour des mots de 8 lettres de quelques espèces obtenues à partir de létude de leurs génomes complets. PAGEREF _Toc508368003 \h 70
Figure 25 - Analyse en composante principale des signatures de fragments de génomes complets. Projection sur les deux premiers axes. Quatre tailles de fragments ont été utilisées : 5kb, 10 kb, 25 kb et 100kb. 9 espèces sont représentées. PAGEREF _Toc508368004 \h 72
Figure 26 - Signatures génomiques de fragments allant de 1kb à 100kb et signatures de génomes complets pour quatre espèces. PAGEREF _Toc508368005 \h 73
Figure 27 - Classification par la méthode des plus proches voisins des signatures de fragments issus de 34 génomes. Les différentes courbes correspondent à des tailles de mots différentes. En abscisse, taille des fragments en kb (échelle logarithmique). En ordonnée, proportion de fragments correctement assignés. PAGEREF _Toc508368006 \h 74
Figure 28 - Classification des plus proches voisins. Étude de linfluence de la taille de la référence sur les résultats. PAGEREF _Toc508368007 \h 76
Figure 29 - Homogénéité de la signature le long du génome. Les signatures de fragments consécutifs sont juxtaposées sous la forme dune matrice. Les différents mots sont en ordonnée. Donc les lignes horizontales correspondent à la conservation de la fréquence dun mot. Trois génomes ont été découpés. PAGEREF _Toc508368008 \h 77
Figure 30 - Distances entre les signatures des différents fragments et la signature du génome complet (ligne bleue). Le seuil de détection des régions originales est indiqué par une ligne violette. PAGEREF _Toc508368009 \h 79
Figure 31 - Analyse discriminante de 10 000 espèces à laide de la signature pour des mots de 5 lettres. Classification en trois groupes taxonomiques. Des délimitations des différents domaines ont été ajoutées. PAGEREF _Toc508368010 \h 83
Figure 32 - Analyse discriminante de 10 000 espèces à laide de la signature pour des mots de 5 lettres. Classification en 13 groupes. Les différents groupes ainsi que leurs codes couleur sont indiqués à droite de la projection. PAGEREF _Toc508368011 \h 83
Figure 33 - Analyse discriminante « top-down » de signatures (mot de 6 lettres) de fragments de 63 espèces. Trois tailles de fragments ont été testées : 100 kb, 10 kb et 1kb. A chaque analyse discriminante, le pourcentage de signature correctement classées est indiqué avec le code couleur correspondant à la taille des fragments utilisés. PAGEREF _Toc508368012 \h 85
Figure 34 - Analyse discriminante « top-down » des 10 787 signatures (mot de 6 lettres). Chaque signature correspond à une espèce, qui est représentée par une seule signature. Les signatures ont été calculées à partir de fragments de taille allant de 1.5 kb à plusieurs dizaines de megabases. Le nombre despèces à chaque étape et les pourcentages de chaque classification sont indiqués sur le graphe. PAGEREF _Toc508368013 \h 86
Figure 35 - Classification de 1000 signatures par carte de Kohonen. La taille des mots est de 4 lettres. PAGEREF _Toc508368014 \h 87
Figure 36 - Classification par carte de Kohonen de 900 signatures de 4 lettres. Pour chacun des cinq groupes taxonomiques, leurs signatures sont mises en avant sur la carte de Kohonen. Il est aussi indiqué larbre phylogénétique représentant les relations entre ces cinq groupes. PAGEREF _Toc508368015 \h 89
Figure 37 - Carte de Kohonen où chaque signature est représentée par un point avec un code-couleur proportionnel à la composition en base. PAGEREF _Toc508368016 \h 90
Figure 38 - Distance entre signature en fonction de lidentité de séquences. Distance obtenue en comparant des signatures de sequences de 5kb à laide de la métrique euclidienne. PAGEREF _Toc508368017 \h 91
Figure 39 - Schéma récapitulatif de la méthode issue de la signature en comparaison avec les méthodes classiques. Ici, il est représenté lexemple de lutilisation de séquences homologues. PAGEREF _Toc508368018 \h 94
Figure 40 - Bootstrap sur les mots. À partir de léchantillon initial, on construit des échantillons bootstrap par tirage aléatoire avec remise. Ici, les fréquences dun mot pour toutes les espèces ont été surligné. Ce mot se retrouve une fois dans le premier échantillon bootstrap et trois fois dans le deuxième. PAGEREF _Toc508368019 \h 95
Figure 41 - Schéma de la méthode du bootstrap se basant sur lutilisation de fragments des séquences initiales. PAGEREF _Toc508368020 \h 96
Figure 42 - Topologies pour le quadruplet {a,b,c,d} correspondant à la condition précédemment énoncée. PAGEREF _Toc508368021 \h 99
Figure 43 - Les 4 sous-arbres définis par une branche interne e. PAGEREF _Toc508368022 \h 100
Figure 44 - Critères statistiques des matrices de distances en fonction de la taille des mots. Les matrices de distances proviennent de létude du gène RAG1. Laxe des abscisses à droite correspond aux valeurs du stress. Sur laxe des abscisse gauche, les valeurs des critères pour la méthode des distances (distance de Kimura 2-paramètres) sont indiqués par un point et une ligne pour larboricité. PAGEREF _Toc508368023 \h 100
Figure 45 - Analyse de la distance de Robinson-Foulds pour les arbres issus de la signature. Les distances ont été calculées à partir des séquences provenant de létude du gène RAG1. Pour chaque taille de mot, larbre signature a été comparé aux arbres de deux méthodes classiques et à des arbres aléatoires. Pour la distance aléatoire, 100 arbres aléatoires sont utilisés. On a une distance aléatoire moyenne légèrement inférieure à 86 (distance maximum pour des arbres à 46 taxons). PAGEREF _Toc508368024 \h 103
Figure 46 - Distance de Robinson-Foulds entre larbre non-perturbé et les arbres perturbés. Lintensité du bruit dépend de deux facteurs correspondant aux deux axes : le pourcentage de signatures despèces qui sont perturbés et le taux de bruit qui est introduit. La distance de Robinson-Foulds maximale est de 86. PAGEREF _Toc508368025 \h 110
Figure 47 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode issue de la signature. Signatures pour des mots de 6 lettres et métrique du cð2. Les coefficients bootstrap supérieurs à 50% sont indiqués. PAGEREF _Toc508368026 \h 114
Figure 48 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences nucléiques. Distance utilisée suivant le modèle dévolution HKY85. Taux de transition/transversion = 2. Algorithme NJ. Les coefficients bootstrap supérieurs à 50% sont indiqués. PAGEREF _Toc508368027 \h 115
Figure 49 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences protéiques. Distance utilisée à partir de la matrice PAM 50. Algorithme NJ. PAGEREF _Toc508368028 \h 116
Figure 50 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode du maximum de parcimonie. PAGEREF _Toc508368029 \h 117
Figure 51 - Analyse par la vraisemblance de la congruence phylogénétique pour le gène RAG1. Les topologies obtenues par les méthodes traditionnelles sont comparées à elles obtenues par la signature et à des topologies aléatoires. Pour les arbres de la signature et pour chaque métrique, la taille utilisée des mots est représentée à coté de chaque point. PAGEREF _Toc508368030 \h 119
Figure 52 - Phylogénie des cirripèdes. A Parcimonie : arbre obtenu à partir de l alignement que nous avons effectué. B Méthode de la signature : mot de 6 lettres métrique du cð2. L arbre a été inféré par Neighbor-Joining. Les coefficients de bootstrap supérieur à 50% sont indiqués. La signature moyenne de chaque groupe taxonomique est positionnée à la droite de larbre de la signature. Le clade dont la formation est discutée est indiqué par un rond vert. PAGEREF _Toc508368031 \h 123
Figure 53 - Arbres phylogénétiques obtenus par Billoud et al à partir de létude des caractéristiques morphométriques. Gauche : utilisation de la méthode des distances sur les données morphométriques. Droite : méthode de la parcimonie sur ces données. Figure tirée de Billoud et al (Billoud et al., 2000). PAGEREF _Toc508368032 \h 123
Figure 54 - Arbre phylogénétique de 99 espèces de plantes à l aide de la signature. Signatures de 6 lettres et métrique du cð2. La signature moyenne du groupe des Angiospermes et celle du groupe des copies mitochondriales sont placées à droite de chaque groupe. PAGEREF _Toc508368033 \h 128
Figure 55 - Comparaison de la signature dune copie nucléaire de lARN 18S et celle dune copie mitochondriale. La signature de lARN 18S nucléaire dune espèce proche est aussi représentée. Les signatures nucléaires sont plus proches que les signatures de la même espèce. PAGEREF _Toc508368034 \h 129
Figure 56 - Arbre phylogénétique des plantes obtenu par comparaison des signatures de lARN 18S. Signatures de 6 lettres métrique du cð2. Les coefficients bootstrap (500 réplicats) supérieurs à 50% des principaux groupes sont indiqués. Les noms des espèces sont indiqués par un code (voir tableau X pour la correspondance). PAGEREF _Toc508368035 \h 130
Figure 57 - Méthode pour l arbre multi-gène en utilisant la signature. PAGEREF _Toc508368036 \h 136
Figure 58 - Arbre consensus obtenu par quatre méthodes : méthode de distances, maximum de parcimonie, maximum de vraisemblance et la méthode de la signature. Le consensus pour la méthode de la signature correspond à larbre non-pondéré. Les coefficients de bootstrap des arbres sont indiqués pour trois méthodes. En ce qui concerne la méthode des distances, les branches plus épaisses et grises correspondent à des longueurs de branches négatives. PAGEREF _Toc508368037 \h 140
Figure 59 - Diversité des arbres de gènes obtenus avec les méthodes classiques. Ici sont représentés les arbres obtenus pour deux gènes et deux méthodes. Les coefficients des arbres de la méthode des distances sont indiqués. PAGEREF _Toc508368038 \h 143
Figure 60 - Distribution des distances de Robinson-Foulds entre larbre consensus et les 33 arbres de gènes pour les quatre méthodes prises en compte. La distance dT a été calculée pour la méthode des distances, le maximum de parcimonie, le maximum de vraisemblance (ML) et la méthode de la signature (mots de 6 lettres métrique du cð2). PAGEREF _Toc508368039 \h 144
Page précédente : Figure 61 - Classication hiérarchique des 393 signatures de mots de 6 lettres. Toutes les signatures appartenant à une même espèce possèdent le même code couleur. Les noms des espèces impliquées dans un groupe sont indiqués sur la gauche de larbre. Les signatures correspondant au gène EF-Tu sont aussi mises en avant. PAGEREF _Toc508368040 \h 149
Figure 62 - Partie de larbre de la classification hiérarchique centrée sur les espèces E. coli, S. typhimurium et V. cholerae. Les symboles à gauche des noms correspondent aux gènes. PAGEREF _Toc508368041 \h 149
Figure 63 - Partie de larbre hiérarchique centré sur le groupe S. aureus. PAGEREF _Toc508368042 \h 151
Figure 64 - Arbre phylogénétique obtenu par la méthode de la signature, à partir de signatures de génomes complets pour des mots de 6 lettres. La métrique employée est la métrique du cð2. PAGEREF _Toc508368043 \h 152
Figure 65 - Arbre des gð-protéobactéries obtenu à partir des signatures non-corrigées. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique. PAGEREF _Toc508368044 \h 156
Figure 66 - Arbre des gð-protéobactéries obtenu à partir des signatures corrigées par un Markov d ordre 0. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique. PAGEREF _Toc508368045 \h 156
Figure 67 - Arbre des gð-protéobactéries obtenu à partir des signatures des séquences d ARN 16S. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique. PAGEREF _Toc508368046 \h 157
Figure 68 - Arbre des gð-protéobactéries obtenu à partir de la méthode du maximum de vraisemblance pour les séquences dARN 18S. Chaque couleur correspond à un groupe taxonomique. PAGEREF _Toc508368047 \h 157
Figure 69 - Différence de fréquences corrigées de mot de 6 lettre entre la signature moyenne corrigée des entérobactéries et de deux espèces : V. cholerae et B. aphidicola. PAGEREF _Toc508368048 \h 160
Figure 70 - Phylogénie des crénarchée (8 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368049 \h 168
Figure 71 - Phylogénie des euryarchées (30 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368050 \h 169
Figure 72 - Phylogénie des actinobactéries (70 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368051 \h 170
Figure 73 - Phylogénie des bacillales (45 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368052 \h 171
Figure 74 - Phylogénie des lactobacillales (39 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368053 \h 172
Figure 75 - Phylogénie des clostridiales (13 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368054 \h 173
Figure 76 - Phylogénie des paramycetes (19 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368055 \h 174
Figure 77 - Phylogénie des bactéroïdes (9 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368056 \h 175
Figure 78 - Phylogénie des cyanobactéries (23 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368057 \h 176
Figure 79 - Phylogénie des að-protéobactéries (53 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368058 \h 177
Figure 80 - Phylogénie des bð-protéobactéries (38 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368059 \h 178
Figure 81 - Phylogénie des dð-protéobactéries (15 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368060 \h 179
Figure 82 - Phylogénie des eð-protéobactéries (8 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368061 \h 180
Page précédente : Figure 83 - Phylogénie des gð-protéobactéries (124 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368062 \h 182
Figure 84 - Phylogénie des spirochètes (9 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368063 \h 182
Figure 85 - Phylogénie du groupe « thermophiles » (7 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne. PAGEREF _Toc508368064 \h 183
Figure 86 - Moyennes des distances intra-(o) et intergroupes (x) en fonction du groupe taxonomique. La courbe bleue (respectivement rouge) est la courbe des moyennes des distances intragroupes (respectivement intergroupes). Convention : crénarchée (1), euryarchée (2), actinobactérie (3), bacillale (4), lactobacillale (5), clostridiale (6), paramycete (7), bactéroïde (8), cyanobactérie (9), að-protéobactérie (10), bð-protéobactérie (11), dð-protéobactérie (12), eð-protéobactérie (13), gð-protéobactérie (14), spirochète (15), thermophile (16). PAGEREF _Toc508368065 \h 185
Figure 87 - Arbre obtenu avec les moyennes des groupes taxonomiques. PAGEREF _Toc508368066 \h 186
Page précédente : Figure 88 - Arbre obtenu par l'étude de 415 signatures d'espèces procaryotes. Signature pour des mots de 6 lettres, métrique euclidienne. Chaque sous-arbre est indiqué par une flèche et son numéro. PAGEREF _Toc508368067 \h 189
Figure 89 - Sous-arbre n°1 de l'arbre des 415 signatures. PAGEREF _Toc508368068 \h 190
Figure 90 - Sous-arbre n°2 de l'arbre des 415 signatures. PAGEREF _Toc508368069 \h 191
Figure 91 - Sous-arbre n°3 de l'arbre des 415 signatures. PAGEREF _Toc508368070 \h 192
Figure 92 - Sous-arbre n°4 de l'arbre des 415 signatures. PAGEREF _Toc508368071 \h 193
Figure 93 - Sous-arbre n°5 de l'arbre des 415 signatures. PAGEREF _Toc508368072 \h 193
Figure 94 - Sous-arbre n°6 de l'arbre des 415 signatures. PAGEREF _Toc508368073 \h 194
Figure 95 - Sous-arbre n°7 de l'arbre des 415 signatures. PAGEREF _Toc508368074 \h 195
Figure 96 - Sous-arbre n°8 de l'arbre des 415 signatures. PAGEREF _Toc508368075 \h 196
Figure 97 - Sous-arbre n°9 de l'arbre des 415 signatures. PAGEREF _Toc508368076 \h 197

Table des tableaux

TOC \c "Tableau" Tableau 1 - Corrélation entre les axes de lACP et la composition en base. PAGEREF _Toc508367853 \h 73
Tableau 2 - Résultats de la simulation. Les chiffres correspondent au pourcentage moyen de branches internes différentes entre les arbres de références et les arbres obtenues à partir des séquences pour les différentes méthodes. Pour la signature, deux métriques ont été utilisées pour trois longueurs de mots. PAGEREF _Toc508367854 \h 105
Tableau 3 - Rapport entre les fréquences de lécart à la prédiction par rapport à celles de la signature observée pour un mot donné. Les fréquences utilisées sont celles de tous les mots de 6 lettres pour les 46 signatures du gène RAG1. PAGEREF _Toc508367855 \h 109
Tableau 4 - Nom et groupe taxonomique dappartenance des espèces étudiés avec le gène RAG1. PAGEREF _Toc508367856 \h 112
Tableau 5 - Différences de log de vraisemblance. Les différences sont calculées à partir du maximum de vraisemblance. PAGEREF _Toc508367857 \h 120
Tableau 6 - Nom des espèces impliquées dans létude de lARN 18S des cirripèdes. PAGEREF _Toc508367858 \h 122
Tableau 7 - Nom des espèces de plantes impliquées dans létude phylogénétique à laide du gène ARN 18S. Pour chaque espèce, son nom, son groupe taxonomique dappartenance ainsi que son code. Les espèces qui sont grisés correspondent à des espèces dont la copie mitochondriale du gène ARN18S a été employée. PAGEREF _Toc508367859 \h 126
Tableau 8 - Classification par k-means des fragments hôte de 27 génome et de fragment dARNr, selon leur classe. PAGEREF _Toc508367860 \h 133
Tableau 9 - Classification par les plus proches voisins. PAGEREF _Toc508367861 \h 134
Tableau 10 - Distribution des distances entre signatures en fonction de lorigine des fragments. LARNr Euc/Pro correspond à la réunion des ARNr eucaryotes et procaryotes, hors mitochondriaux et chloroplastiques. PAGEREF _Toc508367862 \h 134
Tableau 11 - Nom et taille des gènes étudiés dans létude multi-gène. PAGEREF _Toc508367863 \h 138
Tableau 12 - matrice de distance issue de la méthode de la signature PAGEREF _Toc508367864 \h 142
Tableau 13 - Statistiques de la distribution des distances dT en fonction de la méthode utilisée. PAGEREF _Toc508367865 \h 144
Tableau 14 - Nom des gènes additionnés à létude et ne possédant pas une séquence pour lensemble des espèces. PAGEREF _Toc508367866 \h 145
Tableau 15 - Récapitulatif du test de robustesse de l arbre consensus de la signature par Jacknife. PAGEREF _Toc508367867 \h 146
Tableau 16 - Nom des espèces de gð-protéobactéries prises en compte. PAGEREF _Toc508367868 \h 153
Tableau 17 - Corrélation entre les axes de l ACP et la composition en base. LACP a été effectué sur 50 signatures de génomes complets, corrigées par un Markov dordre 0. Les corrélations, ainsi que les pourcentages de variance expliquée des 5 premiers axes de lACP sont indiqués. PAGEREF _Toc508367869 \h 154
Tableau 18 - Distribution de la valeur absolue des différences de fréquences corrigées de mots entre la signature moyenne des entérobactéries et de deux espèces : V. cholerae et B. aphodicola. PAGEREF _Toc508367870 \h 161

Introduction

Lobservation de la diversité du vivant a conduit lHomme à chercher à mieux comprendre les relations qui existent entre les organismes vivants. La connaissance des processus dévolution des espèces a été une recherche permanente et, au fil des siècles, la compréhension des mécanismes sous-jacents na cessé de saméliorer. Une des principaux axes de recherche est la définition des espèces, leur classification et létablissement des relations qui existent entre elles.
Les premières classifications des espèces utilisèrent les caractérisations physiques, comme la morphologie ou létude des fossiles. La plupart des classifications qui ont été effectuées à partir de ces critères sont toujours celles qui sont utilisées de nos jours. La découverte de la molécule de lADN a ouvert un nouveau champ détude. LADN est la molécule qui transmet le patrimoine héréditaire de chaque espèce. Afin de comparer les espèces, on peut comparer leurs matériels génétiques. Pour cela, des méthodes de phylogénies (phénétique, parcimonie et méthodes probabilistes) ont été développées se basant sur létude de gènes communs. Lhypothèse de base de ces méthodes est que lévolution du gène correspond à lévolution des espèces. Les séquences des gènes sont soumises à des processus évolutifs (mutation, insertion ou délétion) et létablissement de ces processus permet de reconstruire les relations entre les espèces. Les changements au niveau des gènes conduisent les espèces à se différencier. Les méthodes de phylogénie se basent sur la détermination de ce qui est commun puis différent entre les espèces. Lutilisation de ces données moléculaires ont permis de changer notre vue de la notion despèces, particulièrement chez les procaryotes ADDIN EN.CITE Lan200010000000000110989306892000SepIntraspecies variation in bacterial genomes: the need for a species genome concept396-401Dept of Microbiology, Bldg G08, University of Sydney, NSW 2006, Sydney, Australia.Lan, R.Reeves, P. R.Trends MicrobiolBacteria/*classification/geneticsEnterobacteriaceae/geneticsEvolution*Genome, BacterialHelicobacter pylori/geneticsNeisseria meningitidis/geneticsResearch Support, Non-U.S. Gov't*Species Specificity*Variation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10989306Doolittle1999200000000002Doolittle, W. F.1999Phylogenetic classification and the universal treeScience2842124-2129Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001; Doolittle, 1999; Lan and Reeves, 2000). Les méthodes de phylogénie classiques posent le problème de la reconstruction des relations pour les espèces très éloignées. En effet, il est alors difficile dobtenir des critères fiables permettant de les comparer.
La disponibilité de plus en plus grande de séquences dADN permet de développer de nouvelles méthodes de phylogénie. En effet, lapport considérable dinformation que produisent les différents programmes de séquençage et les nouvelles techniques de biologie moléculaire (comme les puces à ADN) permet de définir de nouveaux moyens de comparaison despèces. La plupart de ces méthodes utilisent de nouvelles caractéristiques présentes dans les séquences des génomes complets, afin détablir de nouveaux critères permettant la détermination des relations entre les espèces.
Mon travail de thèse se place dans cette optique.

Mon objectif a été de développer une nouvelle méthodologie permettant détablir les relations entre les espèces à partir de la signature génomique. La signature génomique est un outil simple et rapide danalyse textuelle des séquences qui représentant lensemble des fréquences des oligonucléotides de ces séquences. La signature génomique permet de comparer des séquences nucléiques de natures différentes (homologues et non homologues) et de tailles diverses. Grâce à cette rapidité et ce large champ dapplication, la signature génomique est parfaitement adaptée à la comparaison dun grand nombre de données moléculaires.
Jai entrepris, au cours de ma thèse, plusieurs approches. Jai tout dabord classé les espèces à partir de la seule connaissance de leur signature génomique. Puis jai testé les performances de la signature dans la reconstruction de la phylogénie de séquences homologues et ainsi jai mis en place une méthode permettant détablir les relations évolutives entre les espèces. Cette méthode a été employée sur différentes séquences homologues puis sur des séquences nucléiques non homologues chez les procaryotes.

État de lart

LADN

La molécule

Dans la plupart des cas, linformation génétique des espèces est codée par lacide désoxyribonucléique ou ADN. Certains virus, quant à eux, utilisent lacide ribonucléique ou ARN.
LADN et lARN sont des macromolécules, des polymères dont le monomère de base est le nucléotide. Il existe quatre nucléotides différents par acide nucléique : ladénine (A), la guanine (G), la cytosine (C) et enfin la thymine (T) (remplacée par luracile (U) pour lARN). Les nucléotides sont regroupés en deux familles de bases azotées : les pyrimidines (C et T(U)) et les purines (A et G). LADN se présente sous la forme dune structure en double hélice où les brins complémentaires sentrelacent ( REF _Ref508266203 \h Figure 1). Les brins sont dits complémentaires, car pour chaque base dun brin, il y a en vis-à-vis sur lautre brin un base particulière. En face dun A (ou C), il y a un T (ou G) et vice-versa.

Figure SEQ Figure \* ARABIC 1 - Molécule d'ADN constituée de deux brins complémentaires.

Lenchaînement de ces bases peut être considéré comme un texte écrit dans un alphabet de 4 lettres. Cest le texte complet qui contient lensemble de linformation génétique de lorganisme.
Un gène est une séquence continue ou discontinue de nucléotides qui est chargée dune ou plusieurs fonctions spécifiques dans la cellule. Ces fonctions peuvent être : la régulation des échanges chimiques, la structure de la cellule, le transport dinformation, la défense de lorganisme, . Lensemble de ce matériel génétique compose le génome. La taille des génomes est très variable : de quelques centaines de bases pour certains virus (le PSTV du tubercule de la pomme de terre avec 350 nucléotides (nt)) à plusieurs centaines de milliards de bases (6.6*1011 bases chez Amoebia dubia une amibe).
Les protéines sont des macromolécules, polymères dacides aminés. Leurs structures et leurs compositions sont déterminantes pour leurs fonctions. Les protéines sont les produits de la traduction des gènes par la machinerie moléculaire. Le gène est dabord transcrit en un ARN messager (ARNm), ce dernier était à son tour traduit en protéine. Le gène est codé afin de synthétiser les acides aminés grâce à lutilisation d un « code universel du vivant ». Ce code permet de passer dune séquence dun tri-nucléotide à un acide aminé. Ainsi les 64 tri-nucléotides possibles (43) permettent la synthèse de 20 acides aminés différents. On a donc un code génétique dégénéré.
Le monde du vivant est divisé en trois domaines taxonomiques : les eucaryotes, les eubactéries et les archaebactéries. Ces deux derniers peuvent être regroupés dans un super domaine appelé procaryotes.

Eubactéries

Les eubactéries (ou bactéries) sont des microorganismes unicellulaires dont la principale caractéristique est de ne pas présenter de noyau, à lintérieur de la cellule.
Bien quunicellulaire, le comportement des espèces bactériennes peut être divers. Certaines vivent en solitaire ou en petit groupes de cellules. Dautres vivent sous la forme de grandes colonies, agrégats de cellules. Enfin certaines eubactéries se regroupent même en organisations pluricellulaires où des spécialisations entre cellules peuvent être observées.
Dun point de vue morphologique, la taille caractéristique dune cellule de bactérie est de l ordre du micromètre (de 1mðm à 5mðm) ( REF _Ref508266204 \h Figure 3). Les cellules bactériennes ont différentes formes avec cependant trois formes préférentielles ( REF _Ref508266205 \h Figure 2) : la sphère (Cocci), le bâtonnet (Bacilles) et la spirale (Spirilles). Ces formes ont servi à lédification des premières classifications bactériennes.

Figure SEQ Figure \* ARABIC 2 - Diversité des formes de Bactéries. (a) les Cocci, (b) les Bacilles et (c) Les Spirilles.

Figure SEQ Figure \* ARABIC 3 - Coupe d'une cellule bactérienne. (a) coupe schématique (b) Micrographie électronique de Bacillus coagulans.

La taille du génome des Eubactéries varie de 0,58 à 14 Mb. Par exemple, Mycoplasma genitalium a un génome dune taille de 580 kb alors que Calothrix une cyanobactérie a un génome proche des 14Mb. Le rapport de taille entre le génome bactérien le plus petit et le plus grand est de 24.

Figure SEQ Figure \* ARABIC 4 - Coloration de Gram. Deux types de parois bactériennes existent. La technique de la coloration de Gram permet de les distinguer. Pour chaque type de paroi, un schéma est indiqué.

Les bactéries possèdent une paroi externe autour de la membrane plasmique, composée de peptidoglycanes ADDIN EN.CITE Stanier1962600000000006Stanier, RYVan Niel, CB1962The concept of a bacteriumArch Mikrobiol4217-35(Stanier and Van Niel, 1962). À la fin des années 1880, Gram détermina quil existait deux sortes de parois bactériennes, et ainsi divisa les bactéries en deux classes, grâce au développement dun test de coloration ( REF _Ref508266234 \h \* MERGEFORMAT Figure 4). La coloration de la bactérie dépend de la structure de sa paroi cellulaire :
Gram-Positif. La paroi contient beaucoup de peptidoglycanes sur sa couche externe.
Gram-Négatif. La paroi possède moins de peptidoglycanes, lesquels se trouvent dans un espace appelé périplasme situé entre la membrane plasmique et la membrane externe.

Plusieurs molécules dADN sont présentes dans le cytoplasme bactérien. Le chromosome bactérien est un double brin dADN, associé à des protéines, la plupart du temps circulaire même si de plus en plus de chromosomes bactériens linéaires sont trouvés. LADN bactérien est codant dans les deux sens de lecture et il possède peu de séquences non codantes. De petites molécules dADN circulaires peuvent coexister à lintérieur de la cellule, les plasmides. Ces dernières se répliquent de façon indépendante, même si certaines peuvent le faire avec le chromosome de manière synchrone. Le nombre de gènes bactériens est très variable et est corrélé à la taille du génome : 500 pour les petits génomes (Mycoplasma genitalium) et plusieurs milliers pour les génomes plus riches (5000 pour E. coli O157-H7). Lors de la division cellulaire, la cellule duplique son chromosome. Chaque copie sattache à la membrane plasmique. Entre les deux sites de fixation, la paroi croît jusquà doubler de taille. À ce moment, la membrane sinvagine formant une cloison séparant les deux copies. Puis deux cellules filles identiques à la cellule initiale sont produites par séparation au niveau de la membrane interne.
Leur taxonomie et lhistoire de leur classification seront abordées ultérieurement.

Archaebactéries

Les archaebactéries sont, comme les eubactéries, des procaryotes. Pendant de nombreuses années, les archaebactéries nétaient pas considérées comme formant un domaine à part entière, mais appartenant au domaine des organismes sans noyau nucléaire, les procaryotes. En 1977, Woese démontra en étudiant lARN ribosomal (ARNr) que les archaebactéries représentaient un domaine taxonomique à part entière ADDIN EN.CITE Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744(Woese and Fox, 1977).
Les archaebactéries ont de nombreux points communs avec les eubactéries. Tout dabord, le chromosome dune archaebactérie est aussi composé dun double brin circulaire dADN et les tailles du génome en nombre de nucléotides et de gènes sont comparables. De même la division cellulaire dune archée est identique à celle des bactéries.
Mais les archées ont aussi des points communs avec les eucaryotes. Dun point de vue moléculaire, certaines protéines ainsi que les ARNr des archées sont beaucoup plus proches en séquences et en fonctionnement de celles des eucaryotes. La paroi cellulaire des archées est constituée de lipides différents de ceux des eucaryotes et des bactéries et ne contient aucune molécule de peptidoglycane.
La plupart des archaebactéries vivent dans des conditions extrêmes : fond des océans, source volcaniques, fortes températures, station dépuration et même intestin grêle. Cest pourquoi les archaebactéries sont souvent appelées « extrêmophiles ». Plusieurs types de archées peuvent être dégagés en fonction de lenvironnement dans lequel elles vivent :
Les méthanogènes thermophiles (températures hautes : 60 à 80°C)
Les hyperthermophiles (températures extrêmement hautes : plus de 100°C)
Les psychrophiles (températures très basses, proche de 0°C)
Les halophiles (croissent dans des environnements fortement salins)
Les thermoacidophiles (prospérant dans des milieux chauds et très acides)
Les alcalinophiles (se développant à des pH : 8 à 10)

Dun point de vue taxonomique, les archaebactéries sont regroupés en quatre groupes : Les Euryarchaeotes, les Crenarchaeotes, Les Korarchaeotes ADDIN EN.CITE Barns19961600000000016879917693171996Aug 20Perspectives on archaeal diversity, thermophily and monophyly from environmental rRNA sequences9188-93Department of Biology, Indiana University, Bloomington 47405, USA.Barns, S. M.Delwiche, C. F.Palmer, J. D.Pace, N. R.Proc Natl Acad Sci U S AArchaea/*classification/*genetics/isolation & purificationBacteria/geneticsComparative StudyDNA, Ribosomal/geneticsEukaryotic CellsHeatMarine BiologyMineral Waters/microbiologyMolecular Sequence DataPhylogenyRNA, Ribosomal/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Sequence Analysis, DNA*Variation (Genetics)*Water MicrobiologyWyominghttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8799176(Barns et al., 1996) et les Nanoarcheas ADDIN EN.CITE Huber200217000000000171198666541768842002May 2A new phylum of Archaea represented by a nanosized hyperthermophilic symbiont63-7Lehrstuhl fur Mikrobiologie und Archaeenzentrum, Universitat Regensburg, Universitatsstrasse 31, D-93053 Regensburg, Germany.Huber, H.Hohn, M. J.Rachel, R.Fuchs, T.Wimmer, V. C.Stetter, K. O.NatureArchaea/*classification/genetics/*physiology/ultrastructureBase SequenceBlotting, SouthernEvolutionGenome, Archaeal*HeatMicroscopy, ElectronMolecular Sequence DataNucleic Acid ConformationRNA, Archaeal/chemistry/geneticsRNA, Ribosomal/chemistry/geneticsResearch Support, Non-U.S. Gov't*SymbiosisTerminologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11986665(Huber et al., 2002).

Eucaryotes
Historiquement, Les eucaryotes sont considérés comme le groupe de référence. Cela provient du fait que les organismes multicellulaires observables à lil nu sont des eucaryotes. Ainsi les premiers groupes ayant servi à classer le vivant sont tous des groupes deucaryotes, les procaryotes n étant qu une partie des Protistes.
Les cellules d eucaryotes mesurent de 10 à 100 mðm de diamètre. Les cellules eucaryotes peuvent se regrouper ou non en amas cellulaires. Ce qui différencie principalement les eucaryotes des autres domaines est la présence d une paroi nucléaire séparant le matériel génétique, L ADN, du cytoplasme cellulaire ( REF _Ref508266308 \h Figure 5). Le noyau nucléaire est un organite de 5mðm de diamètre contenant chez les eucaryotes la majorité de l ADN. La paroi cellulaire des eucaryotes est proche de celles des eubactéries à lexception du fait quelle ne possède pas de peptidoglycane. La cellule eucaryote se procure de lénergie à laide de la photosynthèse par lintermédiaire des chloroplastes ou par respiration grâce aux mitochondries. Les chloroplastes et les mitochondries possèdent leurs propres ADN, circulaire et codant pour leurs protéines. Les cellules possèdent aussi des organisations complexes comme les appareils de Golgi et le réticulum endoplasmique. Le génome eucaryote est en moyenne beaucoup plus grand que celui des procaryotes. La cellule eucaryote contient un ou plusieurs chromosomes de tailles diverses, constitués de molécules linéaires dADN. Le nombre de chromosomes est une caractéristique de lespèce. Lors de la division cellulaire, chaque chromosome est dupliqué. Les deux copies sont reliées par leurs centromères. Les eucaryotes se distinguent aussi des procaryotes par leur mécanisme de division cellulaire. À la fin de la réplication de lADN, les deux copies (chromatides) de chaque chromosome sont regroupées par leurs centromères. Au cours de la mitose, les chromatides se séparent pour former un jeu chromosomique complet de chaque coté de la cellule dans leur propre noyau nucléaire. Puis la cellule se divise lors de la cytocinèse.

Figure SEQ Figure \* ARABIC 5 - Coupe d'une cellule eucaryote. Ici est représentée une cellule animale, où les principales structures les plus répandues sont schématisées.

Les eucaryotes se divisent classiquement en quatre grands domaines : Végétaux, Animaux, Mycètes et Protistes. Les trois premiers groupes sont bien définis, les protistes consistent en des organismes unicellulaires qui ne sont pas animal, végétal ou champignon. Les progrès en systématique ont permis de mettre à jour un arbre phylogénétique plus complexe (pour de plus amples discussion voir Lecointre et Le Guyader ADDIN EN.CITE Lecointre20011810000000018Lecointre, G.Le Guyader, H.2001Classification phylogénétique du vivantParisBelin15442-7011-2137-Xphylogeny(Lecointre and Le Guyader, 2001)). Lorigine des eucaryotes est un sujet très discuté. Deux hypothèses saffrontent, même si elles peuvent être complémentaires :
- lhypothèse autogène où une invagination et une différentiation de la membrane plasmique auraient produit les membranes internes : paroi nucléaire, réticulum endoplasmique et appareil de Golgi.
- lhypothèse endiosymbiothique. Une cellule procaryote (plus vraisemblablement une archée ADDIN EN.CITE Rivera200421000000000211535662243170052004Sep 9The ring of life provides evidence for a genome fusion origin of eukaryotes152-5Molecular Biology Institute, MCD Biology, University of California, Los Angeles 90095, USA.Rivera, M. C.Lake, J. A.NatureBacteria/geneticsDNA, Bacterial/geneticsDNA, Fungal/geneticsDNA, Mitochondrial/geneticsEukaryotic Cells/*metabolism*Evolution, MolecularGene Transfer, Horizontal*Genome*Genomics/methods*Models, GeneticOrganelles/geneticsPhotosynthesis*PhylogenyProkaryotic Cells/metabolismRecombination, Genetic/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSchizosaccharomyces/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15356622(Rivera and Lake, 2004) aurait créé des relations symbiotiques avec une eubactérie (að-protéobactérie pour la mitochondrie ou une cyanobactérie pour les chloroplastes).

DACU
Le Dernier Ancêtre Commun Universel DACU (ou LUCA en anglais) est la racine universelle. Il est l organisme primitif, l ancêtre supposé des trois domaines. Dans un arbre à trois taxons, il peut être placé à trois endroits différents, provocant trois séparations différentes :
- Lhypothèse basée sur le domaine procaryote. Le DACU est placé sur la branche des eucaryotes. À partir du DACU, les lignées eucaryotes et procaryotes ont émergé.
- Lhypothèse que le DACU soit une archée. Hypothèse très rapidement écartée par la communauté scientifique.
- Lhypothèse proposée par Woese en 1977 ADDIN EN.CITE Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744(Woese and Fox, 1977). Le DACU serait une eubactérie et les archées seraient des descendants précoces des premiers organismes vivants. Cette hypothèse a été retrouvée dans de nombreuses études se basant sur lutilisation de lADN et des protéines.
- Une autre hypothèse est basée sur lhyperthermophilie ancestrale. Lors des études phylogénétiques, les groupes hyperthermophiles bactériens et archées sont trouvés respectivement à la base des bactéries et des archées. Il a donc été proposé que cette hyperthermophilie était dû à un ancêtre commun qui était lui même hyperthermophiles. Cette hypothèse saccorde aussi avec une vision de lapparition de la vie dans un environnement composé de sources volcaniques au fond des océans dans les premiers temps de la Terre.

Phylogénie

Historique

Dès lAntiquité, les philosophes grecs cherchèrent à comprendre la nature. Malgré le fait que chaque école de pensée nourrissait des idées opposées, les plus influentes saccordaient pour nier lévolution. Les espèces sont fixes et permanentes. Elles existent telles quelles peuvent être observées depuis toujours. Les espèces sont placées dans des boîtes sans relations entre elles : par exemple les chats, les vaches Aristote tout en souscrivant à ces idées reconnaissait néanmoins que les espèces semblent avoir plusieurs degrés de complexité. Il propose ainsi de les classer en fonction de cette complexité apparente. Au cours du Moyen Age, aucune nouvelle idée sur lévolution napparaît. Se basant sur les différents livres religieux pour expliquer lévolution, le créationnisme essentialiste sinstalle. LHomme est placé en haut de léchelle de la création, comme étant la créature la plus aboutie. Cette conception restera longtemps au cur de la pensée scientifique.
La taxonomie apparaît au XVIIIème siècle. Karl Von Linné, un médecin suédois satèle à mettre de lordre dans la compréhension de la diversité des espèces. Il pose les bases de la taxonomie, science qui consiste à référencer et classer les espèces. Il pose les bases de la nomenclature binomiale. Chaque organisme possède un nom en deux parties : son genre et son espèce. Linné obtient donc une hiérarchisation des espèces par catégories. Mais ce regroupement ne signifie aucunement une parenté entre les espèces contenues dans un même groupe. Le concept de lespèce figée est toujours présent.
Fin du XVIIIème début du XIXème siècle, létude systématique des fossiles qui sont retrouvés dans les couches géologiques permet lémergence de la paléontologie. Cuvier en est le principal artisan. Il développe le catastrophisme qui permet dexpliquer le grand nombre de fossiles. Le catastrophisme suppose quil a existé dans le passé des grandes catastrophes aboutissant à la disparition dun grand nombre despèces. Malgré le fait que Cuvier croyait que le nombre despèces était fixe, ses idées ont permis de commencer à faire évoluer la pensée scientifique de lépoque vers le concept dapparition et de disparition despèces.
En 1809, Lamarck publia sa théorie de lévolution. Il détecte une ressemblance entre les fossiles et les espèces modernes. Cette ressemblance est pour lui une preuve dévolution des espèces. Lévolution est le résultat dune course à la complexité et à la perfection des espèces. Les espèces développent des caractéristiques qui leur permettent de pouvoir vivre mieux dans leur milieu. Les espèces transmettent à leurs descendances les caractères quils ont acquis. Cela permet une progression graduée des caractères. Lamarck instaure lidée que les espèces évoluent et quelles ne sont pas figées. Lamarck insiste aussi pour placer les espèces végétales et animales en haut de larbre de lévolution, en vertu de leur « perfection ».
À la suite de Lamarck, vint lhomme qui changea la vision de lévolution des espèces : Charles Darwin. Passionné de botanique, il fut frappé, lors dun voyage dans les îles Galápagos, par la diversité et par ladaptation de la faune locale aux spécificités de lenvironnement. Ces observations lui permirent, après de nombreuses vérifications et lédification dun ensemble solide de preuves à même de lever toutes objections, dédifier sa théorie qui changea le plus profondément la pensée évolutionniste. De la sortie de son ouvrage « lorigine des espèces » en 1859 ADDIN EN.CITE Darwin18592210000000022Darwin, C.1859L'origine des espèces(Darwin, 1859), Darwin mit 10 ans pour finir de convaincre la communauté scientifique de la justesse de sa thèse. Dix ans de débats houleux sur fond religieux. En effet, le darwinisme change considérablement la notion despèces et comment celles-ci interagissent, et donc la place de lhomme dans lévolution.
- Ascendance commune. Tous les organismes proviennent dun prototype inconnu commun, à partir duquel toutes les espèces auraient évoluées. Lhistoire peut être donc représentée sous la forme dun arbre dichotomique. Chaque embranchement de larbre correspond à lancêtre commun des deux branches descendante. Les individus placés à un même niveau dans larbre descendent dun ancêtre commun. De plus, la majeure partie des branches de lévolution auraient disparu. On retrouve le catastrophisme de Cuvier.
- Sélection naturelle et adaptation. Les conditions environnementales, naturelles ou non (actions de lhomme par exemple), conduisent à une sélection dans la population dune espèce. À cause de cela, seule une fraction des descendants survie à chaque génération. Ces derniers, grâce aux caractères dont ils ont hérité, sont plus aptes à survivre. La population se modifie donc petit à petit. On évolue de manière progressive, même actuellement, par pression sélective.
En résumé, les organismes descendent, après de nombreuses modifications et adaptations, despèces ancestrales et le mécanisme dévolution est la sélection naturelle dont laction est continuelle et permanente.
Dans les années 1930-1940, Ernst Mayr apporta des précisions à la théorie de Darwin en donnant par exemple une définition rigoureuse du terme despèce :
« Une population qui ne se croise pas avec une autre population, même si elle se trouve en même temps au même endroit, est une espèce ».

Phylogénie et taxonomie

La taxonomie consiste à regrouper les espèces semblables par étage successif en fonction de leurs ressemblances.
Les différents niveaux hiérarchiques que lon obtient peuvent être nommés en fonction de la profondeur de leur rang. Par exemple, le règne animal :

Domaine
Règne
Embranchement
Classe
Ordre
Famille
Genre
Espèce

Cependant cette codification est trop rigide. Il est nécessaire dintroduire des classifications intermédiaires (super-, infra-, sous-). Par exemple, on peut avoir, entre la « classe » et « lordre », les rangs : sous-classe, infra-classe, super-ordre.
On appelle phylogénie la généalogie dune espèce ou dun ensemble despèces que lon suppose descendre dun ancêtre commun et qui constituent un phylum. La systématique est létude de la diversité biologique. Elle permet entre autres didentifier, de décrire une espèce, mais aussi de reconstituer la phylogénie des espèces.
Afin de déterminer les relations entre les espèces, celles ci sont comparées en fonction de différents caractères. Un caractère est un attribut de lespèce qui est comparable et comparé. Les espèces proches sont supposées partager des valeurs proches du caractère (la valeur nulle est acceptable).
Toute la difficulté de cette comparaison est la distinction entre analogie et homologie. La ressemblance entre des espèces attribuable à un ancêtre commun sappelle lhomologie. Cette notion dancêtre commun est importante, car une ressemblance ente deux espèces nimplique pas que ces espèces soit apparentées. En effet, des espèces peuvent acquérir un trait commun par sélection naturelle. Telles espèces sont le fruit dévolution convergente et les ressemblances, dans ce cas, sont des analogies.
Plusieurs caractères peuvent être utilisés :
- Les données morphologiques. Elles sont basées sur létude et lobservation des caractères physiques de lespèce. Il peut sagir de la présence de certains organes, la configuration des ossements, la taille moyenne de lespèce Il sagit dutiliser lanatomie comparative. Historiquement ces données ont été les premières à être utilisées, en effet elles sont les plus faciles daccès. Elles ont défini tous les grands groupes taxonomiques. Cette classification est encore à lheure actuelle celle qui a le plus dimportance. Elle est utilisée par exemple par les zoologistes et les botanistes.
- La biogéographie. La distribution géographique des espèces sert à regrouper les espèces appartenant à un même milieu. Lutilisation de ces données se base sur le fait que les espèces dans la nature ne se déplacent rarement par des sauts géographiques importants. Des espèces, séparées par une grande distance, sont donc différentes. Lutilisation de la biogéographie est très discutée et est généralement utilisée comme complément à dautres critères.
- La paléontologie. Les fossiles servent à regrouper les espèces dont un ancêtre commun peut être trouvé à travers des fouilles géologiques. Historiquement cette méthode a eu un grand poids dans la taxonomie actuelle.
- Lembryologie comparative. Dans le même esprit que lanatomie comparative, les embryologistes ont proposé lontogenèse (le développement embryonnaire dun individu) représente une partie de lhistoire évolutive des espèces (dans ce cas des grandes espèces animales).
- Enfin la plus récente et celle qui semble la plus prometteuse à lavenir, la biologie moléculaire. Il sagit dutiliser les informations contenues dans les séquences biologiques (ADN et acides aminés) afin de comparer les espèces.

La phylogénie moléculaire

Historique

Les premiers pas de la phylogénie moléculaire peuvent être attribué à Nuttal qui, en 1904 ADDIN EN.CITE Nuttal19042310000000023 Nuttal, G.H.F.1904Blood immunity and blood relationshipCambridge University PressCambridge(Nuttal, 1904), utilisa pour la première fois des résultats de biologie moléculaire. Lhypothèse de base de la phylogénie moléculaire est que lhistoire du gène est la même que celle des espèces. Lutilisation de résultats de tests de précipitation permit de définir les relations à lintérieur du phylum des grands singes. Nuttal fut un précurseur. Lessor de la phylogénie moléculaire du attendre 50 ans et les progrès technologiques de la biologie moléculaire. Une grande avancée a été le développement des techniques de séquençages des protéines (dans ce cas linsuline) de Sanger en 1952 ADDIN EN.CITE Sanger19522400000000024130181855211952SepThe amino-acid sequence in the glycyl chain of insuliniiiSanger, F.Thompson, E. O.Biochem Jhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=13018185(Sanger and Thompson, 1952). Dautres méthodes de biologie moléculaire ont été introduites en phylogénie : électrophorèse sur gel, données immunologiques, hybridations ADN-ADN. Zuckerkandl et Pauling en 1965 ADDIN EN.CITE Zuckerkandl196525000000000255876245821965MarMolecules as documents of evolutionary history357-66Zuckerkandl, E.Pauling, L.J Theor BiolAmino Acid Sequence*Evolution*Genes*Genetic Code*Macromolecular SubstancesNucleic Acids*RNA, Messengerhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=5876245(Zuckerkandl and Pauling, 1965) adaptèrent les techniques de phylogénie à leurs utilisations aux macromolécules (ADN et protéine). Zuckerkandl et Pauling proposèrent que le taux dévolution dune protéine soit constant. Ils inventèrent lhorloge moléculaire. Les protéines, grâce à cette évolution constante et graduelle, peuvent donc être utilisées afin de dater la divergence entre les espèces.
Lamélioration des techniques de séquençages provoqua lessor de nouvelles méthodes de reconstruction darbres phylogénétiques et de méthodes dalignement. Cependant ces méthodes demandaient beaucoup de ressources informatiques (temps de calculs et mémoire) et ce qui rendait difficile son utilisation. Cest pourquoi les méthodes délectrophorèse et dimmunologie avaient dans les années 70 les faveurs de la communauté scientifique, même si elles étaient considérées comme moins précises. Ainsi Woese, en 1977 ADDIN EN.CITE Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744(Woese and Fox, 1977), utilisa lélectrophorèse sur gel de lARN ribosomal, coupé par une enzyme de restriction, pour établir des distances entre espèces. Ces travaux amenèrent le premier arbre universel du vivant basé sur des données moléculaires. Lavènement de puissants ordinateurs permis de faciliter lemploi des techniques de phylogénie basée sur la comparaison de séquences. Ainsi, les méthodes ont pu devenir de plus en plus sophistiquées.
Le grand nombre de séquences nucléiques et protéiques accessibles a aussi permis dans les années 1970 de proposer des modèles dévolution des séquences. Par exemple, en 1972, Dayhoff ADDIN EN.CITE Dayhoff19782670000000026Dayhoff, M.O.1978A model of evolutionnary change in proteins.Naional Biomedical Research FoundationAtlas of protein sequence and structure, supplément 3Washington, DC345-352(Dayhoff, 1978) partit de létude dun grand nombre de séquences protéiques pour déterminer les matrices de transition entre acides aminés PAM (« Accepted Point Mutation »). Ces matrices indiquent quelle est la probabilité de transition dun acide aminé en un autre. Elles sont basées sur létude de plusieurs familles de protéines. Une matrice PAM ( REF _Ref508266393 \h Figure 6) est définie par un indice qui correspond au nombre de mutation acceptée par 100 acides aminés (ex PAM 256 signifie 256 mutations pour 100 acides aminés). Ces matrices permettent deffectuer de meilleurs alignements en jouant sur les valeurs de coûts de chaque transition.

Figure SEQ Figure \* ARABIC 6 - Exemple d'une matrice PAM. La matrice au-dessus correspond à PAM2. Pour chaque acide aminé initial, les probabilités de mutation sont indiquées. Tableau tiré de Dayhoff et al ADDIN EN.CITE Dayhoff19782670000000026Dayhoff, M.O.1978A model of evolutionnary change in proteins.Naional Biomedical Research FoundationAtlas of protein sequence and structure, supplément 3Washington, DC345-352(Dayhoff, 1978).

Ces matrices de transition servent aussi pour déterminer des distances basées sur des données moléculaires. Les matrices PAM sont de nos jours souvent remplacées par les matrices BLOSUM ADDIN EN.CITE Henikoff19922700000000027143829789221992Nov 15Amino acid substitution matrices from protein blocks10915-9Howard Hughes Medical Institute, Fred Hutchinson Cancer Research Center, Seattle, WA 98104.Henikoff, S.Henikoff, J. G.Proc Natl Acad Sci U S AAlgorithms*Amino Acid SequenceAnimalsCaenorhabditis elegans/geneticsComparative StudyDrosophila/geneticsLod ScoreMathematicsMolecular Sequence DataProbabilityProteins/chemistry/*geneticsResearch Support, U.S. Gov't, P.H.S.*Sequence Homology, Amino Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1438297(Henikoff and Henikoff, 1992) pour les raisons suivantes : échantillon de données servant à définir les matrices BLOSUM plus large (BLOCKS) et surtout non-biaisé (chez les PAM, la majorité des protéines sont globulaires).
Lapport de la biologie moléculaire à la phylogénie par rapport aux données morphologiques et paléontologiques est important. Les séquences nucléiques permettent de comparer des espèces dont peu de caractères morphologiques sont exploitables ou comparables. Cest le cas par exemple des microorganismes où la convergence est très présente dans les données morphologiques. De plus, des programmes de séquençages, de plus en plus nombreux, permettent de comparer un nombre de plus en plus grand despèces, qui peuvent être très différentes. Certaines méthodes de phylogénie moléculaire utilisent des modèles moléculaires dévolution. Ces modèles et leurs paramètres (taux de mutation, matrices de transition) augmentent la compréhension de lévolution des espèces.

Définition

Tout dabord un point sur quelques définitions et sur ce quest un arbre phylogénétique dans la pratique.

Les relations évolutives entre les espèces peuvent être représentées sous la forme dun arbre phylogénétique. Un arbre phylogénétique est un graphe binaire composé de nuds et de branches qui relient deux nuds entre eux. Chaque nud représente un groupe ou taxon. Les nuds terminaux ou taxons correspondent aux espèces. L'espèce constitue le taxon de base de la classification. Les nuds internes représentent les points de divergence des espèces. Ils peuvent aussi correspondre aux séquences ancestrales, celles qui auraient évolué afin dobtenir les séquences étudiées. Larrangement des branches est appelé topologie. La longueur des branches est proportionnelle au nombre de changements évolutifs qui se sont produits entre deux nuds.
Lenracinement dun arbre est une étape indispensable pour déterminer lorientation temporelle de lévolution présentée par larbre phylogénétique ( REF _Ref508266441 \h Figure 7). Il permet de polariser les caractères utilisés. Pour se faire, un groupe externe despèces est choisie afin de servir de racine. Le groupe externe est un ensemble de taxons que lon sait être éloigné des espèces étudiées. La racine sert à définir la référence pour létude des caractères. Les caractères du groupe externe sont supposés avoir des valeurs différentes du groupe détude. Une fois que larbre est orienté par lenracinement, on peut définir un groupe de taxons de trois manières ( REF _Ref508266453 \h Figure 8) :
Monophylétisme. Un taxon est monophylétique, quand il regroupe un ancêtre et toutes les espèces descendant de cet ancêtre.
Paraphylétique. Un taxon est paraphylétique quand il contient une espèce ancestrale et une partie seulement de ses descendants.
Polyphylétique. Un taxon polyphylétique est un groupe qui contient un certain nombre despèce mais pas leur ancêtre commun.

Figure SEQ Figure \* ARABIC 7 - Enracinement d'un arbre à 4 taxons. Deux types denracinement sont possibles. Sur une branche externe (1) ou sur la branche interne (2).

Figure SEQ Figure \* ARABIC 8 - Monophylie et Paraphylie. Le groupe (B, C, D) est monophylétique : tous les descendants de leur ancêtre commun sont compris dans ce groupe. Le groupe (F, G, H) est paraphylétique : Leur ancêtre commun na pas tous ses descendants dans le groupe, il manque E.

Dans le cas idéal, les arbres inférés sont des arbres binaires. Cest-à-dire, chaque nud interne est le point de rencontre de trois branches. Larbre est alors totalement résolu. Mais, expérimentalement, un arbre peut avoir des nuds internes qui ont plus de deux descendants immédiats. Les relations induites par ce nud ne sont pas résolues. Dans ce cas, on parle de multifurcations et darbres irrésolus.

Les données prises en compte

Afin de comparer les espèces, il est nécessaire de sélectionner des séquences, nucléiques ou protéiques, présentes dans lensemble des espèces sélectionnées. Ces séquences doivent pouvoir être comparable afin de déterminer la ressemblance entre elles, pour cela on utilise des séquences homologues. Les séquences homologues dun gène sont des séquences issues dune séquence ancestrale commune. En étudiant les génomes, deux genres de séquences homologues apparaissent provenant de deux types de différenciation : la spéciation et la duplication. Lors quun gène ancestral se duplique, les gènes descendants sont dits paralogues. Un gène orthologue est un gène qui na pas subi de duplication et qui nest le résultat uniquement dévénements de spéciation dun gène ancestral. Ces derniers sont les seuls à même de décrire lévolution entre les espèces.

Lalignement

La comparaison des séquences homologues passe par lidentification des parties semblables. Pour cela, on passe par un alignement de séquences. Lalignement est une opération qui consiste à placer les parties similaires des séquences en minimisant les différences. Grâce à lalignement, on peut sélectionner les parties communes des séquences qui serviront à évaluer les relations. Ainsi lalignement est la base des différentes méthodes de reconstruction. Il existe de nombreux algorithmes dalignement mais souvent assez lourd en temps de calculs (). Ces algorithmes peuvent être locaux ou globaux. Lalignement obtenu est une série de sites mis en vis-à-vis. Par simplicité, regardons le cas dun alignement de deux séquences. Trois types de motifs peuvent être retrouvés dans lalignement de séquences dADN (on a la même chose avec les protéines) pour chaque site :
- Un appariement (« match »). Les deux bases sont identiques.
- Un mésappariement. Les deux bases sont différentes et indiquent un changement évolutif entre les séquences.
- Une absence dune base dans une des séquences. Cela traduit la présence dune délétion ou dune insertion. Ces deux événements peuvent être regroupés sous le terme dindel.
Grâce à lalignement, il est possible didentifier certains événements évolutifs qui différencient les séquences : les mutations par des mésappariement, des insertions/délétions par les indels et les inversions de morceaux de séquences par plusieurs mésappariements.
Un des algorithmes dalignement les plus utilisés est lalgorithme de Needleman et Wunsch ADDIN EN.CITE Needleman1970280000000002854203254831970MarA general method applicable to the search for similarities in the amino acid sequence of two proteins443-53Needleman, S. B.Wunsch, C. D.J Mol Biol*Amino Acid SequenceComputersHemoglobinsMethodsMuramidaseMyoglobinProbabilityRibonucleaseshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=5420325(Needleman and Wunsch, 1970). Cet algorithme est une méthode non-heuristique, développé pour obtenir un alignement global de deux séquences de protéines. Elle se décompose en plusieurs étapes :
Construction dune matrice EMBED Equation.3 , où on met en vis à vis les deux séquences que lon souhaite alignées. Pour chaque couple de caractères, on attribue la valeur déterminée dans la matrice de substitution choisie (PAM, blossum, IUD, ).
Transformation de cette matrice tel que les nouvelles valeurs de la matrice S(i,j) sont : EMBED Equation.3 où EMBED Equation.3 est le score pour la transition i vers j dans la matrice de substitution choisie. EMBED Equation.3 est le score dans la matrice de lalignement pour la position EMBED Equation.3 de la séquence 1 et EMBED Equation.3 pour la séquence 2. EMBED Equation.3 correspond à la pénalité douverture de gap.
Les lignes i=0 et la colonne j=0 sont initialisés au valeur de pénalité douverture et dextension. Puis on remplit les valeurs en progressant caractère par caractère.

Figure SEQ Figure \* ARABIC 9 - Exemple d'une matrice de score permettant d'aligner deux séquences suivant l'alogrithme de Needleman-Wunsch. La matrice de substitution utilisée est BLOSUM 62. Les paramètres douverture de gap sont d=-12 et e=-2. Le chemin jaune correspond à lalignement optimal.

Pour trouver l'alignement optimal, on établit dans la matrice le chemin correspondant au passage par les scores les plus élevés ( REF _Ref508266506 \h Figure 9). Pour cela, on part du score maximum et on s'autorise trois types de mouvements :
1) diagonal : passage de EMBED Equation.3 à EMBED Equation.3 mouvement privilégié
2) horizontal : passage EMBED Equation.3 à EMBED Equation.3 avec insertion dans la séquence 2 en j
3) vertical : passage de EMBED Equation.3 à EMBED Equation.3 avec insertion dans la séquence 1 en i
En cas douverture dun gap, il est possible dajouter une pénalité, modifiant le score, dépendante de la longueur du gap. Une fonction de pénalité classique est EMBED Equation.3 où EMBED Equation.3 correspond à la longueur du gap, EMBED Equation.3 à la pénalité douverture dun gap et EMBED Equation.3 à la pénalité dextension du gap. Dans ce cas, la fonction de score est légèrement modifiée :
EMBED Equation.3 .
La longueur du gap ouvert est alors soit EMBED Equation.3 , soit EMBED Equation.3

Un autre algorithme, largement employé, est lalgorithme de Smith et Waterman ADDIN EN.CITE Smith19812900000000029Smith, T. F.Waterman, M. S.1981Identification of common molecular subsequences.J Mol Biol1471195-7http://www.ncbi.nlm.nih.gov:80/entrez/query.fcgi?cmd=Retrieve&db=PubMed&list_uids=7265238&dopt=Abstract(Smith and Waterman, 1981). Cet algorithme permet dobtenir un alignement local entre deux séquences. Cet algorithme diffère de celui de Needleman et Wunsch par les points suivants : la ligne i=0 et la colonne j=0 sont initialisés à 0 et la fonction de récurrence prend la valeur 0 si aucune valeur supérieur à 0 apparaît dans les choix.
La fonction score prend donc cette forme : EMBED Equation.3
Comme avec lalgorithme de Needleman et Wunsh, on détermine lalignement optimal en suivant le chemin des scores les plus élevés. De même, la pénalité de gap peut être fonction de sa longueur. EMBED Equation.3
Lalgorithme de Smith-Waterman est un algorithme très efficace, mais il est lent.

ClustalW est un programme dalignement multiple qui se base sur un algorithme dalignement progressif utilisant un algorithme global ADDIN EN.CITE Higgins19963000000000030http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=8743695Higgins, D. G.Thompson, J. D.Gibson, T. J.Using CLUSTAL for multiple sequence alignments*Amino Acid SequenceAnimal*Base SequenceDNA/*chemistry*Databases, FactualEvolution, MolecularGlobins/*chemistry/geneticsHorsesHumanLeghemoglobin/chemistryLegumes/geneticsMolecular Sequence DataNucleic Acid Conformation*PhylogenyProtein Structure, SecondaryProtein-Tyrosine Kinase/chemistry/geneticsProteins/*chemistry*Softwaresrc Homology DomainsEuropean Molecular Biology Laboratory Outstation-European Bioinformatics Institute, Hinxton, Cambridge, United Kingdom.87436951996Methods Enzymol266383-402(Higgins et al., 1996). ClustalW est un des programmes les plus utilisés et les plus populaires dû à son efficacité et sa sensibilité. Un alignement multiple progressif utilise la similarité des paires de séquences et les alignements par paires afin de construire un alignement multiple. Pour chaque séquence, on calcule la similarité par rapport à toutes les autres séquences. Les deux séquences les plus similaires servent de base pour l'élaboration d'un alignement multiple. À partir de lensemble des pourcentages des similarités, on construit un arbre phylogénétique qui sera utilisé pour lalignement. La dernière étape consiste à aligner les séquences en sappuyant sur larbre phylogénétique. On commence par les séquences feuilles en se dirigeant vers la racine. À chaque nud, un processus itératif modifie la pénalité douverture dun gap en fonction du nombre de séquences.
Une autre méthode dalignement multiple consiste à effectuer des alignements multiples itératifs. Le programme Dialign est un exemple de programme utilisant cet alignement. Ces alignements sont généralement plus précis et sensibles que les alignements progressifs (), mais le temps d'exécution de ceux-ci est très fortement supérieur à celui des programmes utilisant un algorithme progressif. Cest pourquoi ils ne sont pas très employés. Les alignements multiples itératifs utilisent la méthode suivante :
1) Comme les alignements progressifs : calcul du score dalignements pour chaque paire de séquences, construction dun arbre à partir de ses scores puis alignement multiple à partir de larbre phylogénétique obtenu.
2) Lalignement obtenu sert à reconstruire un arbre phylogénétique.
3) Cet arbre est utilisé pour effectuer à nouveau un alignement multiple.
4) Répétition de létape 2 et 3 jusquà ce que le score dalignement névolue plus.

Les méthodes de reconstruction darbres

De nombreuses méthodes existent pour reconstruire un arbre phylogénétique, à partir de lalignement, chacune ayant ses avantages et ses inconvénients. Ces méthodes semploient aussi bien pour les nucléotides que pour les séquences protéiques. Je prendrai le parti de ne parler que des séquences nucléiques, car ce sont elles qui seront utilisées durant ma thèse.
Les méthodes de reconstruction peuvent être regroupées en trois groupes :
Le maximum de parcimonie : on recherche larbre phylogénétique qui minimise le nombre de changements détats de caractères, présents sur larbre.
Les méthodes probabilistes : maximum de vraisemblance, inférence bayésienne. Ce sont des méthodes qui utilisent un modèle évolutif. Larbre phylogénétique est obtenu en optimisant, à laide dun critère (la vraisemblance, le critère de Bayes), ladéquation entre le couple modèle/topologie et les données de séquences.
La phénétique ou méthode des distances : des distances évolutives entre toutes les paires de séquences sont calculées. À partir de lensemble des distances, un arbre phylogénétique est inféré par différents algorithmes.

Maximum de parcimonie

Dans cette méthode, on recherche larbre qui requiert le nombre minimum de changements évolutifs pour expliquer les différences entre les différentes séquences étudiées. Cette méthode fut dabord développé pour les séquences dacides aminés ADDIN EN.CITE Eck19663210000000032Eck, R.V.Dayhoff, M.O.1966Atlas of Protein Sequence and StructureNational Biomedical Research FoundationSilver Spring(Eck and Dayhoff, 1966), puis adapté aux séquences nucléiques ADDIN EN.CITE Fitch19773100000000031Fitch, W.M.1977On the problem of discovery the most parsimonious treeAm. Nat.111223-257(Fitch, 1977). Le maximum de parcimonie produit larbre avec le score (nombre de changement) minimum. Or souvent de nombreux arbres sont trouvés avec ce score minimal, des méthodes de consensus sont employés à la suite.
Le maximum de parcimonie se base sur lutilisation de caractères informatifs. Un caractère informatif est un caractère qui privilégie certaines topologies. Par exemple, en regardant les 4 séquences ci-dessous ( REF _Ref507994826 \h Figure 10) qui peuvent conduire à trois topologies :

Figure SEQ Figure \* ARABIC 10 - Alignement de 4 séquences nucléiques

Seuls les sites 4 et 7 sont informatifs. En effet, pour les sites 1 et 6, tous les caractères sont identiques et ne permettent pas de distinguer les séquences. Le site 2 nest pas informatif car, dans les 3 arbres possibles, ce site induit un changement évolutif, un changement localisé dans la branche menant à la séquence 4. Pour les sites 3 et 5, une comparaison des différentes topologies montre que pour chacun de ces sites, le nombre de changements évolutifs est le même dans toutes les topologies ( REF _Ref507994917 \h Figure 11).

Figure SEQ Figure \* ARABIC 11 - Nombre de changements évolutifs en fonction de la topologie. Une étoile correspond à un changement évolutif qui se déroule dans la branche.

Les sites 4 et 7 permettent chacun de faire une bipartition des espèces. Chaque partition correspond à une des trois topologies qui est privilégiée ne présentant quun changement. Le site 4 soutient larbre 1 et le site 7 larbre 3. Dans ces exemples, on voit quun site est informatif sil présente au moins deux types de caractères et que chaque type est présent dans au moins deux séquences. Lexemple ci-dessus soutient deux arbres dégales parcimonies : larbre 1 et larbre 3. De manière générale, larbre le plus parcimonieux est larbre qui est supporté par le plus grand nombre de sites informatifs.
Avec un plus grand nombre de séquences, létude se complique, mais la recherche est toujours la même :
On recherche lensemble des sites informatifs.
Pour chaque arbre possible, on calcule le nombre minimal de changements de caractère pour tous sites informatifs.
Larbre ou les arbres les plus parcimonieux sont choisis.
Le maximum de parcimonie prend en compte les acides nucléiques ou acides aminés, mais cette méthode peut aussi prendre en compte les gaps comme un 5ème état (cas nucléique) ou un 21ème état (avec les acides aminés). Tous les résultats que je présenterai provenant du maximum de parcimonie utiliseront les gaps comme un 5ème état ou comme données manquantes et donc ces gaps seront ignorés.
Quand le nombre de taxons terminaux est plus grand que sept, le nombre darbres possibles devient très grand. Il est nécessaire dutiliser des programmes utilisant des heuristiques qui permettent de limiter lespace de recherche.

Phénétique

La phénétique est la méthode de reconstruction qui se base sur la ressemblance entre les espèces. Pour cela, elle calcule pour chaque paire de taxons un indice de similitude ou distances. Une fois que lon a déterminé ces distances, on construit larbre à partir de différentes méthodes.
Tout dabord, comment calculer les distances à partir de lalignement des distances. La distance la plus simple consiste à compter le nombre de nucléotides communs entre les deux séquences. Cette distance est peu employée car elle ne tient que dun seul type de mutation : les mutations simples. On suppose dans ce cas quune différence sur un site est due à une seule mutation sur une séquence. Or il existe dautres types de mutations : les mutations multiples et lhomoplasie ( REF _Ref507996480 \h Figure 12).
Un site dans un alignement présente une homoplasie si chacune des deux séquences présente le même état (même nucléotide) mais cet état nest pas dû aux mêmes événements évolutifs. Trois explications sont possibles : réversion, évolution parallèle et convergence.

Figure SEQ Figure \* ARABIC 12 - Différents types de mutation. Deux séquences homologues descendent dune séquence ancestrale. Les mutations sont représentées par une flèche.

Sur la figure ci-dessus, six types de mutations sont représentées :
Site 2 : mutation simple de la séquence 1. Une différence entre les deux séquences est observée.
Site 3 : mutations multiples de la séquence 2. Une différence entre les deux séquences est observée.
Site 5 : des mutations sur chacune des séquences aboutissant à des nucléotides différents. Une seule différence entre les deux séquences est observée.
Site 7 : des mutations sur chacune des séquences mais le résultat de la mutation est le même dans les deux cas. On parle de mutations parallèles. Dans ce cas, aucune différence nest observée entre les deux séquences.
Site 9 : deux mutations ont lieu sur la séquence 2. Mais la deuxième mutation conduit au retour au nucléotide ancestral que la séquence 1 continue dexprimer. On parle de réversion. Aucune différence nest observable entre les deux séquences.
Site 12 : deux mutations ont lieu sur la séquence 2 et une sur la séquence 1. Malgré le fait que le nombre de mutations soit différent dans chaque séquence, le même nucléotide est présent sur le site 12 pour les deux séquences. On parle ici de convergence, car la deuxième mutation de la séquence 2 a conduit au même nucléotide muté que celui de la séquence 1. Dans ce cas, aucune différence est observée entre les séquences.

Entre les séquences 1 et 2, seules trois différences sont notables même si douze mutations ont eu lieu. Ils nous manquent donc de linformation. Un autre point est le fait que la probabilité de transition dun nucléotide vers un autre nest pas la même pour toutes les transitions. On appelle homoplasie un site présentant des états moléculaires identiques mais ayant subit des étapes évolutives différentes, comme pour les réversions, mutations parallèles ou convergentes.
Afin de mieux prendre en compte lévolution des séquences, on utilise des modèles plus ou moins complexes de substitutions. On suppose ici que tous les sites suivent le même modèle dévolution, à savoir un processus stochastique Markovien : cest-à-dire homogène dans le temps, stationnaire et aussi réversible. Ce modèle peut être représenté par une matrice de transition entre les différents nucléotides.
Le modèle de Jukes et Cantor ADDIN EN.CITE Jukes19693310000000033Jukes, THCantor, CR1969Evolution of Protein MoleculesAcademic Press(Jukes and Cantor, 1969) ou JC69 postule que le taux de substitution est constant et identique quelle que soit la transition. Dans ce modèle, le taux de substitution de chaque nucléotide est EMBED Equation.3 par unité de temps, et le taux de substitution dun nucléotide vers un des trois autres est EMBED Equation.3 . Comme le modèle ne dépend que dun paramètre, il est appelé modèle à un paramètre. La matrice de substitution sécrit :
EMBED Equation.3
A, T, C et G sont respectivement le 1ère, 2ème, 3ème et 4ème coordonnées. Ainsi la transition EMBED Equation.3 est sur la 1ère ligne 4ème colonne.

Lhypothèse effectuée dans le modèle de Jukes-Cantor que les mutations arrivent au hasard est peu réaliste. Les transitions sont généralement plus fréquentes que les transversions. Une transition est une mutation intra purine ou intra pyrimidine ( EMBED Equation.3 ou EMBED Equation.3 ). Une tranversion est une mutation entre pyrimidine et purine EMBED Equation.3 . Pour prendre en compte cette différence de comportement, Kimura ADDIN EN.CITE Kimura19803400000000034Kimura, M.1980A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences.J Mol Evol162111-20http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=7463489(Kimura, 1980) introduit un nouveau modèle dit kimura 2 paramètres (K2P). Les deux paramètres sont le taux de transition par unité de temps EMBED Equation.3 et le taux de transversion par unité de temps EMBED Equation.3 . La matrice de substitution devient :
EMBED Equation.3

Les deux modèles de Jukes-Cantor et Kimura 2 paramètres sont basés sur le fait que les fréquences à léquilibre des nucléotides sont identiques, égales à 0.25 . En supposant que ces fréquences sont différentes et égales à EMBED Equation.3 avec EMBED Equation.3 et que les taux de mutation dun nucléotide vers un des trois autres sont identiques, on obtient le modèle de Felsenstein 1981 (F81) ADDIN EN.CITE Felsenstein1981360000000003672888911761981Evolutionary trees from DNA sequences: a maximum likelihood approach368-76Felsenstein, J.J Mol Evol*Base SequenceComputersDNA/*genetics*EvolutionMathematicsModels, BiologicalPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7288891(Felsenstein, 1981). Ce modèle a quatre paramètres indépendants.
EMBED Equation.3

F81 suppose que les taux de mutations sont identiques quelle que soit la substitution considérée. Comme avec K2P, on peut considérer que le taux de transition est plus élevé que celui de transversion. Pour cela, on utilise le modèle proposé par Hasagawa en 1985 (HKY85) ADDIN EN.CITE Hasegawa1985370000000003739343952221985Dating of the human-ape splitting by a molecular clock of mitochondrial DNA160-74Hasegawa, M.Kishino, H.Yano, T.J Mol EvolAnimalsComparative StudyDNA, Mitochondrial/*genetics*EvolutionGenes, StructuralHaplorhini/*geneticsHumansMathematicsModels, GeneticNucleic Acid HybridizationPrimates/*geneticsProteins/geneticsResearch Support, Non-U.S. Gov'tSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=3934395(Hasegawa et al., 1985). Ce modèle plus complexe possède cinq paramètres indépendants.
EMBED Equation.3

Tamura et Nei, en 1993 ADDIN EN.CITE Tamura1993380000000003883365411031993MayEstimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees512-26Department of Biology, Pennsylvania State University.Tamura, K.Nei, M.Mol Biol EvolAnalysis of VarianceAnimalsDNA, Mitochondrial/*geneticsHominidae/*geneticsHumansMathematicsModels, GeneticModels, StatisticalPan troglodytes/*genetics*PhylogenyResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.SoftwareTime*Variation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8336541(Tamura and Nei, 1993), ont proposé daffiner le modèle HKY85, en supposant que le taux de transition EMBED Equation.3 entre purines était différent de celui entre pyrimidines EMBED Equation.3 . Ce modèle est nommé TN93 et il comporte 6 paramètres indépendants.
EMBED Equation.3
Le modèle de F84, proposé par Felsenstein et Kishino-Hasagawa ADDIN EN.CITE Kishino1989390000000003925097172921989AugEvaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea170-9Institute of Statistical Mathematics, Tokyo, Japan.Kishino, H.Hasegawa, M.J Mol EvolAnimals*Base SequenceComparative StudyDNA/*genetics*EvolutionHominidae/*geneticsHumans*Models, Genetic*Models, StatisticalPrimates/*geneticsProbabilityResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2509717(Kishino and Hasegawa, 1989), ressemble à HKY85. Comme lui les fréquences des nucléotides à léquilibre sont différentes. Mais il suppose quil existe deux types dévenements : un comme celui présenté par HKY85 et un autre provenant dune mutation interne au groupe des pyrimidines ou des purines. (felsenstein churchill 1995).

Le modèle GTR (General Time Reversible) ou REV a été introduit par Yang en 1994 ADDIN EN.CITE Yang19944100000000041Yang, Z.1994Estimating the pattern of nucleotide substitution.J Mol Evol391105-11http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=pubmed&dopt=Abstract&list_uids=8064867(Yang, 1994). Il requiert six paramètres. Les six paramètres sont : les taux de substitutions de A en T, A en C, A en G, T en C, T en G et C en G. On suppose ici que les deux types de transitions pour une paire de nucléotide sont identiques.
EMBED Equation.3

Dans les modèles présentés précédemment, le taux de mutation est supposé être identique pour tous les sites étudiés, les séquences sont homogènes. Or des analyses ont montré que ces taux suivent approximativement une distribution régie par une loi gamma (). Certains sites sont invariants tandis que dautres sont soumis à un grand nombre de mutations. La distribution gamma est une densité de probabilité souvent utilisé en statistique. La forme de cette distribution dépend dun paramètre EMBED Equation.3 . La distribution des taux de substitutions sécrit : EMBED Equation.3 où EMBED Equation.3 est le taux de substitution, EMBED Equation.3 et EMBED Equation.3 . EMBED Equation.3 est la valeur moyenne de EMBED Equation.3 et EMBED Equation.3 sa variance ( REF _Ref508266599 \h Figure 13).

Figure SEQ Figure \* ARABIC 13 - Distribution de la loi gamma pour différentes valeurs de að. Les distributions de trois valeurs de að sont représentées. að=0.5 (courbe verte), að=1 (courbe bleue) et að=2 (courbe rouge).

Quand EMBED Equation.3 égal 1, la distribution décroît de manière exponentielle de EMBED Equation.3 à 0. Quand EMBED Equation.3 , EMBED Equation.3 tend vers linfini quand tend EMBED Equation.3 vers 0, donc un grand nombre de sites sont invariants ou avec un très faible taux de substitution. De plus, quand EMBED Equation.3 , EMBED Equation.3 décroît moins lentement que pour EMBED Equation.3 . Cela signifie que la distribution est plus dispersée et la séquence plus hétérogène. Pour EMBED Equation.3 , EMBED Equation.3 égal 0 et la distribution à une forme concentré autour dune valeur dépendant de EMBED Equation.3 . Dans ce cas la séquence est moins hétérogène. Quand EMBED Equation.3 tend vers linfini, le modèle dhétérogénéité des taux tend vers le modèle où tous les taux sont constants. La plupart des estimations empiriques du paramètre EMBED Equation.3 donne des valeurs entre 0.1 et 0.5, ce qui implique des variations non négligeable du taux de substitution dans les séquences. Les modèles de substitution peuvent être modifiés afin de tenir compte de lhétérogénéité des sites.

Un fois que lon a calculé lensemble des distances, on utilise un algorithme de reconstruction de la topologie.
La méthode UPGMA (Unweighted pair-group methode with arithmetic mean) est la méthode la plus simple. Elle a initialement été développée pour la construction de phénogrammes taxonomiques par Sokal et Michener ADDIN EN.CITE Sokal19584200000000042Sokal, R.R.Michener, C.D.1958Univ. Kan. Sci. Bull281409-38(Sokal and Michener, 1958). Cette méthode peut être employée si les taux de substitutions sont à peu près constant pour toutes les lignées utilisées (cas de lhorloge moléculaire). Ainsi il existe une relation linéaire entre la distance évolutive et le temps dévolution. Des études ont montré que lutilisation de lhorloge moléculaire sur de grandes distances évolutives diminue fortement la probabilité dobtenir le bon arbre. UPGMA est un algorithme de clustering séquentiel et larbre phylogénétique est construit au fur et à mesure. Lalgorithme peut sécrire comme suit :
1) La première étape consiste à identifier quelles sont les espèces les plus proches.
2) Ces espèces sont remplacées par un taxon composite dans la matrice des distances. Ce taxon est placé à égale distance des deux espèces.
3) Calcul des distances entre toutes les espèces restantes et le taxon composite en utilisant la moyenne des distances
4) Répétition des étapes 1, 2 et 3 jusquà ce quil ne reste que deux taxons.
Supposons que lon est la matrice des distances suivantes pour 4 séquences A, B, C et D.
EMBED Equation.3 EMBED Equation.3 est la distance entre lespèce i et j.
Si EMBED Equation.3 est la distance minimale, les espèces A et B seront regroupées et le point dembranchement sera à EMBED Equation.3 . Le taxon composite est noté (AB). La nouvelle matrice des distances devient :
EMBED Equation.3

Lalgorithme du Neighbor-Joining (NJ) est basé sur la recherche des voisins qui minimise la longueur totale de larbre. Dans un arbre non-enraciné, deux taxons sont dit voisins sils sont connectés par un seul nud interne. Cette méthode a été développée par Saitou et Nei ADDIN EN.CITE Saitou19874300000000043http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3447015Saitou, N.Nei, M.The neighbor-joining method: a new method for reconstructing phylogenetic treesAnimalBiometryEvolution*Models, Genetic*PhylogenyRanidae/*geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Center for Demographic and Population Genetics, University of Texas Health Science Center, Houston 77225.3447015Mol Biol Evol198744406-25.(Saitou and Nei, 1987). La méthode NJ commence par un arbre étoilé ( REF _Ref507996821 \h Figure 14 gauche) où il y a un seul nud interne où sont connectées toutes les espèces.

Figure SEQ Figure \* ARABIC 14 - Différentes étapes de l'algorithme Neighbor-Joining. Gauche : arbre étoilé initial. Droite : arbre après le regroupement des taxons 1 et 2.

La première étape est du NJ consiste à séparer deux espèces des autres ( REF _Ref507996821 \h Figure 14 droite). Ainsi toutes les espèces sont séparées par deux nuds internes. Dans lexemple donné, les espèces 1 et 2 sont voisines, ainsi que les espèces 3, 4 et 5. La longueur de larbre ainsi séparé en deux est :
EMBED Equation.3
N est le nombre de taxons à litération considérée

Lalgorithme de NJ calcule les longueurs darbre EMBED Equation.3 pour tous les couples de séquences. On choisit le couple despèce qui minimise cette longueur. La paire choisie est alors considérée comme un taxon unique X et est remplacé par celui-ci pour les étapes suivantes. On calcule la nouvelle matrice des distances à partir de la moyenne arithmétique des distances. Les distances entre les espèces 1 et 2 du nud X sont données par les formules suivantes :

EMBED Equation.3 et EMBED Equation.3 .

La nouvelle matrice des distances où le nud X remplace les espèces 1 et 2 est calculée en estimant les distances entre le nouveau nud X et les taxons j.
EMBED Equation.3
Larbre prend donc la forme suivante ( REF _Ref508266647 \h Figure 15).

Figure SEQ Figure \* ARABIC 15 - Arbre après acceptation du regroupement entre les taxons 1 et 2.

La procédure est répétée jusquà avoir déterminer les N-3 branches internes.
Cette méthode a été modifiée par Studier et Keppler ADDIN EN.CITE Studier198844000000000443221794561988NovA note on the neighbor-joining algorithm of Saitou and Nei729-31Department of Microbiology, University of Illinois, Urbana 61801.Studier, J. A.Keppler, K. J.Mol Biol Evol*AlgorithmsMathematicsMethods*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=3221794(Studier and Keppler, 1988), afin dobtenir une méthode plus rapide. Studier et Keppler minimisent un critère différent de celui de Nei :
EMBED Equation.3

Gascuel ADDIN EN.CITE Gascuel199427600000000276Gascuel, O.1994A note on Sattath and Tversky's, Saittou and Nei's and Studier and Keppler's algorithms for inferring phylogenies from evolutionary distancesMol Biol Evol116961-3(Gascuel, 1994) a montré que minimiser ce critère est équivalent à minimiser le critère original.
Larbre obtenu est non raciné. Il est possible de le raciner en utilisant un groupe externe ou en utilisant le point séparant les deux séquences les plus éloignés. Nj est une méthode rapide qui donne de bons résultats.
Des variantes de NJ peuvent être utilisées afin de déterminer les distances EMBED Equation.3 , EMBED Equation.3 et EMBED Equation.3 ou dans la manière de choisir la paire de séquences à agglomérer. Quand on recalcule la matrice des distances après avoir remplacé les deux espèces, les distances EMBED Equation.3 peuvent être nimporte quelle combinaison linéaire de EMBED Equation.3 et EMBED Equation.3 . NJ suppose que ces deux estimations ont la même importance et leur donne le poids de EMBED Equation.3 . BioNJ ADDIN EN.CITE Gascuel1997120000000001292543301471997JulBIONJ: an improved version of the NJ algorithm based on a simple model of sequence data685-95GERAD, Ecole des HEC, Montreal, Quebec, Canada. gascuel@lirmm.frGascuel, O.Mol Biol EvolAlgorithms*EvolutionModels, Biological*PhylogenySequence Analysis/*methodsSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9254330(Gascuel, 1997) va quant à lui donner des poids minimisant la variance de EMBED Equation.3 .
Weighbor est une autre méthode se basant sur NJ ADDIN EN.CITE Bruno20004600000000046106667181712000JanWeighted neighbor joining: a likelihood-based approach to distance-based phylogeny reconstruction189-97Los Alamos National Laboratory, New Mexico 87545, USA. billb@lanl.govBruno, W. J.Socci, N. D.Halpern, A. L.Mol Biol EvolAnimalsComputer SimulationEvolution, MolecularHumans*Models, Theoretical*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10666718(Bruno et al., 2000). Elle utilise un critère différent pour choisir la paire de taxons à assembler. Ce critère utilise le fait que les plus grandes distances sont les moins bien estimées. On utilise une modélisation par des variables normales des distances afin de déterminer quels sont les taxons à sélectionner.

La méthode ME pour Minimum Evolution a été décrite par Saitou et Nei ADDIN EN.CITE Saitou19874300000000043http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3447015Saitou, N.Nei, M.The neighbor-joining method: a new method for reconstructing phylogenetic treesAnimalBiometryEvolution*Models, Genetic*PhylogenyRanidae/*geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Center for Demographic and Population Genetics, University of Texas Health Science Center, Houston 77225.3447015Mol Biol Evol198744406-25.(Saitou and Nei, 1987) et Cavalli-Sforza et Edwards ADDIN EN.CITE Cavalli-Sforza19674700000000047Cavalli-Sforza, L.L.Edwards, A.W.F.1967Phylogenetic analysis: models and estimation procedures.Am. J. Hum. Gen.19233-57(Cavalli-Sforza and Edwards, 1967). Pour tous les arbres possibles, on estime la longueur de chaque branche à partir de la matrice des distances et on somme ces longueurs afin de déterminer la longueur de larbre. Larbre qui sera considéré comme le « meilleur » arbre est celui pour lequel la somme des longueurs des branches est la plus faible. Rzhetsky et Nei ADDIN EN.CITE Rzhetsky1995480000000004878774881211995JanTests of applicability of several substitution models for DNA sequence data131-51Institute of Molecular Evolutionary Genetics, Pennsylvania State University, University Park 16802.Rzhetsky, A.Nei, M.Mol Biol Evol*Base SequenceComparative StudyComputer SimulationDNA/chemistry/*genetics*Evolution*Models, Genetic*Models, StatisticalModels, TheoreticalResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.*Variation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7877488(Rzhetsky and Nei, 1995) ont montré que si les estimations des distances ne sont pas biaisées, alors le vrai arbre devrait avoir la longueur darbre la plus faible. La méthode ME souffre dun vrai problème. Il est très long de pouvoir calculer réellement, pour tout arbre, les (2n-3) longueurs de branches. Le temps de calculs de cette méthode est très supérieur à celle des autres méthodes. Desper et Gascuel ADDIN EN.CITE Desper2002490000000004912487758952002Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle687-705National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, 45 Center Drive, Bethesda, MD 20892, USA.Desper, R.Gascuel, O.J Comput Biol*AlgorithmsComparative StudyComputer Simulation*Evolution, MolecularModels, Genetic*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12487758(Desper and Gascuel, 2002) développèrent de nouvelles techniques se basant sur la méthode ME afin dobtenir FASTme une méthode rapide dobtenir un arbre. Ainsi les problèmes dus au temps de calcul ne sont plus importants.

Une autre méthode des distances est la méthode dite des moindres carrés pondérés qui est implémenté dans le programme FITCH ADDIN EN.CITE Felsenstein20045060000000050Felsenstein, J.2004PHYLIP (Phylogeny Inference Package)3.6(Felsenstein, 2004). Cette méthode utilise le critère de Fitch-Margoliash () pour minimiser la différence entre les distances que lon lit sur larbre et celles qui sont présentes dans la matrice des distances.

Au cours de ma thèse, jutiliserai les modèles HKY85 et K2P, lorsque jutiliserai la méthode des distances afin dinférer un arbre phylogénétique. Une fois la matrice des distances obtenue, les arbres phylogénétiques seront obtenus à laide de lalgorithme du Neighbor-Joining ou du Minimum dévolution. Cette méthode permet de calculer les arbres de manière rapide une fois lalignement obtenu.

Maximum de vraisemblance

Le maximum de vraisemblance est une méthode probabiliste qui calcule pour chaque topologie une fonction de vraisemblance. Larbre qui sera choisi est celui qui maximise la vraisemblance avec lalignement. Cette méthode fut pour la première fois employée par Cavalli-Sforza et Edwards ADDIN EN.CITE Cavalli-Sforza19674700000000047Cavalli-Sforza, L.L.Edwards, A.W.F.1967Phylogenetic analysis: models and estimation procedures.Am. J. Hum. Gen.19233-57(Cavalli-Sforza and Edwards, 1967) pour reconstruire un arbre à partir de fréquences de gènes. Felsenstein développa plus tard les méthodes pour une application aux nucléotides et aux acides aminés ADDIN EN.CITE Felsenstein1981360000000003672888911761981Evolutionary trees from DNA sequences: a maximum likelihood approach368-76Felsenstein, J.J Mol Evol*Base SequenceComputersDNA/*genetics*EvolutionMathematicsModels, BiologicalPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7288891(Felsenstein, 1981).
Le maximum de vraisemblance utilise un modèle de substitution des nucléotides pour calculer les probabilités. Létape suivante consiste à calculer la fonction de vraisemblance de chaque site pour toutes les topologies. Explicitons la vraisemblance dun site pour une topologie donnée. Par mesure de simplification, nous resterons dans le cas dune étude à 4 taxons ( REF _Ref508266674 \h Figure 16). Supposons que lon sintéresse à la topologie suivante :

Figure SEQ Figure \* ARABIC 16 Méthode du maximum de vraisemblance : arbre à 4 taxons. Les nuds internes ainsi que les différentes longueurs de branches sont indiqués. Figure adaptée de Li et Gouy 1991

Le site i prend pour les séquences 1, 2, 3 et 4 respectivement les valeurs EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 et EMBED Equation.3 . Les longueurs de branches sont indiquées par EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 et EMBED Equation.3 . La fonction de vraisemblance du site i sécrit alors : EMBED Equation.3
Explicitons chaque terme. EMBED Equation.3 est la probabilité suivant le modèle dévolution choisi davoir pour la séquence 1 la caractère EMBED Equation.3 sachant que le nud ancestral à la valeur EMBED Equation.3 avec une longueur de branche EMBED Equation.3 . On applique le même raisonnement pour toutes les branches. Cependant comme on ne connaît pas à priori la valeur des nuds ancestraux, on somme les probabilités pour tous les nucléotides possibles en leur assignant une probabilité EMBED Equation.3 correspondant à la probabilité davoir à priori le nucléotide EMBED Equation.3 . Cette probabilité est généralement initialisée à la fréquence de ce nucléotide dans lensemble des séquences.
Maintenant pour avoir la vraisemblance, on multiplie lensemble des vraisemblances obtenues pour chaque site. EMBED Equation.3 pour EMBED Equation.3 égale au nombre de sites pris en compte.
Dans le cas général, la vraisemblance pour certains paramètres EMBED Equation.3 et pour une topologie EMBED Equation.3 sécrit EMBED Equation.3 . EMBED Equation.3 est lensemble des données cest-à-dire lensemble des sites. EMBED Equation.3 est lensemble des caractères, pour la position i, présents dans les séquences. EMBED Equation.3 est la fonction vraisemblance du site i sachant la topologie EMBED Equation.3 et les paramètres EMBED Equation.3 . La structure de la fonction de vraisemblance est indépendante de la topologie, mais les termes de la fonction dépendent de la topologie.
Pour chaque topologie, on optimise les paramètres EMBED Equation.3 afin de maximiser la vraisemblance. Ces paramètres peuvent être les longueurs des branches mais aussi des paramètres ajustables du modèle dévolution. On obtient ainsi la vraisemblance de la topologie étudiée. Enfin on choisit larbre qui, parmi tous les arbres possibles, possède la plus grande vraisemblance. Larbre phylogénétique obtenu est fortement dépendant du modèle dévolution choisi. Ainsi larbre obtenu avec un modèle ne maximisera peut-être pas la vraisemblance sous un autre modèle. Il est donc nécessaire dexpliciter la méthode choisie.
La méthode du maximum de vraisemblance a pendant longtemps été peu utilisée de par ses difficultés de calculs. Mais les progrès de linformatique ont permis à cette méthode de prendre son essor et davoir la préférence des phylogénéticiens. Cependant un ordinateur puissant est nécessaire et des méthodes heuristiques dexploration de lespace des arbres sont indispensables encore à lheure actuelle.
Le modèle de substitution HKY85 est celui que jai utilisé lorsque jai calculé des arbres phylogénétiques à partir de la méthode du maximum de vraisemblance. De plus, une hétérogénéité du taux de substitution a été prise en compte par une distribution gamma. Les différents paramètres du modèle ont été estimés à partir des données : le paramètre dhétérogénéité að, les fréquences des nucléotides et le taux transition/transversion.

Méthodes bayésiennes

La méthode de l inférence bayésienne à l aide de chaînes de Markov est une méthode probabiliste qui utilise un critère différent de celui du maximum de vraisemblance, même sils sont liés. Les résultats obtenus peuvent être comparés à ceux du maximum de vraisemblance avec bootstrap.
Linférence bayésienne est basée sur lutilisation du théorème de Bayes :
EMBED Equation.3 où EMBED Equation.3 est lensemble des partitions des possibles. EMBED Equation.3 est la probabilité davoir EMBED Equation.3 en sachant EMBED Equation.3 et EMBED Equation.3 la probabilité dobtenir EMBED Equation.3 .
La méthode bayésienne choisit déterminer le meilleur arbre en postulant larbre et les paramètres du modèle dévolution au début de la recherche.
Le critère qui est maximisé par linférence bayésienne en phylogénie est le suivant :
EMBED Equation.3
EMBED Equation.3 est la probabilité à posteriori que la topologie EMBED Equation.3 est la topologie correcte connaissant les données. EMBED Equation.3 est la vraisemblance de larbre EMBED Equation.3 et EMBED Equation.3 est la probabilité à priori de larbre EMBED Equation.3 . La somme au dénominateur est faite sur tous les arbres possibles.
La vraisemblance est basée sur loptimisation de plusieurs paramètres inconnus : la topologie, la longueur des branches et les paramètres du modèle. Linférence bayésienne utilise quant à elle la probabilité à posteriori des paramètres : EMBED Equation.3 . Cependant cette probabilité ne peut pas être calculé analytiquement, mais elle peut être approximé par échantillonnage de la distribution de la probabilité à posteriori. Pour cela, on utilise des chaînes markoviennes de Monte-Carlo (MCMC). Lalgorithme le plus utilisé est celui de Metropolis-Hastings-Green ADDIN EN.CITE Hastings19705200000000052Hastings, W. K.1970Monte Carlo sampling methods using Markov chains and their applications.Biometrika5797-109Green19955100000000051Green, P.J.1995Reversible jump Markov chain Monte Carlo computation and Bayesian model determination.Biometrika82711-32(Green, 1995; Hastings, 1970). Cet algorithme utilise le processus itératif suivant. Supposant que lon se trouve dans létat EMBED Equation.3 , EMBED Equation.3 la topologie, EMBED Equation.3 les longueurs de branches et EMBED Equation.3 les paramètres du modèle. Les chaînes de Markov sont initialisées (aux valeurs à priori) puis elles servent à proposer un nouvel état EMBED Equation.3 . La transition vers cet état sera acceptée avec la probabilité :
EMBED Equation.3
EMBED Equation.3 est la probabilité de passer au nouvel état EMBED Equation.3 à partir de létat EMBED Equation.3 et la probabilité EMBED Equation.3 est celle du mouvement inverse. Comme les mouvements sont souvent réversibles, le ratio des passages est généralement égal à 1. Donc la probabilité dacceptation de la transition est composée dun terme rapport des vraisemblances et dun autre terme ratio des conditions à priori. Ces itérations sont répétées plusieurs milliers de fois afin dobtenir un état stable. Lensemble des arbres obtenus au cours de la procédure de Markov sert à définir la probabilité à posteriori de larbre.
Une variante de lalgorithme MCMC est appelée algorithme de Monte-Carlo utilisant des chaînes de Markov couplé par Metropolis (MCMCMC). Ce dernier utilise des chaînes de Markov et un recuit simulé.
Linterprétation des résultats de linférence bayésienne se fait en sommant pour chaque clade possible les probabilités à posteriori des différents arbres contenant ce clade. Finalement, larbre phylogénétique final est obtenu en rangeant lensemble des arbres par probabilité à posteriori décroissante. Ensuite on additionne les arbres jusquà obtenir une probabilité cumulée de 95%.
Cette méthode tout comme le maximum de vraisemblance est une méthode demandant de gros temps de calculs. Je nai pas utilisé cette méthode lors de ma thèse.

Comparaison de méthodes

Chaque méthode de phylogénie possède des caractéristiques propres et des hypothèses de calculs quil est nécessaire de connaître lorsque lon les utilise. Les points importants sont les hypothèses explicites ou implicites induites par lutilisation de telle méthode, le temps de calcul, la cohérence et les performances selon certaines conditions. Les performances dune méthode sont généralement déterminées par des simulations et des tests empiriques. Ces derniers ne peuvent être utilisés que dans des cas où lhistoire évolutive est parfaitement connue.
Le maximum de parcimonie ne fait quune seule supposition : larbre qui requière le moins de substitution est le meilleur. Quand la divergence entre les séquences est faible, on a peu de chance davoir un grand nombre dhoméoplasie. Le critère du maximum de parcimonie est donc parfaitement adapté à une utilisation dans ce cadre. Si on a une forte divergence des séquences où on est à même dinférer beaucoup dhoméoplasies, le maximum de parcimonie a de gros problèmes pour correctement trouver la bonne phylogénie. En particulier si une espèce a fortement divergé des autres par un taux de mutation élevé, de même si ces taux varient entre les sites. Il est aussi a noté que lapparition dhoméoplasies dépend aussi du modèle dévolution que suivent les séquences et dun biais dans le taux transition/transversion. Le maximum de parcimonie demande normalement de regarder tous les arbres possibles afin de pouvoir les comparer. Mais devant laccroissement exponentiel du nombre darbre avec le nombre de taxons, des méthodes heuristiques sont employées pour limiter lespace de recherche. On est dans le même cas avec le minimum dévolution. La parcimonie est donc une méthode demandant de lourds calculs.
Les méthodes des distances assument que les distances reflètent parfaitement les distances évolutives réelles. Il est donc nécessaire dutiliser des distances et des modèles en accord avec les données. Si les distances entre espèces sont faibles, on a peu de problèmes avec la méthode des distances. Des difficultés apparaissent si les distances sont longues ou si les taux varient beaucoup entre les sites et pour un site donné. LUPGMA soutient que les sites évoluent tous de la même manière. Cela nest pas le cas avec les autres. Lalgorithme de reconstruction Neighbor Joining fait lhypothèse que le critère longueur de larbre est le plus à même de déterminer le meilleur arbre. Ce nest pas forcément le meilleur critère et dautres méthodes de reconstruction en utilisent dautres. La méthode des distances est une méthode très rapide et est donc très souvent employée, à des fins de comparaison avec dautres méthodes par exemple.
Le maximum de vraisemblance fait des hypothèses qui sont explicites en utilisant un modèle dévolution précis. Afin dinférer correctement larbre phylogénétique, il est nécessaire de choisir des modèles de substitution qui ne soient pas incompatibles avec les données. Des inconsistances ont aussi été montrées si on supposait les taux uniformes alors quils ne létait pas. Cette méthode est celle qui demande le plus de ressources en calculs. Devant ce problème de calcul, on peut être amené à utiliser des heuristiques de calculs ou alors à choisir un modèle de substitution plus simple.

Validité

Les différentes méthodes phylogénétiques permettent dobtenir le ou les arbres phylogénétiques les meilleurs suivant le critère choisi. Il est primordial de pouvoir quantifier la confiance que lon peut avoir en cet arbre à laide de statistiques. Plusieurs méthodes existent, mais la plus fréquemment employée est la méthode du bootstrap ADDIN EN.CITE Felsenstein19855300000000053Felsenstein, J.1985Confidence limits on phylogenies : an approach using the bootstrapEvolution439783-791(Felsenstein, 1985).
Cette méthode consiste à simuler à partir du jeu de données initial (dans le cas des méthodes phylogénétiques classiques, lalignement) un ensemble de jeux de données de même taille par un tirage aléatoire avec remise. Cest-à-dire que chaque position de lalignement généré sera obtenu par un tirage aléatoire parmi tous les sites de lalignement initial. Pour chaque jeu de données bootstrap généré, on infère un arbre phylogénétique. Enfin, on indique pour chaque branche interne de larbre phylogénétique initial le pourcentage de fois que cette branche est retrouvée dans lensemble des arbres bootstrap. Cet indice permet dévaluer la confiance que lon peut donner aux branches internes.
Une autre méthode permettant dévaluer la confiance en une phylogénie obtenue est le Jacknife. Cette méthode consiste à inférer un arbre phylogénétique à partir du jeu de données initial où une ou quelques espèces prises au hasard ont été omises. On répète cette procédure un grand nombre de fois afin dobtenir autant darbres. Pour chaque branche interne de larbre phylogénétique non-perturbé, on indique le pourcentage de fois que cette branche est présente dans les arbres phylogénétiques jacknife.
Si on souhaite comparer deux arbres phylogénétiques, on peut décider demployer une métrique darbre. La plus utilisée est celle de Robinson-Foulds dT ADDIN EN.CITE Robinson19815400000000054Robinson, D.F.Foulds, L.R.1981Comparaison of phylogenetic treesMath. Biosci.53131-147(Robinson and Foulds, 1981), qui est une mesure de la dissimilarité structurale entre arbres binaires. Cette méthode permet de comparer des arbres nayant quexactement les mêmes taxons. Cette distance est une métrique topologique qui calcule le nombre de bipartitions présentes dans un seul des arbres. Cette distance ne peut excéder EMBED Equation.3 où N est le nombre despèces étudiées et N-3 le nombre de branches internes. À partir de cette distance, un indice peut être défini EMBED Equation.3 . Il sagit de la proportion de branches internes différentes.
Afin de déterminer si deux arbres sont semblables ou très différents, des tests de congruences sont possibles. Pour effectuer ses tests, on peut utiliser soit la distance de Robinson-Foulds ADDIN EN.CITE Penny19855500000000055Penny, D.Hendy, M.D.1985The use of tree comparaison metricsSystematic Zoology3475-82(Penny and Hendy, 1985), soit on utilise le score de vraisemblance ADDIN EN.CITE Feil20015600000000056111362559812001Jan 2Recombination within natural populations of pathogenic bacteria: short-term empirical estimates and long-term phylogenetic consequences182-7Wellcome Trust Centre for the Epidemiology of Infectious Disease (WTCEID), University of Oxford, South Parks Road, Oxford OX1 3FY, United Kingdom. ed.feil@ceid.ox.ac.ukFeil, E. J.Holmes, E. C.Bessen, D. E.Chan, M. S.Day, N. P.Enright, M. C.Goldstein, R.Hood, D. W.Kalia, A.Moore, C. E.Zhou, J.Spratt, B. G.Proc Natl Acad Sci U S AAllelesBacteria/classification/*genetics/pathogenicityBase SequenceGenes, Bacterial/geneticsGenotypeKineticsMolecular Sequence DataMutagenesis/genetics*PhylogenyPoint Mutation/genetics*Recombination, GeneticStatisticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.Transformation, BacterialVariation (Genetics)/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11136255(Feil et al., 2001). Il sagit de comparer larbre phylogénétique que lon a obtenu avec des arbres phylogénétiques obtenus par différentes méthodes ou par des données différentes qui serviront darbres de référence et avec des arbres générés aléatoirement. Si le critère montre que larbre que nous avons inféré est significativement plus proche de larbre de référence que des arbres aléatoires, alors on pourra dire que notre arbre est congruent avec larbre de référence. Par exemple, avec le score de vraisemblance, le critère est EMBED Equation.3 où L est la vraisemblance. En se basant sur un arbre de référence, on peut définir EMBED Equation.3 . Le EMBED Equation.3 suit pour les arbres aléatoires une distribution nulle. Si le EMBED Equation.3 pour larbre considéré nest pas compris dans le 99ème percentile de la distribution nulle, alors cet arbre est congruent avec larbre de référence.
Guénoche et Garreta ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) a développé un ensemble de critères statistiques qui permettent de déterminer si la matrice des distances qui a été calculée est correctement représentée par larbre phylogénétique inféré ou linverse. Ces critères sont topologiques et numériques et seront discutés ultérieurement (voir Guénoche ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) pour une description plus exhaustive des différents critères).

Problèmes rencontrés dans la réalisation dune phylogénie moléculaire

Alignement

Comme la phylogénie classique nutilise que des séquences homologues, lalignement est une étape primordiale dans toutes les méthodes de phylogénie moléculaire. Elle permet didentifier les sites homologues. Les méthodes dalignement sont des méthodes demandant beaucoup de calculs. Ces méthodes peuvent permettre de trouver lalignement optimal, mais celui ci nest pas forcément biologiquement fiable. Les méthodes dalignement travaillent en alignant localement les séquences, il est donc fort probable quelles conduisent à aligner des positions non homologues. Les parties des séquences, comprises entre deux zones alignées, ne sont pas forcément homologues, or par construction celles-ci sont mises en vis-à-vis. Elles seront donc comparées et pourront conduire à une mauvaise estimation des différences entre les espèces. Un autre problème de lalignement est le fait quil peut être sensible à la matrice de similarité et à la fonction de gap choisies (voir larticle de Brocchieri ADDIN EN.CITE Brocchieri20015800000000058http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11243926Brocchieri, L.Phylogenetic inferences from molecular sequences: review and critiqueAnimalBias (Epidemiology)Data Interpretation, StatisticalEvolutionGene Transfer, Horizontal/geneticsHumanModels, GeneticMutation/geneticsPhenotype*PhylogenyReproducibility of ResultsSensitivity and SpecificitySequence Alignment*Sequence Analysis, DNA/methods/standards*Sequence Analysis, Protein/methods/standards*Sequence Analysis, RNA/methods/standardsSupport, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, Stanford, California 94305-2125, USA.11243926Theor Popul Biol200159127-40.(Brocchieri, 2001) pour plus de renseignements). Malgré ces problèmes, le plus grand problème des alignements est laspect calculatoire.

Séquences homologues

La phylogénie représente le chemin évolutif de lensemble des espèces que lon prend en compte, c'est-à-dire larbre des espèces. Or la phylogénie moléculaire basée sur létude dun gène ne correspond quà lévolution de ce gène, larbre du gène. Larbre du gène peut être différent de larbre despèce sous deux aspects. Lorsque lon étudie les copies dun même gène chez deux espèces, la différenciation des copies peut être antérieure à celle des espèces. Dans ce cas, on surestimerait le temps de divergence entre les espèces. Cependant la topologie pourrait être correcte. Un problème plus grave est que le gène peut avoir évolué de manière radicalement différente des espèces. Les pressions sélectives qui ont abouti à la séparation des espèces peuvent ne pas avoir eu les même effets sur le gène étudié. Dans ce cas-là, larbre phylogénétique inféré représentera lhistoire évolutive du gène et non celui des espèces.
Une fois que les espèces se sont séparées, les séquences évoluent de manière indépendante, accumulant des différences de nucléotides. À partir de ces différences, les méthodes de phylogénie moléculaire permettent de reconstruire larbre phylogénétique. Cependant si un site a subi un grand nombre de substitutions, on a perte dinformation ADDIN EN.CITE Philippe199860000000000609914208861998DecHow good are deep phylogenetic trees?616-23Laboratoire de Biologie Cellulaire (URA CNRS 2227), Batiment 444, Universite Paris-Sud, 91405 Orsay Cedex, France. herve.philippe@bio4. bc4.u-psud.frPhilippe, H.Laurent, J.Curr Opin Genet DevAnimals*Evolution, MolecularHumans*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9914208(Philippe and Laurent, 1998). Les méthodes de phylogénie sont incapables de déterminer toutes les substitutions qui ont eu lieu. On parle alors de saturation. Ces phénomènes de saturation peuvent aussi être observé lorsque lon est en présence dhomoplasie. Ce problème de saturation se pose particulièrement lorsque lon observe des espèces très éloignées comme avec les bactéries. Certains gènes qui sont peu contraints ont fortement divergé permettent dobtenir des phylogénies pour des espèces proches, mais en aucun cas des phylogénies plus anciennes. À lopposé, des gènes plus conservés comme lARN ribosomal sont plus adaptés à létude phylogénétique despèces éloignées que despèces proches.
Cette saturation est amenée par des taux dévolution élevés. Une forte différence de taux dévolution entre les espèces peut conduire à lapparition dartefact de reconstruction dit dattraction des longues branches ADDIN EN.CITE Felsenstein19785900000000059Felsenstein, J.1978Cases in wich parsimony or compability methods will be positively misleading.Systematic Zoology27401-10(Felsenstein, 1978). Il sagit dun cas où les branches ayant un taux de substitution bien plus élevé que les autres vont se retrouver regroupées ensemble. Plaçons nous dans le cas dun arbre à 4 taxons ((A,B),(C,D)) où certaines branches ont des taux de substitutions bien plus élevé que les autres, cest-à-dire si on regarde la REF _Ref508266730 \h Figure 17 que p>> q.

Figure SEQ Figure \* ARABIC 17 - Phénomène dattraction des longues branches.

Dans ce cas-là, les séquences de A et C vont subir beaucoup plus de mutations que les séquences de B et D. Il y a aura perte de signal phylogénétique de larbre vrai par saturation et les méthodes de phylogénie regrouperont plutôt A et C ensemble. Le phénomène dattraction des longues branches sapparente à une exclusion des longues branches. Celles-ci se regroupe et se place avec lespèce la plus éloignée qui est le groupe externe ADDIN EN.CITE Philippe199860000000000609914208861998DecHow good are deep phylogenetic trees?616-23Laboratoire de Biologie Cellulaire (URA CNRS 2227), Batiment 444, Universite Paris-Sud, 91405 Orsay Cedex, France. herve.philippe@bio4. bc4.u-psud.frPhilippe, H.Laurent, J.Curr Opin Genet DevAnimals*Evolution, MolecularHumans*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9914208(Philippe and Laurent, 1998). Ces phénomènes peuvent aussi apparaître au niveau de clades où des espèces par un artefact des longues branches peuvent être placées à la base de leur groupe taxonomique dappartenance (par exemple des Gram- pour le cas des bactéries).

Transfert Horizontaux

Dautres phénomènes biologiques peuvent perturber le signal phylogénétique. Un de ses phénomènes est la possibilité quont les organismes, surtout les Procaryotes, déchanger du matériel génétique entre espèces par transfert horizontal ADDIN EN.CITE Ochman20006200000000062Ochman, H.Lawrence, J., G.Groisman, E., A.2000lateral gene transfer and the nature of bacterial innovationNature405299-304Lawrence20026300000000063 Lawrence, JG. Ochman, H.2002Reconciling the many faces of lateral gene transferTrends Microbiol.101-42002 JanDufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005; Lawrence and Ochman, 2002; Ochman et al., 2000). Ces transferts sont des intégrations de fragments dADN étranger dans le génome à laide de différents mécanismes moléculaires ADDIN EN.CITE Zgur-Bertok19996400000000064107308964531999Mechanisms of horizontal gene transfer (review)91-6Department of Biology, Biotechnical Faculty, Ljubljana, Slovenia. Darja.Zgur@uni-Lj.SiZgur-Bertok, D.Folia Biol (Praha)AnimalsConjugation, GeneticDNA Transposable Elements/geneticsEukaryotic CellsModels, GeneticPlasmids/classification/geneticsProkaryotic CellsRepetitive Sequences, Nucleic AcidTransduction, GeneticTransformation, Bacterial/genetics*Transformation, Genetic/physiologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10730896(Zgur-Bertok, 1999). Ces événements sont rares, mais assez difficile à évaluer car seuls ceux qui réussissent à être parfaitement intégré dans le génome de lhôte sont détectables. Mais des chiffres permettent dévaluer, chez les Procaryotes, le pourcentage de transferts horizontaux à des valeurs pouvant atteindre 17% du génome ADDIN EN.CITE Ochman20006200000000062Ochman, H.Lawrence, J., G.Groisman, E., A.2000lateral gene transfer and the nature of bacterial innovationNature405299-304(Ochman et al., 2000). Une fois lADN étranger intégré, celui-ci exprime un certain nombre de gènes susceptibles dêtre sélectionnés lors dune analyse phylogénétique. Or ses derniers à cause de leurs provenances étrangères ne permettent pas dobtenir une phylogénie correcte. Ainsi, certaines phylogénies contiennent de fortes incongruences dues à la présence de transfert horizontaux. Dailleurs, létude des incongruences dans les phylogénies moléculaires est une des méthodes mises en uvre afin de détecter les transferts horizontaux.

Bootstrap

Le bootstrap de la manière dont il est employé en phylogénie moléculaire pose quelques problèmes théoriques. En effet, les conditions dutilisation du bootstrap supposent que toutes les variables soient indépendantes ce qui nest pas le cas dans le cas détudes de séquences nucléiques ou protéiques. Dans le cas de lARN 16S, plus de la moitié des bases sont appariées entre elles dans la structure tertiaire de la molécule, ce qui perturbent la confiance que lon peut donné au bootstrap ADDIN EN.CITE Teichmann19996500000000065103684384911999JulIs there a phylogenetic signal in prokaryote proteins?98-107MRC Laboratory of Molecular Biology, Hills Road, Cambridge CB2 2QH, UK. sat@mrc-lmb.cam.ac.ukTeichmann, S. A.Mitchison, G.J Mol EvolArginine-tRNA Ligase/geneticsBacterial Proteins/*geneticsGenome, BacterialModels, BiologicalPhenylalanine-tRNA Ligase/geneticsPhosphoglycerate Kinase/genetics*PhylogenyRNA, Ribosomal/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10368438(Teichmann and Mitchison, 1999). De plus des corrélations entre positions ont été observées et plus particulièrement entre positions adjacentes (biais de codons, biais doligonucléotides).
Les coefficients de bootstrap sont aussi très dépendants de lhétérogénéité des taux de mutations. Si les taux de mutations sont constants ou relativement homogènes, les coefficients de bootstrap supérieur à 50% sous-estiment la probabilité réelle. Alors que dans le cas de taux de mutations fortement hétérogènes, les coefficients ont tendance à surestimer ADDIN EN.CITE Hillis19936600000000066Hillis, D.M.Bull, J.J.1993An empirical test of bootstrapping as a method for assessing confidence in phylogenetic analysisSyst. Biol.42182-92(Hillis and Bull, 1993).

Différentes méthodes - différents résultats

Différentes études ont montré que différentes méthodes de phylogénies employées sur un même gène pouvaient aboutir à des phylogénies différentes. De même, des arbres phylogénétiques obtenus à partir de gènes différents sont fréquemment différents ADDIN EN.CITE Rokas200367000000000671457440342569602003Oct 23Genome-scale approaches to resolving incongruence in molecular phylogenies798-804Howard Hughes Medical Institute, Laboratory of Molecular Biology, R. M. Bock Laboratories, University of Wisconsin-Madison, 1525 Linden Drive, Madison, Wisconsin 53706, USA.Rokas, A.Williams, B. L.King, N.Carroll, S. B.NatureGenes, Fungal/*genetics*Genome, FungalGenomics/*methods*PhylogenyRegression AnalysisReproducibility of ResultsResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Saccharomyces/*classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14574403(Rokas et al., 2003). Ainsi Russo et al ADDIN EN.CITE Russo19966800000000068Russo,C. A. M.Takezaki, N.Nei, M.1996Efficiencies of different genes and different tree-building methods in recovering a known vertebrate phylogenyMol. Biol. Evol.13525-536(Russo et al., 1996) ont testé lefficacité de 4 méthodes de reconstruction à retrouver une phylogénie connue de vertébrés. Cette étude a été effectuée sur 13 gènes mitochondriaux. Le résultat a été que même si globalement les différentes méthodes retrouvaient le « bon » arbre, il était fréquent que les arbres de différents gènes soient différents même pour une même méthode.
Avec la méthode du maximum de vraisemblance, lemploi de différents modèles de substitution conduit à des résultats différents et même lutilisation de mauvais modèle peuvent conduire à de bien meilleurs résultats que ceux obtenus avec un modèle correspondant à celui quont suivi les séquences ADDIN EN.CITE Yang19976900000000069Yang, Z.1997How often do wrong models produce better phylogenies?Mol. Biol. Evol.14105-108(Yang, 1997).
Ces difficultés dobtenir toujours le même arbre phylogénétique indiquent quil est difficile de définir un arbre « vrai » phylogénétique. Souvent la taxonomie influence le choix de larbre vrai de référence. Mais ce choix est de temps en temps discutable quand il sagit de comparer des espèces très éloignés (comme avec les procaryotes).

Nouvelles méthodes

Avec lapparition récente dun nombre de plus en plus grand de données moléculaires, de nouvelles méthodes de phylogénies moléculaires se sont développées. Elles tiennent compte de la disponibilité croissante de génomes et de protéomes. Ces méthodes emploient pour la plupart des nouveaux types de caractéristiques, différents de la simple comparaison de séquences homologues.

Grand nombre de séquences

Comme je lai déjà indiqué, larbre phylogénétique dun gène contient deux signaux évolutifs : lévolution des espèces, mais aussi lévolution propre du gène. Une des premières idées qui est apparu afin de saffranchir de cette évolution de gène est dutiliser un grand nombre de gènes ADDIN EN.CITE Brown1997700000000007094091496141997DecArchaea and the prokaryote-to-eukaryote transition456-502Canadian Institute for Advanced Research, Department of Biochemistry, Dalhousie University, Halifax, Nova Scotia, Canada. James_R_Brown@sbphrd.comBrown, J. R.Doolittle, W. F.Microbiol Mol Biol RevArchaea/enzymology/*geneticsBacteria/geneticsEukaryotic Cells*Evolution*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9409149Gray199976000000000761006616128354071999Mar 5Mitochondrial evolution1476-81Department of Biochemistry, Dalhousie University, Halifax, Nova Scotia B3H 4H7, Canada. M.W.Gray@Dal.CaGray, M. W.Burger, G.Lang, B. F.ScienceAnimalArchaea/geneticsBacteria/geneticsDNA, Mitochondrial/chemistry/*genetics*Eukaryotic Cells/physiology/ultrastructure*EvolutionEvolution, MolecularGenesMitochondria/*geneticsModels, BiologicalPhylogenySupport, Non-U.S. Gov'tSymbiosishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10066161Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Brown and Doolittle, 1997; Daubin et al., 2002; Daubin et al., 2001; Gray et al., 1999). En effet, en prenant en compte un plus grand nombre de gènes donc de données moléculaires, on renforce le signal évolution de lespèce. De plus, augmenter la nombre des positions prises en compte permet daugmenter linformation disponible et ainsi la probabilité que les méthodes de phylogénie puissent inférer larbre phylogénétique représentatif de lévolution des espèces étudiées.
Une fois que les alignements des séquences des différents gènes choisis, deux possibilités sont ouvertes :
Lensemble des alignements est concaténé afin dobtenir un « super-alignement ». À partir de cet alignement de grandes tailles, on applique une des différentes méthodes de phylogénie moléculaire. Cette méthode conduit à de lourds temps de calculs.
Lautre possibilité consiste à calculer pour chaque gène un arbre à partir dune méthode phylogénétique. Une fois chaque arbre inféré, on calcule un arbre consensus ADDIN EN.CITE Holland20037730000000077Holland, B.Moulton, V.2003Consensus networks: A method for visualising incompatibilities in collections of treesLecture Notes in BioinformaticsWABI 20032812165-76(Holland and Moulton, 2003).
Lutilisation de nombreux gènes nempêche pas dobtenir des résultats incorrects avec un fort taux de confiance ADDIN EN.CITE Naylor19977800000000078925218438866421997Aug 7Structural biology and phylogenetic estimation527-8Naylor, G. J.Brown, W. M.NatureAnimalsMitochondria/*genetics*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9252184Brown20017900000000079114317012832001JulUniversal trees based on large combined protein sequence data sets281-5Anti-Microbial Bioinformatics Group, GlaxoSmithKline,1250 South Collegeville Road, UP1345 P.O. Box 5089, Collegeville, Pennsylvania 19426-0989, USA. James_R_Brown@gsk.comBrown, J. R.Douady, C. J.Italia, M. J.Marshall, W. E.Stanhope, M. J.Nat GenetAmino Acid SequenceArchaea/geneticsBacteria/geneticsComparative StudyConserved SequenceDatabases, FactualEukaryotic Cells*Evolution, Molecular*Genomics*PhylogenyResearch Support, Non-U.S. Gov'tSequence AlignmentSequence Analysis, Protein/*methodshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11431701Teichmann19996500000000065103684384911999JulIs there a phylogenetic signal in prokaryote proteins?98-107MRC Laboratory of Molecular Biology, Hills Road, Cambridge CB2 2QH, UK. sat@mrc-lmb.cam.ac.ukTeichmann, S. A.Mitchison, G.J Mol EvolArginine-tRNA Ligase/geneticsBacterial Proteins/*geneticsGenome, BacterialModels, BiologicalPhenylalanine-tRNA Ligase/geneticsPhosphoglycerate Kinase/genetics*PhylogenyRNA, Ribosomal/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10368438(Brown et al., 2001; Naylor and Brown, 1997; Teichmann and Mitchison, 1999). Ces erreurs peuvent provenir de la présence dans les gènes choisis de transfert horizontaux. Ainsi Brown et al ADDIN EN.CITE Brown20017900000000079114317012832001JulUniversal trees based on large combined protein sequence data sets281-5Anti-Microbial Bioinformatics Group, GlaxoSmithKline,1250 South Collegeville Road, UP1345 P.O. Box 5089, Collegeville, Pennsylvania 19426-0989, USA. James_R_Brown@gsk.comBrown, J. R.Douady, C. J.Italia, M. J.Marshall, W. E.Stanhope, M. J.Nat GenetAmino Acid SequenceArchaea/geneticsBacteria/geneticsComparative StudyConserved SequenceDatabases, FactualEukaryotic Cells*Evolution, Molecular*Genomics*PhylogenyResearch Support, Non-U.S. Gov'tSequence AlignmentSequence Analysis, Protein/*methodshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11431701(Brown et al., 2001) ne gardèrent que 14 des 23 gènes quils avaient étudiés, mais après ce tri le résultat se détériora notablement. Il est donc nécessaire deffectuer une sélection afin davoir des gènes congruents ADDIN EN.CITE Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Daubin et al., 2002; Daubin et al., 2001). Les gènes choisis partagent alors la même histoire.

Superarbre

La concaténation des gènes ne prend en compte que les gènes dont on connaît la séquence pour lensemble des espèces. Cela réduit à lheure actuelle considérablement le nombre despèces qui peuvent être comparées. Des méthodes de reconstruction dites de « superarbre » ont été développées afin de pouvoir prendre en compte des espèces qui nont pas toutes les séquences des gènes que lon considère. Ces méthodes combinent linformation provenant de plusieurs arbres de « petite » taille afin dobtenir un seul arbre de taille beaucoup plus grande.
Depuis la sortie de larticle de Sanderson en 1998 ADDIN EN.CITE Sanderson19988000000000080Sanderson, M.J.1998Phylogenetic supertrees: assembling the trees of lifeTrends Ecol. Evol13105-9(Sanderson, 1998), de nombreuses techniques de superarbre ont été développées (voir larticle de Bininda-Edmonds O.R.P. pour une liste exhaustive des différentes techniques ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004)). Même si de nombreuses critiques ADDIN EN.CITE Gatesy20028400000000084122280075142002AugResolution of a supertree/supermatrix paradox652-64Department of Biology, University of California, Riverside, California 92521, USA.Gatesy, J.Matthee, C.DeSalle, R.Hayashi, C.Syst BiolAnimalsArtiodactyla/classification*PhylogenyResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12228007Gatesy20048270000000082Gatesy, J.Springer, M.S.2004A critique of the matrix representation with parsimony supertreesBininda-Edmonds, O.R.P.Phylogenetic Supertrees: Combining Informaion ti Reveal the Tree of LifeKluwer Academic3369-388Springer200183000000000831125319329155092001Mar 2Phylogenetics. Which mammalian supertree to bark up?1709-11Department of Biology, University of California, Riverside, CA 92521 USA. springer@citrus.ucr.eduSpringer, M. S.de Jong, W. W.ScienceAnimalsDNA, Mitochondrial/geneticsEvolutionGenomicsHumansMammals/anatomy & histology/*classification/geneticsMeta-AnalysisPedigree*PhylogenySequence Analysis, DNAhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11253193(Gatesy et al., 2002; Gatesy and Springer, 2004; Springer and de Jong, 2001) sont apparues pour lutilisation de superarbres, ils sont de plus en plus utilisés, car il semble à lheure actuelle la seule solution afin de construire des arbres de très grandes tailles ADDIN EN.CITE Soltis200385000000000851291313713242003AugThe role of phylogenetics in comparative genetics1790-800Department of Botany and the Genetics Institute, University of Florida, Gainesville, Florida 32611, USA. dsoltis@botany.ufl.eduSoltis, D. E.Soltis, P. S.Plant Physiol*Evolution, Molecular*Genetics*PhylogenyPlants/*classification/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12913137Pennisi200386000000000861280553230056262003Jun 13Modernizing the tree of life1692-7Pennisi, E.ScienceAccess to InformationAnimalsAutomatic Data ProcessingClassification/*methodsDNA/*analysis/geneticsDatabases, Factual*EcosystemElectron Transport Complex IV/geneticsEvolutionGenesInternetMammals/classificationMutation*PhylogenySoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12805532Gatesy20048270000000082Gatesy, J.Springer, M.S.2004A critique of the matrix representation with parsimony supertreesBininda-Edmonds, O.R.P.Phylogenetic Supertrees: Combining Informaion ti Reveal the Tree of LifeKluwer Academic3369-388(Gatesy and Springer, 2004; Pennisi, 2003; Soltis and Soltis, 2003). Ces critiques se basent principalement sur le fait que les techniques de superarbre sappuient sur les arbres et non plus sur les données moléculaires. Cependant des études ont démontré la validité de lutilisation de telles méthodes ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654Chen200327870000000278Chen, D.Diao, L.Eulenstein, O.Fernandez-Baca, D.Sanderson, M. J.2003Flipping: a supertree construction method.Janowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61135-160Levasseur200327970000000279Levasseur, C.Lapointe, F.-J.2003Increasing phylogenetuc accuracy with global congruenceJanowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61221-30Sanderson19988000000000080Sanderson, M.J.1998Phylogenetic supertrees: assembling the trees of lifeTrends Ecol. Evol13105-9(Bininda-Emonds and Sanderson, 2001; Chen et al., 2003; Levasseur and Lapointe, 2003; Sanderson, 1998). Lavantage de superarbre utilisant les arbres phylogénétiques est que lon peut combiner des arbres provenant détudes très différentes : gènes différents, emploi de différentes méthodes de reconstruction et même pas forcément le même matériel biologique (séquences nucléiques, séquences protéiques, hybridation ADN-ADN, etc& ).
Auparavant les superarbres n étaient qu un assemblage d arbres disjoints. On construisait des arbres de groupes distincts (par exemple un arbre að-protéobactérie, un autre bð-protéobactérie puis un gð-protéobactérie). Puis un arbre était inféré à partir d un ensemble d espèces constitué d un représentant par arbre précédemment construit. La position de ces représentants servant enfin à placer l arbre de leur groupe dans le superarbre (voir la REF _Ref508266777 \h Figure 18a). Les nouvelles techniques de superarbre introduites pour la première fois par Gordon ADDIN EN.CITE Gordon19868700000000087Gordon, A.D.1986Consensus supertrees: the synthesis of rooted trees containing overlapping set of labeled leavesJ. Classif331-9(Gordon, 1986) se basent sur lemploi darbres redondants. Une espèce est présente dans plus dun arbre permettant de relier les différents arbres entre elles ( REF _Ref508266777 \h Figure 18b).

Figure SEQ Figure \* ARABIC 18 - Méthodes de superarbre : ancienne et nouvelles. (a) Dans le passé, les différents arbres sources étaient assemblés ensemble de manière indépendante. (b) Actuellement, les arbres sources sont choisis de manière à posséder des chevauchements au niveau des espèces. La construction nest pas obligatoirement la MRP comme lexemple de la figure le montre. Les portions du superarbre qui proviennent dun même arbre source sont codés par le même code couleur. (Figure tirée de ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004))

Je vais vous présenter ici plus en détail la méthode de Représentation de Matrice par parcimonie (MRP : « Matrice Representation using parsimony »). Cette technique est la plus employée à lheure actuelle ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004). Cela peut sexpliquer dun point de vue historique (une des premières méthodes employées), dun point de vue pratique (déjà implémenté par de nombreux logiciels, peut utiliser nimporte quel arbre) et dun point de vue méthodologique (facile à comprendre, nombreux travaux de validation). Les résultats sur des simulations ont aussi montré que la validité de la MRP ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654(Bininda-Emonds and Sanderson, 2001). Les plus grands arbres phylogénétiques, qui ont été publiés, ont utilisé la MRP (916 espèces de chauve-souris par Jones et al ADDIN EN.CITE Jones20028900000000089Jones, K.E.Purvis, A.McLarnon, A.Bininda-Edmonds, O.R.P.Simmons, N.B.2002A phylogenetic supertree of the bats (Mammalia: Chioptera)Biol. Rev.77223-59(Jones et al., 2002), voir Beninda-Emonds ADDIN EN.CITE Bininda-Edmonds20048100000000081Bininda-Edmonds, O.R.P.2004The evolution of supertreesTrends Ecol. Evol196315-22(Bininda-Edmonds, 2004) pour plus de détails sur les grands arbres).
Cette méthode a été décrite pour la première fois par Baum ADDIN EN.CITE Baum19929100000000091Baum, B.R.1992Combining trees as a way of combining data sets for phylogenetic inferenceTaxon413-10(Baum, 1992) et par Ragan ADDIN EN.CITE Ragan199290000000000901342924111992MarPhylogenetic inference based on matrix representation of trees53-8Institute for Marine Biosciences, National Research Council of Canada, Halifax, Nova Scotia.Ragan, M. A.Mol Phylogenet EvolAnimalsComparative StudyDNA/geneticsDictyostelium/classification/geneticsGenetic TechniquesHumansMicrocomputersOrganelles/metabolism*PhylogenyRNA, Transfer/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1342924(Ragan, 1992) de manière indépendante. Son but premier était de pouvoir combiner des données moléculaires et morphologiques. Plus tard, Liu et al ADDIN EN.CITE Liu200192000000000921123069429155092001Mar 2Molecular and morphological supertrees for eutherian (placental) mammals1786-9Department of Zoology, Box 118525, University of Florida, Gainesville, FL 32611-8525, USA.Liu, F. G.Miyamoto, M. M.Freire, N. P.Ong, P. Q.Tennant, M. R.Young, T. S.Gugel, K. F.ScienceAnimalsEvolutionHumansMammals/anatomy & histology/*classification/geneticsPedigree*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11230694(Liu et al., 2001) (2001) et Jones et al ADDIN EN.CITE Jones20028900000000089Jones, K.E.Purvis, A.McLarnon, A.Bininda-Edmonds, O.R.P.Simmons, N.B.2002A phylogenetic supertree of the bats (Mammalia: Chioptera)Biol. Rev.77223-59(Jones et al., 2002) ont proposé dutiliser la MRP sur des arbres provenant de la littérature. Le principe de la MRP est de recoder lensemble des arbres sous la forme dune matrice binaire. Chaque nud interne dun arbre compose les nouveaux caractères de la matrice binaire. Les espèces sont codées en fonction de la partition à laquelle elles appartiennent. Ainsi, si on se base sur la REF _Ref508266827 \h Figure 19, pour le nud 1, les espèces A, B et C appartiennent à la même partition que lon note 1 et lespèce D à la partition 0. On fait de même pour lensemble des nuds présents sur tous les arbres étudiés. Si une espèce nest pas présent dans un des arbres, on lui assigne pour les nuds de cet arbre le caractère absent « ? », comme pour lespèce C pour le nud 3 de larbre (b). Une fois que lon a la matrice finale, on ajoute un groupe externe fictif dont tous les caractères ont la valeur 0. Enfin cette matrice est traitée par la méthode de parcimonie afin de produire des arbres. Au cas où on obtiendrait plusieurs arbres les plus parcimonieux, on applique un consensus.

Figure SEQ Figure \* ARABIC 19 - Méthode dencodage des arbres en une matrice binaire dans la méthode MRP. (a,b) arbres sources. Les nuds internes sont numérotés. (c) matrice binaire encodée.

Une des améliorations possibles de la MRP est la prise en compte des coefficients bootstrap des différents arbres sources ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654(Bininda-Emonds and Sanderson, 2001). Les différents caractères de la matrice binaire sont alors pondérés par le coefficient bootstrap du nud dans larbre. Cette MRP pondérée a montré des très bons résultats sur des simulations ADDIN EN.CITE Bininda-Emonds20018800000000088121166545042001AugAssessment of the accuracy of matrix representation with parsimony analysis supertree construction565-79Section of Evolution and Ecology, University of California at Davis, Davis, California 95616, USA. bininda@rulsfb.leidenuniv.nlBininda-Emonds, O. R.Sanderson, M. J.Syst BiolBiometryClassificationComparative StudyModels, GeneticModels, StatisticalMultivariate Analysis*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12116654Chen200327870000000278Chen, D.Diao, L.Eulenstein, O.Fernandez-Baca, D.Sanderson, M. J.2003Flipping: a supertree construction method.Janowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61135-160Levasseur200327970000000279Levasseur, C.Lapointe, F.-J.2003Increasing phylogenetuc accuracy with global congruenceJanowitz, M.F.Lapointe, F.-J.McMorris, F. R.Mirkin, B.Roberts, F. S.BioconsensusProvidenceAmerican Mathematical Society61221-30(Bininda-Emonds and Sanderson, 2001; Chen et al., 2003; Levasseur and Lapointe, 2003) et sur des données réelles ADDIN EN.CITE Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345(Daubin et al., 2002; Daubin et al., 2001).

Emploi de caractéristiques structurales

La seule lecture de la séquence primaire permet aux méthodes classiques de tirer assez dinformation pour construire des arbres phylogéniques. Mais la séquence primaire nest pas tout. Une protéine nest active que grâce à sa structure en 3D. De nombreuses méthodes se sont appuyées sur les données de structures secondaires des protéines afin daffiner les résultats ADDIN EN.CITE Xiong199393000000000937519520241993DecPhylogeny of sibling species of Simulium venustum and S. verecundum (Diptera: Simuliidae) based on sequences of the mitochondrial 16S rRNA gene293-303Department of Zoology, University of New Hampshire, Durham 03824.Xiong, B.Kocher, T. D.Mol Phylogenet EvolAnimalsBase SequenceComparative StudyComputer SimulationDNA, Mitochondrial/chemistry/geneticsDNA, Ribosomal/chemistry/genetics*Genes, InsectModels, GeneticMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA/*geneticsRNA, Ribosomal, 16S/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Sequence Homology, Nucleic AcidSimuliidae/*geneticsSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7519520Haase1995940000000009485264776811995JulPhylogenetic analysis of ten black yeast species using nuclear small subunit rRNA gene sequences19-33Institute for Medical Microbiology, Klinikum RWTH Aachen, Germany.Haase, G.Sonntag, L.van de Peer, Y.Uijthof, J. M.Podbielski, A.Melzer-Krick, B.Antonie Van LeeuwenhoekAscomycota/geneticsBase SequenceExophiala/classification/geneticsFungi/*classification/geneticsMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Fungal/chemistry/*geneticsRNA, Ribosomal/chemistry/*geneticsSequence Analysis, DNAhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8526477Ellis1995950000000009585705878181995Effects of sequence alignment on the phylogeny of Sarcocystis deduced from 18S rDNA sequences696-9Department of Cell and Molecular Biology, University of Technology Sydney, Gore Hill, New South Wales, Australia.Ellis, J.Morrison, D.Parasitol ResAnimalsDNA, Ribosomal/*genetics*PhylogenyRNA, Ribosomal, 18S/*geneticsSarcocystis/*classification/geneticsSequence Alignmenthttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8570587(Ellis and Morrison, 1995; Haase et al., 1995; Xiong and Kocher, 1993). Ces méthodes nemploient pas en fait directement la structure secondaire. Cette dernière est utilisée pour améliorer la qualité des alignements ADDIN EN.CITE Hendriks1991960000000009619010933221991FebThe evolutionary position of the rhodophyte Porphyra umbilicalis and the basidiomycete Leucosporidium scottii among other eukaryotes as deduced from complete sequences of small ribosomal subunit RNA167-77Departement Biochemie, Universiteit Antwerpen (UIA), Belgium.Hendriks, L.De Baere, R.Van de Peer, Y.Neefs, J.Goris, A.De Wachter, R.J Mol EvolAlgae, Red/*geneticsBase SequenceBasidiomycota/*geneticsComparative StudyDNA, FungalEukaryotic Cells*EvolutionMolecular Sequence DataNucleic Acid ConformationPhylogenyRNA, Ribosomal/*geneticsResearch Support, Non-U.S. Gov'tSequence Alignmenthttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1901093Corpet1994970000000009775286301041994JulRNAlign program: alignment of RNA sequences using both primary and secondary structures389-99Institut National de la Recherche Agronomique (INRA), Laboratoire de Genetique Cellulaire, Castanet Tolosan, France.Corpet, F.Michot, B.Comput Appl BiosciAlgorithmsBase SequenceDatabases, FactualMolecular Sequence DataNucleic Acid ConformationRNA/chemistry/*geneticsRNA, Bacterial/chemistry/geneticsRNA, Ribosomal, 23S/chemistry/geneticsSequence Alignment/*methods/statistics & numerical dataSequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7528630(Corpet and Michot, 1994; Hendriks et al., 1991). Billoud et al ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) propose eux dutiliser uniquement la structure secondaire comme signal phylogénétique. Pour cela, il a utilisé lARN ribosomal qui est connu pour avoir une structure relativement conservée au cours de lévolution ADDIN EN.CITE Zwieb1981990000000009970249189151981Aug 11Secondary structure comparisons between small subunit ribosomal RNA molecules from six different species3621-40Zwieb, C.Glotz, C.Brimacombe, R.Nucleic Acids ResAnimalsBase SequenceChloroplasts/analysisComparative StudyEscherichia coli/analysisHumansMiceMitochondria/analysisMolecular WeightNucleic Acid ConformationPlants/analysis*RNA, RibosomalResearch Support, Non-U.S. Gov'tSaccharomyces cerevisiae/analysisSpecies SpecificityXenopusZea mays/analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7024918(Zwieb et al., 1981). Les caractères informatifs qui ont été choisis sont le nombre de nucléotides qui sont impliqués dans diverses structures secondaires : boucles, segments séparés, double brins alignés. Une fois la table obtenue ( REF _Ref508266851 \h Figure 20), deux opérations sont effectués : une parcimonie est effectuée sur la table où chaque état est discret et quantitatif et une matrice des distances est calculée grâce à la métrique euclidienne, matrice qui sera inféré en arbre par Neighbor-Joining.
Cette méthode est appelée méthode morphométrique moléculaire.

Figure SEQ Figure \* ARABIC 20 - Méthode morphométrique moléculaire. Les différentes structures sélectionnées sont encodées en une matrice de charactères qui produira des arbres par maximum de parcimonie et méthode des distances.

Billoud et al ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) ont appliqué leur méthode à létude des cirripèdes et de leurs relations phylogénétiques. Les résultats sont comparables à ceux qui sont obtenus avec les autres méthodes de phylogénie. Ces résultats seront détaillés plus en détail dans les chapitres ultérieurs.

Présence des gènes

Profitant de la disponibilité de plus en plus de génomes complets, Huynen et Bork ADDIN EN.CITE Huynen199810100000000101960088395111998May 26Measuring genome evolution5849-56European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012 Heidelberg, Germany, and Max-Delbruck-Centrum for Molecular Medicine, 13122 Berlin-Buch, Germany. huynen@embl-heidelberg.deHuynen, M. A.Bork, P.Proc Natl Acad Sci U S AAnimals*Computer Simulation*Evolution, Molecular*GenomeHumans*Models, GeneticResearch Support, Non-U.S. Gov't*Sequence Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9600883(Huynen and Bork, 1998) puis Snel et al ADDIN EN.CITE Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Snel et al., 1999) ont proposé de comparer les espèces à laide de la fraction de gènes en commun quelles possèdent. Le travail de Snel proposait dutiliser une distance entre espèces qui consiste en le rapport du nombres de gènes orthologues en commun sur le nombre minimal de gène du plus petit des deux génomes. Ici la définition du gène orthologue est différente de celle fournie par Fitch ADDIN EN.CITE Fitch19701020000000010254493251921970JunDistinguishing homologous from analogous proteins99-113Fitch, W. M.Syst ZoolEvolution*Models, TheoreticalMolecular BiologyProteins/*classificationhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=5449325(Fitch, 1970). Deux gènes sont dits orthologues si, en utilisant lalgorithme de Smith-Waterman, les deux gènes sont détectés comme étant les plus proches dans les deux génomes considérés. Une fois que lon a la matrice de distance, larbre est obtenu à laide du Neighbor-Joining.
La distance employée par Snel et al ADDIN EN.CITE Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Snel et al., 1999) est la suivante : EMBED Equation.3 où EMBED Equation.3 est le nombre de gène du génome i et EMBED Equation.3 est le nombre de gènes en commun en tre le génome i et le génome j. Diverses transformations sur cette distance ont été proposées ADDIN EN.CITE Snel200211600000000116117798271212002JanGenomes in flux: the evolution of archaeal and proteobacterial gene content17-25European Molecular Biology Laboratory, 69117 Heidelberg, Germany. snel@EMBL-heidelberg.deSnel, B.Bork, P.Huynen, M. A.Genome ResAmino Acid Substitution/geneticsArchaea/*geneticsBacteria/*genetics*Evolution, MolecularGene DeletionGene DuplicationGene Transfer, Horizontal/geneticsGenes, Archaeal/*geneticsGenes, Structural, Bacterial/*genetics*Genome, Archaeal*Genome, BacterialModels, GeneticMutagenesis/geneticsPhylogenyProteobacteria/*geneticsRecombination, Genetic/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11779827Korbel200211500000000115118588401832002MarSHOT: a web server for the construction of genome phylogenies158-62EMBL, Meyerhofstrasse 1, 69117, Heidelberg, Germany. korbel@embl-heidelberg.deKorbel, J. O.Snel, B.Huynen, M. A.Bork, P.Trends GenetAnimals*Databases, GeneticEvolution, MolecularGene OrderGene Transfer, Horizontal*Genome*Internet*PhylogenyRNA, Ribosomal/geneticsResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11858840Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Korbel et al., 2002; Snel et al., 1999, 2002). Tout dabord demployé le logarithme de la similitude : EMBED Equation.3 . Une autre normalisation est lemploi de la taille moyenne pondérée des génomes et non plus la taille du plus petit génome. Cette distance représente mieux les données avec laugmentation du nombre dorthologues entre archées et bactéries pour les grands génomes. Cette taille est égale à : EMBED Equation.3 . Ces différentes distances ont été implémentées dans le site web SHOT ( HYPERLINK "http://www.bork.EMBL-Heidelberg.de/SHOT" http://www.bork.EMBL-Heidelberg.de/SHOT) ADDIN EN.CITE Korbel200211500000000115118588401832002MarSHOT: a web server for the construction of genome phylogenies158-62EMBL, Meyerhofstrasse 1, 69117, Heidelberg, Germany. korbel@embl-heidelberg.deKorbel, J. O.Snel, B.Huynen, M. A.Bork, P.Trends GenetAnimals*Databases, GeneticEvolution, MolecularGene OrderGene Transfer, Horizontal*Genome*Internet*PhylogenyRNA, Ribosomal/geneticsResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11858840(Korbel et al., 2002). Enfin un autre estimateur a été proposé. Il s agit d un estimateur issu du maximum de vraisemblance. Si on suppose que les gènes sont perdus avec un taux de mð et acquis de manière indépendante avec un taux lð, la nouvelle distance peut être notée : EMBED Equation.3 où EMBED Equation.3 , EMBED Equation.3 , EMBED Equation.3 et EMBED Equation.3 ADDIN EN.CITE Huson200411700000000117Huson, D.H.Steel, M.2004Distances that perfectly misleadSyst Biol532327-32(Huson and Steel, 2004).
Snel et al ADDIN EN.CITE Snel19991000000000010099168012111999JanGenome phylogeny based on gene content108-10European Molecular Biology Laboratory, Heidelberg, Germany.Snel, B.Bork, P.Huynen, M. A.Nat GenetArchaea/classification/geneticsBacteria/*classification/*geneticsGenes, Archaeal*Genome, BacterialPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9916801(Snel et al., 1999) ont employé cette méthode afin de comparer 13 génomes complets. La plupart des groupes proposés par létude de lARN16S sont retrouvés par Snel et al, comme les protéobactéries et les bactéries Gram+ à bas G+C. Korbel et al ADDIN EN.CITE Korbel200211500000000115118588401832002MarSHOT: a web server for the construction of genome phylogenies158-62EMBL, Meyerhofstrasse 1, 69117, Heidelberg, Germany. korbel@embl-heidelberg.deKorbel, J. O.Snel, B.Huynen, M. A.Bork, P.Trends GenetAnimals*Databases, GeneticEvolution, MolecularGene OrderGene Transfer, Horizontal*Genome*Internet*PhylogenyRNA, Ribosomal/geneticsResearch Support, Non-U.S. Gov'tSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11858840(Korbel et al., 2002) publièrent des résultats aussi encourageant en portant le nombre d espèces étudiées à 50. On retrouve des très bons résultats avec la formation de la plupart des groupes taxonomiques attendus. Les protéobactéries sont bien regroupées avec seul les eð-protéobactéries un peu mis à lécart. Enfin les bactéries Gram+ à bas G+C sont très séparées des bactéries Gram+ à haut G+C. Il semble donc que les différentes pertes et obtention de gènes au cours de lévolution ne sont pas suffisantes pour perturber linformation phylogénétique que lon peut tirer de lobservation du contenu en gènes orthologues entre espèces.
Doolittle ADDIN EN.CITE Doolittle1999200000000002Doolittle, W. F.1999Phylogenetic classification and the universal treeScience2842124-2129(Doolittle, 1999) a critiqué les interprétations basées sur ces méthodes, car il a suggéré que les arbres obtenus par létude du contenu en gènes ne permettent que de se prononcer sur laptitude quont les espèces à séchanger des gènes par transferts horizontaux. Ces résultats peuvent aussi sexpliquer par le fait que lon ne compare les génomes que par ce quils ont en commun. Dautres questions ont été soulevées par Tamames ADDIN EN.CITE Tamames200111800000000118Tamames, J.2001Evolution of gene order conservation in prokaryotesGenome Biol2611423009Conserved Sequence*Evolution, Molecular*Gene Order*Genome, Archaeal*Genome, BacterialPhylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11423009Centro de Astrobiologia, INTA/CSIC, Carretera de Ajalvir Km, 4, 28850 Torrejon de Ardoz, Madrid, Spain. tamames@almabioinfo.com(Tamames, 2001). Tamames montra que la méthode du contenu en gène tendait à surestimer les distances entre espèces proches mais qui vivent dans des environnements différents. Ces différents environnements conduisent les espèces à sadapter différemment.
Dautres méthodes ont été proposées afin de déterminer les relations entre les espèces, non plus sur le contenu en gène mais sur la présence ou absence de familles de gènes ADDIN EN.CITE Fitz-Gibbon1999119000000001191051861327211999Nov 1Whole genome-based phylogenetic analysis of free-living microorganisms4218-22Department of Microbiology and Molecular Genetics, University of California, Los Angeles, CA 90095-1489, USA. sorel@mbi.ucla.euFitz-Gibbon, S. T.House, C. H.Nucleic Acids ResComputational BiologyGenes, Archaeal/geneticsGenes, Bacterial/geneticsGenes, Fungal/genetics*Genome, Archaeal*Genome, Bacterial*Genome, Fungal*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10518613House200212000000000120119566925442002AprUsing homolog groups to create a whole-genomic tree of free-living organisms: an update539-47Penn State Astrobiology Research Center and Department of Geosciences, Pennsylvania State University, 212 Deike Building, University Park, PA 16802, USA. chouse@geosc.psu.eduHouse, C. H.Fitz-Gibbon, S. T.J Mol EvolAnimalsCaenorhabditis elegans/geneticsGene Transfer, Horizontal*Genome, Archaeal*Genome, Bacterial*Genome, Fungal*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSequence Homologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11956692Lin200010700000000107108544121062000JunWhole-genome trees based on the occurrence of folds and orthologs: implications for comparing genomes on different levels808-18Department of Molecular Biophysics and Biochemistry, Yale University, New Haven, CT 06520 USA.Lin, J.Gerstein, M.Genome ResComparative StudyComputational Biology*GenomeGenome, ArchaealGenome, BacterialGenome, Fungal*PhylogenyRNA, Ribosomal/analysis*Sequence Homology, Nucleic AcidSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10854412Tekaia19991120000000011210400922961999JunThe genomic tree as revealed from whole proteome comparisons550-7Unite de Genetique Moleculaire des Levures [URA1300 Centre National de la Recherche Scientifique (CNRS) and UFR927 University Pierre and Marie Curie], Institut Pasteur, 75724 Paris Cedex 15, France. tekaia@pasteur.frTekaia, F.Lazcano, A.Dujon, B.Genome ResAnimalsBase SequenceComparative Study*Evolution, Molecular*GenomeGenome, HumanHumanMiceOpen Reading Frames/geneticsSchizosaccharomyces/geneticsSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10400922(Fitz-Gibbon and House, 1999; House and Fitz-Gibbon, 2002; Lin and Gerstein, 2000; Tekaia et al., 1999). Dans les familles de gènes, on englobe les orthologues et les paralogues. Les résultats obtenus sont assez semblables même si les méthodes sont quelque peu différentes. Les trois domaines sont retrouvés ainsi que les groupes taxonomiques de niveau assez bas. Mais lutilisation de familles de gènes au lieu de gènes conduit à une perte dinformation qui conduit à certaines erreurs. Ainsi House et Fitz-Gibbon ADDIN EN.CITE House200212000000000120119566925442002AprUsing homolog groups to create a whole-genomic tree of free-living organisms: an update539-47Penn State Astrobiology Research Center and Department of Geosciences, Pennsylvania State University, 212 Deike Building, University Park, PA 16802, USA. chouse@geosc.psu.eduHouse, C. H.Fitz-Gibbon, S. T.J Mol EvolAnimalsCaenorhabditis elegans/geneticsGene Transfer, Horizontal*Genome, Archaeal*Genome, Bacterial*Genome, Fungal*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSequence Homologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11956692(House and Fitz-Gibbon, 2002) ont montré que les génomes les plus courts se regroupent entre eux.

Ordre des Gènes

Huynen et Bork ADDIN EN.CITE Huynen199810100000000101960088395111998May 26Measuring genome evolution5849-56European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012 Heidelberg, Germany, and Max-Delbruck-Centrum for Molecular Medicine, 13122 Berlin-Buch, Germany. huynen@embl-heidelberg.deHuynen, M. A.Bork, P.Proc Natl Acad Sci U S AAnimals*Computer Simulation*Evolution, Molecular*GenomeHumans*Models, GeneticResearch Support, Non-U.S. Gov't*Sequence Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9600883(Huynen and Bork, 1998) proposèrent une autre mesure dévolution des génomes, autre que le contenu en gènes. Il sagit de la conservation de lorganisation des gènes sur les chromosomes (synténie). Aucune hypothèse sur la fonction des gènes est effectuée, seule la manière dont sont organisés les gènes homologues est étudiée. Létude de larrangement des gènes commença à la fin des années 30 par des travaux de Dobzhansky et Sturtevant ADDIN EN.CITE Sturtevant193612300000000123Sturtevant, A.H.Dobzhansky, Th1936Inversions in the third chromosome of wild races of Drosophila pseudoobscura and their use in the study of the history of the speciesProc Natl Acad Sci U S A22448-50(Sturtevant and Dobzhansky, 1936), mais lintérêt se développa avec la disponibilité dun grand nombre de séquences et dune cartographie plus fournie des génomes ADDIN EN.CITE Palmer199212670000000126Palmer, J. D.1992Chloroplast and mitochondrial genome evolution in land plants.Hermann, R.Cell Organelles99-133Palmer198812400000000124Palmer, J.D.Herbon, L.A.1988Plant mitochondrial DNA evolves rapidly in structure, but slowly in sequence.J Mol Evol2787-97Olmstad199412900000000129Olmstad, R.Palmer, J. D.1994Chloroplast DNA systematics: a review of methods and data analysis.Amer. J. Bot.811205-24Bafna199512800000000128Bafna, V.Pevzner, P.1995Sorting by reversals: Genome rearrangements in plant organelles and evolutionnary history of X chromosomeMol Biol Evol12239-46Blanchette199913000000000130104416714921999AugGene order breakpoint evidence in animal mitochondrial phylogeny193-203Department of Computer Science & Engineering, University of Washington, Seattle, WA 98195-2350, USA.Blanchette, M.Kunisawa, T.Sankoff, D.J Mol EvolAnimals*Chromosome MappingDNA, Mitochondrial/*genetics*Evolution, Molecular*Gene Rearrangement*GenomeHumansInversion, ChromosomeMitochondria/*genetics*PhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10441671Hannenhalli19951310000000013185864313021995Nov 20Genome sequence comparison and scenarios for gene rearrangements: a test case299-311Department of Computer Science and Engineering, Pennsylvania State University, University Park 16802, USA.Hannenhalli, S.Chappey, C.Koonin, E. V.Pevzner, P. A.GenomicsComparative StudyDNA, Viral*Gene RearrangementGenome, ViralHerpesviridae/*geneticsMolecular Sequence DataPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8586431Sankoff199212700000000127163115889141992Jul 15Gene order comparisons for phylogenetic inference: evolution of the mitochondrial genome6575-9Centre de recherches mathematiques, Universite de Montreal, Canada.Sankoff, D.Leduc, G.Antoine, N.Paquin, B.Lang, B. F.Cedergren, R.Proc Natl Acad Sci U S AComparative StudyDNA, Fungal/geneticsDNA, Mitochondrial/*genetics*EvolutionGene Rearrangement*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1631158(Bafna and Pevzner, 1995; Blanchette et al., 1999; Hannenhalli et al., 1995; Olmstad and Palmer, 1994; Palmer, 1992; Palmer and Herbon, 1988; Sankoff et al., 1992).
Considérons un ensemble de génomes EMBED Equation.3 et un ensemble de gènes orthologues communs EMBED Equation.3 . Chaque génome peut être représenté sous la forme dune suite ordonnée : EMBED Equation.3 et si on connaît dans quel brin le gène est placé sous la forme dune suite ordonnée signée : EMBED Equation.3 . Trois types de changements évolutifs peuvent intervenir sur lordre des gènes.
Une inversion sur un interval (i,j) : EMBED Equation.3
Une transposition dun interval (i,j) en la position k : EMBED Equation.3
Une transversion qui est une combinaison dune inversion et dune transposition : EMBED Equation.3

La méthode basée sur lordre des gènes emploie trois distances : la distance ITT qui correspond au nombre minimal dévénements nécessaires pour convertir la séquence dun génome en un autre, la distance dinversion qui est le nombre minimum dinversions et enfin le nombre de transpositions nécessaires. La distance dinversion peut être facilement calculée pour des génomes signés ADDIN EN.CITE Hannenhalli199513230000000132Hannenhalli, S.Pevzner, P.1995Transforming cabbage into turnip (polynomial algorithm for sorting signed permutations by reverseals)Twenty-seventh Annual ACM-SIAM Symposium on the Theory of ComputingNew YorkACM press178-189Sankoff199213330000000133Sankoff, D.1992Edit distance for genome comparaison based on non-local operations.Apostolico, A.Third Annual Symposium on Combinatorial Pattern MachineBerlinSpringer-Verlag121-35(Hannenhalli and Pevzner, 1995; Sankoff, 1992), mais devient NP complexe si on ne peut les signer ADDIN EN.CITE Caprara199728030000000280Caprara, A.1997Sorting by reversals is difficult1st Annual Internationnal Conference on Computational Molecular BiologyNew York, USAACM75-83(Caprara, 1997). Les distances obtenues sont normalisées par la taille du plus petit génome. Cette taille est définie soit par le nombre de gènes, soit par le nombre de gène ayant au moins un homologue dans les autres génomes, soit par le nombre de gène ayant au moins un orthologue dans les autres génomes, soit une normalisation entre chaque paire de génomes par le nombre dorthologues communs.
Une autre distance est basée sur le nombre de rupture (« breakpoint distance ») au sein de lorganisation ADDIN EN.CITE Nadeau19841340000000013465836818131984FebLengths of chromosomal segments conserved since divergence of man and mouse814-8Nadeau, J. H.Taylor, B. A.Proc Natl Acad Sci U S AAnimalsChromosome MappingComparative Study*EvolutionHumans*Linkage (Genetics)MathematicsMice/*geneticsModels, Genetic*Recombination, GeneticResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Species Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=6583681(Nadeau and Taylor, 1984). Une rupture entre deux génomes G1 et G2 est définie comme une paire de gènes qui sont consécutifs pour le génome G1 mais pas pour le génome G2. Cette distance est actuellement la plus utilisée dans lutilisation de réarrangements multiples (cest-à-dire de plusieurs espèces à la fois) ADDIN EN.CITE Blanchette199713530000000135Blanchette, M.Bourque, G.Sankoff, D.1997Breakpoint phylogenyMiyamo, S.Takagi, T.Genome Informatics WorkshopTokyoUniversity Academy Press25-34Sankoff199713630000000136Sankoff, D.Blanchette, M.1997The median problem for breakpoints in comparative genomicsComputing and CombinatoricsNew YorkSpringer-Verlag251-263Lectures Notes in Computer Science(Blanchette et al., 1997; Sankoff and Blanchette, 1997). En effet, la distance dinversion est difficile à mettre en uvre dun point de vue calculatoire dans ce cas. Cependant Bourque et Pevzner ADDIN EN.CITE Bourque200213700000000137117798281212002JanGenome-scale evolution: reconstructing gene orders in the ancestral species26-36Department of Mathematics, University of Southern California, California 90089, USA. gbourque@usc.eduBourque, G.Pevzner, P. A.Genome ResAlgorithmsAnimalsCatsChromosomes/geneticsChromosomes, Human/genetics*Evolution, MolecularGene Order/*geneticsGene Rearrangement/genetics*GenomeGenome, HumanHumansMiceModels, GeneticResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11779828(Bourque and Pevzner, 2002) ont développé des algorithmes afin de résoudre ces problèmes et permettre dinférer les « séquences » ancestrales. Dans ce même article, Bourque et Pevzner ont pointé que la distance de rupture ne correspondait pas au nombre minimum de réarrangements, contrairement à la distance dinversion.
Les premiers travaux sur larrangement des gènes ont permis de montrer que cet arrangement était bien conservé pour les espèces proches ADDIN EN.CITE Tamames19971380000000013890101374411997JanConserved clusters of functionally related genes in two bacterial genomes66-73Protein Design Group, CNB-CSIC, Campus U. Autonoma, Cantoblanco, E-28049 Madrid, Spain.Tamames, J.Casari, G.Ouzounis, C.Valencia, A.J Mol EvolBinomial DistributionComparative StudyEscherichia coli/classification/*geneticsGenes, Bacterial/physiology*Genome, BacterialHaemophilus influenzae/classification/*geneticsModels, StatisticalMultigene Family/*geneticsResearch Support, Non-U.S. Gov'tTranscription, Genetichttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9010137(Tamames et al., 1997). Mais, lorsque les espèces sont plus éloignées, la conservation est beaucoup plus faible ADDIN EN.CITE Huynen199810100000000101960088395111998May 26Measuring genome evolution5849-56European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012 Heidelberg, Germany, and Max-Delbruck-Centrum for Molecular Medicine, 13122 Berlin-Buch, Germany. huynen@embl-heidelberg.deHuynen, M. A.Bork, P.Proc Natl Acad Sci U S AAnimals*Computer Simulation*Evolution, Molecular*GenomeHumans*Models, GeneticResearch Support, Non-U.S. Gov't*Sequence Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9600883(Huynen and Bork, 1998), conduisant à proposer que lordre des gènes se perd facilement au cours de lévolution. Les premiers travaux sur les gènes mitochondriaux ADDIN EN.CITE Sankoff199212700000000127163115889141992Jul 15Gene order comparisons for phylogenetic inference: evolution of the mitochondrial genome6575-9Centre de recherches mathematiques, Universite de Montreal, Canada.Sankoff, D.Leduc, G.Antoine, N.Paquin, B.Lang, B. F.Cedergren, R.Proc Natl Acad Sci U S AComparative StudyDNA, Fungal/geneticsDNA, Mitochondrial/*genetics*EvolutionGene Rearrangement*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1631158(Sankoff et al., 1992) ont néanmoins montré quil était possible en sintéressant à certains gènes conservés dobtenir suffisamment de signal phylogénétique. Dautres travaux ont identifié dautres séries de gènes adéquats à lutilisation de la méthode de larrangement des gènes ADDIN EN.CITE Nikolaichik2000139000000001391114541410812000Conservation of gene order amongst cell wall and cell division genes in Eubacteria, and ribosomal genes in Eubacteria and Eukaryotic organelles1-7Department of Microbiology, Belarusian State University, Minsk.Nikolaichik, Y. A.Donachie, W. D.GeneticaBacteria/*cytologyBacterial Proteins/geneticsCell Division/geneticsCell Wall/*geneticsConserved Sequence/*geneticsEukaryotic Cells/*cytologyGenes, BacterialMultigene Family/geneticsOrganelles/*geneticsRibosomes/geneticsSequence Homology, Nucleic Acidhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11145414(Nikolaichik and Donachie, 2000). Lathe et al ADDIN EN.CITE Lathe2000140000000001401105042825102000OctGene context conservation of a higher order than operons474-9European Molecular Biology Laboratory, Meyerhofstrasse 1, 69012, Heidelberg, Germany.Lathe, W. C., 3rdSnel, B.Bork, P.Trends Biochem SciBase SequenceConserved SequenceEvolution, Molecular*Gene Order*OperonPhylogeny*Protein BiosynthesisRibosomal Proteins/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11050428(Lathe et al., 2000) ont réussi à identifier une grand nombre de régions très conservées. Même si des réarrangements peuvent se dérouler, dans ses régions, la tendance générale est de conserver larrangement des gènes.
La conservation de larrangement des gènes sexplique généralement de trois manières :
Les espèces ont divergé depuis peu de temps et larrangement na pas eu le temps de disparaître.
Il y a eu des transferts horizontaux.
Enfin lintégrité du groupement de gènes est indispensable au bon fonctionnement de la cellule.
Cest dans le dernier cas que lon doit travailler.

Phylogénie basée sur le score BLAST

Pour comparer des génomes, Henz et al ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004) proposent dutiliser une distance basée sur BLAST (« GBDP « genome blast distance phylogeny »). Dans un premier temps, les différents génomes sont comparés à laide de BLAST ADDIN EN.CITE Altschul199014100000000141223171221531990Oct 5Basic local alignment search tool403-10National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894.Altschul, S. F.Gish, W.Miller, W.Myers, E. W.Lipman, D. J.J Mol BiolAlgorithmsAmino Acid Sequence*Base SequenceDatabases, Factual*MutationResearch Support, U.S. Gov't, P.H.S.Sensitivity and SpecificitySequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2231712(Altschul et al., 1990) (BLASTN si on souhaite travailler sur lAdn ou tBLASTx pour travailler en traduction). Grâce au BLAST, on obtient une série de HSP (« high-scoring segment pairs ») qui sont des paires de segments, un pour chaque génome, de taille à peu près comparable et dont la similarité est définie par un score ou une E-value. A laide dun de ses trois critères (taille, score ou E-value), un seuil est fixé permettant de choisir les HSP qui serviront à létude. La prochaine étape consiste à calculer une distance entre les deux génomes. La première distance est la distance de couverture : EMBED Equation.3 où EMBED Equation.3 et EMBED Equation.3 sont les tailles en nucléotides des génomes X et Y, EMBED Equation.3 et EMBED Equation.3 correspondent au nombre totale de nucléotides respectivement dans les HSP sélectionnés de X et Y. Le fait quune partie dun génome puisse être dans plusieurs HSG peut fausser les résultats en faisant paraître les espèces plus proches quelles ne le sont réellement ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004). Pour corriger cela, Henz et al propose dutiliser une seconde distance, la distance des matchs (« matched distance »). Pour cela, on fait une selection sur les HSG de telle manière quun site dun des génomes ne puisse être au plus présent que sur un HSG. La nouvelle distance devient : EMBED Equation.3 avec EMBED Equation.3 correspondant aux nombres de bases dans les HSG sélectionnés. Une fois la distance choisie, il est nécessaire deffectuer une transformation, car les résultats de BLAST ne sont pas symétriques ADDIN EN.CITE Altschul199014100000000141223171221531990Oct 5Basic local alignment search tool403-10National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, Bethesda, MD 20894.Altschul, S. F.Gish, W.Miller, W.Myers, E. W.Lipman, D. J.J Mol BiolAlgorithmsAmino Acid Sequence*Base SequenceDatabases, Factual*MutationResearch Support, U.S. Gov't, P.H.S.Sensitivity and SpecificitySequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2231712(Altschul et al., 1990). La distance employée pour reconstruire larbre est : EMBED Equation.3 . Larbre sera inféré à partir des différents algorithmes de reconstruction UPGMA, NJ, BIONJ, .
Cette méthode est relativement récente et donc les résultats doivent être pris avec précaution et demande des études supplémentaires. Henz et al ont employé cette méthode pour déterminer les relations phylogénétiques entre les procaryotes ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004) ( REF _Ref508266940 \h Figure 21). Les résultats présentés par Henz et al sont très comparables à ceux que lon obtient par létude de lARN 16S. Les principaux groupes taxonomiques sont bien formés, mais des différences de placements sont notables.
Les principaux sont les suivants :
Placement des Aquificales et des Thermotogales à la base des archées.
Séparation nette des eð-protéobactéries des autres protéobactéries.
Formation de deux groupes distincts de gð-protéobactérie
Position basale des Rickettsia

Figure SEQ Figure \* ARABIC 21 - Phylogénie de 91 procaryotes basée sur l utilisation de BLAST. Distance utilisée : « matched distance » et BIONJ. Les différents groupes taxonomiques sont indiqués. Tirée de Henz et al ADDIN EN.CITE Henz200414200000000142151660182004May 27Whole-genome prokaryotic phylogenyCenter for Bioinformatics Tubingen (ZBIT), Sand 14, Tubingen, 72076, Germany.Henz, S. R.Huson, D. H.Auch, A. F.Nieselt-Struwe, K.Schuster, S. C.Bioinformaticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15166018(Henz et al., 2004).

La question importante que pose cette méthode, est sa sensibilité aux transferts horizontaux. Lutilisation de BLAST fait craindre que les transferts horizontaux aient un poids très fort.

Utilisation dévénements rares, de petites séquences caractéristiques : la signature de séquence

Les signatures de séquences sont définies comme des régions dans les alignements où un changement spécifique est observé dans les séquences pour tous les taxons ou pour une partie ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491Gupta199414500000000145Gupta, R.S.Singh, B.1994Cloning of HSP70 gene from Halobacterium marismortui: relatedness of archaebacterial HSP70 to its eubacterial homologs and a model for the evolution of the HSP70 gene.J. Bacteriol.1744594-605Gupta199714400000000144Gupta, R.S.1997Protein phylogenies and signature sequences: evolutionnary relationships within prokaryotes and between prokaryotes and eukaryotes.Antonie Leeuwenhoek7249-61(Gupta, 1997, 1998a; Gupta and Singh, 1994). Les changements peuvent être une présence particulière dun caractère (nucléotide ou protéine) sur un site, une insertion ou une délétion. Dans tous les cas, la signature doit être entourée de régions très stables pour toutes les séquences, servant ainsi à assurer que la signature nest pas artéfactuelle. Les insertions/délétions sont les événements qui ont été les plus utilisés pour inférer des arbres phylogénétiques ADDIN EN.CITE Baldauf199614600000000146875554793151996Jul 23The root of the universal tree and the origin of eukaryotes based on elongation factor phylogeny7749-54Canadian Institute for Advanced Research and Department of Biochemistry, Dalhousie University, Halifax, Canada.Baldauf, S. L.Palmer, J. D.Doolittle, W. F.Proc Natl Acad Sci U S AAdenosinetriphosphatase/geneticsAmino Acid SequenceAnimalsBacteria/geneticsConsensus Sequence*Evolution, MolecularHumansMolecular Sequence Data*Multigene FamilyPeptide Elongation Factor GPeptide Elongation Factor Tu/chemistry/*geneticsPeptide Elongation Factors/chemistry/*genetics*PhylogenyPlants/geneticsResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Sequence Homology, Amino AcidVariation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8755547Bapteste200214700000000147120322551962002JunThe potential value of indels as phylogenetic markers: position of trichomonads as a case study972-7Bapteste, E.Philippe, H.Mol Biol EvolAmino Acid SequenceAnimalsArchaea/geneticsBacteria/genetics*DNA Transposable ElementsGenetic MarkersLikelihood FunctionsMolecular Sequence DataPhosphopyruvate Hydratase/*geneticsPhylogenySequence Alignment*Sequence DeletionTrichomonadida/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12032255Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491Gupta19981480000000014898389303Gupta, R.S.What are archaebacteria: life's third domain or monoderm prokaryotes related to gram-positive bacteria? A new proposal for the classification of prokaryotic organismsMol MicrobiolMolecular Microbiology293695-70719980950-382XENGLANDAmino Acid SequenceArchaeaEukaryotic CellsEvolutionGram-Positive BacteriaMolecular Sequence DataProkaryotic CellsSupport, Non-U.S. Gov'thttp://www.biomednet.com/db/medline/98389303Gupta200015000000000150108903532622000The natural evolutionary relationships among prokaryotes111-31Department of Biochemistry, McMaster University Hamilton, Ontario, Canada. gupta@fhs.mcmaster.caGupta, R. S.Crit Rev Microbiol*Archaea/genetics/physiology*Bacteria/geneticsBacterial PhysiologyBacterial Proteins/geneticsDrug Resistance, Microbial/genetics*Evolution*Gram-Positive Bacteria/genetics/physiologyPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10890353(Baldauf et al., 1996; Bapteste and Philippe, 2002; Gupta, 1998a, b; Gupta, 2000), en effet ils ont moins de chance de provenir dune mutation ponctuelle ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491(Gupta, 1998a). La justification de la signature de séquence est que si on trouve un indel dune dimension précise à une position déterminée pour un certain nombre de séquences, lexplication la plus parcimonieuse est que ce changement est apparu une fois au cours de lévolution est quil sest transmis aux descendants.
Gupta ADDIN EN.CITE Gupta200214900000000149121673626142002JunCritical issues in bacterial phylogeny423-34Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada L8N 3Z5. gupta@mcmaster.caGupta, R. S.Griffiths, E.Theor Popul BiolAmino Acid SequenceBacteria/*classification/geneticsGene Transfer, HorizontalGenetic MarkersMolecular Sequence Data*PhylogenyRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'tSequence Homology, Amino AcidTranscription Factors/chemistryhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12167362(Gupta and Griffiths, 2002) utilisa la signature de séquence afin de déterminer les relations entre les procaryotes. Pour cela, il sélectionna 17 protéines dont il avait déterminé les sites propres à être utilisé ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491Gupta20011510000000015112051562442001DecThe branching order and phylogenetic placement of species from completed bacterial genomes, based on conserved indels found in various proteins187-202Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada. gupta@mcmaster.caGupta, R. S.Int MicrobiolAmino Acid SequenceBacteria/*classification/geneticsBacterial Proteins/geneticsComparative Study*Genome, BacterialMolecular Sequence DataPhylogenyProteobacteria/geneticsSequence AlignmentSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12051562Gupta200015000000000150108903532622000The natural evolutionary relationships among prokaryotes111-31Department of Biochemistry, McMaster University Hamilton, Ontario, Canada. gupta@fhs.mcmaster.caGupta, R. S.Crit Rev Microbiol*Archaea/genetics/physiology*Bacteria/geneticsBacterial PhysiologyBacterial Proteins/geneticsDrug Resistance, Microbial/genetics*Evolution*Gram-Positive Bacteria/genetics/physiologyPhylogenyResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10890353(Gupta, 1998a; Gupta, 2000, 2001). Larrangement quil produisît est présenté en REF _Ref508267057 \h Figure 22 . En comparant ces résultats à ceux obtenus par ARN 16S, Gupta ADDIN EN.CITE Gupta200214900000000149121673626142002JunCritical issues in bacterial phylogeny423-34Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada L8N 3Z5. gupta@mcmaster.caGupta, R. S.Griffiths, E.Theor Popul BiolAmino Acid SequenceBacteria/*classification/geneticsGene Transfer, HorizontalGenetic MarkersMolecular Sequence Data*PhylogenyRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'tSequence Homology, Amino AcidTranscription Factors/chemistryhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12167362(Gupta and Griffiths, 2002) montra que la quasi totalité des espèces était correctement placée (lexception provient de la place des Clostidium). Dautres résultats sur Fusobacterium nucleatum et son placement parmi les Clostidrium sont aussi très intéressants.
Bapteste et Philippe ADDIN EN.CITE Bapteste200214700000000147120322551962002JunThe potential value of indels as phylogenetic markers: position of trichomonads as a case study972-7Bapteste, E.Philippe, H.Mol Biol EvolAmino Acid SequenceAnimalsArchaea/geneticsBacteria/genetics*DNA Transposable ElementsGenetic MarkersLikelihood FunctionsMolecular Sequence DataPhosphopyruvate Hydratase/*geneticsPhylogenySequence Alignment*Sequence DeletionTrichomonadida/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12032255(Bapteste and Philippe, 2002) montrèrent que la méthode utilisant les indels était très sensible aux transferts horizontaux et à lhomoplasie. Gupta ADDIN EN.CITE Gupta200214900000000149121673626142002JunCritical issues in bacterial phylogeny423-34Department of Biochemistry, McMaster University, Hamilton, Ontario, Canada L8N 3Z5. gupta@mcmaster.caGupta, R. S.Griffiths, E.Theor Popul BiolAmino Acid SequenceBacteria/*classification/geneticsGene Transfer, HorizontalGenetic MarkersMolecular Sequence Data*PhylogenyRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'tSequence Homology, Amino AcidTranscription Factors/chemistryhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12167362(Gupta and Griffiths, 2002) dit lui que ses phénomènes de transferts horizontaux ne sont pas si importants. Mais ses résultats semblent provenir dun choix particulier de gènes. Dautres phénomènes peuvent perturber le signal dû aux indels. Il est possible que lindel observé soit apparu à de multiples occasions pour différentes espèces à cause de contraintes fonctionnelles similaires ADDIN EN.CITE Gupta199814300000000143Gupta, R.S.1998Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes.Microbiol. Mol. Biol. Rev.621435-1491(Gupta, 1998a).

Figure SEQ Figure \* ARABIC 22 Placement des génomes complets basé sur la signature de séquence de différentes protéines. La flèche au-dessus de la ligne indique où sont supposés être placés des indels. Le modèle prédit que les espèces à gauche de la flèche possède lindes et quà droite lindel est manquant. 936 observations sur les génomes complets ont été nécessaire pour obtenir ce diagramme.

MUMer

Une autre approche de phylogénie est en cours de développement. Elle sappuie sur lutilisation de MUMs (« Maximum Unique Matches »), qui sont des séquences uniques de grandes tailles (environ 20 nucléotides) et communes à deux génomes ADDIN EN.CITE Delcher1999152000000001521032542727111999Jun 1Alignment of whole genomes2369-76Department of Computer Science, Loyola College in Maryland, Baltimore, MD 21210, USA.Delcher, A. L.Kasif, S.Fleischmann, R. D.Peterson, J.White, O.Salzberg, S. L.Nucleic Acids Res*AlgorithmsAnimalsBase SequenceDna*Genome, BacterialHumansMiceMolecular Sequence DataMycoplasma/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Sequence Alignment/*methodshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10325427(Delcher et al., 1999). Si un mot (un oligonucléotide) partagé entre deux génomes est suffisamment long, ils ont de fortes chances de provenir dun ancêtre commun aux deux génomes. Les MUMs ont été proposé pour servir aux alignements multiples ADDIN EN.CITE Hohl2002153000000001531216956118 Suppl 12002Efficient multiple genome alignmentS312-20Faculty of Technology, University of Bielefeld, PO Box 10 01 31, Bielefeld D-33501, Germany.Hohl, M.Kurtz, S.Ohlebusch, E.Bioinformatics*AlgorithmsAnimalsBase SequenceChromosome Mapping/*methodsComparative Study*Evolution, MolecularGene Expression Profiling/*methodsHumansMolecular Sequence DataPhylogenyResearch Support, Non-U.S. Gov'tSequence Alignment/*methodsSequence Analysis, DNA/*methodsSequence Homology, Nucleic Acid*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12169561(Hohl et al., 2002).
Guyon et Guénoche ADDIN EN.CITE Guyon2005154200000000154Guyon, F.Guénoche, A.2005Comparing bacterial genomes from maximal unique matches linear orders16p(Guyon and Guénoche, 2005) ont calculé de nombre de MUMs de taille supérieure ou égale à l que lon est amené à avoir entre deux génomes de taille T1 et T2. Ce nombre est le suivant :
EMBED Equation.3
p est la probabilité quun caractère soit identique entre les deux séquences. Dans ce cas, elle est supposée identique pour tous les caractères.

Guyon et Guénoche ont montré que, pour deux séquences de 1 Mb et p=0.25, on sattend à avoir 1 MUM de taille 20 et 0 MUM de taille 21. En étudiant loccurrence de MUMs de taille supérieur à 21 dans les génomes bactériens complets, on pourrait mettre en évidence des convergences évolutives entre les génomes.
Pour cela on peut définir deux similitudes entre les génomes :
EMBED Equation.3 où NS est le nombre de MUMs de taille supérieur à S entre les génomes G1 et G2, et LS est la somme des longueurs de tous les MUMs de taille supérieur où égale à S. A partir de ces similitudes, il est possible de construire des matrices de distances et donc des arbres. Les distances employées sont : EMBED Equation.3 avec s la similitude choisie.
Cette méthode a été employée chez les procaryotes en comparaison avec larbre de LARN 16S. Les résultats préliminaires (Données non publiées) ont montré des résultats très intéressants pour des MUMs de taille supérieure à 14. Pour des MUMs plus longs, les différences avec larbre du 16S sont plus importantes, mais ces MUMs permettent néanmoins dobtenir des résultats intéressants (rapprochement des Firmicutes par exemple).
Il semble que lutilisation des MUMs permet de retrouver les relations entre espèces proches mais linterprétation des relations plus éloignées est plus difficile. En effet, pour des espèces éloignées, les temps de divergences entre les espèces sont suffisamment longs pour que le fait dobtenir des MUMs, long mot exact, soit hasardeux. Il y aura de fortes chances que ces MUMs proviennent alors de transferts horizontaux par exemple.

Signature Génomique

Définition

Comme nous lavons vu précédemment, une séquence dADN est composée de 4 nucléotides A, T, C et G. La séquence peut être vu comme une suite de lettres et de mots (oligonucléotides) qui sont un assemblage consécutif de lettres. Les mots peuvent avoir des tailles diverses allant dans notre étude de 1 lettre à 10 lettres. Pour des mots plus longs, on se rapproche de la notion de MUM que jai abordé précédemment. Comme nous lavons vu avec les MUMs, plus les mots sont longs, plus la probabilité dobserver un mot dans une séquence dADN est faible. Lanalyse des fréquences des mots dune taille donnée permet de caractériser une séquence dADN ADDIN EN.CITE Karlin199317000000000170Karlin, S.Brendel, V.Patchiness and correlations in DNA sequencesScience259677-6791993(Karlin and Brendel, 1993) ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Graham200020600000000206Graham, DE.Overbeek, R.Olsen, GJ.Woese, CR.2000An archaeal genomic signatureProc Natl Acad Sci U S A973304-82000 Mar 28Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999; Graham et al., 2000; Karlin et al., 1994). La signature génomique, que jutiliserai, est celle qui a été définie comme lensemble des fréquences de ces mots par Deschavanne et al ADDIN EN.CITE Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999).

Létat des connaissances

Lanalyse des fréquences en courts oligonucléotides est un sujet qui a déjà été très étudié. Il peut sagir détudier les biais de codons ADDIN EN.CITE Karlin199217500000000175http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=1465457Karlin, S.Bucher, P.Correlation analysis of amino acid usage in protein classesAmino Acids/*chemistryAmino Acyl-tRNA Ligases/metabolismAnimal*CodonComparative StudyHerpesviridae/geneticsHumanHydrogen BondingIons*PhylogenyProteins/*chemistry/geneticsRNA, Transfer/geneticsStructure-Activity RelationshipSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, CA 94305.1465457Proc Natl Acad Sci U S A1992892412165-9.Bernardi198520900000000209http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3936938Bernardi, G.Codon usage and genome compositionAnimalBacteria/geneticsBase Sequence*CodonComparative Study*Genes, Structural*Phylogeny*RNA, MessengerSpecies SpecificityViruses/genetics39369381985J Mol Evol224363-5McInerney19982070000000020796328331441998GCUA: general codon usage analysis372-3Department of Zoology, The Natural History Museum, Cromwell Road, London SW7 5BD, UK. J.McInerney@nhm.ac.ukMcInerney, J. O.Bioinformatics*Amino Acid Sequence*Codon*Database Management SystemsMultivariate Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9632833(Bernardi, 1985; Karlin and Bucher, 1992; McInerney, 1998) ou alors lécart entre les fréquences des mots observées et les fréquences attendues ADDIN EN.CITE Karlin199317000000000170Karlin, S.Brendel, V.Patchiness and correlations in DNA sequencesScience259677-6791993Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Karlin199719900000000199Karlin, S.Mràzek, J.Campbell, A. M.Compositional biases of bacterial genomes and evolutionary implicationsJ. Bact.1793899-39131997Mrazek199921000000000210http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10415493Mrazek, J.Karlin, S.Detecting alien genes in bacterial genomesBorrelia burgdorferi/geneticsCodonGenes, Bacterial*Genome, BacterialHaemophilus influenzae/geneticsMethanococcus/geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Synechocystis Group/geneticsDepartment of Mathematics, Stanford University, California 94305-2125, USA.10415493Ann N Y Acad Sci1999870314-29.Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393Schbath1995219000000002198521272231995FallExceptional motifs in different Markov chain models for a statistical analysis of DNA sequences417-37INRA, Departement de Biometrie et Intelligence Artificielle, Jouy-en-Josas, France.Schbath, S.Prum, B.de Turckheim, E.J Comput BiolBacillus subtilis/geneticsBase SequenceCodon/geneticsComparative StudyDNA, Bacterial/geneticsEscherichia coli/genetics*Markov Chains*Models, StatisticalMolecular Sequence DataResearch Support, Non-U.S. Gov'tSequence Analysis, DNA/*statistics & numerical datahttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8521272(Karlin and Brendel, 1993; Karlin et al., 1994; Karlin et al., 1997; Mrazek and Karlin, 1999; Pride et al., 2003; Schbath et al., 1995). Karlin et ses collaborateurs ont étudié, pour différentes espèces, lécart entre les fréquences des dinucléotides observés et ceux que lon attend à partir de la fréquence en nucléotides. Ils ont établi que pour certaines espèces, des dinucléotides étaient sur- ou sous-exprimés de manière significative. Ces différences ont permis dobtenir une classification des espèces. Ces méthodes ont été aussi employées pour des mots de 4 lettres et on conduit à lobtention de résultats très comparables ADDIN EN.CITE Karlin199317000000000170Karlin, S.Brendel, V.Patchiness and correlations in DNA sequencesScience259677-6791993Karlin199418300000000183Karlin, S.Cardon, L. R.Computational DNA sequence analysisAnnu. Rev. Microbiol.48619-6541994Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Mrazek199921000000000210http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10415493Mrazek, J.Karlin, S.Detecting alien genes in bacterial genomesBorrelia burgdorferi/geneticsCodonGenes, Bacterial*Genome, BacterialHaemophilus influenzae/geneticsMethanococcus/geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Synechocystis Group/geneticsDepartment of Mathematics, Stanford University, California 94305-2125, USA.10415493Ann N Y Acad Sci1999870314-29.Karlin199520100000000201http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=7592482Karlin, S.Weinstock, G. M.Brendel, V.Bacterial classifications derived from recA protein sequence comparisonsAmino Acid SequenceBacteria/*classification/enzymology/genetics*Bacterial Typing TechniquesComparative StudyDatabases, FactualGram-Negative Bacteria/classification/enzymology/geneticsGram-Positive Bacteria/classification/enzymology/geneticsMolecular Sequence DataRec A Protein/*chemistry/genetics*Sequence AlignmentSequence Homology, Amino AcidSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, California 94305-2125, USA.7592482J Bacteriol1995177236881-93.(Karlin and Brendel, 1993; Karlin and Cardon, 1994; Karlin et al., 1994; Karlin et al., 1995; Mrazek and Karlin, 1999). Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont utilisé la signature de courts oligonucléotides (mots de 4 lettres) afin détablir une phylogénie bactérienne. Pour cela, ils se sont appuyés sur des fréquences corrigées des mots. La correction a été effectuée grâce à un Markov dordre 0 (voir le chapitre REF _Ref506894285 \r \h 3.7.1). Son travail a permis de montrer des résultats encourageants, et je mappuierai sur ceux-ci dans les résultats que jexposerai plus tard. Cependant, Pride et al nont pas testé si les mots pouvaient être utilisés pour construire des arbres phylogénétiques. Cest ce que mon travail apporte à cette méthode.
Comme je lai exposé précédemment, les tri-nucléotides ou codons sont traduits en acides aminés. Létude de lusage des codons dans les séquences a permis de mettre à jour un biais ADDIN EN.CITE Grantham1981208000000002087208352911981Jan 10Codon catalog usage is a genome strategy modulated for gene expressivityr43-74Grantham, R.Gautier, C.Gouy, M.Jacobzone, M.Mercier, R.Nucleic Acids ResAmino Acid SequenceBase SequenceCodon*Dna*GenesGenetic CodeRNA, Messenger/geneticsSpecies Specificity*Transcription, Genetichttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7208352(Grantham et al., 1981). Lorsque plusieurs tri-nucléotides peuvent être traduit en un même acide aminé, il a été démontré que, selon lespèce et la fonction de la séquence, tous les différents codons navaient pas la même probabilité dêtre exprimés ADDIN EN.CITE Grantham198021100000000211Grantham, R.Gautier, C.Gouy, M.1980Codon frequencies in 119 individual genes confirm consistent choices of degenerate bases according to genome typeNucleic Acid Research81893-1912Kanaya200122000000000220115914752761-22001Oct 3Analysis of codon usage diversity of bacterial genes with a self-organizing map (SOM): characterization of horizontally transferred genes with emphasis on the E. coli O157 genome89-99Department of Bio-System Engineering, Faculty of Engineering, Yamagata University, Yonezawa, 992-8510, Yamagata-ken, Japan.Kanaya, S.Kinouchi, M.Abe, T.Kudo, Y.Yamada, Y.Nishi, T.Mori, H.Ikemura, T.Gene*AlgorithmsBase CompositionClassification/methodsCodon/*geneticsEscherichia coli O157/geneticsGC Rich Sequence/geneticsGene Transfer, HorizontalGenes, Bacterial/*geneticsGenome, Bacterial*Neural Networks (Computer)Species SpecificityVariation (Genetics)http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11591475Medigue199121200000000212176215122241991Dec 20Evidence for horizontal gene transfer in Escherichia coli speciation851-6Atelier de BioInformatique, Section Physique-Chimie, Institut Curie, Paris, France.Medigue, C.Rouxel, T.Vigier, P.Henaut, A.Danchin, A.J Mol BiolAmino Acids/metabolismBase SequenceCodon/geneticsComparative StudyDNA ReplicationEscherichia coli/*geneticsGene Library*Genes, BacterialGenome, BacterialModels, GeneticModels, StatisticalOligodeoxyribonucleotidesResearch Support, Non-U.S. Gov't*Transfectionhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1762151Sharp1994213000000002137888755461994DecCodon usage and genome evolution851-60Department of Genetics, University of Nottingham, Queens Medical Centre, UK.Sharp, P. M.Matassi, G.Curr Opin Genet DevAnimalsBase CompositionCodon/*geneticsDNA, Helminth/geneticsDinucleoside Phosphates/metabolismDrosophila/genetics*Evolution*Gene Expression RegulationGenes, Insect/genetics*GenomeGenome, BacterialGenome, FungalGenome, HumanHumansMammals/genetics*Protein BiosynthesisResearch Support, Non-U.S. Gov'tSelection (Genetics)Species Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7888755(Grantham et al., 1980; Kanaya et al., 2001; Medigue et al., 1991; Sharp and Matassi, 1994). Il a été proposer dutiliser ce biais pour calculer des distances entre les séquences et ainsi de construire des arbres hierachiques ADDIN EN.CITE McInerney19982070000000020796328331441998GCUA: general codon usage analysis372-3Department of Zoology, The Natural History Museum, Cromwell Road, London SW7 5BD, UK. J.McInerney@nhm.ac.ukMcInerney, J. O.Bioinformatics*Amino Acid Sequence*Codon*Database Management SystemsMultivariate Analysishttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9632833(McInerney, 1998). Mais le biais de codon a aussi été étudié par Karlin ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Karlin199418600000000186Karlin, S.Ladunga, I.Comparisons of eukaryotic genomic sequencesProc. Natl. Acad. Sci. USA9112832-128361994Perriere200221400000000214Perriere, GThioulouse, J.2002Use and misuse of correspondence analysis in codon usage studiesNucleic Acid Research30204548-4555(Karlin and Ladunga, 1994; Karlin et al., 1994; Perriere and Thioulouse, 2002), et celui ci a montré que lutilisation du biais de codon posait de gros problèmes, car il était très dépendant de la fonction de la séquence.
Au lieu de construire une signature de lespèce à partir des nucléotides, de nombreux auteurs ont proposé dutiliser des acides aminés. Basu et al ADDIN EN.CITE Basu199721500000000215Basu, S.Pan, A.Dutta, C.Das, J.1997Chaos game representation of proteins.J Mol Graph Model155279-89(Basu et al., 1997) et Pleibðner et al ADDIN EN.CITE Pleissner199721600000000216950480218151997DecRepresentation of amino acid sequences as two-dimensional point patterns2709-13Department of Internal Medicine/Cardiology, Virchow-Klinikum of the Humboldt University and German Heart Institute Berlin. pleiss@dhzb.dePleissner, K. P.Wernisch, L.Oswald, H.Fleck, E.Electrophoresis*AlgorithmsAmino Acid SequenceDatabases, FactualMolecular Sequence Data*Nonlinear DynamicsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9504802(Pleissner et al., 1997) ont proposé dutiliser lalgorithme du « Chaos Game Representation » qui sera détaillé par la suite, aux protéines. Plusieurs méthodes ont été proposées. Tout dabord de revenir à un alphabet à 4 lettres ADDIN EN.CITE Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Yu et al., 2004) en codant les différents acides aminés suivant leurs propriétés physico-chimiques : non-polaire, polaire non chargé, polaire chargé positivement, polaire chargé négativement. Yu et al ADDIN EN.CITE Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Yu et al., 2004) utilisèrent ce codage afin dobtenir un ensemble de fréquences qui seront comparées pour différentes espèces afin dobtenir un arbre. Larbre obtenu est globalement en accord avec celui de Woese ADDIN EN.CITE Woese199828100000000281961850295121998Jun 9The universal ancestor6854-9Department of Microbiology, University of Illinois at Urbana-Champaign, B103 Chemical and Life Sciences Laboratory, MC-110, 601 South Goodwin Avenue, Urbana, IL 61801, USA. carl@ninja.life.uiuc.eduWoese, C.Proc Natl Acad Sci U S AAnimals*EvolutionGene Transfer Techniques*GenesHumans*Models, BiologicalResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9618502(Woese, 1998), mais présente néanmoins de différences. Une autre méthode est celle de Stuart et al ADDIN EN.CITE Stuart200221800000000218118362171812002JanIntegrated gene and species phylogenies from unaligned whole genome protein sequences100-8Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Baker, S.BioinformaticsAlgorithmsAnimalsComputational BiologyDatabases, ProteinGenomeMammals/classification/geneticsMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11836217Stuart200221700000000217119192971942002AprA comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes554-62Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Leader, J. J.Mol Biol EvolAlgorithmsAnimalsComputational BiologyDatabases, Protein*GenomeMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies SpecificityVertebrates/classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11919297(Stuart et al., 2002a; Stuart et al., 2002b). Stuart et al proposent de calculer lensemble des fréquences de tri- ou tetra-peptides. Ces fréquences seront mises sous la forme dun vecteur. Avec des tetra-peptides, il y a 160 000 mots différents. Stuart et al ont donc utilisé des vecteurs à 160 000 dimensions. Pour réduire le nombre de dimensions étudiées, il utilise la « Singular Values Decomposition » (SVD). Ainsi 832 protéines de 64 génomes complets mitochondriaux de vertébrés ont été comparées (13 protéines par génome mitochondrial). Chaque protéine est représentée dans lespace SVD par un vecteur. La distance du cosine est calculée entre chaque paire de vecteurs : cest-à-dire le cosinus de langle que forment les deux vecteurs. Stuart et al ADDIN EN.CITE Stuart200221700000000217119192971942002AprA comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes554-62Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Leader, J. J.Mol Biol EvolAlgorithmsAnimalsComputational BiologyDatabases, Protein*GenomeMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies SpecificityVertebrates/classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11919297(Stuart et al., 2002b) ont montré que lensemble des 832 protéines mitochondriales se regroupent en fonction du gène. On peut donc construire un arbre des gènes et pour chaque gène un arbre des espèces. Tous les arbres despèces ne sont pas identiques, ce qui montre quil y a une dépendance suivant le gène. Néanmoins, en effectuant un consensus de ces arbres, on obtient un arbre des vertébrés très proches de celui que lon pourrait attendre ADDIN EN.CITE Lecointre20011810000000018Lecointre, G.Le Guyader, H.2001Classification phylogénétique du vivantParisBelin15442-7011-2137-Xphylogeny(Lecointre and Le Guyader, 2001). Enfin, Qi et al ADDIN EN.CITE Qi2004268000000002681521534732Web Server issue2004Jul 1CVTree: a phylogenetic tree reconstruction tool based on whole genomesW45-7The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China. qiji@itp.ac.cnQi, J.Luo, H.Hao, B.Nucleic Acids ResAlgorithmsBacteria/classificationDNA, Chloroplast/classification*GenomeGenome, BacterialGenome, ViralInternet*Phylogeny*SoftwareViruses/classificationhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15215347Qi200410800000000108147433105812004JanWhole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach1-11The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China, qiji@itp.ac.cnQi, J.Wang, B.Hao, B. I.J Mol EvolAlgorithmsArchaea/*geneticsBacteria/*geneticsClassification/*methodsComparative StudyDatabases, Nucleic AcidOligopeptides/*genetics*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14743310(Qi et al., 2004a; Qi et al., 2004b) ont développé une méthode de signature protéique se rapprochant sur la définition de celle de Karlin. Il se propose détudier lécart entre les fréquences de peptides observés et celles qui sont attendues connaissant les fréquences des mots de tailles inférieures. Les nouvelles variables sont définies par : EMBED Equation.3 avec EMBED Equation.3 où EMBED Equation.3 est un mot de K lettres et EMBED Equation.3 est la fréquence observée de ce mot ADDIN EN.CITE Yu200111300000000113Yu, Z.-G.Anh, V.Lau, K.-S.2001Measure representation and multifractal analysis of complete genomesPhys Rev E6431-924 August 20011063-651xhttp://scitation.aip.org/dbt/dbt.jsp?KEY=PLEEE8&Volume=64&Issue=3Yu200111400000000114Yu, Z.-G.Jiang, P.2001Distance, correlation and mutual information among portraits of organisms based on complete genomesPhys. Lett. A286134-4616 July 20010375-9601Portrait; Gray-level; Correlation coefficient; Mutual information; Complete genomehttp://www.sciencedirect.com/science/journal/03759601(Yu et al., 2001; Yu and Jiang, 2001). Cette signature protéomique a été calculée pour lensemble des peptides de 6 lettres et pour 109 protéomes complets (103 procaryotes et 6 eucaryotes). Ces signatures ont permis dobtenir un arbre phylogénétique présentant de fortes corrélations avec celui qui est proposé par le Manuel Bergey ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001). Même si ces résultats sont très encourageants, il demeure quelques questions sur lutilisation des fréquences des peptides. Tout dabord le fait que la plupart des travaux ont utilisé des mots peptidiques longs (4 à 6 lettres) est discutable. Des mots de 6 lettres consistent à étudier 64 000 000 possibilités, or en étudiant la banque SWISS-PROT seul 26 % des hexapeptides étaient exprimés et par exemple certaines espèces en utilisent très peu (0.3 % pour Mycoplasma Genitalium). Ce manque de représentativité conduit à comparer des vecteurs de fréquences presque entièrement remplis de valeur nulle et donc soulève des problèmes statistiques. De plus aucune étude na permis de montrer que la signature protéique était spécifique à chaque espèce, contrairement à la signature de nucléotides (voir plus loin).

Construction des signatures

Pour calculer la signature, nous avons utilisé une méthode graphique qui permet de représenter les fréquences des différents mots. Cette méthode graphique permet obtenir une image à structure fractale grâce à un algorithme développé par Jeffrey en 1990 ADDIN EN.CITE Jeffrey199022100000000221Jeffrey, H. J.Chaos game representation of gene structureNucleic Acids Research182163-21701990(Jeffrey, 1990) : « Chaos Game Representation » (CGR). Cet algorithme permet dobtenir très rapidement (une seconde pour un génome bactérien de 4 Mb) une matrice de fréquences des mots qui peut être représentée par une image à structure fractale. Les signatures obtenues ainsi peuvent être comparées de manière qualitative et quantitative quelle que soit la nature des séquences, homologues ou non. Almeida et al ADDIN EN.CITE Almeida200122300000000223Almeida, J.S.Carriçao, J.A.Maretzek, A.Noble, P.A.Fletcher, M.2001Analysis of genomic sequences by chaos game representationBioinformatics17429-437Almeida200222400000000224Almeida, J.S.Vinga, S.2002Universal sequence map (USM) of arbitrary discrete sequencesBMC Bioinformatics316(Almeida et al., 2001; Almeida and Vinga, 2002) ont montré que la signature définie par la CGR était une généralisation des chaînes de Markov et non linverse ADDIN EN.CITE Goldman199322500000000225Goldman, N.Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representations of DNA sequencesNucleic Acids Research212487-24911993(Goldman, 1993) et quil était possible de travaillé avec des mots de tailles non-entières ADDIN EN.CITE Almeida200122300000000223Almeida, J.S.Carriçao, J.A.Maretzek, A.Noble, P.A.Fletcher, M.2001Analysis of genomic sequences by chaos game representationBioinformatics17429-437(Almeida et al., 2001).

Le Chaos Game est né, il y a environ 25 ans, dans le domaine de la physique ADDIN EN.CITE Barnsley198822610000000226Barnsley, M.1988Fractals EverywhereAcademic PressDevaney198922710000000227Devaney, R.L.1989Chaos, Fractals and Dynamics: Computer Experiments in Dynamics(Barnsley, 1988; Devaney, 1989). Il sagit dun algorithme qui permet de produire des images de structures fractales. Le principe de calcul est le même que celui qui a été mis en place par Sierpinski (1915) dans ses « triangles de Sierpinski ». Le Chaos Game a été appliqué aux séquences dADN par Jeffrey ADDIN EN.CITE Jeffrey199022100000000221Jeffrey, H. J.Chaos game representation of gene structureNucleic Acids Research182163-21701990Jeffrey199222200000000222Jeffrey, H. J.1992Chaos Game Visualization Of SequencesComputers Graphics16125-33ENGI: Engineering, Technology & Applied Sciences.90-0803-1-1 diffusion limited aggregation; fractal growth; non 90-1875-1-1 hausdorff dimension; fractal sets; continuous self 90-3154-1-1 random number generators; monte-carlo simulation;(Jeffrey, 1990, 1992). En utilisant cette méthode, Jeffrey souhaitait mettre en évidence dans les séquences nucléotidiques des structures caractéristiques de la structure de la protéine correspondante.

Pour mieux comprendre comment fonctionne lalgorithme, je propose dillustrer la méthode par létude de la séquence suivante :
ATGTACAGTTGGCCTGA

Le calcul se fait en utilisant un carré dont les 4 sommets représentent les 4 nucléotides. On pose la convention de placement suivante :

Les lettres de la séquence étudiée sont lues les unes après les autres et placées au fur et à mesure dans carré initial.
Pour initialiser lalgorithme, on place un point () au centre du carré. Pour représenter la lecture de la première lettre A, on place un point ()à mi-chemin entre le milieu du carré () et le sommet A :

La lecture de la lettre suivante, qui est un T, permet de placer un point à mi-chemin () entre le point précédemment placé () et le sommet T :

On effectue la même procédure pour la lettre suivante G, qui est à son tour placée () à mi-chemin entre le point que lon vient de placer () et le sommet G :

Cette procédure est répétée pour toutes les lettres présentes dans la séquence dADN étudiée. Ainsi, pour la séquence que lon a choisi comme exemple, on obtient la figure suivante :

Chaque point de la CGR correspond à une sous-séquence de la séquence initial et sera toujours placée dans le cadran (quart du carré initial) correspondant à la dernière lettre lue. Les sous-séquences, que nous voulons étudiée dans notre cas, sont des mots de taille choisie. Si lon travaille avec des mots de 1 lettre, la matrice de base est divisée en 4 cadrans ou sous-carrés.

En observant la manière dont les points sont répartis dans les 4 cadrans, on peut vérifier, à partir de la séquence de départ ATGTACAGTTGGCCTGA, que lon retrouve bien les 3 C, 5 G, 4 A, 5 T.
Si lon souhaite étudier des mots de 2 lettres, on divise à nouveau chaque sous-carré en 4 sous-carrés, on obtient ainsi 16 carrés (42). Chaque nouveau sous-carré correspondra à un mot bien identifié. Ainsi le sous-carré « C » contiendra les cadrans correspondant aux mots CC, GC, AC et TC qui seront placés en conservant la convention de placement : haut à gauche C, haut à droite G, bas à gauche A et bas à droite T.

On retrouve bien, en observant les occurrences dans les différentes cases, une fois le mot CC, 1 fois le mot GC etc.....
Si lon étudie des mots de 3 lettres, on appliquera une grille de 64 cases, et ainsi de suite pour les différentes tailles de mots. Pour des mots de taille n, on utilisera 4n sous-carrés. La matrice finale CGR correspond au comptage des points se trouvant dans chacun des sous-carrés. On obtient ainsi une matrice de valeur. Pour obtenir une matrice de fréquences, il suffit de diviser la matrice doccurrence par le nombre de mots lus dans la séquence.
Limage est une représentation graphique de la signature génomique. Chaque valeur de la matrice, ou pixel, correspond à la fréquence dun mot donné dune certaine longueur ADDIN EN.CITE Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999). Dans un souci de représentation graphique, les différents pixels possèdent un code couleur qui sera toujours le même au cours de mon travail ( REF _Ref508267038 \h Figure 23) : Blanc pour la fréquence observée la plus faible et noir pour la fréquence la plus élevée.

Figure SEQ Figure \* ARABIC 23 - Images CGR correspondantes à la séquence de lexemple pour des mots de 1, 2 et 3 lettres.

Une autre propriété de cette méthode issue du Chaos Game est quà partir dune seule lecture des séquences, on obtient la fréquence de tous les mots dune taille donnée et de toutes les tailles inférieures. En effet, il suffit de réduire la matrice dun facteur 4 (2 sur chaque dimension), par une opération matricielle, dobtenir les fréquences des mots de taille n-1. Le fait de lire une seule fois la séquence permet dobtenir un gain de temps de calcul conséquent lorsquil sagit de calculer lensemble des fréquences des mots de grandes tailles. Si on souhaitait calculer les fréquences des mots de taille n une par une, il faudrait lire n fois la séquence.

Principaux résultats
Diversité

Dans un premier temps, nous avons calculé la signature génomique pour un grand nombre de génomes de plusieurs espèces ( REF _Ref508267123 \h Figure 24).

Figure SEQ Figure \* ARABIC 24 - Signatures génomiques pour des mots de 8 lettres de quelques espèces obtenues à partir de létude de leurs génomes complets.

En observant les différentes signatures, on remarque une grande diversité. En regardant plus en détail les signatures, on peut distinguer des caractéristiques des génomes. Ainsi les lignes horizontales correspondent à des génomes riches en G+C (D. radiodurans) ou A+T (P. falciparium, données non montrées). Les diagonales quant à elles indiquent des génomes riches en suites de purines/pyrimidines (A. fulgidus). Enfin les contresélections CG se distinguent très facilement (M. jannaschii et H. sapiens). Cette grande diversité des signatures peut amener à penser que les signatures sont caractéristiques de chaque espèce.

Spécificité

Différentes études ont été conduites afin de mettre en évidence la spécificité despèce des signatures.
Dans un premier temps, nous avons sélectionné plusieurs génomes complets. Ces génomes ont été découpés en fragments de taille identique. Les signatures de lensemble des fragments ont été traitées par une analyse en composante principale (ACP) afin de placer les signatures dans un espace qui représente le mieux la disposition et les relations de ces dernières ( REF _Ref508267226 \h Figure 25).

Figure SEQ Figure \* ARABIC 25 - Analyse en composante principale des signatures de fragments de génomes complets. Projection sur les deux premiers axes. Quatre tailles de fragments ont été utilisées : 5kb, 10 kb, 25 kb et 100kb. 9 espèces sont représentées.

LACP révéla que les signatures des fragments dune même espèce sont regroupées et séparées des autres signatures provenant de fragments étrangers. Donc les caractéristiques communes aux signatures provenant dune même espèce sont plus fortes que la variabilité qui est présente au sein dun génome. Quelle que soit la nature du fragment, sa signature est placée avec les signatures des fragments du même génome. En comparant les axes de lACP à la composition en base, on observe que laxe 1 de lACP est parfaitement corrélé à la composition en base ( REF _Ref508267284 \h
Tableau 1).

axe12345pourcentage de variance expliquée48,210,88,554,313,7corrélation à la composition en base0,990,0030,0050,0000030,002
Tableau SEQ Tableau \* ARABIC 1 - Corrélation entre les axes de lACP et la composition en base.

Si nous comparons les signatures de fragments de séquence allant de 1 à 100 kb à celles obtenues à partir des génomes complets, on observe que les signatures des fragments conservent les caractéristiques de la signature du génome complet ( REF _Ref508267358 \h Figure 26).

Figure SEQ Figure \* ARABIC 26 - Signatures génomiques de fragments allant de 1kb à 100kb et signatures de génomes complets pour quatre espèces.

Cette conservation est nette pour des fragments allant jusquà 5kb. Pour les signatures de fragments plus petits, lobservation visuelle fait apparaître plus de bruit, Pour vérifier cela de manière systématique, nous avons effectué une classification par la méthode des plus proches voisins sur des signatures de fragments de génomes complets (34 génomes de procaryotes). La méthode des plus proches voisins consiste à comparer la signature dun fragment aux 34 signatures obtenues à partir des génomes complets. Un fragment est bien attribué la signature génomique de génome complet la plus proche est celle de son génome dorigine. Nous avons calculé le pourcentage de fragments pris au hasard dans un génome correctement assigné à son génome dorigine. Ce pourcentage a été calculé pour différentes tailles de mots (1 à 8 lettres) et pour des longueurs de fragment variables (50 nt à 100 kb) ( REF _Ref508267386 \h Figure 27).

Figure SEQ Figure \* ARABIC 27 - Classification par la méthode des plus proches voisins des signatures de fragments issus de 34 génomes. Les différentes courbes correspondent à des tailles de mots différentes. En abscisse, taille des fragments en kb (échelle logarithmique). En ordonnée, proportion de fragments correctement assignés.

La REF _Ref508267386 \h Figure 27 permet de voir que les mots de 1 lettre, cest-à-dire la composition en base, ne permet pas de correctement classer les fragments. Par contre, dès des mots de 2 lettres, les résultats saméliorent de façon notable. On peut distinguer deux tendances :
Plus les fragments sont longs, meilleure est la classification. Plus les fragments sont longs, plus ils contiennent de linformation et donc leurs signatures seront plus proches de celle du génome complet.
Plus les mots sont longs,meilleure est la classification. Ainsi pour des fragments de 1kb, la classification passe de 77% pour des mots de 3 lettres et 88% pour des mots de 8 lettres.

Pour tester linfluence de la référence, nous avons effectué une autre classification par plus proche voisin, où des fragments de génomes ont servi de référence. Nous avons utilisé des signatures de 8 lettres et, comme référence, des signatures obtenues à partir de fragments allant de 5kb au génome complet. Comme précédemment, les signatures, qui ont été classées, proviennent de fragments de 50 nt à 100 kb. Nous avons trouvé que lutilisation dune référence plus petite ne détériore pas les résultats. La limite de la référence est 10 % du génome complet. En dessous de cette taille, les classifications se détériorent mais les résultats restent corrects ( REF _Ref508267454 \h Figure 28).

Figure SEQ Figure \* ARABIC 28 - Classification des plus proches voisins. Étude de linfluence de la taille de la référence sur les résultats.

Il y a donc conservation de la signature pour des fragments de génome. Les résultats provenant de cette étude permettent de confirmer ce que lon avait montré avec lACP et, de déterminer, de plus, les paramètres de la signature (taille des mots, longueur du fragment) pour laquelle on a une signature représentative de lespèce.

Stabilité

Nous venons de montrer que la signature était spécifique de lespèce (espèce-spécifique). Il est important de savoir comment elle varie à lintérieur dun génome.
Pour visualiser lhomogénéité de la signature le long du génome, il est possible de juxtaposer les différentes signatures obtenues à partir dun génome. Pour cela, nous découpons les génomes en fragments consécutifs et nous calculons les différentes signatures consécutives. Ces signatures sont mises sous la forme de vecteur verticaux. Les vecteurs sont alors concaténés ( REF _Ref508267481 \h Figure 29) :

Figure SEQ Figure \* ARABIC 29 - Homogénéité de la signature le long du génome. Les signatures de fragments consécutifs sont juxtaposées sous la forme dune matrice. Les différents mots sont en ordonnée. Donc les lignes horizontales correspondent à la conservation de la fréquence dun mot. Trois génomes ont été découpés.

Nous avons montré que la signature était spécifique de lespèce et que des fragments pris au hasard dans un génome conservaient cette spécificité, même pour des fragments courts. On peut donc conclure que les mécanismes spécifiques à chaque espèce imposent le style du « texte », indépendamment de la fonction codée. On parle alors de style de lADN (« DNA style ») ADDIN EN.CITE Edwards200222800000000228Edwards, S.V.Fertil, B.Giron, A.Deschavanne, P.J.2002A genomic schism in birds revealed by phylogenetic analysis of DNA stringsSyst Biol51599-6132002 AugLespinats200322900000000229Lespinats, S.Deschavanne, P.Giron, A.Fertil, B.2003L’ADN en tant que texte : style et syntaxeRevue des Nouvelles Technologies de l’Information1193-202(Edwards et al., 2002; Lespinats et al., 2003).
Sur ces images, les lignes horizontales correspondent à la conservation dun mot le long dun génome. On observe que la signature est conservée le long du génome avec des signatures très proches les unes des autres. Néanmoins quelques passages dans le génome semblent présentés des signatures significativement différentes de celle du génome complet. Ces fragments ont donc un style différent de celui du génome. Létude de ces fragments originaux à partir de la signature a permis de mettre au point une technique de détection et didentification des transferts horizontaux au sein des bactéries.

Transfert horizontaux

Dufraigne et al ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont développé une technique de détection des transferts horizontaux basée sur létude de la variabilité de la signature génomique le long dun génome.
Lhypothèse de base est que tout intégration de fragment dADN étranger modifie le style de lADN. En effet, lADN étranger possède son propre style dADN provenant de celui de son génome dorigine. En étudiant la variation de la signature le long du génome, on mettra à jour des candidats au statut de transferts horizontaux.
Pour cela, les génomes sont découpés en fragments de 5kb. Ces fragments dADN sont recouvrant et sont obtenus en décalant la fenêtre détude de 500 nt. Les signatures de mots de 4 lettres des fragments ainsi formés sont comparées à laide de la métrique euclidienne à la signature du génome complet.

Figure SEQ Figure \* ARABIC 30 - Distances entre les signatures des différents fragments et la signature du génome complet (ligne bleue). Le seuil de détection des régions originales est indiqué par une ligne violette.

Cette comparaison est ensuite suivie dune classification par k-means et optimisation du nombre de groupes k-means, afin de définir des clusters de signatures basées sur leurs ressemblances. La classification par k-means permet de définir quelle est la signature de lhôte. On détecte alors les signatures originales en définissant un seuil correspond au 99ème percentile de la variabilité de la signature de lhôte. Les signatures dont la distance par rapport à la signature du génome sont supérieures à ce seuil, sont considérées originales, pouvant représentées un transfert horizontal ( REF _Ref508267511 \h Figure 30).
Nous avons vu que la signature était spécifique de lespèce, donc il est possible didentifier la signature originale du transfert horizontal et de proposer pour cela un hôte dorigine potentiel. On sappuie sur une banque de 12000 signatures (une signature par espèce) provenant de fragment dau moins 1.5 kb.
Cette méthode a été employée pour détecter les transferts horizontaux dans 22 génomes bactériens ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) et pour identifier lorigine de ces derniers. Les pourcentages de transferts horizontaux qui ont été détectés grâce à la signature sont en accord avec ceux dautres méthodes de détection de transferts horizontaux précédemment développées ADDIN EN.CITE Garcia-Vallve200320500000000205Garcia-Vallve, S.Guzman, E.Montero, M. A.Romeu, A.2003HGT-DB: a database of putative horizontally transferred genes in prokaryotic complete genomesNucleic Acids Research311187-189Moszer199923200000000232Moszer, I.Rocha, E. P.Danchin, A.1999Codon usage and lateral gene transfer in Bacillus subtilisCurr Opin Microbiol25524-8Nakamura200423000000000230Nakamura, Y.Itoh, T.Matsuda, H.Gojobori, T.2004Biased biological functions of horizontally transferred genes in prokaryotic genomesNature Genetics36760-766Nicolas200223100000000231 Nicolas, P. Bize, L. Muri, F. Hoebeke, M. Rodolphe, F. Ehrlich, SD. Prum, B. Bessieres, P.2002Mining Bacillus subtilis chromosome heterogeneities using hidden Markov modelsNucleic Acids Res301418-262002 Mar 15(Garcia-Vallve et al., 2003; Moszer et al., 1999; Nakamura et al., 2004; Nicolas et al., 2002). En explorant plus en détail les transferts détectés chez Bacillus subtilis (analysé par 4 méthodes différentes) et Escherichia coli (analysé par 5 méthodes différentes), Haemophilus influenzae (analysé par 2 méthodes), non plus en pourcentage mais gène par gènes, Dufraigne et al ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont montré que les résultats provenant de la méthode utilisant la signature sont en accord avec le consensus (voir pour le détail Dufraigne et al ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005)). Cependant cette méthode a des limites. Dufraigne et al ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont montré quelle nétait pas adaptée à la détection de transferts horizontaux de petites tailles (moins de 400 nt) et isolés.

Pourquoi utiliser la signature pour déterminer les relations entre espèces.

Comme nous venons de le voir, la signature est un outil danalyse statistique des séquences dADN rapide et facile à utiliser. La signature présente des caractéristiques qui lui permettent dêtre utilisée afin de comparer des génomes : elle est spécifique à chaque espèce et elle est stable le long du génome. Cette spécificité nous permet de dire quen comparant les signatures on compare aussi les espèces. Le fait que la signature soit homogène le long dun génome conduit à ce que toute portion du génome présente une signature proche de celle du génome complet. La signature est donc indépendante de la fonction de la séquence et de lhomologie. Il est donc possible de comparer des séquences non-homologues.
Notre hypothèse de travail est que deux espèces proches ont des signatures proches. La signature correspond à lusage des mots dune espèce. Une espèce ne peut pas changer brutalement de signature au cours de lévolution. Des changements de signature traduisent un temps évolutif entre les espèces. Ce temps est alors évalué grâce à un paramètre simple : la signature. Une explication de la spécificité et lhomogénéité de la signature pourrait être que des processus internes, telles la réplication de lADN, la recombinaison, la réparation de lADN, et des contraintes physico-chimiques et structurales locales, joueraient un rôle prédominant (voir Karlin et al ADDIN EN.CITE Karlin199719900000000199Karlin, S.Mràzek, J.Campbell, A. M.Compositional biases of bacterial genomes and evolutionary implicationsJ. Bact.1793899-39131997(Karlin et al., 1997) pour de plus amples discussions). Les pressions évolutives conduisent à des changements progressifs de la machinerie moléculaire. En comparant les signatures de séquences entre elles et en établissant des relations de proximité, nous comparons aussi les espèces dorigine des séquences. De plus, la classification en plus proches voisins de fragments de génome a permis de montrer quil était possible dutiliser des signatures provenant de petits fragments. Ces résultats nous ont encouragés à déterminer en quoi la signature permettait détablir les relations entre les espèces.
Nous avons dabord cherché à savoir si la signature pouvait être utilisée afin de comparer les espèces. Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont établi un arbre phylogénétique des procaryotes à partir de la signature. Mais il na pas établi si lutilisation de la signature était justifiée. Mon premier travail a consisté en cela. Pour cela, les signatures ont dabord été classées afin de retrouver des relations taxonomiques entre les espèces. Puis jai développé une méthode employant la signature afin dexplorer les données phylogénétiques utilisées dans les méthodes phylogénétiques : les séquences homologues. Cette méthode a été testé par des simulations et différents tests statistiques. On a pu ainsi valider lutilisation de la signature. Cette méthode a été employée pour étudier différents gènes.
La signature nest pas dépendante dune notion dhomologie, il est possible de comparer des signatures provenant de séquences non-homologues. Pour 10 espèces procaryotes, 335 signatures ont été comparées et les résultats ont permis de proposer déventuels transferts horizontaux. De plus, une phylogénie procaryote, utilisant la signature, est proposée utilisant lensemble des données moléculaires procaryotes connues. Cette dernière permettra détendre les résultats de Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003).

Utilisation de la signature pour étudier les relations taxonomiques

Classification et taxonomie

Analyse discrimante

À partir de la seule connaissance de la signature, nous avons effectué des classifications despèces en se basant sur des relations taxonomiques.
Dans un premier temps, nous avons effectué une classification par analyse discriminante de 10 000 espèces. Pour cela, nous avons utilisé des signatures pour des mots de 5 lettres. Pour chaque espèce, une unique signature a été calculée à partir de séquences dont la taille variat de 1.5 kb à plusieurs dizaines de mégabases chez certains eucaryotes. Afin de classer ces 10 000 signatures, nous avons au préalable effectué une ACP et nous avons conservé seulement les 95 premiers axes. Ensuite une analyse discriminante leave-one out sur ces 95 axes pour les 10 000 espèces a été conduite. Une analyse discriminante leave-one out est une méthode de classification supervisée, composée de deux étapes :
Pour chaque espèce, on sépare sa signature de lensemble des autres signatures. On effectue un apprentissage sur cet ensemble expurgé de signatures. Lapprentissage est réalisé à partir de lassignation au préalable de lensemble des espèces à un groupe taxonomique. Grâce à lapprentissage, on définit un ensemble de règles qui permettent de classer au mieux les signatures.
On attribue la signature de lespèce qui lon avait écarté, à un des différents groupes.
On répète la procédure pour toutes les espèces et on calcule le nombre despèces qui ont été correctement assignées au bon groupe taxonomique.

Nous avons effectué deux analyses discriminantes : une en divisant les 10 000 espèces en trois groupes correspondant aux trois domaines du vivant ( REF _Ref508267552 \h Figure 31) et une autre en utilisant cette fois ci 13 groupes ( REF _Ref508267554 \h Figure 32).

Figure SEQ Figure \* ARABIC 31 - Analyse discriminante de 10 000 espèces à laide de la signature pour des mots de 5 lettres. Classification en trois groupes taxonomiques. Des délimitations des différents domaines ont été ajoutées.

Figure SEQ Figure \* ARABIC 32 - Analyse discriminante de 10 000 espèces à laide de la signature pour des mots de 5 lettres. Classification en 13 groupes. Les différents groupes ainsi que leurs codes couleur sont indiqués à droite de la projection.

Lanalyse discriminante en 3 groupes a permis de classer correctement 95 % des signatures des espèces. Lorsque lon classe ces signatures en 13 groupes, on obtient alors un résultat de 83 %. Lanalyse discriminante a permis de séparer les signatures en fonction du groupe taxonomique de lespèce dont elles sont issues.

Analyse discriminante « top-down »

Afin de déterminer si la signature permettait de retrouver des relations taxonomiques entre les espèces, nous avons effectué à nouveau des analyses discriminantes mais cette fois ci en utilisant la méthode dite « top-down ».
Une analyse discriminante « top-down » consiste à diviser progressivement les individus que lon souhaite classer, à laide danalyses discriminantes successives. Pour cela, il est nécessaire davoir des données qui puissent être rangées dans des cases imbriquées, ce qui est le cas des données taxonomiques. Au lieu de classer directement les espèces en une dizaine de groupes, on commence par faire une analyse discriminante avec un petit nombre de groupe. Puis chacun de ses groupes est à nouveau divisé et sert de groupe de départ à une nouvelle analyse discriminante.
Pour donner un exemple, prenons un ensemble de signatures que lon souhaite classer par analyse discriminante « top-down ». Pour cela, nous allons dabord effectuer une classification en deux groupes. Les signatures de chaque groupe précédent et non seulement ceux qui ont été correctement classées sont séparées. On obtient alors deux nouveaux jeux de données. Chaque jeu sera soumis à nouveau à une analyse discriminante en un nombre de groupe dépendant des données étudiées. Le nombre de classes que lon choisit dutiliser est dépendant du nombre dindividus que lon doit ranger par classe. Il faut, pour que la classification par analyse discriminante ait un sens, que ce nombre soit suffisamment élevé. Cest pourquoi plus le nombre de fragments est petit, moins le nombre de groupes classés par les analyses discriminantes est grand. Cela est le cas quand on descend dans la taxonomie. Les différentes classifications successives sont résumées sous la forme dun graphe hierarchique, où à chaque étape est indiqué le résultat de la classification.
Deux analyses discriminantes « top-down » ont été effectuées. Tout dabord, 63 espèces ont été découpés en fragments de tailles différentes et chaque fragment a servi à calculé une signature de mot de 6 lettres. Trois tailles de fragments ont été utilisées 1kb, 10kb et 100kb. Les signatures sont été classées suivant le schéma de la REF _Ref508267608 \h Figure 33.

Figure SEQ Figure \* ARABIC 33 - Analyse discriminante « top-down » de signatures (mot de 6 lettres) de fragments de 63 espèces. Trois tailles de fragments ont été testées : 100 kb, 10 kb et 1kb. A chaque analyse discriminante, le pourcentage de signature correctement classées est indiqué avec le code couleur correspondant à la taille des fragments utilisés.

Tout dabord, la classification dans les trois domaines du vivant est très bonne quelle que soit la taille des fragments. Les résultats de cette analyse discriminante « top-down » montre que la taille des fragments influence les résultats. Plus la taille des fragments est petite, moins bonne sera la classification. Pour des fragments supérieurs à 10 kb, la classification est très bonne sauf pour celle des primates, alors que pour des fragments de 1kb les résultats se détériorent rapidement (70% pour les eucaryotes) et deviennent faibles chez les primates. En ce qui concerne les fragments de 100 kb, les classifications sont proches de perfection dans la majorité des cas. Cette détérioration des classifications peut sexpliquer par la variabilité des signatures pour des tailles de fragments faibles. Cela a été observé lors de la classification des plus proches voisins dont jai exposé les résultats précédemment.
On observe de plus que plus on essaie de classer des espèces profondes, plus le nombre de signatures de fragments mal assignées sera important. Ce résultat peut sexpliquer par le fait quen descendant dans la taxonomie, on a de moins en moins dindividus servant à lanalyse discriminante et que les signatures se ressemblent de plus en plus (comme pour les primates). Une autre explication est la variabilité observée des génomes eucaryotes : présence disochores, par exemple, chez les vertébrés à sang chaud.

La première classification par analyse discrimante « top-down » a été effectué sur des signatures calculées pour des fragments de même taille et pour seulement 63 espèces différentes. Une autre analyse a été réalisée cette fois ci à partir de 10787 signatures (6 lettres), chacune correspondante à une espèce différente. Ces signatures ont été calculées à partir de fragments de 1.5 kb de taille minimale ( REF _Ref508267637 \h Figure 34).

Figure SEQ Figure \* ARABIC 34 - Analyse discriminante « top-down » des 10 787 signatures (mot de 6 lettres). Chaque signature correspond à une espèce, qui est représentée par une seule signature. Les signatures ont été calculées à partir de fragments de taille allant de 1.5 kb à plusieurs dizaines de megabases. Le nombre despèces à chaque étape et les pourcentages de chaque classification sont indiqués sur le graphe.

Les résultats ( REF _Ref508267637 \h Figure 34) montrent que les signatures ont été bien classées selon des groupes taxonomiques. Les pourcentages de signatures correctement assignées sont élevés dans chacune des 5 classifications qui ont été réalisées. Le résultat sur les fragments avait montré que les résultats diminuaient plus on descendait dans larbre taxonomique. Cependant ici, cela nest pas le cas. Lanalyse discriminante sur les plantes a un meilleur pourcentage de classification que celui des eucaryotes. La faible performance de lanalyse discriminante des vertébrés peut sexpliquer par le nombre relativement faible du nombreux dindividus ayant servi. Malgré cela, on obtient près de 80%.

On a donc vu que les signatures permettaient à laide danalyse discriminante de retrouver les relations taxonomiques entre les espèces. Cela est possible avec des signatures provenant de fragments de tailles identiques ou même hétérogènes.

Cartes de Kohonen

À laide dune méthode de classification non supervisée, nous avons classé 1000 signatures de mots de 4 lettres correspondant à 1000 espèces appartenant aux trois domaines taxonomiques. Pour cela, la méthode non supervisée que nous avons utilisée est la carte de Kohonen ( REF _Ref508267680 \h Figure 35).

Figure SEQ Figure \* ARABIC 35 - Classification de 1000 signatures par carte de Kohonen. La taille des mots est de 4 lettres.

La carte de Kohonen obtenue montre que les espèces appartenant à un même domaine sont proches, à lexception des virus. Les virus sont quant à eux proches de leurs hôtes ADDIN EN.CITE Mrazek199828200000000282http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=9520433Mrazek, J.Karlin, S.Strand compositional asymmetry in bacterial and large viral genomesDNA, Bacterial/*geneticsDNA, Viral/*geneticsEvolution, Molecular*Genome, Bacterial*Genome, ViralHumanReplication OriginSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, 450 Serra Mall, Bldg. 380, Stanford, CA 94305-2125, USA.9520433Proc Natl Acad Sci U S A19989573720-5.(Mrazek and Karlin, 1998). De même, si on divise les eucaryotes en 3 groupes (vertébrés, invertébrés et plantes), les signatures de chacun de ces groupes sont rassemblées sur la carte de Kohonen ( REF _Ref508267696 \h Figure 36). Cela confirme ce que lon avait trouvé en classification supervisée, cest-à-dire que les espèces proches ont des signatures proches.

Figure SEQ Figure \* ARABIC 36 - Classification par carte de Kohonen de 900 signatures de 4 lettres. Pour chacun des cinq groupes taxonomiques, leurs signatures sont mises en avant sur la carte de Kohonen. Il est aussi indiqué larbre phylogénétique représentant les relations entre ces cinq groupes.

Si on regarde comment se positionne sur la carte de Kohonen les signatures en fonction de leurs compositions en bases, un gradient apparaît. En effet, une des diagonales de la carte de Kohonen est parfaitement corrélée à la composition en base ( REF _Ref508267724 \h Figure 37).

Figure SEQ Figure \* ARABIC 37 - Carte de Kohonen où chaque signature est représentée par un point avec un code-couleur proportionnel à la composition en base.

Donc la classification par carte de Kohonen des signatures permet de montrer que ces dernières se placent en fonction de leurs taxonomies. Les deux diagonales de la carte portent un signal : une permet de séparer les signatures en fonction de la taxonomie des séquences qui ont servi à les calculer, lautre les sépare les signatures en fonction de la composition en base. La composition en base ne sépare pas les espèces, mais introduit de la variabilité à lintérieur de chaque groupe.

Distance et corrélation

Afin de déterminer si la signature pouvait être utilisé afin dans le cadre danalyse phylogénétique, les distances entre les signatures de deux séquences ont été calculées en fonction de lidentité de séquences observée.
Pour cela, nous avons utilisé une approche naïve dans laquelle, pour un certain pourcentage didentité, nous avons simulé 100 séquences nucléiques de 5kb à partir dune séquence de référence. Pour cela, des mutations aléatoires sans homoplasie ont été effectuées. Les pourcentages didentité observée ont été pris entre 70 et 100%, ce qui correspond aux cadres des séquences homologues utilisées en phylogénie moléculaire. Ensuite les signatures des séquences simulées et celle de la séquence de référence ont été calculées et comparées à l aide de la métrique euclidienne et de cð2 (les métriques seront détaillées dans le chapitre suivant). Les distances entre signatures sont tracées en fonction de l identité et pour chaque point, il est aussi indiqué lécart-type ( REF _Ref508011866 \h Figure 38).

Figure SEQ Figure \* ARABIC 38 - Distance entre signature en fonction de lidentité de séquences. Distance obtenue en comparant des signatures de sequences de 5kb à laide de la métrique euclidienne.

La même courbe est observée pour la métrique du cð2. Elle possède une pente un peu plus forte, ce qui permet de dire que la métrique du cð2 sature moins pour des séquences de 5kb homologues. Cependant même la courbe de la REF _Ref508011866 \h Figure 38 montre que la distance entre signatures augmente de manière monotone avec la diminution de lidentité. De plus les écarts-types sont faibles, donc il est possible de déterminer avec une bonne confiance lidentité entre deux séquences si on connaît la distance entre leurs signatures. Cela nest possible que dans le cas où je me suis placé, cest-à-dire des mutations ponctuelles non-homoplasiques.
La monotonie de la fonction distance entre signatures permet de suggérer que cette distance puisse être un moyen dévaluer les différences entre les séquences.

Méthode utilisant la signature

Nous avons montré grâce aux classifications que la signature permettait de retrouver des relations taxonomiques entre les espèces et nous avons aussi vu que la distance entre signatures était corrélée aux différences entre les séquences. Nous avons donc décidé demployer la distance entre signature afin de déterminer les relations entre les espèces.
Nous partons tout dabord dun ensemble de séquences homologues si on souhaite faire une comparaison directe avec les méthodes classiques, puis des séquences non-homologues.

Gestion des séquences et moyens informatiques employées

Au cours de mon travail de thèse, jai utilisé des séquences qui ont été téléchargées à partir du site de GenBank ( HYPERLINK http://www.ncbi.nlm.nih.gov:80/entrez/ http://www.ncbi.nlm.nih.gov:80/entrez/) et du site de Genome Information Broker ( HYPERLINK http://gib.genes.nig.ac.jp/ http://gib.genes.nig.ac.jp/). Pour certaines études, je me suis servi de banques de données spécifiques déjà préparées comme celle du Green Plant Phylogeny Research Coordination Group ( HYPERLINK "http://ucjeps.berkeley.edu/bryolab/GPphylo/RNA/18S_12.html" http://ucjeps.berkeley.edu/bryolab/GPphylo/RNA/18S_12.html), banque qui est spécialisée dans lARN 18S des plantes. Une autre banque qui ma servi est celle du site SYSTERS ( HYPERLINK "http://systers.molgen.mpg.de/" http://systers.molgen.mpg.de/) ADDIN EN.CITE Krause200023400000000234105922442812000Jan 1The SYSTERS protein sequence cluster set270-2Deutsches Krebsforschungszentrum, Theoretische Bioinformatik, Im Neuenheimer Feld 280, D-69120 Heidelberg, Germany. a.krause@dkfz-heidelberg.deKrause, A.Stoye, J.Vingron, M.Nucleic Acids ResAmino Acid Sequence*Database Management Systems*Databases, FactualInternetMolecular Sequence DataProteins/*chemistrySequence Homology, Amino AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10592244(Krause et al., 2000). SYSTERS est une banque de données de familles de protéines homologues.
Une fois les séquences sélectionnées, les signatures sont calculées à laide de lalgorithme CGR implémenté dans le logiciel MATLAB( ( HYPERLINK "http://www.mathworks.com/" http://www.mathworks.com/) et les manipulations sur la signature, ainsi que le calcul des distances seront effectués dans le même logiciel. Les analyses statistiques des données seront réalisées à partir du logiciel JMP( de SAS software ( HYPERLINK "http://www.jmp.com" http://www.jmp.com).
Les alignements multiples de séquences sont obtenus grâce au logiciel ClustalW ADDIN EN.CITE Higgins19963000000000030http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=8743695Higgins, D. G.Thompson, J. D.Gibson, T. J.Using CLUSTAL for multiple sequence alignments*Amino Acid SequenceAnimal*Base SequenceDNA/*chemistry*Databases, FactualEvolution, MolecularGlobins/*chemistry/geneticsHorsesHumanLeghemoglobin/chemistryLegumes/geneticsMolecular Sequence DataNucleic Acid Conformation*PhylogenyProtein Structure, SecondaryProtein-Tyrosine Kinase/chemistry/geneticsProteins/*chemistry*Softwaresrc Homology DomainsEuropean Molecular Biology Laboratory Outstation-European Bioinformatics Institute, Hinxton, Cambridge, United Kingdom.87436951996Methods Enzymol266383-402(Higgins et al., 1996) avec les paramètres par défaut. Les arbres phylogénétiques, que cela soit à partir de la méthode utilisant la signature ou les méthodes classiques de phylogénie, seront inférés grâce au logiciel PAUP* ADDIN EN.CITE Swofford200323360000000233Swofford, D. L.2003PAUP*, Phylogenetic Analysis Using Parsimony (*and Other Methods)Sinauer Associates, Sunderland, Massachusetts4(Swofford, 2003) et à la suite de programmes PHYLIP ADDIN EN.CITE Felsenstein20045060000000050Felsenstein, J.2004PHYLIP (Phylogeny Inference Package)3.6(Felsenstein, 2004). Les fichiers de résultats seront traités en partir à laide de scripts écrits en C ou en Python ( HYPERLINK "http://www.python.org" http://www.python.org).
Les différents calculs ont été effectués sur un macintosh G5 à 933 Mhz disposant de 512 Mo de mémoire et, dans le cas de calculs plus lourds et quand cela fut possible, un cluster de 6 ordinateurs fut utilisé.

Méthodologie développée

Je vais vous indiquer ici la méthodologie que jai employé afin dutiliser les signatures dans la recherche de relations taxonomiques entre les espèces.
Une fois les séquences que lon souhaite utiliser sont sélectionnées, les signatures pour une taille de mot donnée (allant de 1 lettre à 10 lettres) sont calculées à laide de lalgorithme CGR. Pour les séquences homologues, nous avons utilisé les signatures simple brin et pour les séquences non homologues les signatures double brin. Le choix des signatures simple brin sexplique par le fait quavec les séquences homologues le sens de lecture est une information supplémentaire. Pour les séquences non homologues, comme les génomes complets, linformation est codée dans les deux sens de lecture. Il est donc nécessaire dutiliser les signatures double brin pour comparer les espèces, pour éviter le biais de brin.
Ensuite les signatures sont comparées à laide dune métrique afin dobtenir une matrice de distance. Les métriques qui sont employées sont :
La métrique euclidienne : EMBED Equation.3 où X et Y sont deux signatures et (Xi) et (Yi) les valeurs des fréquences des signatures.
La métrique du cð2 : Supposons que l on mette toutes les signatures sous la forme d un vecteur ligne et que l on regroupe toutes les signatures dans une matrice (Xij) où la signature d une espèce i correspond à EMBED Equation.3 . La métrique du cð2 s écrit EMBED Equation.3 où EMBED Equation.3 , EMBED Equation.3 et EMBED Equation.3 .
La métrique city-block : En partant de la même convention que celle de la distance du cð2, la métrique s écrit : EMBED Equation.3

D autres métriques ont été testées comme la distance de Mahalanobis, la distance du cosine ou les distances fractionnaires ADDIN EN.CITE Lespinats200428330000000283Lespinats, S.Deschavanne, P.Giron, A.Fertil, B.2004Pertinence des métriques fractionnaires pour l'analyse des données de grande dimension (signature génomique). Fouille de données complexes dans un processus d'extraction des connaissances.EGC'04Clermont-Ferrand, France135-141(Lespinats et al., 2004), mais les résultats obtenus étaient soit équivalents soit moins bon que ceux obtenus avec les métriques précédentes et je nen parlerai pas dans la suite de ce travail.
Une fois la matrice des distances obtenue, un arbre phylogénétique est inféré à laide des algorithmes de reconstruction Neighbor-Joining ADDIN EN.CITE Saitou19874300000000043http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=3447015Saitou, N.Nei, M.The neighbor-joining method: a new method for reconstructing phylogenetic treesAnimalBiometryEvolution*Models, Genetic*PhylogenyRanidae/*geneticsSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Center for Demographic and Population Genetics, University of Texas Health Science Center, Houston 77225.3447015Mol Biol Evol198744406-25.(Saitou and Nei, 1987) ou fastME ADDIN EN.CITE Desper2002490000000004912487758952002Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle687-705National Center for Biotechnology Information, National Library of Medicine, National Institutes of Health, 45 Center Drive, Bethesda, MD 20892, USA.Desper, R.Gascuel, O.J Comput Biol*AlgorithmsComparative StudyComputer Simulation*Evolution, MolecularModels, Genetic*Phylogenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12487758(Desper and Gascuel, 2002). Ces deux algorithmes donnent la plupart du temps le même résultat ( REF _Ref508267794 \h Figure 39).

Figure SEQ Figure \* ARABIC 39 - Schéma récapitulatif de la méthode issue de la signature en comparaison avec les méthodes classiques. Ici, il est représenté lexemple de lutilisation de séquences homologues.

Afin de valider la topologie que lon trouvait avec la méthode issue de la signature, un bootstrap a été développé. Deux bootstrap sont possibles et les deux ont été mis en uvre mais dans deux cas de figure différents.
Le premier bootstrap est un bootstrap sur les variables qui sont les fréquences des mots. À partir du jeu de données initial, des jeux bootstrap sont générés par tirage aléatoire des variables ( REF _Ref508267822 \h Figure 40). De la même manière que le bootstrap est appliqué dans les méthodes de phylogénie classique, chaque jeu bootstrap contient les mêmes individus que le jeu de données initial. Mais pour remplacer les N variables (fréquences des mots), N nouvelles variables ont été sélectionnées par tirage aléatoire avec remise. Pour chaque jeu bootstrap, larbre est inféré à partir de la méthode précédemment décrite. À partir de ces arbres, un arbre consensus est généré. Cette méthode de bootstrap présente lavantage dêtre applicable dans tous les cas dapplication de la signature, mais elle viole un principe du bootstrap qui est lindépendance des variables échantillonnées. En effet, les différents mots sont clairement corrélés. Cependant, ce problème est aussi présent dans les méthodes classiques ADDIN EN.CITE Brocchieri20015800000000058http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11243926Brocchieri, L.Phylogenetic inferences from molecular sequences: review and critiqueAnimalBias (Epidemiology)Data Interpretation, StatisticalEvolutionGene Transfer, Horizontal/geneticsHumanModels, GeneticMutation/geneticsPhenotype*PhylogenyReproducibility of ResultsSensitivity and SpecificitySequence Alignment*Sequence Analysis, DNA/methods/standards*Sequence Analysis, Protein/methods/standards*Sequence Analysis, RNA/methods/standardsSupport, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, Stanford, California 94305-2125, USA.11243926Theor Popul Biol200159127-40.(Brocchieri, 2001) où les positions dans les séquences ne sont pas indépendantes (par exemple dans lARN).

Figure SEQ Figure \* ARABIC 40 - Bootstrap sur les mots. À partir de léchantillon initial, on construit des échantillons bootstrap par tirage aléatoire avec remise. Ici, les fréquences dun mot pour toutes les espèces ont été surligné. Ce mot se retrouve une fois dans le premier échantillon bootstrap et trois fois dans le deuxième.

Lautre méthode bootstrap est un échantillonnage sur les séquences ( REF _Ref508267849 \h Figure 41). Si les séquences qui servent à calculer les signatures sont suffisamment longues, on décide dutiliser non plus les séquences en entier mais seulement une partie (un pourcentage ou alors une taille fixe identiques pour toutes). Ainsi, on sélectionne au hasard un morceau de chaque séquence. Des signatures sont alors calculées à partir de ces morceaux (un par séquence initiale). On appliquera la méthode précédemment décrite pour générer un arbre. La procédure de sélection aléatoire des morceaux sera répétée un grand nombre de fois. Larbre consensus permettant de vérifier la validité des résultats est inféré à partir de lensemble des arbres bootstrap. Cette méthode a lavantage dutiliser cette fois ci un échantillonnage du jeu de données initial. On est dans de meilleures conditions dapplication de la méthode du bootstrap. Le problème de cette méthode est quil est nécessaire dutiliser comme données de départ des séquences de grandes tailles (supérieure à 50 kb par exemple), ce qui nest pas le cas des séquences homologues.

Figure SEQ Figure \* ARABIC 41 - Schéma de la méthode du bootstrap se basant sur lutilisation de fragments des séquences initiales.

Pour chaque étude de séquences homologues, jai aussi employé les méthodes de phylogénie classiques : méthode des distances, maximum de parcimonie et maximum de vraisemblance. Les différents paramètres de ces méthodes ont été détaillés précédemment. Pour la méthode des distances, jai utilisé les modèles HKY85 et K2P. Une fois la matrice des distances obtenue, les arbres phylogénétiques seront inférés à laide de lalgorithme du Neighbor-Joining ou du Minimum dévolution. Pour la méthode de parcimonie, tous les résultats que je présenterai utiliseront les gaps comme un 5ème état ou ignorés. Enfin, le maximum de vraisemblance utilise le modèle de substitution HKY85. De plus, une hétérogénéité du taux de substitution a été prise en compte par une distribution gamma. Les différents paramètres du modèle ont été estimés à partir des données : le paramètre d hétérogénéité að, les fréquences des nucléotides et le taux transition/transversion.

Étude statistique de la méthode de la signature

Est-ce que la distance entre signatures est une distance darbre ?

Nous avons essayé de déterminer dans quelle mesure les distances qui proviennent de létude de la signature étaient des distances darbres. Cest-à-dire, est-ce que ces distances peuvent être représentées par un arbre. Nous avons aussi déterminé quelle était linfluence des paramètres de la signature dans les distances.
Pour cela, nous avons utilisé les travaux de Guénoche et Garreta ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000). Ils ont défini de nombreux critères aussi bien topologiques que numériques. Les différents critères seront calculés à partir des matrices de distances calculées sur les signatures des séquences du gène RAG1 (voir le chapitre REF _Ref506894285 \r \h 3.7.1 pour létude du gène RAG1). Les signatures seront comparées par la métrique euclidienne et pour des mots de 1 à 10 lettres. Ce choix assez vaste de la longueur des mots sexplique par le fait que lon ne pose aucun a priori sur la longueur de mot optimum. En effet, on recherche la longueur des mots qui produit les meilleurs résultats.

Pour expliciter les différents critères, je pose les notations suivantes :
D est la matrice de distances initiale, calculé à partir des signatures
Da est la matrice des distances que lon lit sur larbre.
X est lensemble des espèces étudiées.

Les différents critères numériques sont :
La différence moyenne des distances : EMBED Equation.3
La distorsion : la moyenne des pourcentages de différences EMBED Equation.3
Lécart quadratique moyen : EMBED Equation.3 qui est le carré de lécart type. Lécart type a déjà employé en phylogénie moléculaire (Edwards 2003, plus dautres cf Edwards)
La variance expliquée : EMBED Equation.3 où Dm est la moyenne des distances de D.
La corrélation : EMBED Equation.3 où SD,Da est la covariance alors que SD et SDa sont les écarts-type respectivement de D et Da. EMBED Equation.3 et EMBED Equation.3
Le stress : correspond à un écart quadratique moyen standardisé (ref 66 papier) EMBED Equation.3

Pour expliquer les différents critères topologiques, rappelons la condition des 4 points ADDIN EN.CITE Buneman197123510000000235Buneman, T.1971The recovery of trees from measures of dissimilarity.Hodson et alMathematics in the Archeological and Historical SciencesEdinbourgEdinburg University Press(Buneman, 1971). Dans un arbre, si les deux éléments a et b dun arbre sont séparés des éléments c et b par au moins une branche, alors :
EMBED Equation.3
D(a,b) est la distance entre lespèce a et b.

Donc, pour déterminer la topologie dun quadruplet, il suffit de calculer trois sommes EMBED Equation.3 , EMBED Equation.3 et EMBED Equation.3 . Si D est une distance darbre alors, les deux plus grandes sommes sont identiques. Si EMBED Equation.3 (respectivement EMBED Equation.3 , EMBED Equation.3 ) est la plus faible des trois distances, alors on a la topologie T1 (respectivement T2, T3) ( REF _Ref508267956 \h Figure 42).

Figure SEQ Figure \* ARABIC 42 - Topologies pour le quadruplet {a,b,c,d} correspondant à la condition précédemment énoncée.

Les différents critères topologiques sont :
Larboricité : Posons Smin, Smed et Smax les trois sommes que lon rencontre dans la condition de quatre points rangés par ordre croissant. Larboricité est le pourcentage de quadruplets dont Smed est plus proche de Smax que de Smin. En effet, si un quadruplet vérifiait la condition des quatre points, Smed serait égale à Smax.
Le taux de quadruplets corrects : Ce taux est le nombre de quadruplets qui ont la même topologie dans D et dans Da.
Le taux de quadruplets élémentaires : Prenons en considération une branche interne e dun arbre T ( REF _Ref508267972 \h Figure 43). Cette branche délimite quatre sous-arbres Xa, Xb, Xc et Xd comme on peut le voir sur la figure X. Si la branche e est correcte, alors pour tout EMBED Equation.3 , tout EMBED Equation.3 , tout EMBED Equation.3 et tout EMBED Equation.3 la condition des 4 points doit être vérifiée. Le taux de quadruplets élémentaires est donné par :
EMBED Equation.3
où EMBED Equation.3 est le nombre despèces dans le sous arbre Xa.

Figure SEQ Figure \* ARABIC 43 - Les 4 sous-arbres définis par une branche interne e.

Figure SEQ Figure \* ARABIC 44 - Critères statistiques des matrices de distances en fonction de la taille des mots. Les matrices de distances proviennent de létude du gène RAG1. Laxe des abscisses à droite correspond aux valeurs du stress. Sur laxe des abscisse gauche, les valeurs des critères pour la méthode des distances (distance de Kimura 2-paramètres) sont indiqués par un point et une ligne pour larboricité.

Nous avons montré que, quand la longueur des mots augmente, larboricité augmente elle aussi, montrant que larbre obtenu représente mieux les distances entre signatures ( REF _Ref508267992 \h Figure 44). Cette amélioration est nette pour des signatures de 2 à 5 lettres et les résultats demeurent stables pour des mots plus longs. Les valeurs des différents critères ont été aussi calculées sur la matrice des distances obtenues à partir de la distance Kimura 2-paramètres. À partir de 5 à 6 lettres et au-dessus, les critères de la signature sont meilleurs que ceux de la méthode des distances. On retrouve ici ce que lon avait obtenu avec la classification des plus proches voisins (voir REF _Ref506899739 \r \h 2.3.4.2), cest-à-dire : les mots longs produisent de meilleurs résultats que les mots courts.
Cependant, pour pouvoir utiliser les signatures, il est nécessaire que lensemble de mots possibles soit suffisamment présent dans les séquences étudiées. Ainsi, la comparaison des signatures calculées sera une bonne estimation de la vraie différence de mots entre les espèces. Or dans notre cas et dans la première partie de mon travail de thèse, jutiliserai des séquences homologues, donc ayant une longueur comprise entre 1 et 5 kb. Il est donc nécessaire de prendre en compte cette taille lorsque lon décide du choix de la taille des mots.
Une des conséquences de ce problème est le rapport entre les longueurs de branches internes sur les longueurs de branches externes. Ce rapport diminue fortement avec laugmentation de la longueur des mots lors de lutilisation de séquences homologues. Cela conduit à obtenir des arbres avec de très longues branches externes.La distance entre les espèces est pratiquement utilisée entièrement pour séparer les espèces et il en reste peu pour organiser les groupes. La méthode issue de la signature pourrait avoir du mal à organiser les groupes entre eux lors de lutilisation de séquences homologues.
Les différents critères (topologiques et numériques) semblent atteindre la stabilité et une bonne valeur pour une longueur de mot proche de 6 lettres. En tenant en compte de la longueur des séquences, il semble que cette longueur de mot soit un bon compromis.

Convergence de la topologie avec laugmentation de la longueur des mots

Le prochain point que jai étudié est le fait de savoir si les arbres obtenus pour différentes tailles de mots convergeaient vers un arbre stable où si tous les arbres étaient différents.
Pour cela, jai à nouveau utilisé le gène RAG1. 46 séquences du gène RAG1 ont été sélectionnées chez 46 vertébrés. Les résultats de cette étude seront explicités ultérieurement (cf. REF _Ref506894285 \r \h 3.7.1).
Pour comparer les différents arbres, la distance de Robinson-Foulds dT a été utilisée. Cette distance a été calculée, dans un premier temps, entre les arbres obtenus pour des tailles de mots consécutives n et n+1 (n égal de 1 à 9), puis entre les arbres obtenus pour des mots de n lettres et ceux inférés par les méthodes classiques de phylogénie (n égal de 1 à 10). Les méthodes classiques de phylogénie qui ont été utilisées sont la méthode des distances et le maximum de vraisemblance. La distance obtenue entre deux arbres aléatoires est aussi indiquée.
Les résultats sont présentés dans la REF _Ref508268036 \h Figure 45. Tout dabord quand on regarde les comparaisons entre les arbres de taille de mots consécutives, on observe que la distance dT diminue fortement que cela soit avec la métrique euclidienne ou celle du cð2. Cela montre que les arbres convergent vers une topologie. Un plateau stable est atteint pour des mots de 6 lettres.
En comparant les arbres de la signature à ceux qui sont obtenus par les méthodes classiques, on constate que la distance diminue aussi fortement avec la taille des mots. Cela signifie que les arbres issus de la signature se rapprochent de plus en plus de ceux des méthodes classiques. Pour des mots de 1 lettre, les arbres issus de la signature sont très différents de ceux des méthodes classiques. La distance de Robinson-Foulds est proche de celle entre deux arbres aléatoires.
Sur la REF _Ref508268036 \h Figure 45, jai aussi indiqué la distance entre les différents arbres obtenus pour les méthodes classiques. Pour des mots supérieurs à 5 lettres, les arbres signatures sont aussi proche de larbre du maximum de vraisemblance que ce dernier de larbre de la méthode des distances. Donc la variabilité entre les méthodes classiques est la même quavec la méthode de la signature.
En comparant les distances obtenues à la distance moyenne entre deux arbres aléatoires on constate que la différence avec une distance aléatoire est significative. Donc les arbres signature/méthodes classiques présentent des topologies congruentes.
Cette étude permet de définir une longueur de mot optimale de 6 lettres, compromis que lon a trouvé lors de létude statistique précédente.

Figure SEQ Figure \* ARABIC 45 - Analyse de la distance de Robinson-Foulds pour les arbres issus de la signature. Les distances ont été calculées à partir des séquences provenant de létude du gène RAG1. Pour chaque taille de mot, larbre signature a été comparé aux arbres de deux méthodes classiques et à des arbres aléatoires. Pour la distance aléatoire, 100 arbres aléatoires sont utilisés. On a une distance aléatoire moyenne légèrement inférieure à 86 (distance maximum pour des arbres à 46 taxons).

Conclusion

Les études ont montré que les meilleurs résultats ont été obtenus pour des mots de 6 lettres. Il existe 4096 mots possibles de 6 lettres. Or les séquences homologues que jai utilisées durant ma thèse ont une taille inférieure à 4 kb nucléotides. Cela signifie quune proportion plus ou moins grande des mots aura une fréquence nulle. On se trouve dans le problème statistique que jai évoqué précédemment. Lexplication de ces résultats peut sexpliquer par le fait que comparer des mots longs revient dune certaine manière à une utilisation dun alignement. En effet, pour des séquences homologues la présence dun mot long (supérieur à 6 lettres) exact revient à considérer un motif caractéristique. Le partage de ce motif permet de rapprocher des séquences et donc les espèces.

Simulation

Afin de déterminer si la signature permettait dinférer des arbres phylogénétiques, nous avons effectué des simulations. Pour cela, nous avons comparé les arbres issus de la signature à des arbres « vrais » en utilisant des séquences simulées à partir dune topologie connue.

Pour cela, nous avons utilisé un protocole établi par Kumar ADDIN EN.CITE Kumar1996140000000001488825011341996AprA stepwise algorithm for finding minimum evolution trees584-93Department of Biology, Pennsylvania State University, USA. imeg@psuvm.psu.eduKumar, S.Mol Biol EvolAlgorithmsAnimals*Computer Simulation*EvolutionHumans*Models, TheoreticalResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8882501(Kumar, 1996) et Gascuel et al ADDIN EN.CITE Kumar1996140000000001488825011341996AprA stepwise algorithm for finding minimum evolution trees584-93Department of Biology, Pennsylvania State University, USA. imeg@psuvm.psu.eduKumar, S.Mol Biol EvolAlgorithmsAnimals*Computer Simulation*EvolutionHumans*Models, TheoreticalResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8882501Gascuel1997120000000001292543301471997JulBIONJ: an improved version of the NJ algorithm based on a simple model of sequence data685-95GERAD, Ecole des HEC, Montreal, Quebec, Canada. gascuel@lirmm.frGascuel, O.Mol Biol EvolAlgorithms*EvolutionModels, Biological*PhylogenySequence Analysis/*methodsSoftwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9254330Gascuel200423870000000238Gascuel, O.2004Getting a Tree Fast: Neighbor Joining and Distance Based MethodsBaxevanis, A.Davison, D.Page, R.Stein, L.Stormo, G.Petsko, G.Current Protocols in BioinformaticsWiley & Sons6.3.1-6.3.18Wiley & SonsCurrent Protocols0-471-25093-7(Gascuel, 1997, 2004; Kumar, 1996). En partant dune topologie connue, des séquences nucléiques dune taille donnée sont générées en suivant un modèle dévolution. Les séquences ainsi simulées seront utilisées par les différentes méthodes de phylogénie que lon souhaite comparer. Les arbres obtenus seront comparés aux arbres de référence ayant servi à générer les séquences. Pour cela, on pourra utiliser la distance de Robinson-Foulds ou alors le pourcentage darbres ayant exactement la même topologie que larbre de référence.
Comme choix darbres de références, jai choisi dutiliser des arbres qui sont mis à la disposition de la communauté scientifique par O. Gascuel sur son site web ( HYPERLINK "http://www.lirmm.fr/~w3ifa/MAAS/US-MAAS.html" http://www.lirmm.fr/~w3ifa/MAAS/US-MAAS.html). Ces arbres sont proposés afin de tester des méthodes de phylogénie moléculaire. Jai selectionné au hasard 100 arbres dans chacun des deux cas de figure suivants : arbres possédant 24 taxons et arbres possédant 96 taxons. Pour chacun des arbres T, jai construit des jeux de séquences (10 jeux par arbre) à laide du logiciel SEQGEN ADDIN EN.CITE Rambaut19972370000000023791835261331997JunSeq-Gen: an application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees235-8Department of Zoology, University of Oxford, UK. andrew.rambaut@zoo.ox.ac.ukRambaut, A.Grassly, N. C.Comput Appl BiosciAlgorithmsBase SequenceDNA/*genetics*Evolution, MolecularModels, GeneticMonte Carlo Method*PhylogenyResearch Support, Non-U.S. Gov't*Softwarehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9183526(Rambaut and Grassly, 1997). Plusieurs essais ont été effectués en changeant la longueur des séquences. Létude a été faite sur des séquences de 1 kb, 3 kb et enfin 5kb. Les séquences ont été obtenues en simulant lévolution de séquences suivant larbre T et selon un modèle dévolution correspondant à celui de Kimura 2-paramètres.
Les paramètres du modèle dévolution sont les suivants :
Taux de transition/transversion égale à 2.
Prise en compte dune hétérogénéité des taux de mutations. Cette hétérogénéité suit une distribution selon la loi gamma avec un paramètre að = 0.75. C est à dire une hétérogénéité forte des taux de mutations dans les sites.

Enfin, pour chaque longueur de séquences et pour chaque nombre de taxons dans les arbres de références, 1000 jeux de séquences sont créés.
À partir de ces séquences, deux méthodes de reconstruction sont appliquées : celle utilisant la signature et la méthode des distances. La méthode utilisant la signature est employée à partir de signature de différentes longueurs de mots (4 à 6 lettres) et avec différentes métriques (euclidienne et cð2). La méthode des distances utilise la distance de Kimura 2-paramètres avec les mêmes paramètres que ceux du modèle d évolution servant à générer les séquences. Ensuite, les arbres sont inférés grâce au Neighbor-Joining. Afin de comparer les résultats des différentes méthodes, les arbres inférés sont comparés aux arbres de références à laide de la distance de Robinson-Foulds et permettent de définir un indice égal au pourcentage de branches internes différentes (voir REF _Ref506886654 \r \h 2.2.3.6 pour plus de détails). Les résultats sont indiqués dans le REF _Ref508268160 \h Tableau 2.

24 taxons96 taxonslongueur de la séquence1kb3kb5kb3kbeuclidiennemots de 4 lettres17,816,316,420,5mots de 5 lettres13,812,011,916,0mots de 6 lettres12,910,710,614,9cð2mots de 4 lettres17,616,416,4 mots de 5 lettres14,312,112,0 mots de 6 lettres14,411,410,9 Kimura 2-parameter
Méthode de référence10,56,15,09,2
Tableau SEQ Tableau \* ARABIC 2 - Résultats de la simulation. Les chiffres correspondent au pourcentage moyen de branches internes différentes entre les arbres de références et les arbres obtenues à partir des séquences pour les différentes méthodes. Pour la signature, deux métriques ont été utilisées pour trois longueurs de mots.

La méthode des distances sert de référence dans létude. En effet, en utilisant la distance de Kimura 2-paramètres, on sattend à ce que les distances reflètent parfaitement celles qui peuvent être observées dans larbre de référence. Si on a des erreurs dans la reconstruction, elles seront imputables à lalgorithme du Neighbor-Joining ADDIN EN.CITE Gascuel200423870000000238Gascuel, O.2004Getting a Tree Fast: Neighbor Joining and Distance Based MethodsBaxevanis, A.Davison, D.Page, R.Stein, L.Stormo, G.Petsko, G.Current Protocols in BioinformaticsWiley & Sons6.3.1-6.3.18Wiley & SonsCurrent Protocols0-471-25093-7(Gascuel, 2004). Comme dans les deux cas, lalgorithme du Neighbor-Joining est utilisé, la différence de résultats peut sexpliquer par lutilisation dune part de distances issues de la signature et dautre part de celle « parfaite » Kimura 2-paramètres. Les résultats de la signature sexpliquent par laddition de deux erreurs : erreur de reconstruction de lalgorithme du Neighbor-Joining que lon observe aussi sur la méthode de référence et aussi erreur provenant de l utilisation de la signature.
En comparant les résultats, la métrique euclidienne et la métrique du cð2 donnent des résultats tout à fait comparables. On voit de plus sur le REF _Ref508268160 \h Tableau 2 que le pourcentage de mauvaises branches avec la méthode des distances diminuent avec laugmentation de la longueur des mots. De même, plus les séquences sont longues, meilleurs sont les résultats de la signature. Cependant, ils ne sont pas aussi bons que ceux obtenus en utilisant la distance de Kimura 2-paramètres. Pour les arbres à 24 taxons, si à 1kb lécart est faible entre les différentes méthodes, il est beaucoup plus important à 5kb. La méthode utilisant la signature saméliore moins avec laugmentation de la longueur des séquences que celle qui utilise les distances nucléiques. Cela peut sexpliquer par le fait que la distance de Kimura 2-paramètres connaît le modèle dévolution des séquences. Plus les séquences sont longues, plus la distance trouvera des données permettant dévaluer correctement les distances entre les taxons. Quand on regarde la distance moyenne de Robinson-Foulds pour les arbres provenant de la signature pour des mots de 6 lettres, métrique euclidienne et pour des séquences de 5 kb, on constate que la distance moyenne est de 4, soit 2 branches internes fausses. Jai donc inspecté les 1000 arbres dans ce seul cas et observé que cela était dû, dans la plupart des cas, à une espèce présentant une branche beaucoup plus longue que les autres. Les autres relations étaient correctement inférées. Donc la méthode de la signature semble sensible à des espèces possédant des séquences ayant fortement divergées. On se retrouve dans le cas de lattraction des longues branches.
En ce qui concerne les arbres à 96 taxons, seule la métrique euclidienne a été employée pour comparer les signatures. Les pourcentages de mauvaises branches des méthodes utilisant la signature sont plus élevés que ceux pour 24 taxons, mais cela est aussi le cas pour la méthode de référence des distances. Même, on peut dire que la détérioration a été moins importante pour la signature puisque que le pourcentage derreur a augmenté de 51% avec la méthode des distances et seulement progressé de 40% pour la signature.
Malgré le fait quaucun modèle dévolution na été utilisé avec la signature et que lon na posé aucun a priori sur les séquences, les résultats de la méthode de la signature sont bons. Ils ne sont pas aussi bons que ceux de la méthode des distances, mais ils restent néanmoins corrects.

Effet du bruit sur les résultats

Une autre façon de tester la stabilité des arbres obtenus, à partir de létude de la signature, est détudier comment variait la topologie des arbres que lon obtenait en introduisant du bruit dans les signatures.
En bruitant les signatures que lon compare, on perturbe le signal présent dans les signatures et ainsi on peut changer les distances et même la topologie. Il est important de connaître dans quelle mesure les signatures sont sensibles au bruit.
Pour cette étude ; jai à nouveau utilisé les signatures pour des mots de 6 lettres obtenues dans létude du gène RAG1. Pour bruiter les signatures, jai utilisé une méthode tenant en compte des propriétés des signatures.
La somme des fréquences présentes dans chaque signature doit être égale à 1.
Il est nécessaire que le bruit introduit tienne compte des relations entre les différentes fréquences de mots.

Pour pendre en compte ces propriétés, jai choisi dutiliser comme bruit les écarts des fréquences des mots par rapport celles que lon pourrait prédire. Pour calculer ces dernières, on utilise les fréquences en nucléotides que lon observe dans la séquence. On suppose alors que la séquence suit un processus markovien parfait, cest à dire que lon utilise les fréquences en nucléotide (mot de 1 lettre) pour calculer les mots de n lettres.

Si les fréquences en nucléotides est : F0= EMBED Equation.3 , pour des mots de 2 lettres, on aura une signature qui peut être représenté sous la forme dune matrice 4x4 qui est composée à partir de F0 comme suit : F1= EMBED Equation.3 . On continue ensuite de manière récurrente jusquà ce que lon obtienne la taille voulue de mots. Si les fréquences des mots de taille n sécrivent EMBED Equation.3 alors pour les fréquences pour les mots de taille n+1, on a EMBED Equation.3 .

Fn correspond à la signature de mots de taille n que lon attendrait en ne tenant compte que de la fréquence en nucléotides. Pour calculer lécart à la prédiction En, on soustrait à la signature de mots de taille n Sn la fréquence attendue Fn : EMBED Equation.3 . Cet écart possède de nombreux avantages : tout dabord la somme de tous ses coefficients est nulle et il possède la structure dune signature (on retrouve les mêmes relations entre les mots).

Pour bruiter une signature, j ajoute à celle-ci un pourcentage d un écart à l attendu.
EMBED Equation.3

Dans la pratique, j ai calculé les 46 écarts à l attendu présent dans l étude du gène RAG1. Ensuite, j ai fait varier deux paramètres :
Le paramètre að correspondant au taux de bruit ajouté aux signatures. að varie de 0.1 à 1 par pas de 0.1.
Le nombre de signatures qui seront bruitées. De 1% à 10% par pas de 1% puis par pas de 10%.

J ai ensuite cherché dans quelle mesure le bruit que je vais utiliser est significatif. Pour cela, jai comparé chaque fréquence non-nulle de mot aux fréquences de ce même mot dans tous les écarts à lattendu. Pour cela jai utilisé le rapport EMBED Equation.3 . Si la valeur moyenne de ce rapport est trop faible, limpact du bruit est négligeable. Jai indiqué dans le tableau suivant la valeur moyenne de ce rapport, ainsi que la valeur minimale et maximale. Ces deux dernières valeurs sont extrêmes et ne sont présentées quà titre indicatif. La valeur minimale correspond à un mot dont la fréquence est exceptionnellement élevée par rapport à la prédiction. De même, la valeur maximale correspond à un mot sous exprimé dans la séquence. On voit que lutilisation de lécart comme bruitage est crédible car il nest pas négligeable par rapport à la signature. De plus il sagit ici que des fréquences non nulles de la signature ( REF _Ref508268229 \h Tableau 3). Or lécart par construction ne possède aucune fréquence nulle quelque soit la taille du mot, donc son poids en temps que bruit sera dautant plus fort. En effet, la formule EMBED Equation.3 implique tous les mots.

EMBED Excel.Sheet.8
Tableau SEQ Tableau \* ARABIC 3 - Rapport entre les fréquences de lécart à la prédiction par rapport à celles de la signature observée pour un mot donné. Les fréquences utilisées sont celles de tous les mots de 6 lettres pour les 46 signatures du gène RAG1.

Pour chaque valeur de ces deux paramètres, 100 essais sont effectués en tirant au sort les signatures qui seront bruitées et par quel écart à lattendu. Ainsi une signature ne sera pas automatiquement bruitée par son écart à la prédiction. On a donc une vraie indépendance.

Les arbres obtenus sont comparés à larbre non-perturbé par la distance de Robinson-Foulds. La distance moyenne pour chaque couple de paramètres a été représentée par une surface sur la REF _Ref508268247 \h Figure 46.

Figure SEQ Figure \* ARABIC 46 - Distance de Robinson-Foulds entre larbre non-perturbé et les arbres perturbés. Lintensité du bruit dépend de deux facteurs correspondant aux deux axes : le pourcentage de signatures despèces qui sont perturbés et le taux de bruit qui est introduit. La distance de Robinson-Foulds maximale est de 86.

Les résultats montrent que les arbres sont peu perturbés par le pourcentage des signatures bruitées. Les résultats se détériorent de manière quasi linéaire avec le taux de bruit que lon introduit. Pour að inférieur à 0.5 et un taux d espèce de 100%, on a une distance de 8 soit moins de 10 % de branches différentes entre l arbre non-bruité et ceux bruités. Pour des bruitages plus fort, le taux de branches différentes monte jusqu à 18%. Pour des bruitages plus faibles, pour un að inférieur à 30%, la distance moyenne est inférieure ou égale à 4, c est-à-dire seulement 2 branches internes différentes ce qui est très peu.
En conclusion, la méthode issue de la signature est sensible à un bruitage dans une certaine mesure. Mais cette sensibilité nest pas excessive car le bruit naffecte pour des valeurs raisonnables (bruit de moins de 30 %) que 5% des branches internes. Un bruit de 10% correspond déjà à un bruit fort lors de létude de séquences homologues. La méthode issue de la signature est donc robuste au bruit que pourrait contenir les signatures.

Applications aux séquences homologues

Nous venons de montrer quil était possible demployer la signature afin détablir les relations entre les espèces. Nous avons appliqué cette méthode issue de la signature dans plusieurs cas sur des gènes homologues.

RAG1

Nous avons utilisé le gène RAG1 pour déterminer les relations chez les vertébrés. Le gène RAG1 est un des gènes de lactivation de la recombinaison ADDIN EN.CITE Agrawal199824100000000241972361439466951998Aug 20Transposition mediated by RAG1 and RAG2 and its implications for the evolution of the immune system744-51Department of Pharmacology, Yale University School of Medicine, New Haven, Connecticut 06510, USA.Agrawal, A.Eastman, Q. M.Schatz, D. G.NatureAmino Acid SequenceAnimalsAntibodies/geneticsB-Lymphocytes/physiologyBinding SitesCatalysisCell LineDNA/metabolism*DNA Transposable ElementsDNA, Circular/geneticsDNA-Binding Proteins/genetics/*physiologyDrug Resistance, Microbial/genetics*Evolution, Molecular*Gene Rearrangement, B-Lymphocyte*Gene Rearrangement, T-LymphocyteHigh Mobility Group Proteins/metabolismHomeodomain Proteins/genetics/*physiologyImmune System/*physiologyMiceMolecular Sequence DataReceptors, Antigen, T-Cell/geneticsRecombination, GeneticResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Restriction MappingTransposases/metabolismVertebrates/genetics/immunologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9723614Yu1999240000000002401045816540067451999Aug 12Continued RAG expression in late stages of B cell development and no apparent re-induction after immunization682-7Laboratory of Molecular Immunology, The Rockefeller University, New York, New York 10021, USA.Yu, W.Nagaoka, H.Jankovic, M.Misulovin, Z.Suh, H.Rolink, A.Melchers, F.Meffre, E.Nussenzweig, M. C.NatureAllelesAnimalsB-Lymphocytes/*cytology/immunology/metabolism/transplantationBone Marrow Cells/cytologyCell DifferentiationDNA-Binding Proteins/biosynthesis/*genetics*Gene Expression Regulation, EnzymologicGene Rearrangement, B-LymphocyteGerminal Center/cytologyGreen Fluorescent ProteinsImmunoglobulin M/biosynthesisInterleukin-4/immunologyLeukopoiesis/physiologyLipopolysaccharides/immunologyLuminescent Proteins/geneticsMiceMice, TransgenicRNA, Messenger/metabolismResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Spleen/cytologyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10458165Yu19992390000000023911232286641999RAG expression in B cells in secondary lymphoid tissues207-10Laboratory of Molecular Immunology, Howard Hughes Medical Institute, Rockefeller University, New York, New York 10021, USA.Yu, W.Nagaoka, H.Misulovin, Z.Meffre, E.Suh, H.Jankovic, M.Yannoutsos, N.Casellas, R.Besmer, E.Papavasiliou, F.Qin, X.Nussenzweig, M. C.Cold Spring Harb Symp Quant BiolAnimalsB-Lymphocytes/*immunology/metabolismDNA-Binding Proteins/*geneticsGene ExpressionGene Rearrangement, B-LymphocyteGreen Fluorescent ProteinsHomeodomain Proteins/*geneticsIn VitroLuminescent Proteins/geneticsLymphoid Tissue/cytology/immunology/metabolismMiceMice, TransgenicRecombinant Fusion Proteins/geneticsRecombination, Genetichttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11232286(Agrawal et al., 1998; Yu et al., 1999a; Yu et al., 1999b). RAG1 est un gène très conservé au cours de lévolution ADDIN EN.CITE Greenhalgh19952430000000024378062784111995Recombination activating gene 1 (Rag1) in zebrafish and shark54-5Dept. of Biology, Massachusetts Institute of Technology, Cambridge 02139.Greenhalgh, P.Steiner, L. A.ImmunogeneticsAmino Acid SequenceAnimalBase SequenceDNA ProbesMolecular Sequence DataProteins/*geneticsSequence AlignmentSharks/*geneticsSupport, U.S. Gov't, P.H.S.Zebrafish/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7806278(Greenhalgh and Steiner, 1995) produisant ainsi de très faibles distances entre les espèces. La taille de la séquence du gène RAG1 est assez discutée ADDIN EN.CITE Iglesias200528400000000284Iglesias, S.P.Lecointre, G.Sellos, D.Y.2005Extensive paraphylies within sharks of the order Carcharhiniformes inferred from nuclear and mitochondrial genes.Mol Phylogenet Evol343569-83Oettinger199024200000000242236004724849621990Jun 22RAG-1 and RAG-2, adjacent genes that synergistically activate V(D)J recombination1517-23Whitehead Institute for Biomedical Research, Cambridge, MA 02142.Oettinger, M. A.Schatz, D. G.Gorka, C.Baltimore, D.ScienceAmino Acid SequenceAnimalsBase SequenceCattleCell LineChickensDNA/*geneticsDNA Nucleotidyltransferases/*genetics*DNA-Binding ProteinsDogsEvolutionFemale*Gene Rearrangement, B-Lymphocyte*Gene Rearrangement, T-LymphocyteHamsters*Homeodomain ProteinsHumansMaleMiceMolecular Sequence Data*Multigene FamilyNucleic Acid HybridizationOpossumsProteins/*geneticsRabbitsRecombination, Genetic/*geneticsResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Restriction MappingTransfectionTurtlesVDJ Recombinaseshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=2360047(Iglesias et al., 2005; Oettinger et al., 1990) entre 3 kb et 6kb. Nous avons choisi dutiliser le gène RAG1, car cest un gène très utilisé pour la phylogénie de métazoaire et qui est très conservé ADDIN EN.CITE Greenhalgh19952430000000024378062784111995Recombination activating gene 1 (Rag1) in zebrafish and shark54-5Dept. of Biology, Massachusetts Institute of Technology, Cambridge 02139.Greenhalgh, P.Steiner, L. A.ImmunogeneticsAmino Acid SequenceAnimalBase SequenceDNA ProbesMolecular Sequence DataProteins/*geneticsSequence AlignmentSharks/*geneticsSupport, U.S. Gov't, P.H.S.Zebrafish/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=7806278(Greenhalgh and Steiner, 1995). De plus, la très forte homologie entre les séquences de RAG1 est un point de difficulté pour la signature, car les distances entre signatures seront particulièrement faibles.
Nous avons sélectionné dans les banques de données 46 séquences du gène RAG1 chez les vertébrés : 12 requins, 3 poissons, 2 batraciens, 14 oiseaux, 2 crocodiliens et 13 mammifères dont 7 chauve-souris. Ces séquences avaient une taille allant de 1 kb à 3.3 kb. ( REF _Ref508268292 \h Tableau 4)

Nom de l'espèceGroupe taxonomiqueAlligator mississippiensisCrocodilienAlopias pelagicusRequinAlopias superciliosusRequinAnas streperaOiseauCarcharhinus leucasRequinCarcharias taurusRequinCarcharodon carchariasRequinCetorhinus maximusRequinCharadrius vociferusOiseauChauna torquataOiseauCoracias caudataOiseauCynocephalus variegatusMammifèreCynopterus sphinxMammifère : chauve-sourisDanio rerioPoissonFelis catusMammifèreFugu rubripesPoissonGallus gallusOiseauGavia immerOiseauGavialis gangeticusCrocodilienGrus canadensisOiseauHipposideros commersoniMammifère : chauve-sourisHomo sapiensMammifèreIsurus oxyrinchusRequinLamna ditropisRequinMegachasma pelagiosRequinMegaderma lyraMammifère : chauve-sourisMegapodius freycinetOiseauMitsukurina owstoniRequinMonodelphis domesticaMammifèreMus musculusMammifèreMyotis daubentoniMammifère : chauve-sourisOdontaspis feroxRequinOncorhynchus mykissPoissonOryctolagus cuniculusMammifèrePasser montanusOiseauPleurodeles waltlBatracienPseudocarcharias kamoharaiRequinSpheniscus humboldtiOiseauStruthio camelusOiseauTadarida brasiliensisMammifère : chauve-sourisTaphozous spMammifère : chauve-sourisTinamus guttatusOiseauTonatia bidensMammifère : chauve-sourisTurnix hottentottaOiseauTyrannus tyrannusOiseauXenopus laevisBatracien
Tableau SEQ Tableau \* ARABIC 4 - Nom et groupe taxonomique dappartenance des espèces étudiés avec le gène RAG1.

Nous avons calculé les signatures pour des mots de 4 à 6 lettres et nous avons comparé ces dernières à laide de la métrique du cð2 et euclidienne.
L analyse des 46 séquences dans notre jeu de données a montré que quatre séquences étaient annotées comme complètes (Homo sapiens, Carcharhinus leucas, Oncorhynchus mykiss et Xenopus laevis) et possédaient une taille très supérieure à celles des autres séquences (3kb au lieu de 1 à 1.2kb). En comparant les signatures de ces dernières aux autres signatures, on observe que quelque soit la taille des mots ces signatures sont mises à part et regroupés dans une sorte de groupe externe très éloigné des autres. Ce résultat préliminaire peut facilement sexpliquer par lextrême conservation du gène RAG1. Les séquences courtes proviennent du séquençage du cur hyper conservé du gène. Les signatures sont donc très proches. Or pour les séquences plus longues, on ajoute 2 fois de mots provenant de parties plus variables. Les signatures sont donc fortement bruitées et très différentes, ce qui conduit aux résultats préliminaires observés. Au vue de ce problème particulier au gène RAG1 et à sa représentativité dans les banques de données et pour pouvoir comparer aux résultats déjà publiés (ref 45 article), nous avons décidé de ne conserver que la partie des séquences correspondant à celles présentes dans les autres espèces. Pour cela, je me suis basé sur lalignement pour effectuer cette sélection.

Une fois cette étape effectuée, les signatures sont à nouveau calculées et les arbres sont produits par la méthode de la signature ( REF _Ref508268338 \h Figure 47). Jai aussi inféré les arbres phylogénétiques à partir des méthodes de distances (HKY85) sur les séquences nucléiques ( REF _Ref508268339 \h Figure 48) et protéiques ( REF _Ref508268340 \h Figure 49), et de parcimonie ( REF _Ref508268343 \h Figure 50).

Figure SEQ Figure \* ARABIC 47 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode issue de la signature. Signatures pour des mots de 6 lettres et métrique du cð2. Les coefficients bootstrap supérieurs à 50% sont indiqués.

Figure SEQ Figure \* ARABIC 48 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences nucléiques. Distance utilisée suivant le modèle dévolution HKY85. Taux de transition/transversion = 2. Algorithme NJ. Les coefficients bootstrap supérieurs à 50% sont indiqués.

Figure SEQ Figure \* ARABIC 49 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode des distances sur les séquences protéiques. Distance utilisée à partir de la matrice PAM 50. Algorithme NJ.

Figure SEQ Figure \* ARABIC 50 - Arbre phylogénétique du gène RAG1 pour 46 vertébrés, obtenu à partir de la méthode du maximum de parcimonie.

Les arbres obtenus pour les différentes méthodes montrent que les positions des différents clades de vertébrés (oiseaux, requins, mammifères, poissons et batraciens) sont en accord avec les données paléontologiques. Larbre obtenu par méthode des distances sur les séquences protéiques présente des erreurs assez importantes ( REF _Ref508268340 \h Figure 49). La principale est la formation dun groupe stable doiseau à lintérieur des mammifères. De plus les relations entre les espèces à lintérieur de chacun des groupes sont souvent incongruentes avec celles des autres méthodes. La méthode de parcimonie conduit à plusieurs arbres les plus parcimonieux qui sont résumés par consensus en un seul arbre ( REF _Ref508268343 \h Figure 50). Les groupes taxonomiques sont formés, mais les positions des espèces à lintérieur sont faiblement résolues. Par exemple les oiseaux sont définis par une fourche.
Larbre de la signature présente lui aussi des clades en accord avec la taxonomie. Les différents clades sont très stables avec un coefficient de bootstrap élevé. De même, les relations entre clades sont particulièrement fortes, avec là aussi des coefficients élevés. Les relations des oiseaux sont congruentes avec les analyses classiques. La méthode issue de la signature est la seule méthode à regrouper les chauve-souris en un groupe monophylétique stable. Le chat, Felis catus, est mal placé dans toutes les méthodes et ainsi sa mauvaise place ne peut être imputée à une méthode en particulier. De même, Carcharhinus leucas, bien que placé à chaque fois dans les requins, présentent une longue branche séparant fortement cette espèce. Il serait nécessaire de regarder de plus près la séquence placée dans les banques de données. La non-monophylie des tétrapodes avec la signature peut être expliquée par le nombre faible despèces prises en compte ce qui conduirait à rapprocher les batraciens des poissons.

Guénoche et Garreta ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) ont développé une méthode permettant d évaluer le bruit présent dans les matrices de distances. Nous avons évalué ce bruit pour l arbre de la signature (mot de 6 lettres cð2) et pour la méthode de distances. Pour les deux matrices de distances, le bruit peut être estimé à moins de 5 %.

Afin de comparer les différentes topologies inférées et pour connaître la puissance du signal phylogénétique présent dans larbre de la signature, jai réalisé une analyse de la congruence des arbres phylogénétiques ADDIN EN.CITE Feil20015600000000056111362559812001Jan 2Recombination within natural populations of pathogenic bacteria: short-term empirical estimates and long-term phylogenetic consequences182-7Wellcome Trust Centre for the Epidemiology of Infectious Disease (WTCEID), University of Oxford, South Parks Road, Oxford OX1 3FY, United Kingdom. ed.feil@ceid.ox.ac.ukFeil, E. J.Holmes, E. C.Bessen, D. E.Chan, M. S.Day, N. P.Enright, M. C.Goldstein, R.Hood, D. W.Kalia, A.Moore, C. E.Zhou, J.Spratt, B. G.Proc Natl Acad Sci U S AAllelesBacteria/classification/*genetics/pathogenicityBase SequenceGenes, Bacterial/geneticsGenotypeKineticsMolecular Sequence DataMutagenesis/genetics*PhylogenyPoint Mutation/genetics*Recombination, GeneticStatisticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.Transformation, BacterialVariation (Genetics)/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11136255(Feil et al., 2001). Pour cela, on calcule, pour les topologies obtenues par maximum de vraisemblance, parcimonie (les deux arbres les plus parcimonieux), larbre des distances et les arbres de la signature (mot de 4 à 6 lettres et métrique euclidienne et du cð2), la vraisemblance ( REF _Ref508268479 \h Figure 51). Pour tester statistiquement si les arbres sont congruents, 100 topologies aléatoires ont, à leur tour, leurs vraisemblances calculés. Les vraisemblances sont comparés à celle du maximum de vraisemblance (par construction la topologie ayant la vraisemblance la plus faible) afin dobtenir une distribution de EMBED Equation.3 . Le EMBED Equation.3 des arbres aléatoires peuvent être considéré comme la distribution nulle. Si le EMBED Equation.3 dun arbre est dans le 99ème percentile de la distribution nulle deux arbres sont significativement différents.

Figure SEQ Figure \* ARABIC 51 - Analyse par la vraisemblance de la congruence phylogénétique pour le gène RAG1. Les topologies obtenues par les méthodes traditionnelles sont comparées à elles obtenues par la signature et à des topologies aléatoires. Pour les arbres de la signature et pour chaque métrique, la taille utilisée des mots est représentée à coté de chaque point.

EMBED Excel.Sheet.8

Tableau SEQ Tableau \* ARABIC 5 - Différences de log de vraisemblance. Les différences sont calculées à partir du maximum de vraisemblance.

Cette étude montre que les arbres de la signature ont un signal phylogénétique congruent avec ceux obtenus à partir des méthodes de phylogénie basé sur lutilisation dun alignement. Les arbres de la signature pour des mots longs sont plus congruents que ceux pour des tailles plus petites. Larbre de la signature obtenue pour des mots de 6 lettres et la métrique du cð2 est l arbre obtenu par la méthode issue de la signature qui est le plus congruent avec l arbre du maximum de vraisemblance (ML) ( REF _Ref508268499 \h Tableau 5). La congruence signature/ML est similaire à celle de ML/méthode de distance (table ).

Utilisation de lARN 18S

LARN a été et est toujours dans une certaine mesure la molécule de base de la phylogénie moléculaire. Il a été employé pour effectuer les premières reconstructions phylogénétiques ADDIN EN.CITE Fox198024500000000245677187020944551980Jul 25The phylogeny of prokaryotes457-63Fox, G. E.Stackebrandt, E.Hespell, R. B.Gibson, J.Maniloff, J.Dyer, T. A.Wolfe, R. S.Balch, W. E.Tanner, R. S.Magrum, L. J.Zablen, L. B.Blakemore, R.Gupta, R.Bonen, L.Lewis, B. J.Stahl, D. A.Luehrsen, K. R.Chen, K. N.Woese, C. R.ScienceBacteria/*classificationBase SequenceChloroplasts/analysisClostridium/classificationCyanobacteria/classificationDNA/analysisEvolution*PhylogenyRNA, Ribosomal/*analysisResearch Support, U.S. Gov't, Non-P.H.S.Species Specificityhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=6771870Olsen1987246000000002463454291521987Earliest phylogenetic branchings: comparing rRNA-based evolutionary trees inferred with various techniques825-37Department of Biology, Indiana University, Bloomington 47405.Olsen, G. J.Cold Spring Harb Symp Quant BiolAnimalsBacteria/genetics*EvolutionHumansMathematics*Models, Genetic*PhylogenyRNA, Ribosomal/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=3454291Woese1977100000000001027074474111977NovPhylogenetic structure of the prokaryotic domain: the primary kingdoms5088-90Woese, C. R.Fox, G. E.Proc Natl Acad Sci U S ABacteria/classification*CellsEukaryotic CellsPhenotype*Phylogeny*Prokaryotic CellsResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=270744Woese1987700000000007Woese, C.1987Bacterial evolutionMicrobiological Review51221-271(Fox et al., 1980; Olsen, 1987; Woese, 1987; Woese and Fox, 1977). LARN 18S (chez les eucaryotes, 16S chez les procaryotes) possèdent de nombreux avantages qui expliquent son grand usage. Tout dabord, lARN de par sa fonction dans la transmission dinformation dans la cellule est fortement exprimé et est présent dans lensemble des génomes. Cette forte expression a facilité son séquençage dans un grand nombre despèces, faisant que ces molécules sont celles qui ont été le plus largement séquencée dans larbre du vivant. De plus, le séquençage de lARN est facile, car il ne nécessite pas de clonage de séquences. Une autre propriété importante est que lARN ribosomal ou ARNr est hautement conservé. Celui-ci a évolué suivant des taux de mutations faibles et est supposé ne pas avoir été impliqué dans des transferts horizontaux ADDIN EN.CITE Gogarten199624700000000247898463727452931996Dec 6Dating the cenancester of organisms1750-1; author reply 1751-3Gogarten, J. P.Olendzenski, L.Hilario, E.Simon, C.Holsinger, K. E.ScienceAmino Acid Sequence*Archaea/chemistry/genetics*Bacteria/chemistry/genetics*Eukaryotic CellsEvolution*Evolution, MolecularGene Transfer TechniquesModels, StatisticalPhylogenyProteins/*chemistry/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8984637Jain199924800000000248100971189671999Mar 30Horizontal gene transfer among genomes: the complexity hypothesis3801-6Molecular Biology Institute and Molecular, Cell, and Developmental Biology, University of California, Los Angeles, CA 90095, USA.Jain, R.Rivera, M. C.Lake, J. A.Proc Natl Acad Sci U S AEscherichia coli/genetics*Evolution*Gene Transfer, Horizontal*GenomeMethanococcus/genetics*Models, GeneticOpen Reading FramesPhylogenyResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10097118(Gogarten et al., 1996; Jain et al., 1999). Ces propriétés lui permettent dêtre un outil idéal à létude dun grand nombre despèces, particulièrement celles qui sont très éloignées. Cependant sa relative petite taille (1500 à 1800 nucléotides) conduit à ce que linformation présente soit limitée. Les nucléotides de lARN sont, pour une grande partie, structuré en paire ce qui implique une forte dépendance entre les sites. Enfin des expériences ont montré que lARN nest peut-être pas aussi résistant aux mutations ou aux transferts horizontaux ADDIN EN.CITE Asai199925100000000251100515799651999Mar 2An Escherichia coli strain with all chromosomal rRNA operons inactivated: complete exchange of rRNA genes between bacteria1971-6Department of Molecular Biology and Microbiology, Tufts University School of Medicine, Boston, MA 02111, USA.Asai, T.Zaporojets, D.Squires, C.Squires, C. L.Proc Natl Acad Sci U S ABase SequenceChromosomes, Bacterial/*geneticsComparative StudyEscherichia coli/*genetics/growth & development*Genes, Structural, Bacterial*OperonPolymerase Chain ReactionRNA, Bacterial/*geneticsRNA, Ribosomal/*geneticsRNA, Ribosomal, 16S/geneticsRNA, Ribosomal, 23S/geneticsResearch Support, U.S. Gov't, P.H.S.Restriction MappingSalmonella typhimurium/geneticsSequence Deletionhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10051579Nomura199924900000000249100515519651999Mar 2Engineering of bacterial ribosomes: replacement of all seven Escherichia coli rRNA operons by a single plasmid-encoded operon1820-2Department of Biological Chemistry, University of California-Irvine, Irvine, CA 92697-1700, USA. mnomura@uci.eduNomura, M.Proc Natl Acad Sci U S AChromosomes, Bacterial/geneticsEscherichia coli/*geneticsGenetic Engineering*Operon*PlasmidsRNA, Bacterial/*geneticsRNA, Ribosomal/*geneticsRibosomes/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10051551Yap19992500000000025010464188181171999SepDistinct types of rRNA operons exist in the genome of the actinomycete Thermomonospora chromogena and evidence for horizontal transfer of an entire rRNA operon5201-9Microbial Collection and Screening Laboratory, Institute of Molecular and Cell Biology, National University of Singapore, Singapore 117609.Yap, W. H.Zhang, Z.Wang, Y.J BacteriolActinomycetales/classification/*geneticsBase SequenceBlotting, SouthernCloning, MolecularDNA, BacterialDNA, Ribosomal/analysisEvolution, MolecularGene AmplificationGene ExpressionGenome, BacterialMolecular Sequence DataNucleic Acid ConformationPolymerase Chain Reaction*RNA, BacterialRNA, Ribosomal, 16SResearch Support, Non-U.S. Gov'tSequence Analysis, DNAVariation (Genetics)*rRNA Operonhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10464188(Asai et al., 1999; Nomura, 1999; Yap et al., 1999).

Nous avons décidé détudier les relations entre espèces à partir du gène de lARN 18S à travers deux phylogénies : pour les cirripèdes et les plantes.

La phylogénie des cirripèdes

Les cirripèdes sont des crustacés comprenant les bernacles, les anatifes, etc . Les jeunes ressemblent à beaucoup de crustacés par la forme, mais arrivés à lage mûr ils sont toujours attachés à des substrats (directement ou au moyen dune tige).

Photo dun cirripède

Nous avons déterminé la phylogénie des cirripèdes à laide de lARN 18S. Pour cela, onze espèces de cirripèdes et 2 branchiopodes ont été sélectionnés ( REF _Ref508268524 \h Tableau 6). Les branchiopodes servent de groupe externe. Nous nous sommes basés sur un article de Billoud et al (), afin de comparer nos résultats à la littérature. Létude des cirripèdes a été motivée par la possibilité de comparer les arbres issus de la comparaison des signatures à ceux qui sont proposés par Billoud et al. En effet, Billoud et al ont utilisé les caractéristiques morphométriques des séquences dARN (voir REF _Ref507507109 \r \h 2.2.5.3) ainsi que des méthodes classiques sur les séquences, afin détablir la phylogénie des cirripèdes. Les méthodes classiques employées par Billoud et al ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) sont la méthode des distances et le maximum de parcimonie. Nous avons calculé les signatures pour des mots de 6 lettres pour les 13 séquences. Ces signatures seront comparées par la métrique du cð2 ( REF _Ref508268555 \h Figure 52).

EspèceGroupe taxonomiqueArtemia salinaBranchiopodeBranchinecta packardiBranchiopodeUlophysema oeresundenseAscothoracidaBerndtia purpureaAcrothoracicaTrypetesa lampasAcrothoracicaLoxothylacus texanuRhizocephalaCalantica villosaPedeunculataOctolasmis loweiPedeunculataLepas anatiferaPedeunculataBalanus eburneusSessiliaChelonibia patulaSessiliaChthamalus fragilisSessiliaTetraclita stalactiferaSessilia
Tableau SEQ Tableau \* ARABIC 6 - Nom des espèces impliquées dans létude de lARN 18S des cirripèdes.

Figure SEQ Figure \* ARABIC 52 - Phylogénie des cirripèdes. A Parcimonie : arbre obtenu à partir de lalignement que nous avons effectué. B Méthode de la signature : mot de 6 lettres métrique du cð2. L arbre a été inféré par Neighbor-Joining. Les coefficients de bootstrap supérieur à 50% sont indiqués. La signature moyenne de chaque groupe taxonomique est positionnée à la droite de l arbre de la signature. Le clade dont la formation est discutée est indiqué par un rond vert.

Figure SEQ Figure \* ARABIC 53 - Arbres phylogénétiques obtenus par Billoud et al à partir de létude des caractéristiques morphométriques. Gauche : utilisation de la méthode des distances sur les données morphométriques. Droite : méthode de la parcimonie sur ces données. Figure tirée de Billoud et al ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000).

En utilisant la signature, nous avons inféré un arbre proche de celui proposé par Billoud et al ADDIN EN.CITE Billoud20009800000000098Billoud, B.Guerrucci, M. A.Masselot, M.Deutsch, J. S.Cirripede phylogeny using a novel approach: molecular morphometricsAnimalBase SequenceComparative StudyCrustacea/*classification/geneticsDNA Transposable ElementsEvolution, MolecularMolecular Sequence DataNucleic Acid Conformation*PhylogenyRNA, Ribosomal, 18S/chemistry/*geneticsSequence Alignment/*methodsSequence Analysis/methodsSequence DeletionSupport, Non-U.S. Gov'tAtelier de BioInformatique, Service Commun de Bio-Systematique, Universite Pierre et Marie Curie, Paris, France. bernard.billoud@snv.jussieu.fr11018151http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=11018151 http://www.molbiolevol.org/cgi/content/full/17/10/1435 http://www.molbiolevol.org/cgi/content/abstract/17/10/1435Mol Biol Evol200017101435-45.(Billoud et al., 2000) ( REF _Ref508268584 \h Figure 53). Les différents groupes taxonomiques des cirripèdes sont formés et possèdent un fort coefficient bootstrap. Il est à noter que les Ascothoracica et les Acrothoracica sont regroupés dans larbre de la signature avec un coefficient bootstrap maximal. Billoud et al ont indiqués que ce regroupement a déjà été observé dans la littérature ADDIN EN.CITE Spears1994400000000004Spears, T.Abele, L. G.Applegate, M. A.1994Phylogenetic study of cirripedes and selected relatives (Thecostraca) based on 18S rDNAJ. Crustac. Biol.14641-656(Spears et al., 1994), mais ils considèrent que celui-ci est un artefact de calcul. Pour cela, ils se basent sur leur étude des données morphométriques, ainsi que celles des méthodes classiques de phylogénie (Données non montrées). Au vue de cette différence avec larbre des signatures, nous avons inféré larbre phylogénétique des cirripèdes à partir de la méthode du maximum de parcimonie. Larbre obtenu est le même que celui que nous avons déterminé à laide des signatures ( REF _Ref508268555 \h Figure 52A). Nos résultats sont en accord avec ceux de Spears et al ADDIN EN.CITE Spears1994400000000004Spears, T.Abele, L. G.Applegate, M. A.1994Phylogenetic study of cirripedes and selected relatives (Thecostraca) based on 18S rDNAJ. Crustac. Biol.14641-656(Spears et al., 1994) et tendent à confirmer lexistence dun clade (Ascothoracica + Acrothoracica). Les coefficients bootstrap de larbre de la signature pour lorganisation à lintérieur des Sessilia sont faibles et peuvent être expliqués par des distances inter espèces très faibles.
Lapplication des méthodes de mesure du bruit proposées par Guénoche et Garetta ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000) sur les données de cette étude du gène ARN 18S ont permis détablir quelles comportaient 10% de bruit, aussi bien les signatures que les matrices de distances classiques.
En conclusion, grâce à la seule utilisation de la signature, on a pu établir rapidement une phylogénie des cirripèdes à laide des signatures de lARN 18S. Larbre obtenu est congruent avec la littérature.

La phylogénie des plantes

Le gène de lARN 18S a aussi été utilisé afin détablir la phylogénie des plantes à laide de la signature. Pour cela, nous nous sommes basés sur une étude de Soltis et al ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999) qui avaient utilisé une centaine de séquences dARN 18S. Pour mener cette étude, 92 espèces de plantes terrestres (Embryophytes) et 7 algues vertes (Coléochaetophyte et Charophyte) ont été sélectionnées. Le nom de ces espèces et ainsi que le groupe taxonomique auquel elles appartiennent sont indiqués dans le tableau suivant ( REF _Ref508268606 \h Tableau 7).

CodeNomGroupe taxonomiqueA1Asarum canadenseAngiospermeA2Sparganium eurycarpumAngiospermeA3Tetracentron sinenseAngiospermeA4Trochodendron aralioidesAngiospermeA5Austrobaileya scandensAngiospermeA6Sassafras albidumAngiospermeA7Akebia quinataAngiospermeA8Amborella trichopodaAngiospermeA9Camptotheca acuminataAngiospermeA10Gossypium hirsutumAngiospermeA11Celtis yunnanensisAngiospermeA12Canna coccineaAngiospermeA13Ceratophyllum demersumAngiospermeA14Dipsacus spAngiospermeA15Liquidambar styracifluaAngiospermeA16Zea maysAngiospermeA17Nymphaea tuberosaAngiospermeA18Oncidium excavatumAngiospermeA19Phytolacca americanaAngiospermeA20Pisum sativumAngiospermeA21Symphoricarpos albusAngiospermeA22Saururus cernuusAngiospermeA23Saxifraga integrifoliaAngiospermeA24Saruma henryiAngiospermeC1Araucaria excelsaConnifèreC2Cephalotaxus wilsonianaConnifèreC3Juniperus chinensisConnifèreC4Phyllocladus trichomonoidesConnifèreC5Pinus elliottiiConnifèreC6Pinus luchuensisConnifèreC7Dacrycarpus imbricatusConnifèreC8Amentotaxus formosanaConnifèreC9Torreya nuciferaConnifèreC10Taiwania cryptomerioidesConnifèreC11Podocarpus costalisConnifèreC12Nageia nagiConnifèreC13Taxus chinensis var. maireiConnifèreC14Abies lasiocarpaConnifèreCyca1Cycas taitungensisCycadeCyca2Zamia pumilaCycadeEquisetumEquisetum hyemaleEquisetumF1Adiantum raddianumFougèreF2Blechnum occidentaleFougèreF3Dicksonia antarcticaFougèreF4Dicranopteris linearisFougèreF5Hypolepis muelleriFougèreF6Lonchitis hirsutaFougèreF7Osmunda cinnamomeaFougèreF8Odontosoria chinensisFougèreF9Ophioglossum petiolatumFougèreF10Pteridium aquilinumFougèreF11Salvinia natansFougèreF12Vandenboschia davallioidesFougèreG1Welwitschia mirabilisGnétaleG2Ephedra sinicaGnétaleG3Ephedra torreyanaGnétaleG4Gnetum nodiflorumGnétaleG5Gnetum urensGnétaleG6Gnetum gnemonGnétaleGinkgoGinkgo bilobaGinkgoHw1Anthoceros agrestisAnthocéroteHw2Notothylas breuteliiAnthocéroteHw3Phaeoceros laevisAnthocéroteL1Huperzia lucidulaLycophyteL2Isoetes durieuiLycophyteL3Isoetes engelmanniiLycophyteL4Lycopodiella inundataLycophyteL5Huperzia phlegmariaLycophyteL6Huperzia taxifoliaLycophyteL7Lycopodium tristachyumLycophyteL8Selaginella umbrosaLycophyteL9Selaginella vogeliiLycophyteLw1Marchantia polymorphaMarchantaleLw2Fossombronia pusillaMarchantaleLw3Pellia epiphyllaMarchantaleLw4Reboulia hemisphaericaMarchantaleLw5Sphaerocarpos donnelliMarchantaleLw6Scapania nemoreaMarchantaleLw7Riccardia pinguisMarchantaleM1Physcomitrella patensMousseM2Atrichum undulatumMousseM3Eurhynchium hiansMousseM4Funaria hygrometricaMousseM5Leptobryum pyriformeMousseM6Polytrichum formosumMousseM7Physcomitrium pyriformeMousseM8Sphagnum cuspidatumMoussePsilo1Psilotum nudumPsilotalePsilo2Tmesipteris tannensiPsilotaleO1aChara australisGroupe externeO1bChara connivensGroupe externeO1cChara foetidaGroupe externeO2aNitella flexilisGroupe externeO2bNitella spGroupe externeCMitPseudotsuga menziesiiConifèreCycaMitCycas revolutaCycadeFMitAsplenium nidusFougèreO3aColeochaete orbicularisGroupe externeO3bColeochaete scutataGroupe externeTableau SEQ Tableau \* ARABIC 7 - Nom des espèces de plantes impliquées dans létude phylogénétique à laide du gène ARN 18S. Pour chaque espèce, son nom, son groupe taxonomique dappartenance ainsi que son code. Les espèces qui sont grisés correspondent à des espèces dont la copie mitochondriale du gène ARN18S a été employée.

Les séquences ont été récupérées dans la banque de données du « Green Phylogeny Research Coordination Group ». Les espèces peuvent être regroupées en 9 clades :
Angiospermes (les plantes à fleur).
Conifères
Gnétales
Cycades (les palmiers)
Marchantales
Anthocérotes
Lycophytes
Fougères
Mousses

Nous avons calculé larbre de la signature grâce à lutilisation de mots de 6 lettres et la métrique du cð2 ( REF _Ref508268637 \h Figure 54). Un bootstrap a aussi été effectué pour 500 répliquats. Les coefficients bootstrap supérieur à 50% des principaux groupes ont été indiqués.

Figure SEQ Figure \* ARABIC 54 - Arbre phylogénétique de 99 espèces de plantes à l aide de la signature. Signatures de 6 lettres et métrique du cð2. La signature moyenne du groupe des Angiospermes et celle du groupe des copies mitochondriales sont placées à droite de chaque groupe.

Larbre de la signature présente de nombreuses similarités avec celui publié par Soltis et al ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999). Les angiospermes, les conifères, les gnétales, les cycades et les fougères forment chacune un groupe monophylétique. Un point important de cet arbre est la position des différentes espèces appartenant au groupe externe. Ce groupe est divisé en deux. Dun coté, les espèces O1 et O2, qui sont des charophytes, sont placées à la base des plantes à graines (angiospermes, gnétales, conifères). Dun autre, les espèces O3, des coléochaetophytes, sont placées à la base des plantes terrestres. De plus, 4 espèces attirent notre attention : Pseudotsuga menziesii (Conifère), Cycas revoluta (Cycade), Asplenium nidus (Fougère) et Notothylas breutelii (Anthocérote). Les signatures de ces 4 espèces sont séparées de leurs groupes taxonomiques dappartenance et sont placées à coté du groupe externe O1-O2, avec de longues branches. En regardant les séquences et lorigine de celles-ci, nous avons effectué deux conclusions :
La séquence de Notothylas breutelii est incomplète dans les banques de données. Le grand nombre de nucléotides indéterminés a grandement perturbé la signature de la séquence, rendant impossible son utilisation.
Les copies du gène de lARN 18S des espèces Pseudotsuga menziesii, Cycas revoluta et Asplenium nidus ne sont pas nucléaires mais mitochondriales. Or la signature de séquences dADN mitochondrial dune espèce diffère considérablement de celle de séquence dADN nucléaire ADDIN EN.CITE Cornille200328530000000285Cornille, F.Dufraigne, C.Giron, A.Fertil, B.Deschavanne, P.2003Detection of DNA encoding structural RNAs in genomesChristophe, C.Lenhof, H.-S.Sagot, M-F.European Conference on Computational BiologyParis, France483-4(Cornille et al., 2003) ( REF _Ref508268655 \h Figure 55).

Figure SEQ Figure \* ARABIC 55 - Comparaison de la signature dune copie nucléaire de lARN 18S et celle dune copie mitochondriale. La signature de lARN 18S nucléaire dune espèce proche est aussi représentée. Les signatures nucléaires sont plus proches que les signatures de la même espèce.

Afin de confirmer la position du groupe externe, les signatures des séquences de lARN 18S de Homo sapiens, Saccharomyces cerevisiae et Scizosaccharomyces pombe ont été ajoutées. Les signatures de ces trois espèces sont venues se brancher sur larbre au niveau du groupe O1-O2 (Données non montrées), confirmant ce dernier en tant que groupe externe. Nous avons décidé par la suite de ne pas prendre en compte les 4 signatures atypiques ainsi que les signatures du groupe O3. Larbre que lon obtient par la signature est représenté sur la REF _Ref508268691 \h Figure 56.

Page précédente :
Figure SEQ Figure \* ARABIC 56 - Arbre phylogénétique des plantes obtenu par comparaison des signatures de l ARN 18S. Signatures de 6 lettres métrique du cð2. Les coefficients bootstrap (500 réplicats) supérieurs à 50% des principaux groupes sont indiqués. Les noms des espèces sont indiqués par un code (voir tableau X pour la correspondance).

On retrouve dans cet arbre les résultats précédemment obtenus par la signature. Lorganisation des plantes à fleur (Angiosperme + ((Cycade + Gingko) + (Conifère + Gnétale))) qui est le principal résultat de larticle de Soltis ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999) est retrouvé par notre étude et dautres études phylogénétiques classiques ADDIN EN.CITE Chaw200025200000000252107602779782000Apr 11Seed plant phylogeny inferred from all three plant genomes: monophyly of extant gymnosperms and origin of Gnetales from conifers4086-91Institute of Botany, Academia Sinica, Taipei 11529, Taiwan.Chaw, S. M.Parkinson, C. L.Cheng, Y.Vincent, T. M.Palmer, J. D.Proc Natl Acad Sci U S ADNA, Ribosomal/genetics*Genome, PlantGymnosperms/*geneticsMolecular Sequence Data*PhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, P.H.S.Trees/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10760277Källersjö199825500000000255Källersjö, M.Farris, J.S.Chase, W.Bremer, B.Fay, M.F.Humpries, C.J.Petersen, G.Seberg, O.Bremer, K.1998Simultaneous parsimony jackknife analysis of 2538 rbcl DNA sequences reveals upport for major clades of green plants, land plants, seed plants and flowering plants.Plant Syst. Evol.2132599-287(Chaw et al., 2000; Källersjö et al., 1998). Ces relations sont originales, car les gnétales sont plus souvent reliés aux angiospermes par les données morphologiques (voir ADDIN EN.CITE Crepet199825400000000254Crepet, W. L.1998The abominable mysteryScience2821653–1654Doyle198625300000000253Doyle, J. A.Donoghue, M. J.1986Seed plant phylogeny and the origin of the angiosperms: an experimental cladistic approachBot. Rev.52321-431Lecointre20011810000000018Lecointre, G.Le Guyader, H.2001Classification phylogénétique du vivantParisBelin15442-7011-2137-Xphylogeny(Crepet, 1998; Doyle and Donoghue, 1986; Lecointre and Le Guyader, 2001)).
De plus, le rapprochement des Equisetum et Psilotales avec les Fougères est lui aussi confirmé. Cette position a été retrouvée dans dautres travaux ADDIN EN.CITE Kenrick1997256100000002561560987308 (cloth : alk. paper) 1560987294 (paper : alk. paper)The origin and early diversification of land plants : a cladistic studyWashington, DCSmithsonian Institution Press1997xi, 441 p.Smithsonian series in comparative evolutionary biologyPaleobotany.Evolution Land plantsKenrick, PaulCrane, Peter R.Kenrick199725700000000257Kenrick, P.Crane, P.R.1997The origin and early evolution of plants on land.nature389664633-9Manhart1994258000000002588075831321994JunPhylogenetic analysis of green plant rbcL sequences114-27Department of Biology, Texas A&M University, College Station 77843.Manhart, J. R.Mol Phylogenet EvolAmino Acid SequenceBase SequenceDNA/geneticsEvolutionGenes, Plant/*geneticsMolecular Sequence Data*PhylogenyPlants/*geneticsSupport, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8075831(Kenrick and Crane, 1997a; Kenrick and Crane, 1997b; Manhart, 1994) et ces espèces sont considérées comme surs. Larbre de la signature regroupe les Psilotales et les Ophioglossaceae dans les fougères, ce qui est aussi proposé par JR. Manhart ADDIN EN.CITE Manhart1994258000000002588075831321994JunPhylogenetic analysis of green plant rbcL sequences114-27Department of Biology, Texas A&M University, College Station 77843.Manhart, J. R.Mol Phylogenet EvolAmino Acid SequenceBase SequenceDNA/geneticsEvolutionGenes, Plant/*geneticsMolecular Sequence Data*PhylogenyPlants/*geneticsSupport, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8075831(Manhart, 1994). Cependant contrairement aux résultats de Soltis ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999), les fougères sont paraphylétiques dans larbre de la signature.
Le bruit dans la matrice des distances issues de la signature a été évalué à entre 5 et 10%, grâce au travail de Guénoche et Garreta ADDIN EN.CITE Guénoche20005730000000057Guénoche, A.Garreta, H.2000Can We Have Confidence in a Tree Representation?Gascuel, O.Sagot, M-F.First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000Montpelier, FranceSpringer206645-56Goos, G.Hartmanis, J.van Leeuwen, J.Lecture Notes in Computer Science2001(Guénoche and Garreta, 2000).
La position du groupe externe sépare les plantes entre les plantes à fleur et les autres plantes terrestres. Ce résultat, contraire à celui de Soltis et al ADDIN EN.CITE Soltis1999500000000005http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10605118Soltis, P. S.Soltis, D. E.Wolf, P. G.Nickrent, D. L.Chaw, S. M.Chapman, R. L.The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?DNA, Plant/*geneticsDNA, Ribosomal/*geneticsPhylogenyPlants/*geneticsRNA, Ribosomal, 18S/geneticsSequence Analysis, DNASupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Department of Botany, Washington State University, Pullman 99164-4238, USA. psoltis@wsu.edu10605118Mol Biol Evol199916121774-84.(Soltis et al., 1999) qui ont obtenu leurs résultats par parcimonie, est assez étrange et fait penser au phénomène dattraction des longues branches. En effet, la signature de la séquence dune plante à fleur est très différente de celle des autres plantes terrestres. De plus, les signatures atypiques, provenant de copies mitochondriales ou dune séquence mal séquencée, se placaient aussi à cette position. La position du groupe externe O3 est plus proche de ce que lon est amené à attendre daprès les résultats de Soltis et al. Cependant, ce dernier a obtenu le même résultat quand il a étudié ses données par la méthode de distances. De même, avec la méthode des distances, Soltis et al ont trouvé que les lycophytes étaient divisés en deux groupes et que les mousses et les marchantiales ne formaient pas de groupes monophylétiques. Ces résultats correspondent à ce que lon obtient avec la signature. Ainsi, la méthode de la signature a conduit à des résultats similaires à ceux obtenus par la méthode des distances.

La signature de lARN

Dufraigne et al ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005) ont montré, lors de la détection de transferts horizontaux, que les signatures dARNr étaient détectées comme originale par rapport à la signature de lhôte. La signature de lARNr dans chaque génome est significativement différente de celui de lhôte ADDIN EN.CITE Dufraigne20056100000000061156536273312005Detection and characterization of horizontal transfers in prokaryotes using genomic signaturee6INSERM U 494, 91 bd de l'Hopital 75013 Paris, France.Dufraigne, C.Fertil, B.Lespinats, S.Giron, A.Deschavanne, P.Nucleic Acids Reshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=15653627(Dufraigne et al., 2005). Nous avons cherché à déterminer si toutes les séquences dARNr présentent une signature commune, différente de lensemble des signatures despèces. Pour cela, nous avons utilisé une classification par la méthode des k-means. Les différentes séquences dARNr de 27 génomes procaryotes sont concaténées. Nous avons comparé les signatures des fragments dARNr (cest-à-dire de fragment de la séquence concaténée) à celles de fragments des différentes espèces. Les signatures utilisées sont celles de mot de 4 lettres et pour des fragments de 1 kb.

Type de fragmentFragments bien classés (%)27 espèces83.9ARNr98,9
Tableau SEQ Tableau \* ARABIC 8 - Classification par k-means des fragments hôte de 27 génome et de fragment dARNr, selon leur classe.

Un fragment dune espèce est bien classé sil est assigné à un groupe correspondant à son espèce dorigine, et un fragment dARN est bien classé sil est placé dans un groupe ARNr.
Les résultats montre que presque 99% des fragments dARNr sont placés dans un groupe dARNr ( REF _Ref508268606 \h Tableau 7). Donc ces résultats confirment que les signatures de lARNr se regroupent entre elles plutôt que dêtre assigné à leur génome dorigine.

Nous avons ensuite utilisé la méthode du plus proche voisin (cf. REF _Ref506899739 \r \h 2.3.4.2). Pour cela, lensemble des fragments des 27 espèces et dARNr sont comparés à 28 signatures de référence : la signature moyenne des 27 génomes et la signature moyenne des ARNr. Chaque fragment est assigné au groupe de référence où la distance entre la signature du fragment et celle du groupe est la plus faible.

FragmentsFragments bien classés (%)ARNr88Espèce dorigine87
Tableau SEQ Tableau \* ARABIC 9 - Classification par les plus proches voisins.

87 % des fragments de génomes sont correctement assignés à leur génome dorigine ( REF _Ref508268762 \h Tableau 8). On retrouve le résultat précédemment trouvé par Deschavanne et al ADDIN EN.CITE Deschavanne199920300000000203Deschavanne, P.J.Giron, A.Vilain, J.Fagot, G.Fertil, B.1999Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequencesMolecular Biology and Evolution161391–1399(Deschavanne et al., 1999) (cf. REF _Ref506899739 \r \h 2.3.4.2). De plus, 88 % des fragments dARNr sont quand à eux assignés à la signature moyenne de lARNr. Donc les séquences dARNr présentent une signature commune quel que soit leur origine.

Pour vérifier si les signatures forment bien un groupe homogène, nous avons calculé les distributions des distances intra-groupes et inter-groupes et nous les avons comparées. Pour cela, nous avons utilisé à nouveau des fragments de 1kb dARNr provenant de différentes sources : procaryotes, eucaryotes, mitochondrial et chloroplasmique. Les distances inter-espèces ont été calculées sur les 27 génomes procaryotes précédemment utilisés. Les distances inter-espèces et la moyenne des distances intra-espèces pour chacun des génomes procaryotes servent de contrôle afin de vérifier que lon a un groupe dARNr.

ARNr MitochondialARNr ChloroplastiqueARNr ProcaroyteARNr EucaryoteARNr Euc/ProcMoyenne
Intra-espèce (27)Inter-espèceMédiane0,03240,02800,02280,02280,02410,02510,0440Moyenne0,03650,03070,02540,02440,02620,02600,0485Ecart type0,01480,00950,00720,00700,00720,00450,0227
Tableau SEQ Tableau \* ARABIC 10 - Distribution des distances entre signatures en fonction de lorigine des fragments. LARNr Euc/Pro correspond à la réunion des ARNr eucaryotes et procaryotes, hors mitochondriaux et chloroplastiques.

La distribution des distances intra-ARNr procaryotes, eucaryotes et chloroplastiques sont très semblables à celle que lon observe en moyenne pour un génome procaryote ( REF _Ref508268780 \h Tableau 9). Nous navons pas incorporé les eucaryotes, car ceux-ci sont plus hétérogènes. Les distributions des distances sont très différentes de celle des distances inter-espèces, montrant ainsi que les ARNr forment un groupe homogène possèdant une signature commune. LARNr mitochondrial est lui un cas à part, car la distribution des distances intra-ARNr mitochondrial est plus proche de celle des distances inter-espèce que de celle des distances intra-espèces. Cela suggère que lARNr mitochondrial, en plus davoir une signature différente, ne forme pas un groupe homogène.
La signature de lARNr semble donc aussi spécifique que celle dune espèce : LARNr possède une signature commune.
Cette propriété des séquences dARNr peut sexpliquer par la grande conservation de lARNr au cours de lévolution. De plus, lARNr possède de fortes contraintes structurales dues à sa fonction dans la cellule. Or Karlin ADDIN EN.CITE Karlin199815900000000159Karlin, S.Global dinucleotide signatures and analysis of genomic heterogeneityBacteria/*classification*Base CompositionGenome, Archaeal*Genome, Bacterial*OligodeoxyribonucleotidesPhylogenySequence Analysis, DNA/*methodsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, Non-P.H.S.Support, U.S. Gov't, P.H.S.Department of Mathematics, Stanford University, Stanford, CA 94305- 2125, USA.10066522http://www.ncbi.nlm.nih.gov/htbin-post/Entrez/query?db=m&form=6&dopt=r&uid=10066522 http://biomednet.com/article/JMCR.mc1502Curr Opin Microbiol199815598-610.(Karlin, 1998) a proposé comme explication à la signature, la présence de contraintes structurales fortes dans le génome. Pour lARNr, ces contraintes sont clairement identifiées par le fait que celui-ci doit se replier et que de nombreux nucléotides sont appariés deux à deux.
Cette signature, différente de celle de lespèce, conduit à se poser des questions quant à lutilisation de lARN 18S en phylogénie. Il semble que lARNr a suivi une évolution différente ou parallèle à celle de son hôte. Les signatures des ARNr forment un groupe homogène significativement différent de celles des espèces. Donc léchelle dévolution de lARNr nest pas la même que celles des espèces. Les temps dévolution inférés à partir des séquences dARNr ne correspondent pas à ceux des espèces.

Arbre multi-gène

Les arbres phylogénétiques présentent deux types de signal : lévolution des espèces, mais aussi celle propre au gène (voir les chapitres REF _Ref507587490 \r \h 2.2.4.5, REF _Ref507587506 \r \h 2.2.5.1). De même, la comparaison des signatures provenant dun seul gène, peut conduire à ne pas inférer larbre des espèces, mais celui du gène. En effet, comme nous venons de la voir pour lARNr, certains gènes possèdent une signature propre. Les signatures de ces séquences comporteront donc deux signaux : la signature de lespèce, mais aussi la signature du gène. Cette signature peut provenir de contraintes structurales fortes, imposant un certain site actif ou une certaine composition en base. La classification de fragments de génomes de 1 kb a montré que ceux-ci se classaient en fonction de leur génome dappartenance (cf. REF _Ref506899739 \r \h 2.3.4.2, REF _Ref507587780 \r \h 3.1.2). Mais il sagit de fragments de 1kb pris au hasard dans les génomes et qui étaient non corrélés. Cela nest pas le cas avec lorsque lon étudie les séquences homologues, car elles sont liées par le fait quelles correspondent à un même gène.
Une des manières de résoudre ce problème est de prendre en compte un grand nombre de gènes et détudier lensemble des séquences ainsi recueillies. Ensuite un consensus est effectuer
Nous proposons dutiliser la signature dans le cadre de la prise en compte de plusieurs gènes. La signature est un ensemble de fréquences donc il est facile de combiner des signatures. Il suffit dappliquer des opérations de statistiques sur les signatures. Nous proposons deux méthodes. Premièrement, on suppose que chaque gène apporte la même quantité dinformation. Dans ce cas, pour chaque espèce, on calcule la signature moyenne des signatures de lensemble des gènes étudiés. Lautre possibilité est de considérer que chaque gène apporte une information proportionnelle à la longueur de la séquence du gène. Ainsi, pour chaque espèce, les séquences de tous les gènes sont concaténées et la signature de lespèce est calculée à partir de cette séquence ( REF _Ref508268882 \h Figure 57).

Figure SEQ Figure \* ARABIC 57 - Méthode pour larbre multi-gène en utilisant la signature.

Les signatures de chaque espèce seront alors comparées par la même méthode que celle que lon a développée pour les signatures de séquences homologues.
Une autre possibilité est deffectuer une étude phylogénétique à laide de la signature pour tous les gènes que lon étudie. Lensemble des arbres obtenus sert alors à construire un arbre consensus.

Pour mener notre étude, nous avons sélectionné 10 espèces de procaryotes : 9 bactéries (Bacillus subtilis, Clostridium perfringens, Escherichia coli, Lactococcus lactis, Neisseria meningitides, Salmonella typhimurium, Staphylococcus aureus, Vibrio cholerae, Xanthomonas axonopodis) et une archaebactérie (Archaeoglobus fulgidus). Nous avons ensuite utilisé la banque de données SYSTERS ADDIN EN.CITE Krause200023400000000234105922442812000Jan 1The SYSTERS protein sequence cluster set270-2Deutsches Krebsforschungszentrum, Theoretische Bioinformatik, Im Neuenheimer Feld 280, D-69120 Heidelberg, Germany. a.krause@dkfz-heidelberg.deKrause, A.Stoye, J.Vingron, M.Nucleic Acids ResAmino Acid Sequence*Database Management Systems*Databases, FactualInternetMolecular Sequence DataProteins/*chemistrySequence Homology, Amino AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10592244(Krause et al., 2000) pour déterminer quels étaient les gènes homologues dont une séquence était séquencée pour chacune des espèces. SYSTERS est une banque de données de familles de séquences protéiques commune à un ensemble despèces. Linterrogation de SYSTERS a renvoyé 119 familles de protéines. Ces 119 familles ont ensuite triées pour ne conserver que celles qui avaient réellement une séquence nucléique supérieur à 1 kb dans les banques de données pour chacune de ces espèces. De plus, afin déviter de biaiser les résultats en nayant quun seul type de gènes dans le jeu de données, nous avons aussi supprimé certains gènes codant pour le transport dacides aminés, même si ceux ci restent nombreux. Au final, 33 gènes ont été utilisés. Les noms de ces gènes ainsi que la taille moyenne des séquences sont indiqués dans le tableau suivant ( REF _Ref508268959 \h Tableau 11). Lensemble des séquences représente environ 57.2 kb par espèce.

Adenylosuccinate lyase1.3 kbAdenylosuccinate synthetase1.3 kbAlanyl-tRNA synthetase2.6 kbArgininosuccinate synthase1.3 kbArgininosuccinate lyase1.4 kbArginyl-tRNA synthetase1.7 kbAspartate aminotransferase1.2 kbAspartyl-tRNA synthetase1.8 kbCarbamyl-phosphate synthase3.2 kbCell division protein ftsZ1.2 kbChorismate synthase1.1 kbCTP synthase1.6 kbDNA-directed RNA polymerase2.6 kbDNA topoisomerase I2.0 kbElongation factor 22.1 kbEnolase1.3 kb5-enolpyruvylshikimate-3-phosphate synthetase1.3 kbGlutamine synthetase1.5 kbLeucyl-tRNA synthetase2.8 kbMethionyl-tRNA synthetase2.1 kbOrnithine carbamoyltransferase1.0 kbPantothenate metabolism flavoprotein1.2 kbD-3-phosphoglycerate dehydrogenase1.2 kbPhosphoglycerate kinase1.2 kbPhosphomannomutase1.3 kbPhosphoribosylformylglycinamidine synthase II3.8 kbQueuine tRNA-ribosyltransferase1.1 kbRibonucleotide reductase2.3 kbSerine hydroxymethyltransferase1.2 kbThermosome alpha subunit1.6 kbThreonyl-tRNA synthetase2.0 kbTranslation elongation factor EF-Tu1.3 kbValyl-tRNA synthetase2.6 kb
Tableau SEQ Tableau \* ARABIC 11 - Nom et taille des gènes étudiés dans l étude multi-gène.

Nous avons calculé, pour chacun des gènes, l arbre de la signature pour des mots de 6 lettres et pour la métrique du cð2. Les arbres des méthodes des distances ont aussi été inférés. Pour la méthode des distances, nous avons utilisé le modèle dévolution HKY85 et lalgorithme de reconstruction fastME. Les autres méthodes de phylogénies classiques (parcimonie et maximum de vraisemblance) utiliseront les conditions que jai exposé dans le chapitre REF _Ref507593063 \r \h 3.3.2. Les mêmes méthodes seront utilisées sur lensemble des gènes. Pour cela, nous avons concaténé les alignements obtenus pour les différents gènes. Des études bootstrap ont été effectuées pour trois méthodes (distance, parcimonie et signature). La topologie de larbre du maximum de vraisemblance na pas été testée par bootstrap, car le temps de calcul nécessaire était trop important.

Par souci de lisibilité, je ne présente que les arbres consensus et non les 132 arbres phylogénétiques produits (33 (gènes) x 4 (méthode)). Les arbres consensus obtenus pour les deux méthodes de consensus utilisant la signature, cest-à-dire moyenne des signatures pondérées ou non, sont identiques. Seul larbre consensus calculé à partir des signatures moyennes non-pondérées est montré. Sur la REF _Ref508269071 \h Figure 58, les différents arbres consensus sont affichés.

Figure SEQ Figure \* ARABIC 58 - Arbre consensus obtenu par quatre méthodes : méthode de distances, maximum de parcimonie, maximum de vraisemblance et la méthode de la signature. Le consensus pour la méthode de la signature correspond à larbre non-pondéré. Les coefficients de bootstrap des arbres sont indiqués pour trois méthodes. En ce qui concerne la méthode des distances, les branches plus épaisses et grises correspondent à des longueurs de branches négatives.

Dans toutes les méthodes, larbre consensus sépare les bactéries en deux groupes correspondant aux bactéries Gram+ et Gram-. Cependant, cette division est rarement observée dans les différents arbres de gènes individuels obtenus par les méthodes de phylogénie classiques.
Pour les bactéries Gram+, les méthodes de la signature et de parcimonie conduisent à obtenir les relations suivantes : (B. subtilis + (L. lactis + (S. aureus + C. perfingens))). La méthode des distances inverse quant à elle la position de L. lactis et S. aureus dans les bactéries Gram+. Cependant, la branche négative dans la méthode des distances indique que celle-ci a eu des problèmes pour distinguer la position de ces deux espèces. Les relations taxonomiques entre ces espèces Gram+, selon le Bergeys ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001), sont les suivantes : (C. perfringens + (L. lactis + (B. subtilis + S. aureus))). Aucune des méthodes ne donne ce résultat. Elles sont toutes équivalentes.
Pour les bactéries Gram-, E. coli et S. typhimurium sont toujours groupées ensemble quelque soit la méthode employée. Ce résultat nest pas étonnant, car ces deux espèces sont très proches ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001) et ont divergé depuis relativement peu de temps. N. meningitides et X. axonopodis sont regroupés en un même groupe stable dans la majorité des méthodes (à lexception encore de la méthode des distances). La principale différence vient de la place de V. cholerae dans les différents arbres consensus. Toutes les méthodes classiques placent V. cholerae à la base du groupe (E. coli + S. typhimurium) , ce qui est sa place selon la taxonomie du Bergeys ADDIN EN.CITE Bergey2001310000000003Bergey2001Bergey's Manual of Systematic BacteriologyGarrity, GMBergey's Manual of Systematic BacteriologyNew-YorkSpringer-Verlag15(Bergey, 2001). V. cholerae est à la base des bactéries Gram- dans larbre de la signature. Ce mauvais placement peut sexpliquer par un problème de reconstruction de larbre phylogénétique par Neighbor-Joining. En effet, en étudiant la matrice des distances, on peut voir que V. cholerae est beaucoup plus proche de E. coli et S. typhimurium que des autres bactéries ( REF _Ref508268939 \h Tableau 12). La place de V. cholerae est du au fait que la distance entre les signatures de B. subtilis et V. cholerae est faible. Donc V. cholerae est attiré par les bactéries Gram+. Cette distance faible entre B. subtilis et certaines gð-protéobactérie sera discutée plus tard.

C. perfringens1.4728541.2118881.4705541.0804021.6257701.4863060.9244741.3864221.896021X. axonopodis1.4355821.2596400.9813631.5162171.0277210.9120981.6219051.140998V. cholerae1.1109610.6870640.5956550.8679050.8696880.6516870.997121S. aureus1.3563430.8551721.1093880.6870351.2888451.148608S. typhimurium1.1485410.7689020.3515251.0313640.744923N. meningitidis1.2772680.9058560.7823941.142616L. lactis1.2033400.7257950.986221E. coli1.1510350.750900B. subtilis1.009837 A. fulgidusB. subtilisE. coliL. lactisN. meningitidisS. typhimuriumS. aureusV. choleraeX. axonopodisTableau SEQ Tableau \* ARABIC 12 - matrice de distance issue de la méthode de la signature

En observant les arbres obtenues par les méthodes classiques pour les différents gènes, on observe une grande différence ( REF _Ref508269125 \h Figure 59). Pour un même gène, les arbres inférés présentent souvent des topologies très différentes. Ainsi, par exemple, pour le gène ADN topoisomérase I, la méthode des distances propose un arbre très différent de larbre consensus et même la division Gram+/Gram- nest pas retrouvée. Ce résultat est soutenu par un fort bootstrap. Larbre du maximum de vraisemblance est lui correct. A contrario, pour le gène Leucine-ARNt, larbre de la méthode des distances est proche de larbre consensus, mais cest larbre du maximum de vraisemblance qui est incongruent avec le consensus de la vraisemblance.

Figure SEQ Figure \* ARABIC 59 - Diversité des arbres de gènes obtenus avec les méthodes classiques. Ici sont représentés les arbres obtenus pour deux gènes et deux méthodes. Les coefficients des arbres de la méthode des distances sont indiqués.

Afin de tester les résultats des phylogénies des différents gènes et la dispersion des arbres, nous avons comparé, par la distance de Robinson-foulds, les différents arbres consensus à lensemble des 33 arbres de gènes pour toutes les méthodes de phylogénie utilisées. ( REF _Ref508269143 \h Figure 60, REF _Ref508269162 \h Tableau 13).

Figure SEQ Figure \* ARABIC 60 - Distribution des distances de Robinson-Foulds entre larbre consensus et les 33 arbres de gènes pour les quatre méthodes prises en compte. La distance dT a été calculée pour la méthode des distances, le maximum de parcimonie, le maximum de vraisemblance (ML) et la méthode de la signature (mots de 6 lettres métrique du cð2).

EMBED Excel.Sheet.8
Tableau SEQ Tableau \* ARABIC 13 - Statistiques de la distribution des distances dT en fonction de la méthode utilisée.

Les différentes distributions de la distance de dissimilarité sont assez différentes. La méthode de la signature semble assez indépendante du gène étudié. En effet, la distance dT moyenne est faible et la distribution est fine. Chaque arbre de gène est très proche de larbre consensus. La principale différence entre les arbres de gènes consiste en la place de V. cholerae : soit à la base des Gram- comme avec larbre consensus, soit à la base du groupe (E. coli + S. typhimurium). Cette stabilité peut sexpliquer par les propriétés de la signature. Nous avons montré que cette dernière était conservée pour des fragments courts dADN, il nest donc pas étonnant que les arbres de la signature soient peu dépendants de la fonction du gène.
À lopposé, les arbres de la méthode des distances sont très différents de larbre consensus. La distance moyenne entre ces derniers et larbre consensus est forte et en plus lécart type est faible. Lutilisation du consensus a permis de faire disparaître lhétérogénéité des résultats et de corriger les relations. Car, si la distance moyenne avec le consensus est forte, cela signifie que la plupart des arbres de la méthode des distances ont une topologie relativement fausse. Dans une moindre mesure, les méthodes de la parcimonie et de la vraisemblance possèdent une forte variabilité. Ces deux méthodes présentent une distribution très semblable, aussi bien par la distance moyenne que pour lécart type ( REF _Ref508269162 \h Tableau 13).
Donc un arbre de gène pour la signature semble plus proche de larbre consensus que pour les méthodes phylogénétiques classiques.

La méthode de la signature consiste à effectuer la moyenne des signatures calculées pour lensemble des gènes que lon étudie. Nous venons de voir que les arbres de gènes de la signature étaient très proches de larbre consensus et ne dépendaient que peu de la fonction du gène. Il est donc possible pour calculer la signature moyenne dune espèce de prendre en compte des gènes dont il nexiste pas, dans les banques de données, des séquences pour lensemble des espèces étudiées. Nous avons pris en compte 9 nouveaux gènes et nous avons ajouté leurs séquences à notre jeu de données ( REF _Ref508269162 \h Tableau 13). Grâce à cela, la taille maximale de séquences pour une espèce que nous avons utilisée a été portée à 65 kb.

nomTailleNombre de séquencesAcetolactate synthase large subunit1.7 kb8Cysteinyl-tRNA synthetase1.4 kb8Galactosyltransferase1.1 kb4GTP cyclohydrolase II1.1 kb7Histidine kinase2.0 kb6Phosphoenolpyruvate synthase2.4 kb7dTDP-glucose 4,6-dehydratase1.1 kb9Tryptophan synthase subunit beta1.2 kb9X-pro aminopeptidase1.3 kb3
Tableau SEQ Tableau \* ARABIC 14 - Nom des gènes additionnés à létude et ne possédant pas une séquence pour lensemble des espèces.

La signature pour des mots de 6 lettres pour chacune des séquences ajoutées a été calculée, puis la signature moyenne de chaque espèce. Nous avons alors inféré alors larbre phylogénétique à partir de ces signatures. Larbre obtenu est identique à celui que a été construit à partir du jeu de données ne contenant que des gènes exprimés chez toutes les espèces.

La robustesse de la topologie a aussi été testée en faisant varier le nombre de gènes que lon prend en compte pour chaque espèce. Cette procédure se rapproche de celle du Jacknife ADDIN EN.CITE Li199726010000000260Li, W. H.1997Molecular EvolutionSinauer, AndrewSinauer487Sinauer0-87893-463-4(Li, 1997). Pour effectuer cette étude, nous avons choisi de prendre en compte un certain pourcentage de signatures de gène pour chaque espèce. Les signatures sélectionnées au hasard servent alors à calculer la signature moyenne de lespèce. On construit alors un arbre phylogénétique à partir de la méthode des distances. La procédure est répétée un grand nombre de fois (100 fois pour cette étude) et on effectue un consensus sur les arbres trouvés. Nous avons choisi de faire cette étude pour 30, 50, 75 et 90 % des gènes. Les résultats sont rassemblés dans le tableau suivant ( REF _Ref508269219 \h Tableau 15).

Pourcentage de gènes utilisés30 %50 %75 %100 %Commentaires sur les résultatsMême topologie que larbre consensus. La majorité des coefficients sont égaux à 100 %. Les différences sont :
- (E. coli + S. typhimurium)=91 %
- (N. meningitides + X. axonopodis)=96 %Même topologie que larbre con-sensus. Tous les coefficients sont égaux à 100 %.Même topologie que larbre con-sensus. Tous les coefficients sont égaux à 100 %.Même topologie que larbre con-sensus. Tous les coefficients sont égaux à 100 %.
Tableau SEQ Tableau \* ARABIC 15 - Récapitulatif du test de robustesse de larbre consensus de la signature par Jacknife.

Comme la comparaison de signatures ne sappuie pas sur une hypothèse dhomologie, il est possible de déterminer à laide de la signature les relations entre les différents gènes. Stuart et al ADDIN EN.CITE Stuart200221700000000217119192971942002AprA comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes554-62Department of Life Sciences, Indiana State University, Terre Haute, IN 47809, USA. G-Stuart@indstate.eduStuart, G. W.Moffett, K.Leader, J. J.Mol Biol EvolAlgorithmsAnimalsComputational BiologyDatabases, Protein*GenomeMitochondrial Proteins/genetics*PhylogenyProteins/*geneticsSequence Alignment/statistics & numerical dataSoftwareSpecies SpecificityVertebrates/classification/*geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11919297(Stuart et al., 2002b) ont utilisé cette méthode sur des signatures protéiques pour démontrer que ces signatures se rassemblait en fonction du gène. Nous allons comparer lensemble des signatures que nous avons calculées, cest-à-dire 393 signatures pour des mots de 6 lettres. Cette comparaison a permis de comparer linfluence de lévolution de gènes par rapport à lévolution des espèces. Un arbre hiérarchique avec les 393 signatures est inféré à laide de la méthode de Ward. Le choix dune analyse par arbre hiérarchique provient du fait que celle-ci est une méthode non supervisée de classification qui permet de détecter les proximités entre les séquences. Larbre obtenu est présenté sur la Figure 61.

Le principal résultat de larbre hiérarchique est que les signatures se regroupent globalement en fonction des espèces. De plus, les relations entre les espèces présentent quelques différences avec elle de larbre consensus. Tout dabord la topologie des gð-protéobactéries est plus en accord avec celle qui est attendue. V. cholerae se rapproche de E. coli et S. typhimurium ( REF _Ref508269306 \h Figure 62). Les signatures de ces dernières sont toujours entre-mélés. C est-à-dire que les signatures de E. coli et S. typhimurium sont regroupés par gène. La différenciation entre ces deux espèces est très récente et les signatures des séquences homologues nont pas eu le temps dacquérir une signature différente. Dans certains cas, on a même le regroupement de signature dun même gène pour le trio despèce E. coli, S. typhimurium et V. cholerae. Les espèces X. axonopodis et N. meningitides ne sont plus regroupées. La distance entre les deux groupes de signatures pour ces deux espèces est si grande que lalgorithme du classement hiérarchique na pas pu les relier. En ce qui concerne les bactéries Gram+, la signature des séquences de C. perfingens est très différente de celles de autres bactérie Gram+. En conséquence, le groupe de signatures de C. perfingens est placé à la base des signatures Gram+.
Ces résultats confirment que la signature est conservée dans des petits morceaux dADN ADDIN EN.CITE Deschavanne200020430000000204Deschavanne, P.Giron, A.Vilain, J.Dufraigne, C.Fertil, B.2000Genomic signature is preserved in short DNA fragmentsBIBE2000 IEEE international Symposium on bio-informatics & biomedical engineeringWashington, USA161-167(Deschavanne et al., 2000). La spécificité despèce est plus forte que lhomologie.

Page précédente : Figure SEQ Figure \* ARABIC 61 - Classication hiérarchique des 393 signatures de mots de 6 lettres. Toutes les signatures appartenant à une même espèce possèdent le même code couleur. Les noms des espèces impliquées dans un groupe sont indiqués sur la gauche de larbre. Les signatures correspondant au gène EF-Tu sont aussi mises en avant.

Figure SEQ Figure \* ARABIC 62 - Partie de larbre de la classification hiérarchique centrée sur les espèces E. coli, S. typhimurium et V. cholerae. Les symboles à gauche des noms correspondent aux gènes.

Dans larbre hiérarchique, certaines signatures se sont regroupées en fonction du gène et non comme pour les autres en fonction de lespèce. Cest le cas de toutes les signatures du gène EF-Tu (Figure 61). Les signatures forment un groupe à la base de V. cholerae/E. coli/S. typhimurium. Les séquences du gène EF-Tu sont tellement conservées que les signatures se rassemblent. Cela peut sexpliquer par le fait que les contraintes sur les séquences du gène EF-Tu sont beaucoup plus fortes que pour les autres gènes. Les deux seules copies du gène qui ne sont pas rassemblés avec les autres sont celles de C. perfingens et A. fulgidus. En observant les arbres de la signature et de la méthode des distances pour ces espèces, on constate que ces séquences sont très différentes des autres, suffisamment pour que les signatures de ces deux espèces soint regroupées dans avec celles de leur espèce et non avec les autres signatures de EF-Tu.
Dautres signatures se placent non pas dans le groupe correspondant à leur espèce dorigine, mais ailleurs dans larbre hiérarchique. Ces signatures sont placées à côté de signature provenant du même gène mais pour dautres espèces. Il faut différencier ce cas du cas précédent concernant le gène EF-Tu. On na pas un arbre de gène incorporé dans larbre hiérarchique, mais des signatures isolées, groupées en paire avec une signature du même gène. Ces placements pourraient provenir de transferts horizontaux. Par exemple, la signature du gène phosphomannomutase de S. typhimurium est placée dans le groupe S. aureus ( REF _Ref508269372 \h Figure 63). Or ces deux espèces ne sont pas proches, donc ce placement amène des questions. Larbre de la signature et celui de la méthode de distances pour le gène phosphomannomutase présentent des relations complètement fausses entre les différentes espèces procaryotes. Malgré cela, les signatures du gène phosphomannomutase pour les autres espèces se sont correctement placées dans le groupe espèce. La position de la copie S. typhimurium pourrait être le résultat dun transfert horizontal. Deux autres transferts horizontaux potentiels peuvent être proposés au vue de larbre hiérarchique :
La signature du gène « elongation factor 2 » pour N. meningitides placée à lintérieur du groupe V. cholerae ( REF _Ref508269306 \h Figure 62).
La signature de « lornithine carbamoyltransferase » pour V. cholerae placée à la base du groupe C. perfingens.

Figure SEQ Figure \* ARABIC 63 - Partie de larbre hiérarchique centré sur le groupe S. aureus.

Pour valider les résultats, nous avons interrogé des banques de transfert horizontaux : HGT-DB ADDIN EN.CITE Garcia-Vallve200320500000000205Garcia-Vallve, S.Guzman, E.Montero, M. A.Romeu, A.2003HGT-DB: a database of putative horizontally transferred genes in prokaryotic complete genomesNucleic Acids Research311187-189(Garcia-Vallve et al., 2003) et HGT Analysis Database ADDIN EN.CITE Nakamura200423000000000230Nakamura, Y.Itoh, T.Matsuda, H.Gojobori, T.2004Biased biological functions of horizontally transferred genes in prokaryotic genomesNature Genetics36760-766(Nakamura et al., 2004). Dans la banque HGT-DB, la séquence du gène phosphomannomutase est annotée comme un transfert horizontal. Par contre, les deux autres transferts horizontaux ne sont pas considérés comme des transferts horizontaux par les deux banques de données. On détecte néanmoins ici les signatures originales qui doivent être étudiées de manière approfondies avant dincorporer ces gènes dans un arbre multi-gène.
Lutilisation de la signature est aisée et rapide et la classification hiérarchique a permis de distinguer des séquences originales, comme les transferts horizontaux. Cela peut être très utile, en tant que prétraitement dans les études multi-gène afin de effectuer le tri des gènes qui seront employés ADDIN EN.CITE Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Daubin et al., 2002; Daubin et al., 2001).

Nous avons utilisé un grand nombre de gènes pour déterminer les relations entre nos 10 espèces procaryotes. Puis on a utilisé des gènes dont on navait pas les séquences pour lensemble des espèces prises en compte. On a donc comparé des séquences non-homologues grâce à la signature.
Pour chaque espèce, j ai calculé la signature pour des mots de 6 lettres à partir des génomes complets. Ces signatures ont été comparées à l aide la métrique du cð2 afin d obtenir une matrice de distance, qui a servi à inférer un arbre phylogénétique à laide de lalgorithme du Naighbor-Joining.

Figure SEQ Figure \* ARABIC 64 - Arbre phylogénétique obtenu par la méthode de la signature, à partir de signatures de génomes complets pour des mots de 6 lettres. La métrique employée est la métrique du cð2.

L arbre obtenu ( REF _Ref508269415 \h Figure 64) à partir des signatures des génomes est le même que celui que l on avait obtenu précédemment. La place de V. cholerae s explique de la même façon. Malgré le fait que V. cholerae soit très proche de E. coli et S. typhimurium, la faible distance entre V. cholerae et B. subtilis conduit ces deux espèces à se placer à la base de leur groupe Gram respectif.

Application de la signature aux séquences non-homologues

Phylogénie des gð-protéobactéries

Nous venons de montrer que lutilisation de signatures de séquences non-homologues comme les génomes complets a permis de déterminer les relations entre les espèces. Pour cela, on a étudié 10 espèces de procaryotes. Pour étendre les résultats, nous nous sommes intéressé à un groupe taxonomique des bactéries bien étudié : les gð-protéobactéries. Nous avons sélectionné 16 espèces appartenant aux gð-protéobactéries dont le génome complet est disponible. Ces espèces peuvent être regroupées en 6 groupes taxonomiques ( REF _Ref508269219 \h Tableau 15).

NomGroupeShewanella oneidensisAlteromonadaleBuchnera aphidicolaEnterobactérieEscherichia coliEnterobactérieSalmonella TyphiEnterobactérieSalmonella typhimuriumEnterobactérieShigella flexneriEnterobactérieYersinia pestisEnterobactérieHaemophilus influenzaePasteurellesPasteurella multocidaPasteurellesPseudomonas aeruginosaPseudomonacePseudomonas putidaPseudomonaceVibrio choleraeVibrionaleVibrio vulnificusVibrionaleXanthomonas axonopodisXanthomonadalesXanthomonas campestrisXanthomonadalesXylella fastidiosaXanthomonadales
Tableau SEQ Tableau \* ARABIC 16 - Nom des espèces de gð-protéobactéries prises en compte.

Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont développé une méthode permettant à partir de la signature dinférer larbre phylogénétique. Dans cet article, 30 espèces procaryotes ont été comparées à laide de mots de 4 lettres dont on avait corrigé la signature par un Markov dordre 0. Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) ont déterminé que cette correction était celle qui permettait dobtenir larbre des signatures le plus congruent avec celui que lon obtenait à partir des séquences dARN 16S. Lutilisation de signatures non corrigées et celles corrigés par la méthode proposée par Karlin ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841Schbath1995219000000002198521272231995FallExceptional motifs in different Markov chain models for a statistical analysis of DNA sequences417-37INRA, Departement de Biometrie et Intelligence Artificielle, Jouy-en-Josas, France.Schbath, S.Prum, B.de Turckheim, E.J Comput BiolBacillus subtilis/geneticsBase SequenceCodon/geneticsComparative StudyDNA, Bacterial/geneticsEscherichia coli/genetics*Markov Chains*Models, StatisticalMolecular Sequence DataResearch Support, Non-U.S. Gov'tSequence Analysis, DNA/*statistics & numerical datahttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=8521272(Karlin et al., 1994; Schbath et al., 1995) ne permettaient pas, quant à elle, dobtenir de bons résultats.
La correction que propose Pride et al consiste à changer les valeurs des fréquences observées des mots en les divisant par la fréquence des mots provenant dun Markov dordre 0 (voir REF _Ref507680671 \r \h 3.6 pour savoir comment construire ces valeurs). Pride emploie alors une distance de City-Block pour comparer les espèces. En utilisant cette correction, on permet de diminuer linfluence de la composition en base. En effet si on effectue une ACP sur les nouvelles fréquences et que lon calcule la corrélation entre les axes de lACP et la composition en base, on observe que les premiers axes sont beaucoup moins corrélés que lorque lon utilise seulement les signatures non corrigées (cf. REF _Ref506899739 \r \h 2.3.4.2). La répartition de la composition en base seffectue sur plusieurs axes, mais globalement de manière moins forte ( REF _Ref508269494 \h Tableau 17).

axe12345pourcentage de variane expliquée24,916,510,17,86,6corrélation à la composition en base0,1780,350,0020,0020,02
Tableau SEQ Tableau \* ARABIC 17 - Corrélation entre les axes de lACP et la composition en base. LACP a été effectué sur 50 signatures de génomes complets, corrigées par un Markov dordre 0. Les corrélations, ainsi que les pourcentages de variance expliquée des 5 premiers axes de lACP sont indiqués.

Un point négatif de la méthode de Pride est quil ne considère quun brin du génome considérant que les deux étaient corrélés ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). Or, en faisant cela, il permet de regrouper les espèces possédant la même organisation, cest-à-dire les gènes dans le même brin. Cependant, nous allons utiliser ce type de correction sur des signatures double-brin afin de déterminer les relations entre les espèces.
Les arbres montrant les relations entre les g-protéobactéries ont êté établis à partir des signatures non corrigées et pour celles corrigées par un Markov dordre 0. Les signatures utilisées seront des signatures double-brin. La métrique qui a été employée est la métrique City Block. Afin détablir une référence, lARN 16S est utilisé à partir de la méthode du maximum de vraisemblance et de la méthode de la signature simple brin. Deux séquences dARN 16S ont été utilisées pour B. adiphidicola, car elles étaient présentes toutes les deux dans les banques de données.
Les quatre arbres inférés sont représentés dans les figures suivantes ( REF _Ref508269525 \h Figure 65, REF _Ref508269526 \h Figure 66, REF _Ref508269528 \h Figure 67 et REF _Ref508269529 \h Figure 68).

Figure SEQ Figure \* ARABIC 65 - Arbre des gð-protéobactéries obtenu à partir des signatures non-corrigées. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.

Figure SEQ Figure \* ARABIC 66 - Arbre des gð-protéobactéries obtenu à partir des signatures corrigées par un Markov d ordre 0. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.

Figure SEQ Figure \* ARABIC 67 - Arbre des gð-protéobactéries obtenu à partir des signatures des séquences d ARN 16S. Mot de 6 lettres et métrique City-Block. Chaque couleur correspond à un groupe taxonomique.

Figure SEQ Figure \* ARABIC 68 - Arbre des gð-protéobactéries obtenu à partir de la méthode du maximum de vraisemblance pour les séquences d ARN 18S. Chaque couleur correspond à un groupe taxonomique.

Les arbres du 16S obtenus par le maximum de vraisemblance et la méthode issue des signatures permettent détablir des relations de référence entre les. Certains groupes taxonomiques sont formés : les Xanthomonadales, Les Pseudonomaces ainsi que les Pasteurelles. Pour les arbres de référence, les entérobactéries sont regroupées de manière différente. Larbre de la signature regroupe cinq entérobactéries : les 2 Salmonella, E. coli, S. flexneri et Y. pestis. Le maximum de vraisemblance ne place pas Y. pestis dans ce groupe, mais juste à sa base. Les deux arbres rapprochent les Xanthomonadales et les Pseudodomaces, et les séquences de B. aphidicola des Pasteurelles. Dans ce dernier cas, les espèces semblent être plus éloignées des autres et possèdent des longues branches. Ces longues branches peuvent expliquer le mauvais placement des Pasteurelles dans les Entérobactéries pour larbre du maximum de vraisemblance (le phénomène dattraction des longues branches).
En ce qui concerne les arbres calculés en utilisant les signatures des génomes complets, les résultats montrent que larbre obtenu en utilisant les signatures corrigées est celui qui est le plus en accord avec les arbres de lARN 16S. On obtient le même groupe dEnterobactéries quavec larbre ARN 16S de la signature, avec les signatures corrigées. Larbre des signatures non corrigés est perturbé par le positionnement du groupe des Xanthomonadales et des Pseudomaces au milieu du groupe des Entérobactéries. Ce groupe possède un longue branche sur larbre et ce placement peut peut-être sexpliquer par lattraction des longues branches. La correction des signatures a permis de replacer ce groupe correctement. Cependant la monophylie des Xanthomonadales nest plus assuré dans aucun des arbres obtenus à partir de signatures de génomes complets. X. fastidiosa se place à la base du groupe (Xanthomonadale + Pseudomace). Une autre différence entre les arbres des génomes complets et ceux de lARN 16S est un rapprochement des Pasteurelles des Vibrionales et de S. oneidensis. Dans larbre des signatures corrigées comme dans celui des signatures de lARN 16S, S. oneidensis et les deux Vibrionales forment un clade. Ce que lon nobserve pas dans larbre du maximum de vraisemblance et dans larbre des signatures non corrigées de génomes complets.
Dans les deux arbres de la signature de génomes complets, B. aphidicola est très mal placée. Elle est toujours positionnée en dehors du clade des Entérobactéries, malgré son appartenance à ce groupe taxonomique. Nous avons donc décidé de nous intéresser aux fréquences des mots de B. aphidicola. Pour cela, nous avons calculé la signature moyenne corrigée des Entérobactéries (en dehors de B. aphidicola), et nous avons comparé les fréquences des mots de cette signature à celles de B. aphidicola qui devrait être une entérobactérie à une autre gð-protéobactérie n appartenant pas à ce groupe : V. cholerae. Les différences entre les fréquences corrigées des mots sont représentées sur la REF _Ref508269589 \h Figure 69, et la moyenne et l écart type des deux distributions sont indiqués dans le REF _Ref508269602 \h Tableau 18.

Figure SEQ Figure \* ARABIC 69 - Différence de fréquences corrigées de mot de 6 lettre entre la signature moyenne corrigée des entérobactéries et de deux espèces : V. cholerae et B. aphidicola.

B. aphidicolaV. choleraedifférence moyenne0,30460,2167écart type0,29030,1943
Tableau SEQ Tableau \* ARABIC 18 - Distribution de la valeur absolue des différences de fréquences corrigées de mots entre la signature moyenne des entérobactéries et de deux espèces : V. cholerae et B. aphodicola.

Comme on peut le voir, B. aphidicola est beaucoup plus éloignée des Entérobactéries en terme de fréquences de mots que V. cholerae. Il est donc normal que la signature ne permettent pas de relier B. aphidicola aux Entérobactéries. Pour expliquer ce résultat, il est nécessaire de rappeler la nature de B. aphidicola. B. aphidicola est une bactérie symbiotique. Elle a un génome très petit (650 kb) comparé à ceux des autres Entérobactéries non symbiotiques (4 à 5 Mb). Cette compression de génome provient de sa nature symbiotique et est le résultat de nombreuses pertes de matériels génétiques. B. aphidicola a subi de très fortes pressions évolutives qui ont conduit à un changement très important de sa signature. Elle a effectué de nombreux transferts horizontaux avec son hôte ADDIN EN.CITE Moran200127000000000270117902572122001The process of genome shrinkage in the obligate symbiont Buchnera aphidicolaRESEARCH0054Department of Ecology and Evolutionary Biology, University of Arizona, Tucson, AZ 85721, USA. nmoran@email.arizona.eduMoran, N. A.Mira, A.Genome BiolBuchnera/*genetics/metabolismComparative StudyDNA RepairDNA, Bacterial/geneticsDNA, IntergenicEscherichia coli/genetics*Evolution, Molecular*Gene DeletionGene Expression Regulation, BacterialGene FrequencyGene Rearrangement*Genome, BacterialPhylogenyPromoter Regions (Genetics)RNA, Bacterial/geneticsResearch Support, U.S. Gov't, Non-P.H.S.SymbiosisSyntenyhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11790257(Moran and Mira, 2001). Ces espèces symbiotiques ont été décrites dans la littérature comme posant de nombreux problèmes phylogénétiques ADDIN EN.CITE Itoh2002269000000002691223536899202002Oct 1Acceleration of genomic evolution caused by enhanced mutation rate in endocellular symbionts12944-8Institute of Molecular Evolutionary Genetics and Department of Biology, Pennsylvania State University, 328 Mueller Laboratory, University Park, PA 16802, USA.Itoh, T.Martin, W.Nei, M.Proc Natl Acad Sci U S ABuchnera/*geneticsDatabasesEscherichia coli/genetics*Evolution, MolecularHaemophilus influenzae/genetics*MutationPhylogenyRNA, Ribosomal, 16S/metabolismResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12235368(Itoh et al., 2002).
Les arbres des signatures de génomes complets pour des mots de 6 lettres possèdent un ratio branches internes/branches externes beaucoup plus grand que celui des signatures dARN 16S. En utilisant les génomes complets, on prend en compte plus dinformation, résolvant ainsi un problème soulevé lors de létude statistique des arbres (voir le chapitre REF _Ref507768258 \r \h 3.4.1) : la résolution des relations entre les groupes inférés.

Augmentation du nombre despèces prises en compte et technique de superarbre

Nous venons de montrer que les signatures de génomes complets permettaient dobtenir de bons résultats. Or la signature permet de comparer rapidement non seulement les génomes complets, mais aussi des génomes partiels. Nous avons étendu notre étude des relations entre les procaryotes à lensemble des espèces dont au moins 50 kb de séquences sont connues. Le choix des 50 kb sexplique par le résultat de la classification des plus proches voisins (cf REF _Ref506899739 \r \h \* MERGEFORMAT 2.3.4.2). Pour des signatures de séquences de 50 kb, les résultats montrent que les signatures sont quasiment toujours bien classées. Nous avons sélectionné 551 espèces de procaryotes, qui sont regroupées en 16 groupes taxonomiques pour 510 dentre elles. Les 16 groupes taxonomiques sont les suivants : crénarchées, euryarchées, actinobactéries, bacillales, lactobacillales, clostridiales, paramycetes, bactéroïdes, cyanobactéries, að-protéobactéries, bð-protéobactéries, dð-protéobactéries, eð-protéobactéries, gð-protéobactéries, spirochètes, thermophiles.

Les noms des espèces sélectionnées par groupe taxonomique sont indiqués ci-dessous.

Crénarchées : Acidianus ambivalens, Acidianus brierleyi, Aeropyrum pernix, Cenarchaeum symbiosum, Desulfurococcus mobilis, Metallosphaera sedula, Pyrobaculum aerophilum, Pyrobaculum islandicum, Pyrobaculum oguniense, Pyrodictium occultum, Staphylothermus marinus, Sulfolobus acidocaldarius, Sulfolobus shibatae, Sulfolobus solfataricus, Sulfolobus tengchongensis, Sulfolobus tokodaii, Sulfurisphaera ohwakuensis, Thermofilum pendens, Thermoproteus tenax.
Euryarchées : Archaeoglobus fulgidus, Ferroplasma acidarmanus, Ferroplasma acidarmanus Faci03, Ferroplasma acidarmanus Type I, Ferroplasma sp. Type II, Haloarcula japonica, Haloarcula marismortui, Haloarcula vallismortis, Halobacterium cutirubrum, Halobacterium halobium, Halobacterium salinarum, Halobacterium sp NRC-1, Halococcus morrhuae, Haloferax mediterranei, Haloferax volcanii, Methanobacterium thermoautotrophicum, Methanobacterium wolfei, Methanobrevibacter smithii, Methanococcoides burtonii, Methanococcus jannaschii, Methanococcus maripaludis, Methanococcus vannielii, Methanococcus voltae, Methanopyrus kandleri, Methanosaeta concilii, Methanosarcina acetivorans, Methanosarcina barkeri, Methanosarcina barkeri fusaro, Methanosarcina mazei, Methanosarcina thermophila, Methanosphaera stadtmanae, Methanothermococcus thermolithotrophicus, Nanoarchaeum equitans Kin4-M, Natrialba magadii, Natronobacterium pharaonis, Picrophilus torridus DSM 9790, Pyrococcus abyssi, Pyrococcus furiosus, Pyrococcus horikoshii, Pyrococcus kodakaraensis, Pyrococcus woesei, Thermococcus celer, Thermococcus fumicolans, Thermococcus hydrothermalis, Thermococcus kodakaraensis, Thermococcus litoralis, Thermoplasma acidophilum, Thermoplasma volcanium, Thermoplasmatales archaeon Gp1.
Actinobactéries : Actinomadura madurae, Actinomadura verrucosospora, Actinomyces naeslundii, Actinomyces viscosus, Actinoplanes friuliensis, Actinoplanes teichomyceticus, Actinosynnema pretiosum, Aeromicrobium erythreum, Agromyces mediolanus, Amycolatopsis azurea, Amycolatopsis mediterranei, Amycolatopsis methanolica, Amycolatopsis orientalis, Arcanobacterium pyogenes, Arthrobacter aurescens, Arthrobacter globiformis, Arthrobacter ilicis, Arthrobacter nicotinovorans, Arthrobacter sp, Bifidobacterium adolescentis, Bifidobacterium animalis, Bifidobacterium bifidum, Bifidobacterium breve, Bifidobacterium infantis, Bifidobacterium lactis, Bifidobacterium longum DJO10A, Bifidobacterium longum NCC2705, Brevibacterium flavum, Brevibacterium linens, Cellulomonas fimi, Cellulomonas pachnodae, Clavibacter michiganensis, Corynebacterium ammoniagenes, Corynebacterium callunae, Corynebacterium crenatum, Corynebacterium diphtheriae, Corynebacterium efficiens, Corynebacterium glutamicum, Corynebacterium jeikeium, Corynebacterium pseudotuberculosis, Corynebacterium striatum, Corynebacterium ulcerans, Frankia sp. EuIK1, Kineococcus radiotolerans, Kitasatospora griseola, Kitasatospora setae, Lechevalieria aerocolonigenes, Leifsonia xyli, Microbispora bispora, Micrococcus luteus, Micromonospora chersinia, Micromonospora echinospora, Micromonospora griseorubida, Micromonospora megalomicea, Micromonospora purpurea, Mycobacterium abscessus, Mycobacterium aurum, Mycobacterium avium, Mycobacterium avium paratuberculosis, Mycobacterium bovis, Mycobacterium chelonae, Mycobacterium fortuitum, Mycobacterium gastri, Mycobacterium leprae TN, Mycobacterium mageritense, Mycobacterium marinum, Mycobacterium microti, Mycobacterium rhodesiae, Mycobacterium smegmatis, Mycobacterium tuberculosis, Mycobacterium tuberculosis CDC1551, Mycobacterium tuberculosis H37RV, Mycobacterium ulcerans, Mycobacterium vanbaalenii, Nocardia lactamdurans, Nocardia uniformis, Nocardioides sp., Propionibacterium acnes KPA171202, Propionibacterium freudenreichii, Renibacterium salmoninarum, Rhodococcus equi, Rhodococcus erythropolis, Rhodococcus fascians, Rhodococcus globerulus, Rhodococcus opacus, Rhodococcus rhodochrous, Rhodococcus ruber, Rhodococcus sp. AD45, Rhodococcus sp. CIR2, Rhodococcus sp. I24, Rubrobacter xylanophilus, Saccharopolyspora erythraea, Saccharopolyspora spinosa, Saccharothrix mutabilis, Streptomyces acidiscabies, Streptomyces aerocolonigenes, Streptomyces albulus, Streptomyces albus, Streptomyces ambofaciens, Streptomyces ansochromogenes, Streptomyces antibioticus, Streptomyces arenae, Streptomyces argillaceus, Streptomyces atroolivaceus, Streptomyces aureofaciens, Streptomyces avermitilis, Streptomyces caelestis, Streptomyces carzinostaticus, Streptomyces cattleya, Streptomyces cavourensis, Streptomyces chrysomallus, Streptomyces cinnamonensis, Streptomyces cinnamoneus, Streptomyces citricolor, Streptomyces clavuligerus, Streptomyces coelicolor, Streptomyces collinus, Streptomyces diastaticus, Streptomyces exfoliatus, Streptomyces flavopersicus, Streptomyces fradiae, Streptomyces galbus, Streptomyces galilaeus, Streptomyces ghanaensis, Streptomyces glaucescens, Streptomyces globisporus, Streptomyces granaticolor, Streptomyces griseochromogenes, Streptomyces griseoflavus, Streptomyces griseolosporeus, Streptomyces griseoruber, Streptomyces griseus, Streptomyces halstedii, Streptomyces hygroscopicus, Streptomyces kanamyceticus, Streptomyces kaniharaensis, Streptomyces kasugaensis, Streptomyces laurentii, Streptomyces lavendulae, Streptomyces lincolnensis, Streptomyces lipmanii, Streptomyces lividans, Streptomyces macromomyceticus, Streptomyces maritimus, Streptomyces murayamaensis, Streptomyces nanchangensis, Streptomyces narbonensis, Streptomyces natalensis, Streptomyces netropsis, Streptomyces nodosus, Streptomyces nogalater, Streptomyces noursei, Streptomyces olivaceoviridis, Streptomyces olivaceus, Streptomyces parvulus, Streptomyces peucetius, Streptomyces pristinaespiralis, Streptomyces purpurascens, Streptomyces resistomycificus, Streptomyces reticuli, Streptomyces rimosus, Streptomyces rishiriensis, Streptomyces rochei, Streptomyces roseochromogenes, Streptomyces roseofulvus, Streptomyces scabies, Streptomyces sp MA6548, Streptomyces sp. MA6548, Streptomyces spectabilis, Streptomyces spheroides, Streptomyces tendae, Streptomyces tenebrarius, Streptomyces thermotolerans, Streptomyces thermoviolaceus, Streptomyces toyocaensis, Streptomyces venezuelae, Streptomyces verticillus, Streptomyces vinaceus, Streptomyces violaceoruber, Streptomyces virginiae, Streptomyces viridifaciens, Streptomyces viridochromogenes, Streptomyces wedmorensis, Symbiobacterium thermophilum, Thermobifida fusca, Thermobifida fusca Tfus02, Thermomonospora chromogena, Thermomonospora curvata, Thermomonospora fusca, Tropheryma whipplei str. Twist, Tropheryma whipplei TW08 27.
Bacillales : Alicyclobacillus acidocaldarius, Aneurinibacillus thermoaerophilus, Bacillus alcalophilus, Bacillus amyloliquefaciens, Bacillus anthracis, Bacillus anthracis A2012, Bacillus anthracis Australia 94, Bacillus anthracis CNEVA-9066, Bacillus anthracis str. A1055, Bacillus anthracis str. Ames 0581, Bacillus anthracis str. Sterne, Bacillus anthracis str. Vollum, Bacillus brevis, Bacillus caldolyticus, Bacillus caldotenax, Bacillus cereus ATCC 10987, Bacillus cereus ATCC 14579, Bacillus cereus G9241, Bacillus cereus ZK, Bacillus circulans, Bacillus clausii, Bacillus ehimensis, Bacillus firmus, Bacillus halodurans, Bacillus licheniformis, Bacillus licheniformis ATCC14580, Bacillus megaterium, Bacillus mojavensis, Bacillus mycoides, Bacillus pasteurii, Bacillus polymyxa, Bacillus pseudofirmus, Bacillus pumilus, Bacillus sp, Bacillus sp. BP23, Bacillus sphaericus, Bacillus stearothermophilus, Bacillus subtilis, Bacillus thermoglucosidasius, Bacillus thermoleovorans, Bacillus thuringiensis, Brevibacillus agri, Brevibacillus brevis, Brevibacillus choshinensis, Caldibacillus cellulovorans, Exiguobacterium sp. 255-15, Gemella haemolysans, Geobacillus kaustophilus, Geobacillus kaustophilus HTA426, Geobacillus stearothermophilus, Geobacillus thermocatenulatus, Listeria innocua, Listeria ivanovii, Listeria monocytogenes, Listeria monocytogenes h7858, Listeria monocytogenes str. 4b , Listeria seeligeri, Listeria welshimeri, Oceanobacillus iheyensis, Paenibacillus alginolyticus, Paenibacillus azotofixans, Paenibacillus lentimorbus, Paenibacillus macerans, Paenibacillus polymyxa, Paenibacillus popilliae, Sporosarcina globispora, Staphylococcus aureus COL, Staphylococcus aureus MRSA252, Staphylococcus aureus MSSA476, Staphylococcus aureus Mu50, Staphylococcus aureus MW2, Staphylococcus aureus N315, Staphylococcus capitis, Staphylococcus caprae, Staphylococcus carnosus, Staphylococcus epidermidis, Staphylococcus epidermidis RP62A, Staphylococcus haemolyticus, Staphylococcus hominis, Staphylococcus intermedius, Staphylococcus lentus, Staphylococcus lugdunensis, Staphylococcus saprophyticus, Staphylococcus simulans, Staphylococcus warneri, Staphylococcus xylosus, Thermoactinomyces vulgaris.
Lactobacillales : Abiotrophia defectiva, Carnobacterium divergens, Carnobacterium piscicola, Enterococcus avium, Enterococcus casseliflavus, Enterococcus faecalis V583, Enterococcus faecium, Enterococcus faecium Efae02, Enterococcus flavescens, Enterococcus gallinarum, Enterococcus hirae, Enterococcus mundtii, Lactobacillus acidophilus, Lactobacillus brevis, Lactobacillus casei, Lactobacillus collinoides, Lactobacillus crispatus, Lactobacillus delbrueckii, Lactobacillus fermentum, Lactobacillus gasseri, Lactobacillus helveticus, Lactobacillus hilgardii, Lactobacillus johnsonii, Lactobacillus paracollinoides, Lactobacillus pentosus, Lactobacillus plantarum WCFS1, Lactobacillus reuteri, Lactobacillus rhamnosus, Lactobacillus sakei, Lactobacillus salivarius, Lactobacillus sanfranciscensis, Lactococcus lactis, Lactococcus raffinolactis, Leuconostoc citreum, Leuconostoc mesenteroides, Leuconostoc paramesenteroides, Oenococcus oeni, Oenococcus oeni PSU-1, Pediococcus damnosus, Pediococcus pentosaceus, Streptococcus agalactiae 2603V, Streptococcus agalactiae NEM316, Streptococcus anginosus, Streptococcus bovis, Streptococcus constellatus, Streptococcus criceti, Streptococcus crista, Streptococcus cristatus, Streptococcus downei, Streptococcus dysgalactiae, Streptococcus equi, Streptococcus gordonii, Streptococcus iniae, Streptococcus intermedius, Streptococcus mitis, Streptococcus mitis NCTC 12261, Streptococcus mutans UA159, Streptococcus oralis, Streptococcus parasanguis, Streptococcus pneumoniae, Streptococcus pneumoniae R6, Streptococcus pyogenes, Streptococcus pyogenes M1 GAS, Streptococcus pyogenes MGAS10394, Streptococcus pyogenes MGAS315, Streptococcus pyogenes MGAS8232, Streptococcus pyogenes SSI-1, Streptococcus salivarius, Streptococcus sanguinis, Streptococcus sanguis, Streptococcus sobrinus, Streptococcus suis, Streptococcus thermophilus, Streptococcus uberis, Streptococcus zooepidemicus, Tetragenococcus halophilus.
Clostridiales : Acetivibrio cellulolyticus, Acetobacterium woodii, Butyrivibrio fibrisolvens, Caldicellulosiruptor saccharolyticus, Caldicellulosiruptor sp. Tok7B, Clostridium acetobutylicum 824, Clostridium beijerinckii, Clostridium bifermentans, Clostridium botulinum, Clostridium butyricum, Clostridium cellulolyticum, Clostridium cellulovorans, Clostridium difficile, Clostridium histolyticum, Clostridium josui, Clostridium longisporum, Clostridium paraputrificum, Clostridium pasteurianum, Clostridium perfringens, Clostridium saccharobutylicum, Clostridium saccharoperbutylacetonicum, Clostridium septicum, Clostridium sordellii, Clostridium sporogenes, Clostridium stercorarium, Clostridium sticklandii, Clostridium tetani E88, Clostridium thermocellum, Desulfitobacterium dehalogenans, Desulfitobacterium hafniense, Finegoldia magna, Heliobacillus mobilis, Moorella thermoacetica, Ruminococcus albus, Ruminococcus flavefaciens, Ruminococcus gnavus, Selenomonas ruminantium, Thermoanaerobacter ethanolicus, Thermoanaerobacter tengcongensis, Thermoanaerobacterium thermosaccharolyticum, Thermoanaerobacterium thermosulfurigenes.
Paramycetes : Acholeplasma laidlawii, Erysipelothrix rhusiopathiae, Mesoplasma florum L1, Mycoplasma agalactiae, Mycoplasma arthritidis, Mycoplasma bovis, Mycoplasma capricolum, Mycoplasma conjunctivae, Mycoplasma fermentans, Mycoplasma gallisepticum, Mycoplasma genitalium G37, Mycoplasma hominis, Mycoplasma hyopneumoniae, Mycoplasma hyopneumoniae 232, Mycoplasma hyorhinis, Mycoplasma mobile 163K, Mycoplasma mycoides, Mycoplasma penetrans, Mycoplasma pneumoniae, Mycoplasma pneumoniae M129, Mycoplasma pulmonis, Mycoplasma synoviae, Onion yellows phytoplasma, Phytoplasma, Spiroplasma citri, Spiroplasma kunkelii, Ureaplasma parvum, Ureaplasma urealyticum.
Bactéroïdes : Bacteroides cellulosolvens, Bacteroides forsythus, Bacteroides fragilis, Bacteroides ovatus, Bacteroides thetaiotaomicron, Bacteroides uniformis, Chlorobium limicola, Chlorobium tepidum, Chlorobium vibrioforme, Chryseobacterium meningosepticum, Cytophaga hutchinsonii, Cytophaga hutchinsonii Chut03, Flavobacterium johnsoniae, Porphyromonas gingivalis, Prevotella albensis, Prevotella bryantii, Prevotella intermedia, Prevotella intermedia 17, Prevotella ruminicola, Rhodothermus marinus, Tannerella forsythensis.
Cyanobactéries : Acaryochloris marina, Agmenellum quadruplicatum, Anabaena cylindrica, Anabaena sp, Anabaena variabilis, Aphanizomenon ovalisporum, Calothrix viguieri, Crocosphaera watsonii, Cyanothece sp. PCC 8801, Fremyella diplosiphon, Gloeobacter violaceus, Lyngbya majuscula, Mastigocladus laminosus, Microcystis aeruginosa, Nodularia spumigena, Nostoc punctiforme, Nostoc punctiforme PCC 73102, Nostoc sp. PCC 7120, Planktothrix agardhii, Plectonema boryanum, Prochlorococcus marinus CCMP1375, Prochlorococcus marinus CCMP1378, Prochlorococcus marinus MIT 9313, Prochlorothrix hollandica, Spirulina platensis, Synechococcus elongatus, Synechococcus elongatus PCC 6301, Synechococcus PCC7002, Synechococcus sp, Synechococcus sp. WH 8102, Synechococcus sp. WH 8102, Synechococcus vulcanus, Synechocystis sp PCC6803, Thermosynechococcus elongatus, Trichodesmium erythraeum, Trichodesmium erythraeum Tery03.
að-Protéobactéries : Acetobacter aceti, Acetobacter diazotrophicus, Acetobacter pasteurianus, Acetobacter xylinus, Acidiphilium rubrum, Afipia felis, Agrobacterium radiobacter, Agrobacterium rhizogenes, Agrobacterium tumefaciens C58, Agrobacterium tumefaciens wash, Agrobacterium vitis, Anaplasma centrale, Anaplasma marginale, Anaplasma marginale str. St. Maries, Anaplasma phagocytophila, Astrakhan rickettsia, Azorhizobium caulinodans, Azospirillum brasilense, Azospirillum irakense, Azospirillum lipoferum, Bartonella bacilliformis, Bartonella clarridgeiae, Bartonella grahamii, Bartonella henselae, Bartonella quintana, Bartonella tribocorum, Bartonella vinsonii, Bradyrhizobium elkanii, Bradyrhizobium japonicum, Brucella abortus, Brucella melitensis, Brucella suis 1330, Caulobacter crescentus, Caulobacter vibrioides, Cowdria ruminantium, Ehrlichia canis, Ehrlichia chaffeensis, Ehrlichia phagocytophila, Ehrlichia risticii, Ehrlichia ruminantium, Ehrlichia ruminantium str. Gardel, Ehrlichia ruminantium str. Welgevonden, Ehrlichia sp CGE agent, Gluconacetobacter diazotrophicus, Gluconacetobacter europaeus, Gluconacetobacter xylinus, Gluconobacter oxydans, Hyphomicrobium chloromethanicum, Hyphomicrobium methylovorum, Hyphomicrobium zavarzinii, Magnetospirillum gryphiswaldense, Magnetospirillum magnetotacticum , Marinosulfonomonas methylotropha, Mesorhizobium huakuii, Mesorhizobium loti, Mesorhizobium sp. BNC1, Methylobacterium chloromethanicum, Methylobacterium dichloromethanicum, Methylobacterium extorquens, Methylobacterium sp CT4, Methylosinus trichosporium, Nitrobacter winogradskyi, Novosphingobium aromaticivorans, Ochrobactrum anthropi, Oligotropha carboxidovorans, Paracoccus denitrificans, Paracoccus pantotrophus, Paracoccus zeaxanthinifaciens, Rhizobium etli, Rhizobium fredii, Rhizobium galegae, Rhizobium leguminosarum, Rhizobium leguminosarum viciae, Rhizobium lupini, Rhizobium meliloti, Rhizobium sp, Rhizobium sp. NGR234, Rhizobium trifolii, Rhizobium tropici, Rhizobium vitis, Rhodobacter blasticus, Rhodobacter capsulatus, Rhodobacter sphaeroides, Rhodobacter sphaeroides denitrificans, Rhodocista centenaria, Rhodopseudomonas palustris, Rhodospirillum centenum, Rhodospirillum rubrum, Rhodovulum sulfidophilum, Rickettsia aeschlimanni, Rickettsia africae, Rickettsia akari, Rickettsia australis, Rickettsia conorii Malish 7, Rickettsia felis, Rickettsia heilongjiangensis, Rickettsia helvetica, Rickettsia honei, Rickettsia japonica, Rickettsia massiliae, Rickettsia mongolotimonae, Rickettsia montanensis, Rickettsia parkeri, Rickettsia prowazekii, Rickettsia rhipicephali, Rickettsia rickettsii, Rickettsia sibirica, Rickettsia slovaca, Rickettsia typhi str. wilmington, Roseobacter denitrificans, Silicibacter pomeroyi DSS-3, Silicibacter sp. TM1040, Sinorhizobium fredii, Sinorhizobium medicae, Sinorhizobium meliloti 1021, Sphingobium chlorophenolicum, Sphingomonas elodea, Sphingomonas herbicidovorans, Sphingomonas macrogoltabidus, Sphingomonas paucimobilis, Sphingomonas S88, Sphingomonas sp, Sphingopyxis macrogoltabida, Starkeya novella, Wolbachia endosymbiont DM, Wolbachia pipientis wMel, Xanthobacter autotrophicus, Xanthobacter flavus, Zymomonas mobilis, Zymomonas mobilis subsp. mobilis ZM4.
bð-Protéobactéries : Achromobacter cycloclastes, Achromobacter xylosoxidans, Acidovorax avenae avenae, Alcaligenes eutrophus, Alcaligenes faecalis, Alcaligenes xylosoxidans, Azoarcus evansii, Azoarcus sp. EbN1, Bordetella avium, Bordetella bronchiseptica, Bordetella parapertussis, Bordetella pertussis, Burkholderia caryophylli, Burkholderia cenocepacia, Burkholderia cepacia, Burkholderia cepacia R1808, Burkholderia cepacia R18194, Burkholderia fungorum, Burkholderia fungorum LB400, Burkholderia gladioli, Burkholderia glumae, Burkholderia kururiensis, Burkholderia mallei, Burkholderia mallei atcc 23344, Burkholderia multivorans, Burkholderia pseudomallei, Burkholderia pseudomallei K96243, Burkholderia pyrrocinia, Burkholderia sacchari, Burkholderia sp. RP007, Burkholderia thailandensis, Candidatus Glomeribacter, Candidatus Tremblaya, Chromobacterium violaceum, Collimonas fungivorans, Comamonas testosteroni, Dechloromonas aromatica, Delftia acidovorans, Eikenella corrodens, Herbaspirillum seropedicae, Hydrogenophaga pseudoflava, Hydrogenophilus thermoluteolus, Ideonella dechloratans, Leptothrix cholodnii, Leptothrix discophora, Methylobacillus flagellatus, Methylophilus methylotrophus, Methylovorus sp SS1, Neisseria gonorrhoeae, Neisseria lactamica, Neisseria meningitidis MC58, Neisseria meningitidis Z2491, Neisseria polysaccharea, Neisseria subflava, Nitrosomonas europaea, Pigmentiphaga kullae, Polaromonas sp JS666, Pseudomonas butanovora, Pseudomonas cepacia, Pseudomonas huttiensis, Pseudomonas lemoignei, Ralstonia eutropha, Ralstonia metallidurans, Ralstonia oxalatica, Ralstonia pickettii, Ralstonia solanacearum, Ralstonia sp, Ralstonia sp. E2, Roseateles depolymerans, Rubrivivax gelatinosus, Thauera aromatica, Thauera selenatis, Thiobacillus denitrificans, Thiobacillus intermedius, Thiobacillus sp. KCT001, Variovorax paradoxus, Vitreoscilla sp, Vogesella indigofera.
dð-Protéobactéries : Angiococcus disciformis, Bacteriovorax marinus, Bdellovibrio bacteriovorus, Bilophila wadsworthia, Cystobacter fuscus, Desulfobacula toluolica, Desulfotalea psychrophila, Desulfovibrio desulfuricans, Desulfovibrio gigas, Desulfovibrio vulgaris, Geobacter metallireducens, Geobacter metallireducens GS-15, Geobacter sulfurreducens, Malonomonas rubra, Melittangium lichenicola, Myxococcus xanthus, Polyangium cellulosum, Sorangium cellulosum, Stigmatella aurantiaca, Thermodesulforhabdus norvegicus.
eð-Protéobactéries : Campylobacter coli, Campylobacter coli RM2228, Campylobacter fetus, Campylobacter hyoilei, Campylobacter jejuni, Campylobacter jejuni RM1221, Campylobacter lari, Campylobacter rectus, Campylobacter sp, Dehalospirillum multivorans, Helicobacter bilis, Helicobacter bizzozeronii, Helicobacter felis, Helicobacter hepaticus, Helicobacter mustelae, Helicobacter pylori 26695, Helicobacter pylori J99, Wolinella succinogenes.
gð-Protéobactéries : Acidithiobacillus ferroxidans, Acinetobacter baumannii, Acinetobacter calcoaceticus , Acinetobacter lwoffii, Acinetobacter sp, Acinetobacter sp. ADP1, Actinobacillus actinomycetemcomitans, Actinobacillus pleuropneumoniae, Actinobacillus suis, Aeromonas caviae, Aeromonas hydrophila, Aeromonas punctata, Aeromonas salmonicida, Aeromonas sobria, Aeromonas veronii, Alcanivorax borkumensis, Allochromatium vinosum, Azotobacter chroococcum, Azotobacter vinelandii, Buchnera aphidicola 1, Buchnera aphidicola 2, Buchnera aphidicola 3, Candidatus Blochmannia, Candidatus Portiera, Carsonella ruddii, Cellvibrio japonicus, Cellvibrio mixtus, Chromatium vinosum, Citrobacter freundii, Citrobacter rodentium, Colwellia maris, Coxiella burnetii, Coxiella burnetii rsa 493, Dichelobacter nodosus, Edwardsiella ictaluri, Edwardsiella tarda, Enterobacter aerogenes, Enterobacter cloaceae, Enterobacter intermedius, Erwinia amylovora, Erwinia carotovora, Erwinia carotovora atroseptica, Erwinia chrysanthemi, Erwinia herbicola, Erwinia pyrifoliae, Erwinia rhapontici, Escherichia coli 042, Escherichia coli CFT073, Escherichia coli E2348-69, Escherichia coli K-12 W3110, Escherichia coli MG1655, Escherichia coli O157-H7, Escherichia coli O157-H7 1, Escherichia fergusonii, Flavobacterium lutescens, Francisella tularensis, Francisella tularensis subsp. tularensis Schu 4, Frateuria sp. ANA-18, Haemophilus aegyptius, Haemophilus ducreyi, Haemophilus influenzae, Haemophilus influenzae 86-028NP, Haemophilus influenzae R2866, Haemophilus paragallinarum, Haemophilus parasuis, Haemophilus somnus, Hafnia alvei, Halomonas elongata, Halomonas maura, Histophilus somni, Hydrogenovibrio marinus, Idiomarina loihiensis L2TR, Klebsiella aerogenes, Klebsiella oxytoca, Klebsiella pneumoniae, Kluyvera ascorbata, Kluyvera cryocrescens, Legionella longbeachae, Legionella pneumophila, Listonella anguillarum, Lysobacter enzymogenes, Lysobacter lactamgenus, Mannheimia glucosida, Mannheimia haemolytica, Mannheimia succiniciproducens MBEL55E, Methylococcus capsulatus, Microbulbifer degradans, Microbulbifer degradans Mdeg03, Microbulbifer hydrolyticus, Moraxella bovis, Moraxella catarrhalis, Morganella morganii, Moritella marina, Nitrosococcus oceani, Oleispira antarctica, Pantoea agglomerans, Pantoea citrea, Pantoea stewartii, Pasteurella aerogenes, Pasteurella haemolytica, Pasteurella multocida PM70, Pasteurella trehalosi, Pectobacterium atrosepticum, Pectobacterium carotovorum, Pectobacterium chrysanthemi, Photobacterium damselae, Photobacterium phosphoreum, Photobacterium profundum, Photorhabdus asymbiotica, Photorhabdus luminescens, Photorhabdus temperata, Piscirickettsia salmonis, Plesiomonas shigelloides, Proteus mirabilis, Proteus rettgeri, Proteus vulgaris, Providencia rettgeri, Pseudoalteromonas haloplanktis, Pseudoalteromonas sp S9, Pseudoalteromonas tunicata, Pseudomonas abietaniphila, Pseudomonas aeruginosa PA01, Pseudomonas aeruginosa UCBPP-PA14, Pseudomonas alcaligenes, Pseudomonas aurantiaca, Pseudomonas aureofaciens, Pseudomonas azelaica, Pseudomonas brassicacearum, Pseudomonas cellulosa, Pseudomonas chlororaphis, Pseudomonas diterpeniphila, Pseudomonas fluorescens, Pseudomonas fluorescens PfO-1, Pseudomonas mendocina, Pseudomonas oleovorans, Pseudomonas pavonaceae, Pseudomonas pseudoalcaligenes, Pseudomonas putida KT2440, Pseudomonas resinovorans, Pseudomonas savastanoi, Pseudomonas sp, Pseudomonas sp DJ77, Pseudomonas sp. G-179, Pseudomonas straminea, Pseudomonas stutzeri, Pseudomonas syringae, Pseudomonas syringae B728a, Pseudomonas syringae glycinea, Pseudomonas tolaasii, Pseudomonas xiamenensis, Psychrobacter sp. 273-4, Rahnella aquatilis, Raoultella terrigena, Salmonella bongori, Salmonella choleraesuis, Salmonella dublin, Salmonella enterica, Salmonella enterica PT4, Salmonella enterica subsp. enterica serovar Paratypi A str. ATCC 9150, Salmonella enterica typhi Ty2, Salmonella enteritidis, Salmonella gallinarum 287-91, Salmonella paratyphi A, Salmonella Typhi CT18, Salmonella typhimurium, Salmonella typhimurium DT104, Salmonella typhimurium SL1344, Serratia fonticola, Serratia liquefaciens, Serratia marcescens, Serratia marcescens strain Db11, Serratia plymuthica, Shewanella frigidimarina, Shewanella oneidensis MR-1, Shewanella putrefaciens, Shewanella putrefasciens, Shewanella sp, Shewanella violacea, Shigella boydii, Shigella dysenteriae, Shigella dysenteriae M131649, Shigella flexneri 2a, Shigella flexneri 2a str. 2457T, Shigella sonnei, Shigella sonnei 53G, Sodalis glossinidius, Stenotrophomonas maltophilia, Thiobacillus ferrooxidans, Thiobacillus neapolitanus, Thiocapsa roseopersicina, Thiocystis violacea, Vibrio alginolyticus, Vibrio anguillarum, Vibrio cholerae, Vibrio fischeri, Vibrio harveyi, Vibrio metschnikovii, Vibrio mimicus, Vibrio parahaemolyticus, Vibrio proteolyticus, Vibrio salmonicida, Vibrio vulnificus CMCP6, Vibrio vulnificus YJ016, Wigglesworthia brevipalpis, Wigglesworthia glossinidia, Xanthomonas albilineans, Xanthomonas axonopodis citri, Xanthomonas campestris, Xanthomonas campestris phaseoli, Xanthomonas campestris vesicatoria, Xanthomonas oryzae, Xenorhabdus bovienii, Xenorhabdus nematophilus, Xylella fastidiosa, Xylella fastidiosa Temecula1, Yersinia aldovae, Yersinia bercovieri, Yersinia enterocolitica, Yersinia frederiksenii, Yersinia intermedia, Yersinia kristensenii, Yersinia mollaretii, Yersinia pestis, Yersinia pestis KIM, Yersinia pestis mediaevails, Yersinia pestis strain CO92, Yersinia pseudotuberculosis, Yersinia pseudotuberculosis IP32953, Yersinia rohdei, Yersinia ruckeri.
Spirochètes : Borrelia afzelii, Borrelia burgdorferi, Borrelia burgdorferi B31, Borrelia garinii, Borrelia hermsii, Brachyspira hyodysenteriae, Brachyspira pilosicoli, Leptospira biflexa, Leptospira borgpetersenii, Leptospira interrogans copen, Leptospira interrogans serovar, Leptospira interrogans serovar Lai str. 56601, Leptospira kirschneri, Serpulina hyodysenteriae, Spirochaeta aurantia, Treponema denticola, Treponema lecithinolyticum, Treponema maltophilum, Treponema medium, Treponema pallidum.
Thermophiles : Aquifex aeolicus, Aquifex pyrophilus, Deinococcus radiodurans, Fervidobacterium pennivorans, Hydrogenobacter thermophilus, Meiothermus ruber, Thermotoga maritima, Thermotoga neapolitana, Thermotoga sp RQ2, Thermus aquaticus, Thermus aquaticus flavus, Thermus brockianus, Thermus caldophilus, Thermus filiformis, Thermus thermophilus HB27, Thermus thermophilus HB8.
Autres : cf. Actinobacteria, cf. Alphaproteobacteria, cf. Archaea SAR-1, cf. Bacteria SAR-1, cf. Bordetella, cf. Burkholderia SAR-1, cf. Burkholderiaceae, cf. Caulobacter, cf. Crenarchaeota, cf. Cyanobacteria, cf. Enterobacteriaceae, cf. Gammaproteobacteria SAR-1, cf. Haemophilus, cf. Magnetococcus, cf. Magnetospirillum, cf. Microbulbifer, cf. Prochlorococcus, cf. Proteobacteria SAR-1, cf. Pseudomonadaceae, cf. Ralstonia, cf. Rhizobiales, cf. Shewanella SAR-1, cf. Sinorhizobium, cf. Spirochaetales, cf. Streptomyces, cf. Streptomycetaceae, cf. Vibrionaceae, Chlamydia muridarum, Chlamydia pneumoniae, Chlamydia pneumoniae AR39CG, Chlamydia psittaci, Chlamydia suis, Chlamydia trachomatis, Chlamydophila abortus, Chlamydophila caviae GPIC, Chlamydophila pneumoniae J138, Chlamydophila pneumoniae TW-183, Chloroflexus aurantiacus, Dehalococcoides ethenogenes, environmental seq MS, environmental seq SAR-1, Environmental sequence, Fibrobacter succinogenes, Fusobacterium necrophorum, Fusobacterium nucleatum, Ilyobacter tartaricus, Leptospirillum ferrooxidans, Leptospirillum sp, Leptospirillum sp. Group II, Leptospirillum sp. Group III, Magnetococcus sp. MC-1, Parachlamydia sp. UWE25, Pirellula sp. strain 1.

Le nom des souches des espèces est indiqué sil est connu. Les espèces « cf. » correspondent à des espèces dont une partie du génome a été séquencée et qui sont apparentées à dautres espèces, sans quun nom leur soit assigné à lheure actuelle.

Dans un premier temps, les signatures pour des mots de 6 lettres de lensemble des espèces ont été calculées. Puis, elles ont été corrigées par un Markov dordre 0. Pour chacun des 16 groupes taxonomiques, un arbre à partir de la méthode de la signature a été inféré à laide de la métrique euclidienne. Les 16 arbres sont représentés ci-dessous. (Figures 70 à 85).

Figure SEQ Figure \* ARABIC 70 - Phylogénie des crénarchée (8 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 71 - Phylogénie des euryarchées (30 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 72 - Phylogénie des actinobactéries (70 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 73 - Phylogénie des bacillales (45 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 74 - Phylogénie des lactobacillales (39 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 75 - Phylogénie des clostridiales (13 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 76 - Phylogénie des paramycetes (19 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 77 - Phylogénie des bactéroïdes (9 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 78 - Phylogénie des cyanobactéries (23 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 79 - Phylogénie des að-protéobactéries (53 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 80 - Phylogénie des bð-protéobactéries (38 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 81 - Phylogénie des dð-protéobactéries (15 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 82 - Phylogénie des eð-protéobactéries (8 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.

Page précédente : Figure SEQ Figure \* ARABIC 83 - Phylogénie des gð-protéobactéries (124 espèces) à l aide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 84 - Phylogénie des spirochètes (9 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Figure SEQ Figure \* ARABIC 85 - Phylogénie du groupe « thermophiles » (7 espèces) à laide de la signature. Mots de 6 lettres et métrique euclidienne.

Les arbres obtenus présentent globalement de bonnes relations taxonomiques. Les espèces sont regroupées en fonction de leur groupe taxonomique dappartenance. Les différentes souches dune espèce forment des clades dans tous les groupes (par exemple, pour les bacillales, les souches de B. anthracis, B. ceureus et L. monocytogenes).
Lorsquon regarde en détail chaque groupe taxonomique, on observe des relations particulières. Pour les euryarchées (Figure 71), M. jannaschii nest pas avec les autres Methanococcus et se place avec N. equitans avec une longue branche. Les actinobactéries (Figure 72) sont séparées en deux, avec dun côté les Streptomyces et de lautre Mycobacterium et Corynobacterium. Il est à noter que Tropheryma whipplei est très éloignée des autres actinobactéries. Tropheryma whipplei possède un génome court et aussi une signature très originale. En ce qui concerne les bacillales (Figure 73), deux groupes de bacillus sont formés, avec B. subtilis et B. halodurans comme représentants dun des groupes, et B. ceureus et B anthracis de lautre groupe. Ces deux groupes sont séparés par les Staphylococcus et les Listeria. Pour les lactobacillales (Figure 74), on a une bonne séparation des Streptococcus et des Lactobacillus. Les clostridiales (Figure 75) forment un groupe assez hétérogène au vue des distances et C. thermocellum semble mal placé dans larbre. On détecte chez les paramycetes (Figure 76), une espèce qui semble être présente deux fois sous deux noms différents : U. urealyticum et U. parvum. Les deux signatures sont identiques. Chez les cyanobactéries (Figure 78), le cas le plus intéressant est létude de lespèce Prochlorococcus marinus dont 3 souches sont présentes dans notre jeu de données. Deux des souches sont proches (CMP1375, CMP1378), tandis que la troisième souche (MIT 9313) est très éloignée des deux autres. Cette grande différence de signatures entre les différentes souches pose la question de la pertinance de considérer ces espèces comme des souches et non comme des espèces différentes ADDIN EN.CITE Rocap2003272000000002721291764242469522003Aug 28Genome divergence in two Prochlorococcus ecotypes reflects oceanic niche differentiation1042-7School of Oceanography, University Of Washington, Seattle, Washington 98195, USA.Rocap, G.Larimer, F. W.Lamerdin, J.Malfatti, S.Chain, P.Ahlgren, N. A.Arellano, A.Coleman, M.Hauser, L.Hess, W. R.Johnson, Z. I.Land, M.Lindell, D.Post, A. F.Regala, W.Shah, M.Shaw, S. L.Steglich, C.Sullivan, M. B.Ting, C. S.Tolonen, A.Webb, E. A.Zinser, E. R.Chisholm, S. W.NatureAdaptation, Physiological/radiation effectsComparative StudyCyanobacteria/*classification/*genetics/radiation effects*Environment*EvolutionGenes, Bacterial/genetics*Genome, BacterialLightMolecular Sequence DataOceans and SeasPhylogenyResearch Support, Non-U.S. Gov'tResearch Support, U.S. Gov't, Non-P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12917642(Rocap et al., 2003). Chez les að-protéobactéries (Figure 79), on retrouve la formation des groupes Rickettsia et Rhizobium. Les Rickettsia sont placés dans l arbre des að-protéobactéries à la base, assez éloignés des autres espèces. Pour les bð-protéobactéries (Figure 80), on retrouve les Neisseria à la base de l arbre ainsi qu un mauvais placement de Candidatus Tremblaya, avec une très longue branche. Les relations entre les eð-protéobactéries (Figure 82) sont correctes, à l exception de la séparation des deux Desulfovibrio. Le groupe des thermophiles (Figure 85) est trop hétérogène pour que l on puisse exploiter les relations, même si celles-ci sont en accord avec la nomenclature. Toutes les entérobactéries forment un clade à l intérieur de l arbre des gð-protéobactéries (Figure 83). À la base de cet arbre, on retrouve une série de symbionts (Buchnera aphidicola, Candidatus blochmannia, ) qui sont regroupés et non placés selon leur taxonomie. On trouve que Shigella est le genre le plus proche des Escherichia. Les Pasteurelles et Xanthomonadales sont placés à la base des entérobactéries. Les distances à lintérieur de ce groupe sont élévées et comme nous le verrons plus tard, ce groupe a une importance particulière.
En résumé, en regardant les différents arbres, on constate quen comparant la signature les relations taxonomiques entre les espèces sont retrouvées. Les souches, sauf cas particuliers, sont regroupées. Cependant, un problème récurrent est la place des petits génomes (inférieur à 1 Mb) dans les arbres. Ces petits génomes correspondent la plupart du temps à des espèces symbiotiques qui ont une signature particulière. Ces espèces ont subi de fortes pressions évolutives (forts taux de mutation, pertes importantes de matériels génétiques, transfert dADN avec lhôte, ) qui ont conduit à changer profondément la signature. La signature nest pas un outil adapté à la détermination des relations entre ces espèces.
Par la suite, nous avons conservé quune souche par espèce et nous avons éliminé les espèces symbiotiques. Il nous restait 415 espèces.

Afin de déterminer si nous avions des groupes taxonomiques disjoints du point de vue de la signature, nous avons calculé pour chaque groupe les distances intragroupes et intergroupes entre signatures.

Figure SEQ Figure \* ARABIC 86 - Moyennes des distances intra-(o) et intergroupes (x) en fonction du groupe taxonomique. La courbe bleue (respectivement rouge) est la courbe des moyennes des distances intragroupes (respectivement intergroupes). Convention : crénarchée (1), euryarchée (2), actinobactérie (3), bacillale (4), lactobacillale (5), clostridiale (6), paramycete (7), bactéroïde (8), cyanobactérie (9), að-protéobactérie (10), bð-protéobactérie (11), dð-protéobactérie (12), eð-protéobactérie (13), gð-protéobactérie (14), spirochète (15), thermophile (16).

Comme on peut le voir sur la REF _Ref508354380 \h Figure 86, la moyenne des distances intragroupes est toujours inférieure à celle des distances intergroupes. Pour déterminer si les distributions de ces distances sont bien différentes, le test Anova et le test de t ont été effectués entre la distribution intra- et intergroupe. Pour les groupes de 1 à 15, les tests montrent que les deux distributions de distances sont différentes. Le test dAnova du groupe 16 échoue avec une probabilité supérieure à 6%. Cela peut sexpliquer par le fait que ce groupe na pas de justification taxonomique, mais ne regroupe que des espèces dites « thermophiles » qui nétaient classées dans aucun des 15 autres groupes. Les résultats de létude sur les distances entre signatures montrent que les groupes taxonomiques que nous avons utilisés ont des signatures qui leur sont propres.
Nous avons donc décidé de comparer les signatures moyennes de chaque groupe entre elles afin de construire un arbre ( REF _Ref508270000 \h Figure 87).

Figure SEQ Figure \* ARABIC 87 - Arbre obtenu avec les moyennes des groupes taxonomiques.

Larbre des signatures moyennes permet de déterminer des relations entre les différents groupes taxonomiques. Tout dabord les thermophiles semblent avoir une signature très différentes de celles des autres, comme on pouvait le voir sur la REF _Ref508354380 \h Figure 86 et sont placés à la base de larbre. Les archées sont regroupées en un clade contenant les clostridiales. Les eð-protéobactéries ne sont pas placés du même coté de l arbre que les autres protéobactéries et sont placées dans une position assez basale. Ce résultat a déjà été observé par d autres articles, dont certains utilisant la signature de protéines ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393Qi200410800000000108147433105812004JanWhole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach1-11The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China, qiji@itp.ac.cnQi, J.Wang, B.Hao, B. I.J Mol EvolAlgorithmsArchaea/*geneticsBacteria/*geneticsClassification/*methodsComparative StudyDatabases, Nucleic AcidOligopeptides/*genetics*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14743310Yu200111400000000114Yu, Z.-G.Jiang, P.2001Distance, correlation and mutual information among portraits of organisms based on complete genomesPhys. Lett. A286134-4616 July 20010375-9601Portrait; Gray-level; Correlation coefficient; Mutual information; Complete genomehttp://www.sciencedirect.com/science/journal/03759601Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Pride et al., 2003; Qi et al., 2004b; Yu and Jiang, 2001; Yu et al., 2004). Un autre point intéressant est le positionnement des actinobactéries à lintérieur des protéobactéries et plus précisément proche des bð-protéobactéries. Enfin le résultat le plus important est le regroupement des bacillales/bactéroïdes avec les gð-protéobactéries. Nous avons déjà montré que B. subtilis bien qu elle soit détectée comme bactérie Gram+ avait une distance relativement faible avec les gð-protéobactéries (voir le chapitre REF _Ref508195277 \r \h 3.8). Les résultats montrent que cela peut s étendre à d autres bacillales. Il semble que certaines relations entre les groupes soient en accord avec la taxonomie classique, alors que dautres sont plus sujettes à discussion.

En prenant la signature moyenne, on ne prend pas en compte la variabilité des groupes. Il est possible quà lintérieur dun groupe certaines espèces aient un comportement différent des autres. Dans ce cas, les relations entre les groupes peuvent être perturbées. Afin de déterminer si lensemble des espèces suit les relations établies par les signatures moyennes de groupes taxonomiques, ou si seulement une partie des espèces conduit à obtenir ces relations, nous avons calculé larbre à partir de lutilisation de lensemble des signatures, soit 415 signature despèce.
Larbre obtenu est divisé en un ensemble de sous-arbres, représentés ci-dessous. (arbre complet : Figure 88 ; ensemble des sous-arbres Figures 89 à 97).

Page précédente : Figure SEQ Figure \* ARABIC 88 - Arbre obtenu par l'étude de 415 signatures d'espèces procaryotes. Signature pour des mots de 6 lettres, métrique euclidienne. Chaque sous-arbre est indiqué par une flèche et son numéro.

Figure SEQ Figure \* ARABIC 89 - Sous-arbre n°1 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 90 - Sous-arbre n°2 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 91 - Sous-arbre n°3 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 92 - Sous-arbre n°4 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 93 - Sous-arbre n°5 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 94 - Sous-arbre n°6 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 95 - Sous-arbre n°7 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 96 - Sous-arbre n°8 de l'arbre des 415 signatures.

Figure SEQ Figure \* ARABIC 97 - Sous-arbre n°9 de l'arbre des 415 signatures.

Larbre obtenu par la comparaison des 415 signatures (Figure 88) présente des relations proches de celles de larbre des signatures moyennes ( REF _Ref508270000 \h Figure 87), mais certaines nouvelles relations apportent un éclairage supplémentaire. Tout d abord, cet arbre confirme le rapprochement des actinobactéries des protéobactéries ( REF _Ref508251376 \h Figure 89, REF _Ref508251377 \h Figure 91). Les Streptomyces sont plus proches des dð-protéobactéries et les Mycobacterium des bð-protéobactéries. Les að-protéobactéries et les bð-protéobactéries sont regroupées ( REF _Ref508251377 \h Figure 91). Cependant seules les Rhizobium et quelques autres að-protéobactéries sont présentes dans ce groupe les autres, c est-à-dire les Rickettsia, sont à la base de l arbre avec les archées. Un autre groupe taxonomique de protéobactéries est positionné avec les archées, il s agit des eð-protéobactéries. Les Rickettsia, ainsi que les eð-protéobactéries, forment des groupes monophylétiques.
Ce positionnement particulier de ces deux groupes avait été aussi trouvé par Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). Une des propositions pour la position des eð-protéobactéries est le fait que la signature de ces espèces a beaucoup plus évolué que l ARN 16S, molécule qui a servi à définir les groupes bactériens ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). En effet, ces organismes semblent posséder un système de réparation de lADN défaillant ADDIN EN.CITE Bhagwat19922620000000026215794572071992Apr 11DNA mismatch correction by Very Short Patch repair may have altered the abundance of oligonucleotides in the E. coli genome1663-8Department of Chemistry, Wayne State University, Detroit, MI 48202.Bhagwat, A. S.McClelland, M.Nucleic Acids Res5-MethylcytosineBase Composition/geneticsCytidine/geneticsCytosine/analogs & derivatives/metabolismDNA Repair/*geneticsDNA, Bacterial/chemistry/*geneticsEscherichia coli/*geneticsGenome, BacterialMarkov ChainsMutation/geneticsOligodeoxyribonucleotides/*geneticsResearch Support, U.S. Gov't, Non-P.H.S.Research Support, U.S. Gov't, P.H.S.Saccharomyces cerevisiae/geneticsSite-Specific DNA Methyltransferase(Cytosine-Specific)/genetics/metabolismThymidine/geneticshttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=1579457Tomb199726400000000264925218538866421997Aug 7The complete genome sequence of the gastric pathogen Helicobacter pylori539-47The Institute for Genomic Research, Rockville, Maryland 20850, USA. ghp@tigr.orgTomb, J. F.White, O.Kerlavage, A. R.Clayton, R. A.Sutton, G. G.Fleischmann, R. D.Ketchum, K. A.Klenk, H. P.Gill, S.Dougherty, B. A.Nelson, K.Quackenbush, J.Zhou, L.Kirkness, E. F.Peterson, S.Loftus, B.Richardson, D.Dodson, R.Khalak, H. G.Glodek, A.McKenney, K.Fitzegerald, L. M.Lee, N.Adams, M. D.Venter, J. C.et al.,NatureAntigenic VariationBacterial AdhesionBacterial Proteins/secretionBase SequenceCell DivisionDNA RepairDNA, Bacterial/geneticsEvolutionGene Expression Regulation, Bacterial*Genome, BacterialHelicobacter pylori/*genetics/metabolism/pathogenicityHydrogen-Ion ConcentrationMolecular Sequence DataProtein BiosynthesisRecombination, GeneticResearch Support, U.S. Gov't, P.H.S.Transcription, GeneticVirulencehttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=9252185(Bhagwat and McClelland, 1992; Tomb et al., 1997). Or Karlin a proposé quun des facteurs influant sur la signature était ce système de réparation ADDIN EN.CITE Karlin199719900000000199Karlin, S.Mràzek, J.Campbell, A. M.Compositional biases of bacterial genomes and evolutionary implicationsJ. Bact.1793899-39131997(Karlin et al., 1997). Les Rickettsia sont quant à elles des parasites. Elles ont subi de fortes pressions évolutives, qui ont peut-être conduit à changer profondément leurs signatures.
La position des Neisseria, en un groupe monophylétique avec une très longue branche, dans larbre n°6 ( REF _Ref508253252 \h Figure 94) semble sexpliquer par un phénomène dattraction des longues branches. Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) avaient montré aussi que les Neisseria formaient un groupe avec une très longue branche.
Les gð-protéobactéries peuvent être séparées en deux groupes : un groupe, comprenant les entérobactéries, monophylétique placé à la base des að/ðbð/ðdð-protéobactéries ( REF _Ref508252631 \h Figure 95 et REF _Ref508252632 \h Figure 96) et un autre composé des Pseudomonas/Pasteurelles/Xanthomonadales. Ce dernier groupe est présent dans de nombreux sous-arbres ( REF _Ref508251377 \h Figure 91, REF _Ref508253237 \h Figure 92, REF _Ref508253252 \h Figure 94 et REF _Ref508253277 \h Figure 97). De petits groupes despèces appartenant au même groupe taxonomique de gð-protéobactéries se placent à l intérieur de groupes différents. Les espèces appartenant aux Pseudomonas/Pasteurelles/Xanthomonadales ne sont pas classés avec les autres gð-protéobactéries. Les signatures de ces gð-protéobactéries sont très hétérogènes, ce qui peut impliquer que celles-ci aient un taux dévolution relativement fort.
Les bacillales sont séparées, elles aussi, en deux groupes ( REF _Ref508253252 \h Figure 94, REF _Ref508253277 \h Figure 97), comme nous lavons vu avec larbre des signatures de bacillales ( REF _Ref508253907 \h Figure 73) : un côté, un groupe composé par exemple de B. subtilis et de B. halodurans, qui est placé entre les protéobactéries et de lautre un groupe composé par exemple de B. ceureus, B. anthracis et les Listeria, qui sont regroupés avec les lactobacillales de l autre coté de l arbre par rapport aux archées. Ce rapprochement de certaines bacillales avec les protéobactéries (en particulier les gð-protéobactéries) explique que la signature moyenne des bacillales ait été regroupée avec celle des gð-protéobactéries. L arbre de la signature montre que certains bacillales, comme B. subtilis, partagent un style d ADN très proche de celui des gð-protéobactéries.
Aquifex aeolicus est placée aussi en position basale avec les archées. Cette position correspond à celle que Woese avait obtenue en utilisant lARN ribosomal ADDIN EN.CITE Woese1987700000000007Woese, C.1987Bacterial evolutionMicrobiological Review51221-271(Woese, 1987). Par une approche différente, des travaux récents ADDIN EN.CITE Brochier200226100000000261Brochier, C.Philippe, H.2002Phylogeny: a non-hyperthermophilic ancestor for bacteria.Nature417244(Brochier and Philippe, 2002) arrivent sur ce point à des résultats en contradiction avec notre approche. Un autre exemple de bactéries hyperthermophile est le genre Thermotoga. Dans larbre de la signature, la position de ce genre nest pas déterminée ( REF _Ref508260915 \h Figure 90). Il semble difficile de se prononcer sur le placement de lensemble des bactéries thermophiles par la méthode de la signature. On doit étudier les espèces une par une. Ces espèces ont bien un positionnement particulier dans larbre des procaryotes.
Si on regarde la base de larbre, symbolisée par le regroupement darchées ( REF _Ref508253277 \h Figure 97), on constate que lon retrouve les paramycètes/clostridiales et les chlamydia. La position des chlamydia est conforme à celle que propose la phylogénie basée sur lARN ribosomal. Par contre, les paramycètes et les clostridiales sont des bactéries Gram+ à bas taux de GC. Lutilisation de la signature conduit toujours à considérer ces espèces à la base de larbre. Près des archées, la signature regroupe en fait toutes les espèces qui ont une signature relativement atypique. On se retrouve dans le cadre de lattraction des longues branches. Cest pourquoi on retrouve aussi bien des espèces dont on sait quelles proviennent dune ancienne différenciation que des espèces qui ont subi de fortes pressions évolutives (Rickettsia, eð-protéobactéries et clostridiale). Ces pressions ont fortement influencé les signatures et il est normal que la méthode de la signature les regroupe.

De manière générale, la signature permet d obtenir de bons groupes taxonomiques, mais les relations entre ces groupes sont assez incongruentes avec la phylogénie obtenue à partir de lARN ribosomal ou par étude dun grand nombre de gène ADDIN EN.CITE Brochier200226100000000261Brochier, C.Philippe, H.2002Phylogeny: a non-hyperthermophilic ancestor for bacteria.Nature417244Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Brochier and Philippe, 2002; Daubin et al., 2002; Daubin et al., 2001). Les différents groupes taxonomiques sont bien formés. Les relations à lintérieur de chaque groupe sont assez proches de celles qui sont proposées par lARN ribosomal. Mais la signature ne permet pas détablir de relations entre ces groupes. Un point positif de notre méthode est le nombre despèce qui ont été comparées, bien supérieur à ce que lon voit généralement ADDIN EN.CITE Brochier200226100000000261Brochier, C.Philippe, H.2002Phylogeny: a non-hyperthermophilic ancestor for bacteria.Nature417244Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Brochier and Philippe, 2002; Daubin et al., 2002; Daubin et al., 2001).
Une des explications des mauvaises entre groupe peut être la convergence de règles dutilisation de certains mots chez les différentes espèces. Ainsi, par exemple, le mot CATG est contre-sélectionné aussi bien chez les gð-protéobactéries que chez les archées. Donc la fréquence corrigée de ce mot, qui tient compte de cette contre-sélection, rapproche ces deux groupes. Cela peut donc expliquer que les gð-protéobactéries sont placées à la base des protéobactéries dans larbre de la signature. Il serait donc nécessaire détudier lensemble des fréquences des mots en fonction de larbre obtenu par la méthode des mots afin dexpliquer les différentes relations.
Une autre explication est que la méthode de la signature est sensible à une certaine homoplasie de la signature. Les espèces procaryotes sont des espèces très difficiles à classer ADDIN EN.CITE Teichmann19996500000000065103684384911999JulIs there a phylogenetic signal in prokaryote proteins?98-107MRC Laboratory of Molecular Biology, Hills Road, Cambridge CB2 2QH, UK. sat@mrc-lmb.cam.ac.ukTeichmann, S. A.Mitchison, G.J Mol EvolArginine-tRNA Ligase/geneticsBacterial Proteins/*geneticsGenome, BacterialModels, BiologicalPhenylalanine-tRNA Ligase/geneticsPhosphoglycerate Kinase/genetics*PhylogenyRNA, Ribosomal/geneticsRNA, Ribosomal, 16S/geneticsResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10368438(Teichmann and Mitchison, 1999). Elles ont généralement divergé depuis très longtemps et elles subissent de fortes pressions évolutives. Cela conduit à ce que la signature varie très rapidement et que lon finisse par perdre le signal phylogénétique que contient la signature. On sature le signal contenu dans la signature. Cest pourquoi, par exemple, on regroupe en position basale les espèces comme les parasites et les symbionts. La signature semble adaptée à létude des groupes taxonomiques avec un très nombre despèce, mais il est nécessaire de faire des études complémentaires quant à son utilisation afin détablir les relations entre ces groupes.

Conclusion et perspectives

Au cours de ma thèse, jai été amené à travailler sur létablissement des relations entre les espèces à laide de la signature génomique.

Grâce à la prise en compte de données moléculaires, les méthodes de phylogénie permettent dinférer les relations entre les organismes. Les méthodes classiques utilisent les séquences homologues pour déterminer ces relations. Or généralement le gène névolue pas de la même manière que les espèces. Les ARNr sont les gènes qui sont le plus souvent utilisés afin dinférer un arbre phylogénétique. Mais lemploi systématique de ces gènes est de plus en plus critiqué. Les procaryotes posent aussi de nombreux problèmes de classification. Labondance de transferts horizontaux a bruité lévolution des espèces. Un grand débat oppose les partisans qui nient lexistence dune phylogénie procaryote ADDIN EN.CITE Doolittle1999200000000002Doolittle, W. F.1999Phylogenetic classification and the universal treeScience2842124-2129(Doolittle, 1999) et ceux qui recherchent des gènes à labri des transferts horizontaux ADDIN EN.CITE Daubin20027100000000071120973451272002JulA phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history1080-90Laboratoire de Biometrie et Biologie Evolutive, Unite Mixte de Recherche Centre National de la Recherche Scientifique, Universite Claude Bernard - Lyon 1, 69622 Villeurbanne Cedex, France.Daubin, V.Gouy, M.Perriere, G.Genome ResComparative StudyComputational Biology*Evolution, MolecularGenes, Structural, Bacterial/*genetics*Genome, Bacterial*PhylogenySequence AlignmentSequence Homology, Nucleic AcidSupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12097345Daubin20017200000000072Daubin, V.Gouy, M.Perrière, G.2001Bacterial molecular phylogeny using supertree approach.Genome Informatics12155-164(Daubin et al., 2002; Daubin et al., 2001). De nouvelles techniques de phylogénie se sont alors développées pour utiliser des nouveaux critères pour comparer les espèces. Mon travail de thèse sinscrit dans cette optique

Pour étudier les relations entre les espèces, nous avons utilisé une analyse textuelle des séquences nucléiques : la signature génomique. La signature génomique est définie comme lensemble des fréquences doligonucléotides dans une séquence nucléique. La signature génomique est un outil simple et rapide qui permet de comparer les séquences sans nécessiter dalignement. La méthode que nous avons développée, utilise le « style » de lADN pour comparer les espèces
De nombreuses méthodes ont utilisé la signature en phylogénie moléculaire ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393Qi200410800000000108147433105812004JanWhole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach1-11The Institute of Theoretical Physics, Academia Sinica, Beijing 100080, China, qiji@itp.ac.cnQi, J.Wang, B.Hao, B. I.J Mol EvolAlgorithmsArchaea/*geneticsBacteria/*geneticsClassification/*methodsComparative StudyDatabases, Nucleic AcidOligopeptides/*genetics*PhylogenySupport, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14743310Yu200111400000000114Yu, Z.-G.Jiang, P.2001Distance, correlation and mutual information among portraits of organisms based on complete genomesPhys. Lett. A286134-4616 July 20010375-9601Portrait; Gray-level; Correlation coefficient; Mutual information; Complete genomehttp://www.sciencedirect.com/science/journal/03759601Yu2004265000000002651464364822632004Feb 7Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses341-8Program in Statistics and Operations Research, Queensland University of Technology, G.P.O. Box 2434, QLD 4001, Brisbane, AustraliaYu, Z. G.Anh, V.Lau, K. S.J Theor BiolBacterial Proteins/*chemistryBuchnera/chemistry*FractalsModels, Chemical*Nonlinear DynamicsPhylogeny*Protein ConformationResearch Support, Non-U.S. Gov'thttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=14643648(Pride et al., 2003; Qi et al., 2004b; Yu and Jiang, 2001; Yu et al., 2004), mais aucune ont fait une étude pour déterminer si la signature pouvait être utilisé. Au cours de ma thèse, nous avons effectué une approche méthodologique permettant, à laide de classifications, de simulations et de tests statistiques, de montrer que la signature pouvait être utilisée afin détablir les relations entre les espèces. Jai déterminé quelle était la longueur optimale des mots qui permettait dobtenir les meilleurs résultats.
Nous avons ensuite utilisé la méthode issue de la signature dans le cadre de la phylogénie moléculaire classique : les séquences homologues. Trois études ont été effectuées pour deux gènes (RAG1 et lARN 18S) chez des eucaryotes permettant dobtenir des arbres similaires à ceux proposés dans la littérature par des méthodes de phylogénie classiques.
Pour prendre en compte plus dinformation, de nombreux gènes ont été utilisés dans une étude multi-gène. Dix espèces procaryotes ont été comparées pour une quarantaine de gènes. Larbre obtenu est en accord avec celui que lon obtient par les méthodes de phylogénie. La signature est aussi un puissant outil de sélection de gène. En effet, la signature permet de prendre en compte non seulement les séquences homologues, mais aussi les séquences non homologues. Grâce à cela, jai pu déterminer des séquences originales à laide de la signature en comparant lensemble des séquences. Ces séquences sont présentées comme des transferts horizontaux potentiels, où une investigation plus poussée est nécessaire avant de les utiliser dans une étude multi-gène.
Nous avons ensuite travaillé sur les génomes complets afin de prendre en compte le maximum dinformation pour chaque espèce. Nous nous sommes placés dans le domaine des procaryotes, car c est celui qui possède le plus de génomes complets. Une phylogénie des gð-protéobactéries a été inféré à partir de signatures corrigées par un Markov d ordre 0 comme préconisé par Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003). Larbre phylogénétique obtenu est en accord avec celui de lARN 16S qui est le gène de référence pour la classification des procaryotes.
Comme la signature de séquences de 50 kb suffise à déterminer la signature despèce, comme nous lavons montré par des classifications, nous avons étendu notre champ dinvestigation à lensemble des espèces dont au moins 50kb sont connues. Les différents arbres de groupes taxonomiques procaryotes, pris séparément, présentent des relations taxonomiques correctes. La signature est un objet mathématique facile à étudier et qui permet de comprendre la classification et de chercher la cause déventuels mauvaise classification. Ainsi, nous avons pu expliquer le mauvais positionnement des symbionts dans les différents arbres de groupe. La signature permet aussi de définir une signature moyenne à chaque groupe. La comparaison des signatures moyennes permet détablir originalement les relations entre les différents groupes taxonomiques.
Nous avons ensuite comparé lensemble des signatures procaryotes. Nous avons obtenu un arbre de 415 espèces où celle-ci se regroupent en fonction de petits clades qui correspondent à des groupes taxonomiques. Les relations intra-groupes sont bien définies, mais les relations intergroupes ne correspondent pas toutes à celles que lon observe avec lARN 16S. Certaines espèces, comme Prochlorococcus marinus, posent la définition de lespèce. Les signatures sont trop différentes pour que lon puisse encore les séquences comme des séquences dun même organisme mais pour des souches différentes. La signature semble rencontrer un problème dhomoplasie, lorsquil sagit de définir les relations entre les groupes.

Un des moyens de mieux comprendre la signature serait dessayer détablir un modèle dévolution de la signature. Comment une espèce en évoluant passe dune signature a une autre ? Grâce la connaissance ce processus, il serait possible de définir des distances tenant compte des propriétés de la signature et non plus une distance mathématique entre deux vecteurs.
Un autre axe de recherche prometteur est la recherche dune correction des signatures afin daméliorer les résultats. Pride et al ADDIN EN.CITE Pride20031900000000019125663931322003FebEvolutionary implications of microbial genome tetranucleotide frequency biases145-58Department of Microbiology and Immunology, Vanderbilt University, Nashville, Tennessee 37235, USA. Prided01@med.nyu.eduPride, D. T.Meinersmann, R. J.Wassenaar, T. M.Blaser, M. J.Genome ResChromosome Mapping/methods/statistics & numerical dataChromosomes, Archaeal/geneticsChromosomes, Bacterial/geneticsCluster AnalysisComparative StudyDNA, Archaeal/geneticsDNA, Bacterial/geneticsGene Transfer, Horizontal/genetics*Genome, Archaeal*Genome, BacterialGram-Negative Bacteria/*geneticsGram-Positive Bacteria/*geneticsMicrosatellite Repeats/geneticsPhylogenyPlasmids/geneticsRNA, Archaeal/geneticsRNA, Bacterial/geneticsRNA, Ribosomal, 16S/geneticsSpirochaeta/*geneticsSupport, Non-U.S. Gov'tSupport, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=12566393(Pride et al., 2003) et Karlin ADDIN EN.CITE Karlin199418700000000187Karlin, S.Ladunga, I.Blaisdell, B.E.1994Heterogeneity of genomes: measures and valuesProc. Natl. Acad. Sci. USA9112837-12841(Karlin et al., 1994) ont proposé des corrections par des markov. Dautres corrections tenant compte des propriétés intrinsèques de la signature pourraient permettre de mieux évaluer les distances entre les espèces.
Il serait aussi intéressant dintégrer la méthode de la signature dans dautres méthodes de phylogénie, en particulier les méthodes probabilistes. La signature permet dobtenir très rapidement un arbre sans avoir besoin dutiliser un alignement. Cet arbre pourrait servir de base aux méthodes probabilistes afin de restreindre lespace de recherche. On diminurait grandement le temps de calcul dans ces conditions. Des méthodes similaires ont conduits à lintégration de méthodes des distances au maximum de vraisemblance : NJML ADDIN EN.CITE Ota200028600000000286109588561792000SepNJML: a hybrid algorithm for the neighbor-joining and maximum-likelihood methods1401-9Department of Ecology and Evolution, University of Chicago, Chicago, IL 60637, USA.Ota, S.Li, W. H.Mol Biol Evol*AlgorithmsAnimalsComputer SimulationEukaryotic Cells/metabolismEvolution, MolecularHumans*Likelihood FunctionsModels, Genetic*PhylogenyRNA, Ribosomal/geneticsResearch Support, U.S. Gov't, P.H.S.http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=10958856Ota2001287000000002871160669518112001NovNJML+: an extension of the NJML method to handle protein sequence data and computer software implementation1983-92Department of Ecology and Evolution, University of Chicago, Illinois 60637, USA.Ota, S.Li, W. H.Mol Biol EvolAmino Acid SequenceBase SequenceComparative StudyComputational Biology/*methods/*statistics & numerical data*Computer SimulationLikelihood FunctionsMyosin Light Chains/chemistry/geneticsPhylogenyProteins/*chemistry/geneticsResearch Support, U.S. Gov't, P.H.S.*Software/statistics & numerical dataSoftware Designhttp://www.ncbi.nlm.nih.gov/entrez/query.fcgi?cmd=Retrieve&db=PubMed&dopt=Citation&list_uids=11606695(Ota and Li, 2000, 2001).
Une autre possibilité serait dutiliser des méthodes de classifications supervisées ou non (réseaux de neurones, analyse discriminante), comme pré-étape. On obtiendra alors des groupes qui seront alors étudiés séparément par la méthode que jai développée. De la même manière, en faisant varier la taille des mots, on pourrait classer les espèces à différentes échelles : petite taille de mots pour les groupes, et grandes tailles au niveau de lespèce. Une telle méthode semble très prometteuse.
Enfin, létude des espèces procaryotes nest pas finie. Il faut étudier chaque groupe et déterminer quelles sont les mots qui conduisent à la formation des groupes et ceux qui aboutissent aux problèmes de classification qui sont présents dans larbre.

Références

ADDIN EN.REFLIST Agrawal, A., Q. M. Eastman and D. G. Schatz (1998). "Transposition mediated by RAG1 and RAG2 and its implications for the evolution of the immune system". Nature 394(6695): 744-51.
Almeida, J. S., J. A. Carriçao, A. Maretzek, P. A. Noble and M. Fletcher (2001). "Analysis of genomic sequences by chaos game representation". Bioinformatics 17: 429-437.
Almeida, J. S. and S. Vinga (2002). "Universal sequence map (USM) of arbitrary discrete sequences". BMC Bioinformatics 3(1): 6.
Altschul, S. F., W. Gish, W. Miller, E. W. Myers and D. J. Lipman (1990). "Basic local alignment search tool". J Mol Biol 215(3): 403-10.
Asai, T., D. Zaporojets, C. Squires and C. L. Squires (1999). "An Escherichia coli strain with all chromosomal rRNA operons inactivated: complete exchange of rRNA genes between bacteria". Proc Natl Acad Sci U S A 96(5): 1971-6.
Bafna, V. and P. Pevzner (1995). "Sorting by reversals: Genome rearrangements in plant organelles and evolutionnary history of X chromosome". Mol Biol Evol 12: 239-46.
Baldauf, S. L., J. D. Palmer and W. F. Doolittle (1996). "The root of the universal tree and the origin of eukaryotes based on elongation factor phylogeny". Proc Natl Acad Sci U S A 93(15): 7749-54.
Bapteste, E. and H. Philippe (2002). "The potential value of indels as phylogenetic markers: position of trichomonads as a case study". Mol Biol Evol 19(6): 972-7.
Barns, S. M., C. F. Delwiche, J. D. Palmer and N. R. Pace (1996). "Perspectives on archaeal diversity, thermophily and monophyly from environmental rRNA sequences". Proc Natl Acad Sci U S A 93(17): 9188-93.
Barnsley, M. (1988). "Fractals Everywhere".
Basu, S., A. Pan, C. Dutta and J. Das (1997). "Chaos game representation of proteins." J Mol Graph Model 15(5): 279-89.
Baum, B. R. (1992). "Combining trees as a way of combining data sets for phylogenetic inference". Taxon 41: 3-10.
Bergey (2001). "Bergey's Manual of Systematic Bacteriology". New-York, Springer-Verlag.
Bernardi, G. (1985). "Codon usage and genome composition". J Mol Evol 22(4): 363-5.
Bhagwat, A. S. and M. McClelland (1992). "DNA mismatch correction by Very Short Patch repair may have altered the abundance of oligonucleotides in the E. coli genome". Nucleic Acids Res 20(7): 1663-8.
Billoud, B., M. A. Guerrucci, M. Masselot and J. S. Deutsch (2000). "Cirripede phylogeny using a novel approach: molecular morphometrics". Mol Biol Evol 17(10): 1435-45.
Bininda-Edmonds, O. R. P. (2004). "The evolution of supertrees". Trends Ecol. Evol 19(6): 315-22.
Bininda-Emonds, O. R. and M. J. Sanderson (2001). "Assessment of the accuracy of matrix representation with parsimony analysis supertree construction". Syst Biol 50(4): 565-79.
Blanchette, M., G. Bourque and D. Sankoff (1997). "Breakpoint phylogeny". Genome Informatics Workshop, Tokyo, University Academy Press.
Blanchette, M., T. Kunisawa and D. Sankoff (1999). "Gene order breakpoint evidence in animal mitochondrial phylogeny". J Mol Evol 49(2): 193-203.
Bourque, G. and P. A. Pevzner (2002). "Genome-scale evolution: reconstructing gene orders in the ancestral species". Genome Res 12(1): 26-36.
Brocchieri, L. (2001). "Phylogenetic inferences from molecular sequences: review and critique". Theor Popul Biol 59(1): 27-40.
Brochier, C. and H. Philippe (2002). "Phylogeny: a non-hyperthermophilic ancestor for bacteria." Nature 417: 244.
Brown, J. R. and W. F. Doolittle (1997). "Archaea and the prokaryote-to-eukaryote transition". Microbiol Mol Biol Rev 61(4): 456-502.
Brown, J. R., C. J. Douady, M. J. Italia, W. E. Marshall and M. J. Stanhope (2001). "Universal trees based on large combined protein sequence data sets". Nat Genet 28(3): 281-5.
Bruno, W. J., N. D. Socci and A. L. Halpern (2000). "Weighted neighbor joining: a likelihood-based approach to distance-based phylogeny reconstruction". Mol Biol Evol 17(1): 189-97.
Buneman, T. (1971). "The recovery of trees from measures of dissimilarity." Edinbourg, Edinburg University Press.
Caprara, A. (1997). "Sorting by reversals is difficult". 1st Annual Internationnal Conference on Computational Molecular Biology, New York, USA, ACM.
Cavalli-Sforza, L. L. and A. W. F. Edwards (1967). "Phylogenetic analysis: models and estimation procedures." Am. J. Hum. Gen. 19: 233-57.
Chaw, S. M., C. L. Parkinson, Y. Cheng, T. M. Vincent and J. D. Palmer (2000). "Seed plant phylogeny inferred from all three plant genomes: monophyly of extant gymnosperms and origin of Gnetales from conifers". Proc Natl Acad Sci U S A 97(8): 4086-91.
Chen, D., L. Diao, O. Eulenstein, D. Fernandez-Baca and M. J. Sanderson (2003). "Flipping: a supertree construction method." Bioconsensus. M. F. Janowitz, F.-J. Lapointe, F. R. McMorris, B. Mirkin and F. S. Roberts. Providence, American Mathematical Society. 61: 135-160.
Cornille, F., C. Dufraigne, A. Giron, B. Fertil and P. Deschavanne (2003). "Detection of DNA encoding structural RNAs in genomes". European Conference on Computational Biology, Paris, France.
Corpet, F. and B. Michot (1994). "RNAlign program: alignment of RNA sequences using both primary and secondary structures". Comput Appl Biosci 10(4): 389-99.
Crepet, W. L. (1998). "The abominable mystery". Science 282: 16531654.
Darwin, C. (1859). "L'origine des espèces".
Daubin, V., M. Gouy and G. Perriere (2002). "A phylogenomic approach to bacterial phylogeny: evidence of a core of genes sharing a common history". Genome Res 12(7): 1080-90.
Daubin, V., M. Gouy and G. Perrière (2001). "Bacterial molecular phylogeny using supertree approach." Genome Informatics 12: 155-164.
Dayhoff, M. O. (1978). "A model of evolutionnary change in proteins." Atlas of protein sequence and structure, supplément 3. N. B. R. Foundation. Washington, DC: 345-352.
Delcher, A. L., S. Kasif, R. D. Fleischmann, J. Peterson, O. White and S. L. Salzberg (1999). "Alignment of whole genomes". Nucleic Acids Res 27(11): 2369-76.
Deschavanne, P., A. Giron, J. Vilain, C. Dufraigne and B. Fertil (2000). "Genomic signature is preserved in short DNA fragments". BIBE2000 IEEE international Symposium on bio-informatics & biomedical engineering, Washington, USA.
Deschavanne, P. J., A. Giron, J. Vilain, G. Fagot and B. Fertil (1999). "Genomic signature: characterization and classification of species assessed by Chaos Game Representation of sequences". Molecular Biology and Evolution 16: 13911399.
Desper, R. and O. Gascuel (2002). "Fast and accurate phylogeny reconstruction algorithms based on the minimum-evolution principle". J Comput Biol 9(5): 687-705.
Devaney, R. L. (1989). "Chaos, Fractals and Dynamics: Computer Experiments in Dynamics".
Doolittle, W. F. (1999). "Phylogenetic classification and the universal tree". Science 284: 2124-2129.
Doyle, J. A. and M. J. Donoghue (1986). "Seed plant phylogeny and the origin of the angiosperms: an experimental cladistic approach". Bot. Rev. 52: 321-431.
Dufraigne, C., B. Fertil, S. Lespinats, A. Giron and P. Deschavanne (2005). "Detection and characterization of horizontal transfers in prokaryotes using genomic signature". Nucleic Acids Res 33(1): e6.
Eck, R. V. and M. O. Dayhoff (1966). "Atlas of Protein Sequence and Structure". Silver Spring.
Edwards, S. V., B. Fertil, A. Giron and P. J. Deschavanne (2002). "A genomic schism in birds revealed by phylogenetic analysis of DNA strings". Syst Biol 51: 599-613.
Ellis, J. and D. Morrison (1995). "Effects of sequence alignment on the phylogeny of Sarcocystis deduced from 18S rDNA sequences". Parasitol Res 81(8): 696-9.
Feil, E. J., E. C. Holmes, D. E. Bessen, M. S. Chan, N. P. Day, M. C. Enright, R. Goldstein, D. W. Hood, A. Kalia, C. E. Moore, J. Zhou and B. G. Spratt (2001). "Recombination within natural populations of pathogenic bacteria: short-term empirical estimates and long-term phylogenetic consequences". Proc Natl Acad Sci U S A 98(1): 182-7.
Felsenstein, J. (1978). "Cases in wich parsimony or compability methods will be positively misleading." Systematic Zoology 27: 401-10.
Felsenstein, J. (1981). "Evolutionary trees from DNA sequences: a maximum likelihood approach". J Mol Evol 17(6): 368-76.
Felsenstein, J. (1985). "Confidence limits on phylogenies : an approach using the bootstrap". Evolution 4(39): 783-791.
Felsenstein, J. (2004). PHYLIP (Phylogeny Inference Package).
Fitch, W. M. (1970). "Distinguishing homologous from analogous proteins". Syst Zool 19(2): 99-113.
Fitch, W. M. (1977). "On the problem of discovery the most parsimonious tree". Am. Nat. 111: 223-257.
Fitz-Gibbon, S. T. and C. H. House (1999). "Whole genome-based phylogenetic analysis of free-living microorganisms". Nucleic Acids Res 27(21): 4218-22.
Fox, G. E., E. Stackebrandt, R. B. Hespell, J. Gibson, J. Maniloff, T. A. Dyer, R. S. Wolfe, W. E. Balch, R. S. Tanner, L. J. Magrum, L. B. Zablen, R. Blakemore, R. Gupta, L. Bonen, B. J. Lewis, D. A. Stahl, K. R. Luehrsen, K. N. Chen and C. R. Woese (1980). "The phylogeny of prokaryotes". Science 209(4455): 457-63.
Garcia-Vallve, S., E. Guzman, M. A. Montero and A. Romeu (2003). "HGT-DB: a database of putative horizontally transferred genes in prokaryotic complete genomes". Nucleic Acids Research 31(1): 187-189.
Gascuel, O. (1994). "A note on Sattath and Tversky's, Saittou and Nei's and Studier and Keppler's algorithms for inferring phylogenies from evolutionary distances". Mol Biol Evol 11(6): 961-3.
Gascuel, O. (1997). "BIONJ: an improved version of the NJ algorithm based on a simple model of sequence data". Mol Biol Evol 14(7): 685-95.
Gascuel, O. (2004). "Getting a Tree Fast: Neighbor Joining and Distance Based Methods". Current Protocols in Bioinformatics. A. Baxevanis, D. Davison, R. Pageet al, Wiley & Sons: 6.3.1-6.3.18.
Gatesy, J., C. Matthee, R. DeSalle and C. Hayashi (2002). "Resolution of a supertree/supermatrix paradox". Syst Biol 51(4): 652-64.
Gatesy, J. and M. S. Springer (2004). "A critique of the matrix representation with parsimony supertrees". Phylogenetic Supertrees: Combining Informaion ti Reveal the Tree of Life. O. R. P. Bininda-Edmonds, Kluwer Academic. 3: 369-388.
Gogarten, J. P., L. Olendzenski, E. Hilario, C. Simon and K. E. Holsinger (1996). "Dating the cenancester of organisms". Science 274(5293): 1750-1; author reply 1751-3.
Goldman, N. (1993). "Nucleotide, dinucleotide and trinucleotide frequencies explain patterns observed in chaos game representations of DNA sequences". Nucleic Acids Research 21: 2487-2491.
Gordon, A. D. (1986). "Consensus supertrees: the synthesis of rooted trees containing overlapping set of labeled leaves". J. Classif 3: 31-9.
Graham, D., R. Overbeek, G. Olsen and C. Woese (2000). "An archaeal genomic signature". Proc Natl Acad Sci U S A 97: 3304-8.
Grantham, R., C. Gautier and M. Gouy (1980). "Codon frequencies in 119 individual genes confirm consistent choices of degenerate bases according to genome type". Nucleic Acid Research 8: 1893-1912.
Grantham, R., C. Gautier, M. Gouy, M. Jacobzone and R. Mercier (1981). "Codon catalog usage is a genome strategy modulated for gene expressivity". Nucleic Acids Res 9(1): r43-74.
Gray, M. W., G. Burger and B. F. Lang (1999). "Mitochondrial evolution". Science 283(5407): 1476-81.
Green, P. J. (1995). "Reversible jump Markov chain Monte Carlo computation and Bayesian model determination." Biometrika 82: 711-32.
Greenhalgh, P. and L. A. Steiner (1995). "Recombination activating gene 1 (Rag1) in zebrafish and shark". Immunogenetics 41(1): 54-5.
Guénoche, A. and H. Garreta (2000). "Can We Have Confidence in a Tree Representation?" First Internaional Conference on Biology, Informatics, and Mathematics, JOBIM 2000, Montpelier, France, Springer.
Gupta, R. S. (1997). "Protein phylogenies and signature sequences: evolutionnary relationships within prokaryotes and between prokaryotes and eukaryotes." Antonie Leeuwenhoek 72: 49-61.
Gupta, R. S. (1998a). "Protein phylogenies and signature sequences: a reappraisal of evolutionary relationships among Archaebacteria, Eubacteria and Eukaryotes." Microbiol. Mol. Biol. Rev. 62: 1435-1491.
Gupta, R. S. (1998b). "What are archaebacteria: life's third domain or monoderm prokaryotes related to gram-positive bacteria? A new proposal for the classification of prokaryotic organisms". Molecular Microbiology 29(3): 695-707.
Gupta, R. S. (2000). "The natural evolutionary relationships among prokaryotes". Crit Rev Microbiol 26(2): 111-31.
Gupta, R. S. (2001). "The branching order and phylogenetic placement of species from completed bacterial genomes, based on conserved indels found in various proteins". Int Microbiol 4(4): 187-202.
Gupta, R. S. and E. Griffiths (2002). "Critical issues in bacterial phylogeny". Theor Popul Biol 61(4): 423-34.
Gupta, R. S. and B. Singh (1994). "Cloning of HSP70 gene from Halobacterium marismortui: relatedness of archaebacterial HSP70 to its eubacterial homologs and a model for the evolution of the HSP70 gene." J. Bacteriol. 174: 4594-605.
Guyon, F. and A. Guénoche (2005). "Comparing bacterial genomes from maximal unique matches linear orders". 16p
Haase, G., L. Sonntag, Y. van de Peer, J. M. Uijthof, A. Podbielski and B. Melzer-Krick (1995). "Phylogenetic analysis of ten black yeast species using nuclear small subunit rRNA gene sequences". Antonie Van Leeuwenhoek 68(1): 19-33.
Hannenhalli, S., C. Chappey, E. V. Koonin and P. A. Pevzner (1995). "Genome sequence comparison and scenarios for gene rearrangements: a test case". Genomics 30(2): 299-311.
Hannenhalli, S. and P. Pevzner (1995). "Transforming cabbage into turnip (polynomial algorithm for sorting signed permutations by reverseals)". Twenty-seventh Annual ACM-SIAM Symposium on the Theory of Computing, New York, ACM press.
Hasegawa, M., H. Kishino and T. Yano (1985). "Dating of the human-ape splitting by a molecular clock of mitochondrial DNA". J Mol Evol 22(2): 160-74.
Hastings, W. K. (1970). "Monte Carlo sampling methods using Markov chains and their applications." Biometrika 57: 97-109.
Hendriks, L., R. De Baere, Y. Van de Peer, J. Neefs, A. Goris and R. De Wachter (1991). "The evolutionary position of the rhodophyte Porphyra umbilicalis and the basidiomycete Leucosporidium scottii among other eukaryotes as deduced from complete sequences of small ribosomal subunit RNA". J Mol Evol 32(2): 167-77.
Henikoff, S. and J. G. Henikoff (1992). "Amino acid substitution matrices from protein blocks". Proc Natl Acad Sci U S A 89(22): 10915-9.
Henz, S. R., D. H. Huson, A. F. Auch, K. Nieselt-Struwe and S. C. Schuster (2004). "Whole-genome prokaryotic phylogeny". Bioinformatics.
Higgins, D. G., J. D. Thompson and T. J. Gibson (1996). "Using CLUSTAL for multiple sequence alignments". Methods Enzymol 266: 383-402.
Hillis, D. M. and J. J. Bull (1993). "An empirical test of bootstrapping as a method for assessing confidence in phylogenetic analysis". Syst. Biol. 42: 182-92.
Hohl, M., S. Kurtz and E. Ohlebusch (2002). "Efficient multiple genome alignment". Bioinformatics 18 Suppl 1: S312-20.
Holland, B. and V. Moulton (2003). "Consensus networks: A method for visualising incompatibilities in collections of trees". WABI 2003.
House, C. H. and S. T. Fitz-Gibbon (2002). "Using homolog groups to create a whole-genomic tree of free-living organisms: an update". J Mol Evol 54(4): 539-47.
Huber, H., M. J. Hohn, R. Rachel, T. Fuchs, V. C. Wimmer and K. O. Stetter (2002). "A new phylum of Archaea represented by a nanosized hyperthermophilic symbiont". Nature 417(6884): 63-7.
Huson, D. H. and M. Steel (2004). "Distances that perfectly mislead". Syst Biol 53(2): 327-32.
Huynen, M. A. and P. Bork (1998). "Measuring genome evolution". Proc Natl Acad Sci U S A 95(11): 5849-56.
Iglesias, S. P., G. Lecointre and D. Y. Sellos (2005). "Extensive paraphylies within sharks of the order Carcharhiniformes inferred from nuclear and mitochondrial genes." Mol Phylogenet Evol 34(3): 569-83.
Itoh, T., W. Martin and M. Nei (2002). "Acceleration of genomic evolution caused by enhanced mutation rate in endocellular symbionts". Proc Natl Acad Sci U S A 99(20): 12944-8.
Jain, R., M. C. Rivera and J. A. Lake (1999). "Horizontal gene transfer among genomes: the complexity hypothesis". Proc Natl Acad Sci U S A 96(7): 3801-6.
Jeffrey, H. J. (1990). "Chaos game representation of gene structure". Nucleic Acids Research 18: 2163-2170.
Jeffrey, H. J. (1992). "Chaos Game Visualization Of Sequences". Computers Graphics 16(1): 25-33.
Jones, K. E., A. Purvis, A. McLarnon, O. R. P. Bininda-Edmonds and N. B. Simmons (2002). "A phylogenetic supertree of the bats (Mammalia: Chioptera)". Biol. Rev. 77: 223-59.
Jukes, T. and C. Cantor (1969). "Evolution of Protein Molecules".
Källersjö, M., J. S. Farris, W. Chase, B. Bremer, M. F. Fay, C. J. Humpries, G. Petersen, O. Seberg and K. Bremer (1998). "Simultaneous parsimony jackknife analysis of 2538 rbcl DNA sequences reveals upport for major clades of green plants, land plants, seed plants and flowering plants." Plant Syst. Evol. 213: 2599-287.
Kanaya, S., M. Kinouchi, T. Abe, Y. Kudo, Y. Yamada, T. Nishi, H. Mori and T. Ikemura (2001). "Analysis of codon usage diversity of bacterial genes with a self-organizing map (SOM): characterization of horizontally transferred genes with emphasis on the E. coli O157 genome". Gene 276(1-2): 89-99.
Karlin, S. (1998). "Global dinucleotide signatures and analysis of genomic heterogeneity". Curr Opin Microbiol 1(5): 598-610.
Karlin, S. and V. Brendel (1993). "Patchiness and correlations in DNA sequences". Science 259: 677-679.
Karlin, S. and P. Bucher (1992). "Correlation analysis of amino acid usage in protein classes". Proc Natl Acad Sci U S A 89(24): 12165-9.
Karlin, S. and L. R. Cardon (1994). "Computational DNA sequence analysis". Annu. Rev. Microbiol. 48: 619-654.
Karlin, S. and I. Ladunga (1994). "Comparisons of eukaryotic genomic sequences". Proc. Natl. Acad. Sci. USA 91: 12832-12836.
Karlin, S., I. Ladunga and B. E. Blaisdell (1994). "Heterogeneity of genomes: measures and values". Proc. Natl. Acad. Sci. USA 91: 12837-12841.
Karlin, S., J. Mràzek and A. M. Campbell (1997). "Compositional biases of bacterial genomes and evolutionary implications". J. Bact. 179: 3899-3913.
Karlin, S., G. M. Weinstock and V. Brendel (1995). "Bacterial classifications derived from recA protein sequence comparisons". J Bacteriol 177(23): 6881-93.
Kenrick, P. and P. R. Crane (1997a). "The origin and early diversification of land plants : a cladistic study". Washington, DC, Smithsonian Institution Press.
Kenrick, P. and P. R. Crane (1997b). "The origin and early evolution of plants on land." nature 389(6646): 33-9.
Kimura, M. (1980). "A simple method for estimating evolutionary rates of base substitutions through comparative studies of nucleotide sequences." J Mol Evol 16(2): 111-20.
Kishino, H. and M. Hasegawa (1989). "Evaluation of the maximum likelihood estimate of the evolutionary tree topologies from DNA sequence data, and the branching order in hominoidea". J Mol Evol 29(2): 170-9.
Korbel, J. O., B. Snel, M. A. Huynen and P. Bork (2002). "SHOT: a web server for the construction of genome phylogenies". Trends Genet 18(3): 158-62.
Krause, A., J. Stoye and M. Vingron (2000). "The SYSTERS protein sequence cluster set". Nucleic Acids Res 28(1): 270-2.
Kumar, S. (1996). "A stepwise algorithm for finding minimum evolution trees". Mol Biol Evol 13(4): 584-93.
Lan, R. and P. R. Reeves (2000). "Intraspecies variation in bacterial genomes: the need for a species genome concept". Trends Microbiol 8(9): 396-401.
Lathe, W. C., 3rd, B. Snel and P. Bork (2000). "Gene context conservation of a higher order than operons". Trends Biochem Sci 25(10): 474-9.
Lawrence, J. and H. Ochman (2002). "Reconciling the many faces of lateral gene transfer". Trends Microbiol. 10: 1-4.
Lecointre, G. and H. Le Guyader (2001). "Classification phylogénétique du vivant". Paris, Belin.
Lespinats, S., P. Deschavanne, A. Giron and B. Fertil (2003). "LADN en tant que texte : style et syntaxe". Revue des Nouvelles Technologies de lInformation 1: 193-202.
Lespinats, S., P. Deschavanne, A. Giron and B. Fertil (2004). "Pertinence des métriques fractionnaires pour l'analyse des données de grande dimension (signature génomique). Fouille de données complexes dans un processus d'extraction des connaissances." EGC'04, Clermont-Ferrand, France.
Levasseur, C. and F.-J. Lapointe (2003). "Increasing phylogenetuc accuracy with global congruence". Bioconsensus. M. F. Janowitz, F.-J. Lapointe, F. R. McMorris, B. Mirkin and F. S. Roberts. Providence, American Mathematical Society. 61: 221-30.
Li, W. H. (1997). "Molecular Evolution", Sinauer.
Lin, J. and M. Gerstein (2000). "Whole-genome trees based on the occurrence of folds and orthologs: implications for comparing genomes on different levels". Genome Res 10(6): 808-18.
Liu, F. G., M. M. Miyamoto, N. P. Freire, P. Q. Ong, M. R. Tennant, T. S. Young and K. F. Gugel (2001). "Molecular and morphological supertrees for eutherian (placental) mammals". Science 291(5509): 1786-9.
Manhart, J. R. (1994). "Phylogenetic analysis of green plant rbcL sequences". Mol Phylogenet Evol 3(2): 114-27.
McInerney, J. O. (1998). "GCUA: general codon usage analysis". Bioinformatics 14(4): 372-3.
Medigue, C., T. Rouxel, P. Vigier, A. Henaut and A. Danchin (1991). "Evidence for horizontal gene transfer in Escherichia coli speciation". J Mol Biol 222(4): 851-6.
Moran, N. A. and A. Mira (2001). "The process of genome shrinkage in the obligate symbiont Buchnera aphidicola". Genome Biol 2(12): RESEARCH0054.
Moszer, I., E. P. Rocha and A. Danchin (1999). "Codon usage and lateral gene transfer in Bacillus subtilis". Curr Opin Microbiol 2(5): 524-8.
Mrazek, J. and S. Karlin (1998). "Strand compositional asymmetry in bacterial and large viral genomes". Proc Natl Acad Sci U S A 95(7): 3720-5.
Mrazek, J. and S. Karlin (1999). "Detecting alien genes in bacterial genomes". Ann N Y Acad Sci 870: 314-29.
Nadeau, J. H. and B. A. Taylor (1984). "Lengths of chromosomal segments conserved since divergence of man and mouse". Proc Natl Acad Sci U S A 81(3): 814-8.
Nakamura, Y., T. Itoh, H. Matsuda and T. Gojobori (2004). "Biased biological functions of horizontally transferred genes in prokaryotic genomes". Nature Genetics 36: 760-766.
Naylor, G. J. and W. M. Brown (1997). "Structural biology and phylogenetic estimation". Nature 388(6642): 527-8.
Needleman, S. B. and C. D. Wunsch (1970). "A general method applicable to the search for similarities in the amino acid sequence of two proteins". J Mol Biol 48(3): 443-53.
Nicolas, P., L. Bize, F. Muri, M. Hoebeke, F. Rodolphe, S. Ehrlich, B. Prum and P. Bessieres (2002). "Mining Bacillus subtilis chromosome heterogeneities using hidden Markov models". Nucleic Acids Res 30: 1418-26.
Nikolaichik, Y. A. and W. D. Donachie (2000). "Conservation of gene order amongst cell wall and cell division genes in Eubacteria, and ribosomal genes in Eubacteria and Eukaryotic organelles". Genetica 108(1): 1-7.
Nomura, M. (1999). "Engineering of bacterial ribosomes: replacement of all seven Escherichia coli rRNA operons by a single plasmid-encoded operon". Proc Natl Acad Sci U S A 96(5): 1820-2.
Nuttal, G. H. F. (1904). "Blood immunity and blood relationship". Cambridge.
Ochman, H., J. Lawrence, G. and E. Groisman, A. (2000). "lateral gene transfer and the nature of bacterial innovation". Nature 405: 299-304.
Oettinger, M. A., D. G. Schatz, C. Gorka and D. Baltimore (1990). "RAG-1 and RAG-2, adjacent genes that synergistically activate V(D)J recombination". Science 248(4962): 1517-23.
Olmstad, R. and J. D. Palmer (1994). "Chloroplast DNA systematics: a review of methods and data analysis." Amer. J. Bot. 81: 1205-24.
Olsen, G. J. (1987). "Earliest phylogenetic branchings: comparing rRNA-based evolutionary trees inferred with various techniques". Cold Spring Harb Symp Quant Biol 52: 825-37.
Ota, S. and W. H. Li (2000). "NJML: a hybrid algorithm for the neighbor-joining and maximum-likelihood methods". Mol Biol Evol 17(9): 1401-9.
Ota, S. and W. H. Li (2001). "NJML+: an extension of the NJML method to handle protein sequence data and computer software implementation". Mol Biol Evol 18(11): 1983-92.
Palmer, J. D. (1992). "Chloroplast and mitochondrial genome evolution in land plants." Cell Organelles. R. Hermann: 99-133.
Palmer, J. D. and L. A. Herbon (1988). "Plant mitochondrial DNA evolves rapidly in structure, but slowly in sequence." J Mol Evol 27: 87-97.
Pennisi, E. (2003). "Modernizing the tree of life". Science 300(5626): 1692-7.
Penny, D. and M. D. Hendy (1985). "The use of tree comparaison metrics". Systematic Zoology 34: 75-82.
Perriere, G. and J. Thioulouse (2002). "Use and misuse of correspondence analysis in codon usage studies". Nucleic Acid Research 30(20): 4548-4555.
Philippe, H. and J. Laurent (1998). "How good are deep phylogenetic trees?" Curr Opin Genet Dev 8(6): 616-23.
Pleissner, K. P., L. Wernisch, H. Oswald and E. Fleck (1997). "Representation of amino acid sequences as two-dimensional point patterns". Electrophoresis 18(15): 2709-13.
Pride, D. T., R. J. Meinersmann, T. M. Wassenaar and M. J. Blaser (2003). "Evolutionary implications of microbial genome tetranucleotide frequency biases". Genome Res 13(2): 145-58.
Qi, J., H. Luo and B. Hao (2004a). "CVTree: a phylogenetic tree reconstruction tool based on whole genomes". Nucleic Acids Res 32(Web Server issue): W45-7.
Qi, J., B. Wang and B. I. Hao (2004b). "Whole proteome prokaryote phylogeny without sequence alignment: a K-string composition approach". J Mol Evol 58(1): 1-11.
Ragan, M. A. (1992). "Phylogenetic inference based on matrix representation of trees". Mol Phylogenet Evol 1(1): 53-8.
Rambaut, A. and N. C. Grassly (1997). "Seq-Gen: an application for the Monte Carlo simulation of DNA sequence evolution along phylogenetic trees". Comput Appl Biosci 13(3): 235-8.
Rivera, M. C. and J. A. Lake (2004). "The ring of life provides evidence for a genome fusion origin of eukaryotes". Nature 431(7005): 152-5.
Robinson, D. F. and L. R. Foulds (1981). "Comparaison of phylogenetic trees". Math. Biosci. 53: 131-147.
Rocap, G., F. W. Larimer, J. Lamerdin, S. Malfatti, P. Chain, N. A. Ahlgren, A. Arellano, M. Coleman, L. Hauser, W. R. Hess, Z. I. Johnson, M. Land, D. Lindell, A. F. Post, W. Regala, M. Shah, S. L. Shaw, C. Steglich, M. B. Sullivan, C. S. Ting, A. Tolonen, E. A. Webb, E. R. Zinser and S. W. Chisholm (2003). "Genome divergence in two Prochlorococcus ecotypes reflects oceanic niche differentiation". Nature 424(6952): 1042-7.
Rokas, A., B. L. Williams, N. King and S. B. Carroll (2003). "Genome-scale approaches to resolving incongruence in molecular phylogenies". Nature 425(6960): 798-804.
Russo, C. A. M., N. Takezaki and M. Nei (1996). "Efficiencies of different genes and different tree-building methods in recovering a known vertebrate phylogeny". Mol. Biol. Evol. 13: 525-536.
Rzhetsky, A. and M. Nei (1995). "Tests of applicability of several substitution models for DNA sequence data". Mol Biol Evol 12(1): 131-51.
Saitou, N. and M. Nei (1987). "The neighbor-joining method: a new method for reconstructing phylogenetic trees". Mol Biol Evol 4(4): 406-25.
Sanderson, M. J. (1998). "Phylogenetic supertrees: assembling the trees of life". Trends Ecol. Evol 13: 105-9.
Sanger, F. and E. O. Thompson (1952). "The amino-acid sequence in the glycyl chain of insulin". Biochem J 52(1): iii.
Sankoff, D. (1992). "Edit distance for genome comparaison based on non-local operations." Third Annual Symposium on Combinatorial Pattern Machine, Berlin, Springer-Verlag.
Sankoff, D. and M. Blanchette (1997). "The median problem for breakpoints in comparative genomics". Computing and Combinatorics, New York, Springer-Verlag.
Sankoff, D., G. Leduc, N. Antoine, B. Paquin, B. F. Lang and R. Cedergren (1992). "Gene order comparisons for phylogenetic inference: evolution of the mitochondrial genome". Proc Natl Acad Sci U S A 89(14): 6575-9.
Schbath, S., B. Prum and E. de Turckheim (1995). "Exceptional motifs in different Markov chain models for a statistical analysis of DNA sequences". J Comput Biol 2(3): 417-37.
Sharp, P. M. and G. Matassi (1994). "Codon usage and genome evolution". Curr Opin Genet Dev 4(6): 851-60.
Smith, T. F. and M. S. Waterman (1981). "Identification of common molecular subsequences." J Mol Biol 147(1): 195-7.
Snel, B., P. Bork and M. A. Huynen (1999). "Genome phylogeny based on gene content". Nat Genet 21(1): 108-10.
Snel, B., P. Bork and M. A. Huynen (2002). "Genomes in flux: the evolution of archaeal and proteobacterial gene content". Genome Res 12(1): 17-25.
Sokal, R. R. and C. D. Michener (1958). "Univ. Kan. Sci. Bull". 28: 1409-38.
Soltis, D. E. and P. S. Soltis (2003). "The role of phylogenetics in comparative genetics". Plant Physiol 132(4): 1790-800.
Soltis, P. S., D. E. Soltis, P. G. Wolf, D. L. Nickrent, S. M. Chaw and R. L. Chapman (1999). "The phylogeny of land plants inferred from 18S rDNA sequences: pushing the limits of rDNA signal?" Mol Biol Evol 16(12): 1774-84.
Spears, T., L. G. Abele and M. A. Applegate (1994). "Phylogenetic study of cirripedes and selected relatives (Thecostraca) based on 18S rDNA". J. Crustac. Biol. 14: 641-656.
Springer, M. S. and W. W. de Jong (2001). "Phylogenetics. Which mammalian supertree to bark up?" Science 291(5509): 1709-11.
Stanier, R. and C. Van Niel (1962). "The concept of a bacterium". Arch Mikrobiol 42: 17-35.
Stuart, G. W., K. Moffett and S. Baker (2002a). "Integrated gene and species phylogenies from unaligned whole genome protein sequences". Bioinformatics 18(1): 100-8.
Stuart, G. W., K. Moffett and J. J. Leader (2002b). "A comprehensive vertebrate phylogeny using vector representations of protein sequences from whole genomes". Mol Biol Evol 19(4): 554-62.
Studier, J. A. and K. J. Keppler (1988). "A note on the neighbor-joining algorithm of Saitou and Nei". Mol Biol Evol 5(6): 729-31.
Sturtevant, A. H. and T. Dobzhansky (1936). "Inversions in the third chromosome of wild races of Drosophila pseudoobscura and their use in the study of the history of the species". Proc Natl Acad Sci U S A 22: 448-50.
Swofford, D. L. (2003). PAUP*, Phylogenetic Analysis Using Parsimony (*and Other Methods), Sinauer Associates, Sunderland, Massachusetts.
Tamames, J. (2001). "Evolution of gene order conservation in prokaryotes". Genome Biol 2(6).
Tamames, J., G. Casari, C. Ouzounis and A. Valencia (1997). "Conserved clusters of functionally related genes in two bacterial genomes". J Mol Evol 44(1): 66-73.
Tamura, K. and M. Nei (1993). "Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees". Mol Biol Evol 10(3): 512-26.
Teichmann, S. A. and G. Mitchison (1999). "Is there a phylogenetic signal in prokaryote proteins?" J Mol Evol 49(1): 98-107.
Tekaia, F., A. Lazcano and B. Dujon (1999). "The genomic tree as revealed from whole proteome comparisons". Genome Res 9(6): 550-7.
Tomb, J. F., O. White, A. R. Kerlavage, R. A. Clayton, G. G. Sutton, R. D. Fleischmann, K. A. Ketchum, H. P. Klenk, S. Gill, B. A. Dougherty, K. Nelson, J. Quackenbush, L. Zhou, E. F. Kirkness, S. Peterson, B. Loftus, D. Richardson, R. Dodson, H. G. Khalak, A. Glodek, K. McKenney, L. M. Fitzegerald, N. Lee, M. D. Adams, J. C. Venter and et al. (1997). "The complete genome sequence of the gastric pathogen Helicobacter pylori". Nature 388(6642): 539-47.
Woese, C. (1987). "Bacterial evolution". Microbiological Review 51: 221-271.
Woese, C. (1998). "The universal ancestor". Proc Natl Acad Sci U S A 95(12): 6854-9.
Woese, C. R. and G. E. Fox (1977). "Phylogenetic structure of the prokaryotic domain: the primary kingdoms". Proc Natl Acad Sci U S A 74(11): 5088-90.
Xiong, B. and T. D. Kocher (1993). "Phylogeny of sibling species of Simulium venustum and S. verecundum (Diptera: Simuliidae) based on sequences of the mitochondrial 16S rRNA gene". Mol Phylogenet Evol 2(4): 293-303.
Yang, Z. (1994). "Estimating the pattern of nucleotide substitution." J Mol Evol 39(1): 105-11.
Yang, Z. (1997). "How often do wrong models produce better phylogenies?" Mol. Biol. Evol. 14: 105-108.
Yap, W. H., Z. Zhang and Y. Wang (1999). "Distinct types of rRNA operons exist in the genome of the actinomycete Thermomonospora chromogena and evidence for horizontal transfer of an entire rRNA operon". J Bacteriol 181(17): 5201-9.
Yu, W., H. Nagaoka, M. Jankovic, Z. Misulovin, H. Suh, A. Rolink, F. Melchers, E. Meffre and M. C. Nussenzweig (1999a). "Continued RAG expression in late stages of B cell development and no apparent re-induction after immunization". Nature 400(6745): 682-7.
Yu, W., H. Nagaoka, Z. Misulovin, E. Meffre, H. Suh, M. Jankovic, N. Yannoutsos, R. Casellas, E. Besmer, F. Papavasiliou, X. Qin and M. C. Nussenzweig (1999b). "RAG expression in B cells in secondary lymphoid tissues". Cold Spring Harb Symp Quant Biol 64: 207-10.
Yu, Z.-G., V. Anh and K.-S. Lau (2001). "Measure representation and multifractal analysis of complete genomes". Phys Rev E 64(3): 1-9.
Yu, Z.-G. and P. Jiang (2001). "Distance, correlation and mutual information among portraits of organisms based on complete genomes". Phys. Lett. A 286(1): 34-46.
Yu, Z. G., V. Anh and K. S. Lau (2004). "Chaos game representation of protein sequences based on the detailed HP model and their multifractal and correlation analyses". J Theor Biol 226(3): 341-8.
Zgur-Bertok, D. (1999). "Mechanisms of horizontal gene transfer (review)". Folia Biol (Praha) 45(3): 91-6.
Zuckerkandl, E. and L. Pauling (1965). "Molecules as documents of evolutionary history". J Theor Biol 8(2): 357-66.
Zwieb, C., C. Glotz and R. Brimacombe (1981). "Secondary structure comparisons between small subunit ribosomal RNA molecules from six different species". Nucleic Acids Res 9(15): 3621-40.

PAGE

PAGE iv

EMBED Equation.3

Other exersises:

campagne d'habilitation - Examen corrige
1981-1989
royaume du maroc - Faculté des Sciences Ain Chock
Année universitaire 2000-2001 - lirmm
ID3.doc
tp réseau
TP 5 - Free
Master Physique Appliquée - Université de M'sila
RDP : Gestion de l'énergie électrique à bord d'un satellite
TD - Physique Appliquée
ventilation a l'exercice - Staps site de cours
I-La Nutrition - Free