Les génomes des eucaryotes sont ponctués de longues séquences qui ne codent pas pour des protéines ou des ARN. Bien que certaines de ces régions contiennent des séquences régulatrices cruciales, la grande majorité de cet ADN n’a aucune fonction connue. Typiquement, ces régions du génome sont celles dans lesquelles le changement le plus rapide, en termes d’évolution, est observé, car il y a généralement peu ou pas de pression de sélection agissant sur ces régions pour préserver leurs séquences.
En revanche, les régions qui codent pour une protéine peuvent subir une pression de sélection élevée, car tout changement dans leur séquence est susceptible d’entraîner une protéine qui est moins capable de remplir sa fonction de manière optimale. Cependant, occasionnellement, une mutation dans l’une de ces régions entraînera un résultat bénéfique qui contribue à la fitness globale de l’organisme, et de telles mutations persistent souvent et peuvent même se fixer dans les populations. Lorsque l’on compare la fréquence de ces événements de mutation aux changements relativement réguliers observés dans les séquences non codantes, cela est extrêmement rare et, en général, les régions codantes sont considérées comme évoluant lentement.
Il est également vrai qu’il existe une quantité mesurable de variation dans les niveaux de conservation des séquences au sein des séquences codantes, et cela se voit dans tous les organismes. Par exemple, prenons l’exemple d’une protéine réceptrice. De telles protéines ont typiquement différentes régions qui peuvent remplir des fonctions telles que la liaison à un ligand, ou la signalisation intracellulaire, ou l’intégration membranaire. Dans ce cas, une mutation dans la région impliquée dans la liaison au ligand peut produire une protéine qui est moins efficace pour lier le ligand. Par conséquent, la pression de sélection sera probablement élevée sur les nucléotides particuliers codant pour cette partie de la protéine. Cependant, dans la section de la protéine qui traverse la membrane, il peut y avoir moins d’effet si une substitution d’acide aminé se produit, et donc des niveaux plus faibles de pression de sélection. Dans ces conditions, nous pourrions voir que deux régions du même gène codant pour une protéine pourraient avoir des taux d’évolution différents.
Le séquençage de gènes ou de régions génomiques pour construire des phylogénies
Cette variation de la vitesse d’évolution du génome dans différentes régions peut être étudiée pour répondre aux questions sur les relations évolutives. Les gènes et les régions génétiques peuvent être sélectionnés et séquencés sur des groupes d’individus pour répondre à des questions aussi précises que « ces populations sont-elles potentiellement des espèces différentes ? » ou aussi large que “comment ces embranchements se placent-ils dans l’arbre de la vie ?”. Pour le premier, la sélection d’un gène qui a une région relativement peu conservée aiderait à identifier les différences au niveau de la population. Inversement, pour répondre à des questions sur des groupes aussi divers que les phyla, une région génique hautement conservée peut fournir suffisamment d’homologie pour produire une phylogénie de ces groupes. Les régions couramment utilisées pour les analyses phylogénétiques moléculaires telles que celles-ci comprennent les gènes d’ARNr ribosomique (tels que l’ARNr 16s, l’ARNr 18s ou l’ARNr 28s) ou les régions génomiques connues sous le nom d’ITS (espaceurs internes transcrits, I ou II) qui se situent entre les gènes de la sous-unité d’ARNr ribosomique.