Os genomas dos eucariotas podem ser estruturados em várias categorias funcionais. Uma cadeia de DNA é composta por genes e regiões intergénicas. Os genes em si consistem em exões codificantes de proteínas e intrões não codificantes. Os intrões são excisados assim que a sequência é transcrita para mRNA, deixando apenas exões para codificar proteínas.
Em genomas eucarióticos, os genes estão separados por grandes porções de DNA que não codificam proteínas. No entanto, essas regiões intergénicas carregam elementos importantes que regulam a atividade genética, por exemplo, o promotor onde a transcrição começa, e amplificadores e silenciadores que afinam a expressão genética. Por vezes, esses locais de ligação podem estar localizados longe do gene associado.
Conforme os cientistas investigaram o processo de transcrição genética em eucariotas, eles perceberam que o mRNA final que codifica uma proteína é menor do que o DNA do qual ele é derivado. Essa diferença de comprimento deve-se a um processo chamado splicing. Assim que o pré-mRNA é transcrito do DNA no núcleo, o splicing remove imediatamente intrões e junta exões. O resultado é mRNA codificante de proteína que se move para o citoplasma e é traduzido em proteína.
Um dos maiores genes humanos, DMD, tem mais de dois milhões de pares de bases. Este gene codifica a proteína muscular distrofina. Mutações no DMD causam distrofia muscular, um distúrbio caracterizado pela deteriorização muscular progressiva. Este gene contém 79 exões e 103 intrões. Na outra extremidade do espectro está o gene da histona H1A—é um dos genes mais pequenos do genoma humano com extensão de apenas 781 pares de bases com um exão e nenhum intrão.
Os intrões são lixo do DNA que precisa ser removido? Curiosamente, os intrões podem carregar elementos que são importantes para a regulação genética. Além disso, a excisão inicial da transcrição e a junção de exões permite que sequências de DNA sejam misturadas. Este processo de mistura e combinação de exões é conhecido como splicing alternativo. Torna possível produzir várias variantes proteicas a partir de uma única sequência de codificação.
Sabia que 99% do seu genoma não codifica proteínas? Nos primeiros tempos de investigação do genoma, os biólogos cunharam o termo ‘DNA lixo’ para essas sequências aparentemente não funcionais. Entretanto, aprendemos que uma grande parte do DNA não codificante tem funções importantes. Pelo menos 9% do genoma humano está envolvido na regulação genética—isso é nove vezes mais do que sequências de codificação de proteínas.
1. William Roy, Scott, and Walter Gilbert. “The Evolution of Spliceosomal Introns: Patterns, Puzzles and Progress.” Nature Reviews Genetics 7, no. 3 (March 2006): 211–21. https://doi.org/10.1038/nrg1807.