Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Découverte de roman-fleuve de génomique soustractive

Published: January 25, 2019 doi: 10.3791/58877

Summary

Le but du présent protocole est d’utiliser une combinaison de calcul et de la recherche de banc pour trouver de nouvelles séquences qui ne peuvent être facilement séparés d’une séquence co purificatrice, qui peut-être n'être que partiellement connue.

Abstract

Soustractive génomique peut être utilisé dans des recherches dont le but est d’identifier la séquence d’un gène, protéine ou une région qui est incorporée dans un contexte plus large de génomique. Soustractive génomique permet à un chercheur d’isoler une séquence cible d’intérêt (T) en séquençage complet et en soustrayant les éléments génétiques connus (référence, R). La méthode peut être utilisée pour identifier de nouvelles séquences comme les mitochondries, chloroplastes, virus, ou cellules germinales restreinte de chromosomes et est particulièrement utile lorsque T ne peut pas être facilement isolé de R. commençant par les données génomiques complètes (R + T), la méthode utilise base locale alignement Search Tool (BLAST) contre une séquence de référence, ou séquences, pour supprimer les séquences connues correspondants (R), laissant derrière lui la cible (T). Pour la soustraction fonctionner au mieux, R doit être un projet relativement complet auquel il manque T. Depuis les séquences restantes après soustraction sont testés à travers quantitative Polymerase Chain Reaction (qPCR), R n’a pas besoin d’être terminés pour que la méthode fonctionne. Ici nous relions computational étapes avec des étapes expérimentales dans un cycle qui peut être itéré selon les besoins, séquentiellement, supprimant plusieurs séquences de référence et affiner la recherche de T. L’avantage de la génomique soustractive, c’est qu’une séquence complètement nouvelle cible soient reconnaissables même dans les cas où la purification physique est difficile, impossible ou coûteux. L’inconvénient de la méthode est trouver une référence appropriée pour la soustraction et obtenir T-positifs et négatifs des échantillons pour les tests de qPCR. Nous décrivons notre implémentation de la méthode dans l’identification du premier gène du chromosome germline restreints de zebra finch. Dans ce cas de filtrage informatique impliqué trois références (R), retirés dans l’ordre pendant trois cycles : un assemblage génomique incomplète et données génomiques brutes données transcriptomiques.

Introduction

Le but de cette méthode est d’identifier une nouvelle cible (T) séquence génomique, ADN ou ARN, d’un contexte génomique, ou d’une référence (R) (Figure 1). La méthode est plus utile si la cible ne peut pas être physiquement séparée, ou il serait coûteux de le faire. Seuls quelques organismes ont fini parfaitement génomes pour la soustraction, donc une innovation majeure de notre méthode est la combinaison de calcul et les méthodes de banc dans un cycle permettant aux chercheurs d’isoler les séquences cibles lorsque la référence est imparfaite, ou un projet génome d’un organisme non-modèle. À la fin d’un cycle, qPCR test sert à déterminer si la soustraction plus est nécessaire. Une séquence de candidat validé T montrera détection statistiquement supérieure dans les échantillons de T positifs connus de qPCR.

Incarnations de la méthode ont été mis en œuvre dans la découverte de nouvelles cibles de médicaments bactérienne qui n’ont pas d’hôte homologues1,2,3,4 et l’identification de nouveaux virus d’hôtes infectés 5,6. En plus de l’identification de T, la méthode peut améliorer r : nous avons récemment utilisé la méthode pour identifier des gènes manquants 936 du génome de référence zebra finch et un nouveau gène provenant d’une seule lignée germinale chromosome (T)7. La génomique soustractive est particulièrement précieuse lorsque T est susceptible d’être extrêmement divergentes de séquences connues, ou lorsque l’identité de T est largement indéfinie, comme dans le zebra finch germline restreints du chromosome7.

En n’exigeant ne pas une identification positive de T au préalable, un avantage majeur de génomique soustractive est qu’il est non biaisée. Dans une étude récente, Readhead et coll. ont examiné la relation entre la maladie d’Alzheimer et l’abondance viral dans quatre régions du cerveau. D’identification virale, Readhead et coll. a créé une base de données de 515 virus8, limitant sévèrement les agents viraux qui pourrait identifier leur étude. Soustractive génomique pourrait ont été utilisés pour comparer des bien-portants et génomes Alzheimer afin d’isoler les possibles nouveaux virus associés à la maladie, quelle que soit leur ressemblance à des agents infectieux connus. Bien qu’il y a 263 virus connus de ciblage de l’homme, on estime qu’environ 1,67 millions espèces virales non découvertes existent, avec 631 000-827 000 d'entre eux ayant un potentiel d’infecter les humains9.

Isolement des nouveaux virus est un domaine dans lequel soustractive génomique est particulièrement efficace, mais certaines études ne peut-être pas besoin d’une telle méthode rigoureuse. Par exemple, études, identification de nouveaux virus ont utilisé le séquençage haut débit impartial suivie par transcription inverse et BLASTx pour séquences virales5 ou enrichir des acides nucléiques viraux d’extraire et d’inverser transcrivent des séquences virales 6. alors que ces études utilisées séquençage de novo et Assemblée, soustraction n’était pas utilisée parce que les séquences cibles ont été identifiés par le biais de BLAST. Si les virus étaient complètement nouveaux et non liées (ou lointainement apparentées) à d’autres virus, génomique soustractive aurait été une technique utile. L’avantage de la génomique soustractive est qu’on peuvent obtenir les séquences qui sont complètement nouveaux. Si le génome de l’organisme est connu, il peut déduire de quitter toutes les séquences virales. Par exemple, dans notre étude publiée nous avons isolé un roman-fleuve virale de zebra finch par la génomique soustractive, même s’il n’était pas notre intention originale7.

Soustractive génomique s’est avérée aussi utile dans l’identification des cibles de vaccin bactérien, motivés par l’augmentation impressionnante de la résistance aux antibiotiques1,2,3,4. Pour minimiser le risque de réaction auto-immune, chercheurs a réduit les cibles potentielles de vaccin en soustrayant toutes les protéines qui ont des homologues chez l’hôte humain. Une étude particulière, en regardant pseudotuberculosis Corynebacterium, jouée soustraction des génomes de vertébrés hôtes de plusieurs génomes bactériens pour s’assurer que cibles médicamenteuses possibles n’affecterait pas les protéines chez les hôtes conduisant à des effets secondaires 1. le flux de travail de base de ces études est de télécharger le protéome bactérien, déterminer les protéines vitales, éliminer les protéines redondants, utiliser BLASTp pour isoler les protéines essentielles et BLASTp contre hôte proteome pour enlever toutes les protéines avec les homologues de l’hôte 1 , 2 , 3 , 4. dans ce cas, génomique soustractive assure que les vaccins mis au point n’auront pas d’effets hors cible dans l’hôte1,2,3,4.

Nous avons utilisé soustractive génomique pour identifier le premier gène codant pour des protéines sur un lignée germinale restreints du chromosome (GRC) (dans ce cas, T), qui se trouve dans germlines mais tissu pas somatique des deux sexes10. Avant cette étude, l’information seulement génomique qui savait sur la GRC était une région répétée11. Assemblée de novo a été réalisée sur RNA séquencée à partir de tissus de l’ovaire et teste (R + T) de diamants mandarins adultes. L’élimination de calcul des séquences a été effectuée à l’aide de publiées somatique (muscle) génome sequence (R1)12, ses brute (Sanger) lire données (R2) et un de transcriptome (R3) somatique (cerveau)13. L’utilisation séquentielle de trois références est pilotée par le qPCR test à l’étape 5 de chaque cycle (Figure 2A), indiquant qu’il fallait un filtrage supplémentaire. Le gène α-SNAP découvert a été confirmé par qPCR d’ADN et d’ARN et clonage et séquençage. Nous montrons dans notre exemple que cette méthode est souple : il n’est pas tributaire de l’appariement des acides nucléiques (ADN vs RNA) et cette soustraction peut être effectuée avec des références (R) qui sont composent d’assemblées ou de lectures brutes.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. séquence de démarrage assembler de novo

Remarque : Toute séquence de génération (NGS) données peuvent servir, tant qu’un assembly peut être produit à partir de ces données. Les données d’entrée appropriées comprennent Illumina, PacBio, ou Oxford Nanopore lit assemblé dans un fichier de fasta. Pour concret, cette section décrit un assembly de base Illumina transcriptomique spécifique à l’étude de zebra finch, nous avons réalisé7; Toutefois, sachez que les spécificités varieront par projet. Pour notre exemple de projet, données brutes proviennent d’un MiSeq et environ 10 millions de lectures appariés ont été extraites de chaque échantillon.

  1. Utilisez Trimmomatic 0,3214 pour enlever Illumina adaptateurs et bases de faible qualité. Sur la ligne de commande, entrez :
    Java-jar trimmomatic-0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz baseout - quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 leader : 3 fuite : 3 SLIDINGWINDOW:4:20 MINLEN:40
  2. PEAR15 v. 0.9.6 permet de créer des lectures fusionnées de haute qualité de trimmomatic sortie jumelé lectures, en utilisant les paramètres par défaut. Sur la ligne de commande, entrez :
    poire -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Utilisation Reptile v. 1.116 erreur-corriger les lectures issu de la poire. Suivez le protocole étape par étape décrit à17.
  4. Utiliser la Trinité v. 2.4.018 en mode par défaut pour assembler des séquences a été corrigés. Pour les bibliothèques de brin-spécifiques, utilisez paramètre - SS_lib_type. La sortie est un fichier de fasta (your_assembly.fasta). Sur la ligne de commande, entrez :
    Trinity, fq--seqType--SS_lib_type FR – max_memory 10G-Trinity_output--quality_and_adaptor_trimmed_forward_paired_reads.fq à gauche de la sortie – quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10 à droite
    Remarque : La sortie sera placée dans un nouveau répertoire, Trinity_output, et l’Assemblée sera nommée « Trinity.fasta », qui peuvent être renommés comme Your_assembly.fasta si vous le souhaitez. Voir le site de Trinity pour plus de détails : https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. faire sauter l’Assemblée contre la séquence de référence

Remarque : Utiliser cette étape lorsque la référence est un assembly soit long se lit comme Sanger ; Si elle est composée de crus Illumina lit, reportez-vous à l’étape 3 ci-dessous pour la cartographie des lectures à la requête. Toutes les étapes de l’explosion ont été réalisées avec la version 2.2.29+ si les commandes devraient fonctionner sur toute version récente de BLAST.

  1. Faire une base de données de l’explosion de la séquence de référence (nucleotide_reference.fasta) sur la ligne de commande. Entrer dans la ligne de commande suivants :
    makeblastdb - dbtype nucl-en nucleotide_reference.fasta-out nucleotide_reference.db
  2. BLAST-match l’Assemblée de la requête (générée à l’étape 1) à la base de données de référence. Pour obtenir un fichier de sortie, utilisez [-out BLAST_results.txt] et pour générer des sorties tabulaires (requis pour les étapes ultérieures de traitement avec les scripts Python), utilisez [outfmt - 6]. Ces options peuvent être combinées dans n’importe quel ordre, pour un exemple complet est [blastn-interroger your_assembly.fasta - db nucleotide_reference.db-out BLAST_results.txt - outfmt 6]. Si un paramètre de valeur e est souhaité, utilisez l’option de - evalue le nombre voulu, par exemple [evalue-1e-6]. Sachez toutefois que le cycle soustractif efficacement inverse l’evalue définissant comme décrit dans la discussion.
  3. Pour rigueur accrue, utiliser les séquences protéiques de l’Assemblée que la requête BLAST avec traduit nucleotide BLAST (tBLASTn), qui effectue la traduction de la 6-chemin de la base de données (nucléotides). Cette méthode est recommandée pour la plupart des systèmes non-modèle, éviter le problème des annotations de protéines incomplètes.
    1. S’assurer que le code génétique correct est sélectionné pour l’organisme étudié, à l’aide d’option - db_gencode. Pour obtenir les séquences de protéines pour la requête, exécutez la commande de TransDecoder.LongOrfs (du paquet de TransDecoder v. 3.0.1) afin d’identifier les cadres plus longue lecture ouverte de séquences requête assemblé. La commande est [TransDecoder.LongOrfs-t your_assembly.fasta] ; la sortie sera placée dans le répertoire appelé « transcripts.transdecoder_dir » et contienne un fichier nommé longest_orfs.pep contenant les séquences plus longues protéine de chaque séquence dans your_assembly.fasta.
    2. Pour utiliser tBLASTn, exécutez la commande [tblastn-interroger longest_orfs.pep - db nucleotide_reference.db-out BLAST_results.txt - outfmt 6]. Si une référence de protéines de haute qualité est disponible, utiliser les protéines correspondant avec BLASTp plutôt que tBLASTn.
    3. Faire une base de données de l’explosion de la référence de protéine [makeblastdb - dbtype prot-en protein_reference.fasta-out protein_reference.db] puis [blastp-interroger longest_orfs.pep - db protein_reference.db-out BLAST_results.txt - outfmt 6]. N’oubliez pas d’enregistrer les résultats dans un fichier de transformation en aval et tabulaire (outfmt 6) permet de s’assurer que les scripts Python peuvent les analyser correctement.

3. carte se lit sur l’ensemble

Remarque : Cette méthode peut être utilisée si le dataset de référence est constitué de lectures brutes de génomiques, plutôt que les séquences assemblées ou séquences de Sanger, dans quel cas, utilisez BLAST (étape 2.1).

  1. À l’aide de BWA-MEM c. 0.7.122019 ou bowtie2, mapper les lectures brutes téléchargées (raw_reads.fastq) sur l’ensemble de la requête. La sortie sera .sam format. Commandes sont les suivantes : tout d’abord l’index l’Assemblée : [bwa index your_assembly.fasta], puis mappez-la sur le lit [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Remarque le ' >' symbole ici n’est pas un supérieur-que de signer ; au lieu de cela, il indique à la sortie pour aller dans le fichier mapped.sam).

4. utiliser un Script Python pour supprimer toute séquence correspondant

NOTE : Doté de travail scripts Python 2.7.

  1. Après l’étape 2, utilisez soustractive Python script en utilisant la commande [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Avant d’exécuter le script, assurez-vous que le fichier de sortie BLAST est au format 6 (tabulaire). Le script va afficher un fichier avec des séquences non correspondantes au format fasta nommé your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta et aussi la correspondance séquences pour les enregistrements, comme your_assembly.fasta_matching_sequences_BLAST_ results.txt.FASTA. la non correspondance fichier sera le plus important, comme une source de potentiels séquences T pour les tests et autres cycles de génomique soustractive.
  2. Après l’étape 3, exécutez le removeUnmapped.py de script Python de prendre comme entrée la .sam étape 3.1 et identifie les noms des séquences de la requête sans aucune contreparties lectures et enregistre dans un fichier texte. Utilisez la commande [./removeUnmapped.py mapped.sam] et la sortie sera mapped.sam_contigs_with_no_reads.txt. (Le programme va générer un fichier de sam allégée avec des lectures tout non mappés enlevés, ce fichier peut être ignoré pour les fins du présent protocole, mais peut-être être utile pour d’autres analyses).
  3. Comme la sortie de l’étape précédente est une liste de noms de séquence dans un fichier texte appelé mapped.sam_contigs_with_no_reads.txt, extraire un fichier de fasta avec ces séquences : [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. La sortie sera un fichier appelé mapped.sam_contigs_with_no_reads.txt.fasta.

5. conception des amorces pour la séquence qui reste

Remarque : À ce stade il y a un fichier de fasta contenant des séquences de candidat T. Cette section décrit qPCR de tester expérimentalement qu’ils viennent de T ou de régions jusque-là inconnues du R. Si la soustraction à l’étape 4 supprimé toutes les séquences, puis l’Assemblée initiale n’a pas inclus de T, ou la soustraction peut avoir été trop sévère.

  1. Geneious21 permet de déterminer manuellement les séquences d’amorces optimale.
    1. Mettez en surbrillance une séquence de candidat de 21-28 bp pour l’amorce vers l’avant. Éviter les séries de 4 ou plus de n’importe quelle base. Essayez de cibler une région avec une combinaison assez uniforme de tous les basepairs. Un seul G ou C à l’extrémité 3' est bénéfique, contribue à ancrer l’apprêt.
    2. Cliquez sur l’onglet statistiques sur la partie droite de l’écran pour visualiser cette séquence estimée à température de fusion (Tm) comme le souligne la région candidate. Coup d’oeil d’obtenir une température de fusion entre 55 et 60 ° C, tout en évitant les répétitions et longues séries de G/C.
    3. Suivez les étapes 5.1.1. et 5.1.2 de choisir une amorce de marche arrière, situé 150-250 paires de bases 3' de l’amorce vers l’avant. Alors que les longueurs d’apprêt n’avez pas besoin de faire correspondre, le Tm prévu devrait être aussi proche que possible de la Tm de l’amorce vers l’avant. N’oubliez pas d’inverser la séquence de complément (si un clic-droit dans Geneious tandis que la séquence est mis en évidence c’est une option de menu).
  2. Utilisez la fonction de Conception d’amorce , qui se trouve dans la barre d’outils supérieure dans la fenêtre de la séquence.
    1. Cliquez sur le bouton Conception d’amorce . Insérer la région pour amplifier sous Région cible.
    2. Sous l’onglet caractéristiques , insérer la taille désirée, température de fusion (Tm) et % GC (voir l’étape 5.1.1).
    3. Cliquez sur OK pour avoir généré des amorces. Commander les amorces à travers un service personnalisé oligo.
  3. Valider des amorces avec contrôle ADN (encodage fois r et T) afin d’optimiser les temps Tm et extension. Utilisation régulière Taq et électrophorèse sur gel pour voir la taille de la bande, mais optimisation peut également être effectuée avec le qPCR suivant les méthodes à l’étape 6.
    1. Préparer des dilutions de X 10 d’amorces et inverses afin que les amorces ont une concentration de 10 μM.
    2. Utilisez un mélange PCR de 0,5 μL de dNTP, 0,5 μL d’apprêt avant, 0,5 μL d’apprêt inverse, 0,1 μL de la Taq polymérase, 2 μL de modèle, 0.75 μL de magnésium, 2,5 μL de tampon et 18.15 μL d’eau de sorte qu’il y a 25 μL / modèle avec une concentration de 5 ng / ΜL.
    3. Tester les amorces à différentes températures de fusion dans le programme de la PCR. Une performance optimale est généralement fonte observée des températures légèrement sous le Tm prédit des amorces, mais généralement pas au-dessus de 60 ° C. Aussi tester pour extension optimale fois à l’aide de ce guide : 1 min par 1000 bp (ainsi, habituellement de 10 à 30 secondes selon la longueur de l’amplicon).
    4. Effectuer l’électrophorèse sur gel point final pour confirmer que les amorces amplifient la séquence prévue. Courir 25 μL du produit qPCR mélangé à 5 μL de 6 X teinture de glycérol sur un gel d’agarose TAE 2 % à 200 V pendant 20 min.

6. qPCR Validation de la séquence restants

Remarque : Cette étape nécessite des amorces validés et des conditions d’amplification créées à l’étape 5.

  1. Exécuter chaque modèle en trois exemplaires, avec le mélange suivant ; 12,5 μL du mélange maître PowerSYBR Green, 0,5 μL d’apprêt avant, avec une concentration de 10 μM, 0,5 μL d’apprêt inverse avec une concentration de 10 μM, 10,5 μL d’eau et 1 μL de modèle ADN (à une concentration de 2 ng/μL) , afin que chacun contient bien 25 μL de volume total.
  2. Exécuter un programme de qPCR informé par la température validée et la prorogation de délai de l’étape 4. Nous avons conçu et validé tous les apprêts pour être compatible avec un cycle de deux étages, 95 ° C pendant 10 min la fonte initiale, puis 40 cycles de 95 ° C pendant 30 s et 60 ° C pendant 1 min. Toutefois, un programme (fonte-recuit-étendre) de trois étapes peut-être être plus optimal pour les amorces et devrait être adapté si nécessaire. Nous recommandons que des courbes de dénaturation finales généré au moins la première fois que les amorces sont employés en qPCR pour valider l’amplification d’un seul produit de l’ADN.
  3. Mesure qPCR/SYBR Green signale par rapport à l’actine (ou tout autre contrôle approprié « R ») par la Cour provinciale pour tous les cas calculeront la moyenne et l’écart type de 2-(gène Ct - β-actine Ct).
  4. (Facultatif) Effectuer l’électrophorèse sur gel point final pour confirmer la détection de taille correcte du produit de qPCR. Ici, exécutez 25 μL du produit qPCR mélangé à 5 μL de 6 x teinture de glycérol sur un gel d’agarose TAE 2 % à 200 V pendant 20 min.

7. Répétez avec une nouvelle référence à Pare les données.

Remarque : Si l’étape6 validé les séquences identifiées de T, mettre fin au cycle ici (Figure 2A). Cependant, diverses considérations peuvent motiver une continuation du cycle, par exemple, si plusieurs séquences de R restent dans le fichier, ou si aucun des séquences candidat T ont été validés par qPCR à l’étape 6.

  1. Obtenir une nouvelle référence. Cette étape permet une nouvelle itération du cycle et peut-être inclure des données génomiques brutes, les données brutes de RNA-seq ou autres ensembles assemblés. Des ressources précieuses pour les données de référence incluent la base de données de génome du National Center for Biotechnology Information (https://www.ncbi.nlm.nih.gov/genome) qui stocke assemblé génomes accessibles via FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), et l’Omnibus de Expression de gène (https://www.ncbi.nlm.nih.gov/geo/) où sont stockés les lectures de séquence brute de prochaine génération. Projets de génome peuvent fournir leurs données de séquence brute à travers d’autres sites Web associés au projet et les bases de données.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Après l’exécution de BLAST, le fichier de sortie aura une liste de séquences de la requête qui correspond à la base de données. Après soustraction de Python, un certain nombre de séquences non correspondantes est obtenu et testé par qPCR. Les résultats du présent et les prochaines étapes, sont examinés ci-dessous.

Résultat négatif. Il y a deux résultats négatifs possibles qui peuvent être vus après l’explosion à la séquence de référence. Il ne peut y avoir aucun résultat de l’explosion, ce qui signifie que la séquence totale n’a pas toutes les séquences similaires à la référence. C’est peut-être une erreur dans le choix de la séquence de référence juste pour l’exemple séquencé. Une autre possibilité est qu’il n’y a aucune séquence unique dans l’assembly de départ (tout est soustraite de suite), donc aucuns gènes ne sont retrouvent pour la séquence d’intérêt. Vérifiez où la référence est venu et qu’il n’est pas le même tissu que l’assembly de la requête.

Après filtrage algorithmique, qPCR peut-être donner un résultat négatif, pour voir des exemples Figure 3A, 3 b, C dans lequel il y avait aucune différence de détection dans les tissus des oiseaux. Panneaux A à C est des gènes représentatifs de soustraction de différents cycles, laquelle cycle soustractive supplémentaires motivés les itérations et le développement de la méthode (Figure 2A, 2 b).

Résultat positif. Un résultat positif--l’identification d’une séquence cible véritable--est confirmée lorsque genomic DNA qPCR montre statistiquement supérieure détection dans le tissu / échantillon d’intérêt par rapport à la référence (Figure 3D). Dans ce cas, le projet soustractif a commencé avec le séquençage de l’ARN du tissu de la lignée germinale des mâle et des femelle adulte zebra finch, obtenir 10 millions de paires en savoir de chaque sexe. Par souci de concision, nous allons décrire le traitement de la séquence de l’ovaire, dont 167 929 transcriptions ont été obtenues par assemblage de novo . La méthode soustractive génomique (BLASTn) a été utilisée pour éliminer toutes les séquences qui correspondait le génome somatique publié12, qui a laissé 5 060 transcriptions correspondant à 598 protéines uniques, ce qui indique que les transcriptions étaient non codantes. Le Sanger lectures brutes utilisées pour générer l’assembly étaient ensuite utilisées pour le prochain niveau de soustraction par tBLASTn, produisant des 78 protéines. Une soustraction finale a été effectuée à l’aide de RNA-seq brut lit du lobule auditives13, qui a laissé huit protéines. Lorsque ces protéines ont été testés par le biais de NCBI nr BLAST, six des protéines étaient virale, l’un était une région répétée chez les oiseaux, et le dernier était un α-clin d’oeil qui est germinale limité7 (Figure 2B). Au cours de ce processus, 935 gènes somatiques qui ne figuraient pas auparavant dans l’annotation du génome ont été identifiés ; plusieurs ont montré l’amplification qPCR uniforme à travers les tissus (Figure 3A, 3 b, 3C). Le gène de le α-clin d’oeil a été validé pour être germline restreint à l’aide de qPCR, parce qu’elle était déchargée dans les tissus somatiques par rapport au testicule ADN où il assistait à des niveaux équivalents à l’actine (Figure 3D).

Ce qui pourrait aller mal. Le principal problème qui doit être surmonté lorsque cette méthode est de s’assurer que la séquence de référence appropriée est utilisée. La meilleure séquence de référence, au sens large, encapsule la complexité génomique dans lesquelles s’inscrit la séquence d’intérêt (T). Cela peut signifier que séquences sous différentes formes ; transcriptome, assemblage, données brutes ou données provenant d’études multiples doivent être utilisés comme références (Figure 1). Dans l’étude zebra finch, nous avons développé des amorces de données de séquençage de l’ARN ; Toutefois, les amorces ne fonctionnaient pas toujours due à la présence d’introns entre ou dans les sites de liaison d’amorce dans l’ADN. Nous avons testé chaque amorce définie par PCR sur l’ADN génomique d’ADN qui code pour l’objectif de (T) et la référence (R), ce qui en fait un témoin positif adapté des testicules. Échec d’amorce à ce stade nécessite la conception et les essais de nouvelles amorces jusqu'à ce qu’un ensemble approprié est identifié. Appliquent des pièges standards de méthodes basées sur la PCR : amplification conditions doivent être optimisées, amplification spécificité confirmée par des essais ou contrôles clonage et non-modèle doivent être inclus dans toutes les expériences. Pour plus d’informations sur les dosages de qPCR, voir22.

Figure 1
Figure 1 . L’approche soustractive s’enlèvent par itération plusieurs références (R) pour récupérer uniquement la séquence cible des intérêts (T) de données génomiques totales. Les séquences de référence des projets individuels ne peuvent pas se chevaucher exactement de cette manière et peuvent inclure des ensembles de données non indiqué sur la figure. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 2
La figure 2Méthodes visuelles. (A) schéma du cycle soustractive. Le cycle peut être itéré autant de fois que nécessaire, chaque fois en utilisant des séquences de référence distincts, pour obtenir les meilleurs résultats. (B) exemple spécifique du cycle soustractif des étapes effectuées dans Biederman et al. 7, avec les étapes numérotées comme dans A et avec le nombre de séquences restant à chaque étape indiquée. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Figure 3
Figure 3 . Exemple de données de résultats de qPCR y compris les résultats positifs et négatifs. (A) genomic DNA qPCR de CHD8, un résultat négatif. (B) genomic DNA qPCR de DNMT1, un résultat négatif. (C) Genomic DNA qPCR de CHD7, un résultat négatif. (D) genomic DNA qPCR de NAPAG, confirmant la présence plus précisément dans les échantillons de testicule et appauvrissement de la couche de foie et de l’ovaire relativement à l’actine, un résultat positif. Tous les panneaux indiquent la moyenne +/-écart-type de trois mesures. S’il vous plaît cliquez ici pour visionner une version agrandie de cette figure.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Tandis que la génomique soustractive est puissante, il n’est pas une approche d’emporte-pièce, nécessitant une personnalisation à plusieurs étapes clés et une sélection rigoureuse des séquences de référence et des échantillons pour essai. Si l’assembly de la requête est de mauvaise qualité, des mesures de filtrage pourrait isoler seulement artefacts de l’Assemblée. Par conséquent, il est important de valider complètement l’assembly en reprenant à l’aide d’un protocole de validation appropriée au projet spécifique. Pour RNA-seq, les lignes directrices sont fournies sur le site de Trinity18 et l’ADN, un outil comme REAPR23 peut être utilisé. Une autre étape cruciale lors de l’utilisation de BLAST est la sélection d’e-valeur appropriée, qui déterminera si la soustraction doit être détendu ou sévères. Toutefois, une inversion se produit dans la méthode : un match plus strict pour référencer est en fait une soustraction de moins rigoureuses, comme des séquences non correspondantes ne sont pas soustraits. Par conséquent, une plus grande valeur e (moins stricte) devrait être utilisée dans BLAST pour une soustraction plus stricte. La dernière étape essentielle du protocole est la sélection de référence. Pour une efficacité plus grande, la référence devrait être aussi complete que possible ; Cependant, il n’a pas besoin d’être parfait car qPCR test confirme si les séquences restantes sont de T ou R, et si le filtrage plus est nécessaire. Au cours de la mise en œuvre du protocole, nouvelles références peuvent servir à plus étroit vers le bas les gènes doit être validé. Nous notons que, parfois, la méthode correspondante peut changer : des scripts de la dernière étape soustractive, nous avons utilisé l’algorithme BWA pour mapper des lectures brutes sur les séquences de requête et utilisé python personnalisé pour identifier les séquences requête avec aucune correspondance ne lit (Figure 2B).

Limitations de cette méthode incluent la disponibilité d’une séquence de référence. Par exemple, Meyer et al. évalué le génome mitochondrial d’une nouvelle hominiens ; ils utilisaient humaine et Denisovan sondes pour capturer l’ADN mitochondrial, qui a été séquencé et mappée à une référence humaine24. Dans ce cas, il n’y a aucune donnée de référence du génome nucléaire existante que les chercheurs pourraient ont soustrait contre afin d’obtenir le génome mitochondrial, nécessitant la lecture-mappage de stratégie alternative24. Toute régions largement divergente de la mitochondrie nouvelle par rapport à la référence mitochondriale humaine ne pourra être perdues lecture-cartographie. Soustractive génomique offre une approche moins biaisé que mappage de lecture mais n’est pas toujours applicable en fonction de la question de recherche, et dans ce cas, les faibles niveaux d’ADN ancien empêchaient le genre de couverture de séquence requise pour (Assemblée) de novo étape 1 de la génomique soustractive).

Purification physique fournit une autre méthode alternative à la génomique soustractive. Purification d’ADN ou d’ARN est souvent utilisée dans le chloroplaste entier de séquençage et des génomes mitochondriaux parce que les génomes de ces organites sont beaucoup plus petits que les génomes nucléaires25,26,27,28. Humaines et d’autres plus petits génomes mitochondriaux peuvent être isolés pour le séquençage par amplification à l’aide de deux paires d’amorces suivies de purification25. Cependant, soustractive génomique peut être utile pour les cas dans lesquels les génomes mitochondriaux sont exceptionnellement grandes, les sites de liaison d’amorce sont divergents ou n’entraînera pas dans le génome complet. Un exemple de ceci est en ciliés, qui ont de gros, divergentes, les génomes mitochondriaux linéaire29. Mappage d’un génome de référence n’est pas une option viable pour les ciliés en raison de la forte divergence entre espèces et manque d’homologues de même à travers des genres30. En utilisant la génomique soustractive, le génome mitochondrial cilié peut être isolé et analysé tout en minimisant le potentiel des segments manquants du génome. De même, alors qu’une approche de l’Assemblée de novo était utilisée dans l’assemblage de génome chloroplastique épinette Sitka, écart-fermeture comparative impliquée lire cartographie contre l’épinette blanche, potentiellement introduire un biais à ces sites31.

Selon le projet, soustractive génomique peut offrir temps et coût des avantages par rapport aux approches de purification ou de cartographie, tout en offrant le moins de biais dans le processus de découverte. Dans certaines situations, la séquence cible ne peut pas être facilement isolée, parce qu’il est totalement inconnu, est vitale pour la survie des cellules (mitochondries), ou trop grande pour séparer par électrophorèse sur gel standard. Basée sur la taille de purification électrophorétique est lente et nécessite important produit de départ (qui peut être cher) tout en optimisant les conditions au cours de multiples tentatives. Électrophorèse en champ Pulse (PFGE) favorise la séparation des fragments d’ADN jusqu'à 107 bp (10 Mo), mais prend 2-3 jours, de grandes quantités de matériel et équipement parfois spécialisé qui n’est pas disponible dans le commerce32. Dans Biederman et al., la séquence seule qui était connue du chromosome restreints aux cellules germinales a été une répétition non codantes7. Comme ce chromosome est le plus important de l’oiseau, plus de 100 Mo en longueur10, purification aurait été impossible ; par conséquent, soustractive génomique était capable de faire ce que les autres méthodes ne pourraient pas. Dans l’ère de la génomique, il est souvent moins cher et plus rapide de séquencer maintenant et filtrer par ordinateur plus tard. Permettant la découverte des séquences complètement nouvelles, génomique soustractive utilise une combinaison d’approches pour isoler les nouvelles séquences même sans une séquence de référence parfaite.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Les auteurs reconnaissent Michelle Biederman, Alyssa Pedersen et Colin J. Saldanha pour leur aide avec le projet de génomique de zebra finch à divers stades. Nous remercions également Evgeny Boivin au calcul d’administration système de cluster et NIH grant 1K22CA184297 (pour J.R.B.) et 042767 NS NIH (à C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Numéro 143 soustraction génomique génétique qPCR lecture BLAST Python cartographie Assemblée De novo conception d’amorce
Découverte de roman-fleuve de génomique soustractive
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter