Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Nueva secuencia descubrimiento por la genómica sustractivo

Published: January 25, 2019 doi: 10.3791/58877

Summary

El propósito de este protocolo es utilizar una combinación de computacional y de investigación del Banco para buscar nuevas secuencias que no se puede separar fácilmente de una secuencia Co purificador, que puede ser conocida sólo parcialmente.

Abstract

Sustractivo genómica puede utilizarse en cualquier investigación donde el objetivo es identificar la secuencia de un gen, la proteína o región general que está incrustado en un contexto más amplio de la genómico. Sustractivo genómica permite a un investigador aislar una secuencia Diana de interés (T) por la secuencia completa y restando elementos genéticos conocidos (referencia R). El método puede utilizarse para identificar secuencias novedosas tales como mitocondrias, cloroplastos, virus, o línea germinal restringido los cromosomas y es particularmente útil cuando T no puede ser fácilmente aislado de R. a partir de los datos genomic integrales (R + T), el método utiliza básico Local herramienta alineación de la búsqueda (BLAST) contra una secuencia de referencia, o secuencias, para quitar las secuencias conocidas correspondientes (R), dejando detrás del objetivo (T). Resta trabajar mejor, R debe ser un proyecto relativamente completo que falta T. Desde secuencias queda después de restar se prueban a través cuantitativo reacción en cadena polimerasa (qPCR), R no necesita ser completa para el método de trabajo. Aquí enlazamos pasos computacionales con medidas experimentales en un ciclo que puede ser iterado según sea necesario, secuencialmente eliminando múltiples secuencias de referencia y refinar la búsqueda para T. La ventaja de la genómica sustractivo es que puede identificarse una secuencia de destino completamente novedoso incluso en los casos en que la purificación física es difícil, imposible o costoso. Un inconveniente del método es encontrar una referencia adecuada para la resta y la obtención de T-positivos y negativos de las muestras para ensayos de qPCR. Se describe la implementación del método en la identificación el primer gen del cromosoma del germline-restricta del pinzón de la cebra. En ese caso filtrado computacional involucrados tres referencias (R), eliminados secuencialmente en tres ciclos: un incompleto conjunto genómico datos genómicos y transcriptómicos datos.

Introduction

El propósito de este método es identificar un nuevo destino (T) secuencia genomic, ya sea ADN o ARN, de un contexto genómico o de referencia (R) (figura 1). El método es más útil si el objetivo no se puede separar físicamente, o que sería costoso hacerlo. Solamente unos pocos organismos han terminado perfectamente genomas para sustracción, una innovación clave de nuestro método es la combinación de computacional y métodos del Banco en un ciclo, permitiendo a los investigadores aislar secuencias diana cuando la referencia es imperfecta, o un proyecto genoma de un organismo no modelo. Al final de un ciclo, ensayo qPCR se utiliza para determinar si es necesario restar más. Una secuencia del candidato validada T mostrará estadísticamente mayor detección en muestras de T-positivo conocidas por qPCR.

Encarnaciones del método han sido implementadas en el descubrimiento de nuevas dianas bacterianas drogas que no tienen host homólogos1,2,3,4 y la identificación de nuevos virus desde equipos infectados 5,6. Además de la identificación de T, el método puede mejorar R: recientemente utilizamos el método para identificar los genes que faltan 936 desde el genoma de referencia de Pinzón de la cebra y un nuevo gen de un cromosoma sólo del germline (T)7. Sustractivo genómica es particularmente valioso cuando T es probable que sea extremadamente divergentes de secuencias conocidas, o cuando la identidad de T es ampliamente definida, como en el pinzón cebra restringido del germline del cromosoma7.

Al no requerir previamente la identificación positiva de T, una ventaja clave de la genómica sustractivo es que es imparcial. En un estudio reciente, Readhead et al examinaron la relación entre la enfermedad de Alzheimer y abundancia viral en cuatro regiones del cerebro. Para la identificación viral, Readhead et al crearon una base de datos de 515 virus8, limitando seriamente los agentes virales que su estudio podría identificar. Sustractivo genómica podría se han utilizado para comparar los sanos y genomas de Alzheimer para aislar de posibles virus nuevos asociados a la enfermedad, independientemente de su semejanza a los agentes infecciosos conocidos. Si bien hay 263 virus dirigidos a humanos, se ha estimado que existen aproximadamente 1,67 millones por descubrir especies virales, con 631.000 827.000 de ellos con un potencial para infectar a los seres humanos9.

Aislamiento de virus nuevos es un área en la cual resta genómica es muy eficaz, pero algunos estudios pueden que no necesite un método riguroso. Por ejemplo, estudios de identificables nuevos virus han utilizado imparcial secuenciación de alto rendimiento seguido por transcripción reversa y BLASTx de secuencias virales5 o enriquecimiento de ácidos nucleicos virales para extraer e invertir transcriben secuencias virales 6. mientras estos estudios secuenciación de novo y Asamblea, resta no fue utilizada porque las secuencias blanco se identificaron positivamente a través de la explosión. Si los virus eran completamente nuevos y no relacionados con (o muy relacionados) a otros virus, genómica sustractivo habría sido una técnica útil. El beneficio de la genómica sustractivo es que se pueden obtener secuencias que son completamente nuevas. Si se conoce el genoma del organismo, puede restarse a dejar cualquier secuencia viral. Por ejemplo, en nuestro estudio publicado se aislaron una secuencia viral novela del pinzón de la cebra a través de la genómica sustractivo, aunque no era nuestra intención original7.

Sustractivo genómica también ha demostrado ser útil en la identificación de los objetivos de la vacuna bacteriana, motivados por el aumento dramático en la resistencia a los antibióticos1,2,3,4. Para minimizar el riesgo de reacción autoinmune, investigadores limitado los objetivos potenciales de la vacuna restando cualquier proteínas que tienen homólogos en el anfitrión humano. Un estudio particular, mirando la pseudotuberculosis del Corynebacterium, realiza sustracción de genoma hospedador vertebrado de varios genomas bacterianos para que objetivos de medicamentos posible no afectaría a las proteínas en los anfitriones llevando a efectos secundarios 1. el flujo de trabajo básico de estos estudios es para descargar el proteoma bacteriano, determinar proteínas vitales, quitar proteínas redundantes, usar BLASTp para aislar las proteínas esenciales y BLASTp contra host proteoma para quitar cualquier proteínas con homólogos de host 1 , 2 , 3 , 4. en este caso, genómica resta asegurar que las vacunas desarrolladas no tendrá efectos off-target en el host1,2,3,4.

Utilizamos sustractivo genómica para identificar el primer gen codificante de la proteína en un restringido del germline cromosoma (GRC) (en este caso, T), que se encuentra en germlines pero no somática tejido de ambos sexos de10. Antes de este estudio, la información solamente genomic que se sabía acerca de lo GRC fue una región repetitiva11. Asamblea de novo fue realizada en RNA secuenciado de tejidos de ovario y teste (T + R) de pinzones cebra adulto. La eliminación computacional de secuencias se realizó usando publicado somático (muscular) genoma secuencia (R1)12, su materia prima (Sanger) lee datos (R2) y somático (cerebro) transcriptoma (R3)13. El uso secuencial de tres referencias fue impulsado por qPCR en paso 5 de cada ciclo (figura 2A), mostrando que el filtrado adicional se requiere. El gen de la α-SNAP descubierto fue confirmado mediante qPCR de DNA y RNA, clonación y secuenciación. Mostramos en el ejemplo que este método es flexible: no es dependiente en las coincidencias con los ácidos nucleicos (ADN vs RNA) y que resta se puede realizar con referencias (R) que están compuestos por conjuntos o lee crudo.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. de novo montar a partir de secuencia

Nota: Los datos de la secuencia de la próxima generación (NGS) pueden utilizarse, como un conjunto puede obtenerse de esos datos. Datos de entrada adecuados incluyen Illumina, PacBio, o Oxford Nanopore Lee montado en un archivo fasta. De concreción, esta sección describe un conjunto transcriptómicos Illumina-base específica para el estudio de Pinzón cebra realizamos7; sin embargo ten en cuenta que los detalles variarán según el proyecto. Para nuestro proyecto de ejemplo, datos en bruto se derivaron de un MiSeq y Lee pares aproximadamente 10 millones fueron Obtenido de cada muestra.

  1. Utilice Trimmomatic 0.3214 para eliminar Illumina adaptadores y bases de baja calidad. En la línea de comandos, escriba:
    Java-jar trimmomatic 0.32.jar PE-phred33 forward.fq.gz reverse.fq.gz - baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 principal: 3 salida: 3 SLIDINGWINDOW:4:20 MINLEN:40
  2. Uso pera15 v. 0.9.6 para crear lecturas combinadas de alta calidad de trimmomatic de salida Lee pares, usando parámetros por defecto. En la línea de comandos, escriba:
    pera -f < quality_and_adaptor_trimmed_1P.fastq > - r < quality_and_adaptor_trimmed_2P.fastq >
  3. Uso reptil v. 1.116 error-corregir la Lee producido a través de pera. Seguir el protocolo paso a paso que se describe en17.
  4. Utilice Trinidad v. 2.4.018 en modo por defecto para montar las secuencias corregidas. Para las librerías strand-específica, utilice el - SS_lib_type parámetro. La salida es un archivo fasta (your_assembly.fasta). En la línea de comandos, escriba:
    Trinidad--seqType fq - SS_lib_type FR-max_memory 10G – Trinity_output--quality_and_adaptor_trimmed_forward_paired_reads.fq a la izquierda de la salida – derecho quality_and_adaptor_trimmed_reverse_paired_reads.fq – CPU 10
    Nota: La salida se colocará en un directorio nuevo, Trinity_output, y la Asamblea se llamará 'Trinity.fasta' que puede cambiar el nombre como Your_assembly.fasta si lo desea. Consulte el sitio web de Trinidad para más detalles: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. explosión de la Asamblea contra la secuencia de referencia

Nota: Uso este paso cuando la referencia es un conjunto o largo lee como Sanger; Si se compone de Illumina raw Lee, consulte el paso 3 a continuación para el mapeo de lecturas en la consulta. Todos los pasos de explosión se completaron con versión 2.2.29+ aunque los comandos deberían funcionar en cualquier versión reciente de la explosión.

  1. Hacer una base de datos de la explosión de la secuencia de referencia (nucleotide_reference.fasta) en la línea de comandos. Introduzca en la línea de comandos lo siguiente:
    makeblastdb - dbtype nucl-en nucleotide_reference.fasta-a nucleotide_reference.db
  2. RÁFAGA-partido de la Asamblea de consulta (generada en el paso 1) a la base de datos de referencia. Para obtener un archivo de salida, utilice [-a BLAST_results.txt] y para generar salida tabular (necesario para pasos de proceso subsecuentes con scripts de Python), utilice [outfmt - 6]. Estas opciones pueden combinarse en cualquier orden, para completar un ejemplo comando está [blastn-consulta your_assembly.fasta - db nucleotide_reference.db-out BLAST_results.txt - outfmt 6]. Si se desea un entorno de e-valor, utilice la opción - evalue con un número apropiado, por ejemplo [-evalue 1e-6]. Tenga en cuenta sin embargo que el ciclo sustractivo efectivamente invierte la evalue establece como se describe en la discusión.
  3. Para mayor rigor, utilizar secuencias de la proteína de la Asamblea como la consulta de explosión con nucleótido traducido explosión (tBLASTn), que realiza traducción de 6 vías de la base de datos (nucleótido). Este método se recomienda para la mayoría sistemas de modelo no, evitando el problema de las anotaciones de proteína incompleta.
    1. Asegurar el código genético correcto es seleccionado por el organismo estudiado, utilizando la - opción de db_gencode. Para obtener secuencias de la proteína para la consulta, ejecute el comando TransDecoder.LongOrfs (del paquete de TransDecoder v. 3.0.1) para identificar los fotogramas más largo abierto de lectura de secuencias de consulta montada. El comando es [TransDecoder.LongOrfs -t your_assembly.fasta]; la salida se colocará en el directorio llamado 'transcripts.transdecoder_dir' y contendrá un archivo llamado longest_orfs.pep que contiene las secuencias de la proteína más larga prevista de cada secuencia en your_assembly.fasta.
    2. Para utilizar tBLASTn, ejecute el comando [tblastn-consulta longest_orfs.pep - db nucleotide_reference.db-out BLAST_results.txt - outfmt 6]. Si una referencia de proteína de alta calidad está disponible, usar proteínas con BLASTp en lugar de tBLASTn.
    3. Hacer una base de datos de ráfaga de la referencia de la proteína [makeblastdb - dbtype prot-en protein_reference.fasta-a protein_reference.db] y luego [blastp-consulta longest_orfs.pep - db protein_reference.db-out BLAST_results.txt - outfmt 6]. Asegúrese de guardar los resultados como un archivo para posterior procesamiento y uso de tabular (outfmt 6) para que los scripts de Python pueden analizar correctamente.

3. mapa lee en la Asamblea

Nota: Este método puede ser utilizado si el conjunto de datos de referencia consiste en raw Lee genómica, en lugar de secuencias ensambladas o secuencias de Sanger, en que caso uso BLAST (paso 2.1).

  1. Utilizando BWA-MEM v. 0.7.1219 o bowtie220, mapa la Lee cruda descargada (raw_reads.fastq) en la Asamblea de consulta. La salida será .sam formato. Los comandos son los siguientes: índice primero la Asamblea: [bwa índice your_assembly.fasta] y luego la Lee [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (Nota el ' >' símbolo aquí no es un mayor-que firmar; en cambio indica la salida en el archivo mapped.sam).

4. Utilice el Script en Python para quitar cualquier secuencia que empareja

Nota: Siempre trabajo de secuencias de comandos con Python 2.7.

  1. Siguiendo el paso 2, utilice sustractivo script en Python utilizando el comando [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt]. Antes de ejecutar la secuencia de comandos, asegúrese que el archivo de salida de chorro en formato 6 (tabular). El script generará un archivo con las secuencias en formato fasta no coincidente llamado your_assembly.fasta_non-matching_sequences_BLAST_results.txt.fasta y también la adecuación de las secuencias para registros, como your_assembly.fasta_matching_sequences_BLAST_ Results.txt.FASTA. la no coincidencia de archivo será el más importante, como una fuente de posibles secuencias de T para la prueba y más ciclos de genómica sustractivo.
  2. Siguiendo el paso 3, ejecute el removeUnmapped.py script de Python para tomar como entrada .sam en el paso 3.1, identifica los nombres de secuencias de consulta sin ningún juego Lee y guarda en un archivo de texto nuevo. Utilice el comando [./removeUnmapped.py mapped.sam] y el resultado será mapped.sam_contigs_with_no_reads.txt. (El programa generará un archivo sam reducida con todos no asignado Lee quitado, este archivo se puede ignorar para los propósitos de este protocolo pero puede ser útil para otros análisis).
  3. Como la salida del paso anterior es una lista de nombres de secuencia en un archivo de texto llamado mapped.sam_contigs_with_no_reads.txt, extraer un archivo fasta con estas secuencias: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. La salida será un archivo llamado mapped.sam_contigs_with_no_reads.txt.fasta.

5. diseño de cebadores para la secuencia que sigue siendo

Nota: en este punto hay un archivo fasta que contiene secuencias de candidato T. Esta sección describe qPCR para probar experimentalmente si vienen de T o de las regiones desconocidas del R. Si la resta en el paso 4 quita todas las secuencias, el montaje inicial no son T, o la sustracción puede haber sido demasiado estricta.

  1. Utilice Geneious21 para determinar las secuencias óptimo primer manualmente.
    1. Destacar una secuencia candidata de bp 21-28 para el primer avance. Evitar carreras de 4 o más de cualquier base. Tratar de atacar una región con una combinación bastante uniforme de los basepairs. Un único G o C en el extremo 3' es beneficioso, ayudando a anclar la cartilla.
    2. Haga clic en la pestaña de estadísticas a la derecha de la pantalla para ver la secuencia Estimado temperatura de fusión (Tm) como la región del candidato se destaque. Buscan para obtener una temperatura de fusión entre 55-60 ° C, evitando repeticiones y tramos largos de G/C.
    3. Siga los pasos 5.1.1. y 5.1.2 para elegir un primer revés, 150-250 pares de bases 3' del primer avance. Mientras que las longitudes de la cartilla no es necesario para que coincida con, Tm prevista debe ser lo más cerca posible a la Tm del primer avance. Asegúrese de invertir la secuencia del complemento (si clic en Geneious mientras que la secuencia se destaca es una opción del menú).
  2. Utilice la función del Primer diseño , que se encuentra en la barra de herramientas superior de la ventana de secuencia.
    1. Haga clic en el botón del Primer diseño . Insertar la región a amplificar en la Región de destino.
    2. Bajo la ficha de características , inserte el tamaño deseado, temperatura de fusión (Tm) % GC (vea el paso 5.1.1.).
    3. Haga clic en OK para tener cartillas generados. Ordenar los iniciadores a través de un servicio personalizado oligo.
  3. Validar cartillas con ADN control (codificación T y R) para optimizar el tiempo Tm y extensión. Usar regular Taq y electroforesis en gel para ver el tamaño de banda y optimización también se puede realizar con qPCR siguiendo los métodos en el paso 6.
    1. Hacer diluciones de X 10 de avance y retroceso de cartillas para que los cebadores tienen una concentración de 10 μM.
    2. Utilizar una mezcla PCR de 0,5 μL de dNTP, 0,5 μL de cebador forward, 0,5 μL de cebador reverso, 0.1 μL de Taq polimerasa, 2 μL de plantilla, 0,75 μL de magnesio, 2.5 μL de tampón y 18.15 μL de agua por lo que hay 25 μL por plantilla con una concentración de 5 ng / ΜL.
    3. Prueba de los cebadores a diferentes temperaturas de fusión en el programa PCR. Rendimiento óptimo es generalmente el derretimiento observado temperaturas ligeramente por debajo de la Tm predicha de los iniciadores, pero no suele ser superior a 60 ° C. También la prueba de extensión óptima veces usando esta guía: 1 minuto por 1000 bp (por lo tanto, generalmente 10-30 segundos dependiendo de la longitud del amplicón).
    4. Realizar la electroforesis en gel de punto final para confirmar que los cebadores amplifican la secuencia prevista. Ejecutar 25 μL del producto de qPCR mezclado con 5 μL de 6 X colorante de glicerina en un gel de agarosa al 2% TAE a 200 V durante 20 minutos.

6. qPCR validación de la secuencia restante

Nota: Este paso requiere iniciadores validados y PCR condiciones establecidas en el paso 5.

  1. Ejecutar cada plantilla por triplicado con la siguiente mezcla. 12.5 μL de mezcla de maestro PowerSYBR Green, 0,5 μL de cebador forward con una concentración de 10 μM, 0,5 μL de cebador inverso con una concentración de 10 μM, 10.5 μL de agua y 1 μL de ADN de plantilla (a una concentración de 2 ng/μL) , para que así cada uno contiene 25 μL de volumen total.
  2. Ejecutar un programa de qPCR informado por la temperatura validado y el tiempo de extensión desde el paso 4. Hemos diseñado y validado los iniciadores para ser compatible con un ciclo de dos etapas, de 95 ° C para derretir inicial de 10 minutos, luego de 40 ciclos de 95 ° C por 30 s y 60 ° C durante 1 minuto. Sin embargo, un programa de tres etapas (derretir-recocer-extender) puede ser más óptimo para los iniciadores y debe adaptarse si es necesario. Recomendamos que curvas de desnaturalización finales generará por lo menos la primera vez que los iniciadores se emplean en qPCR para validar la amplificación de un solo producto de ADN.
  3. Medida qPCR/SYBR Green señala con respecto a la actina (o cualquier otro control adecuado 'R') por CT. para todos los casos calculan el promedio y desviación estándar de 2-(gene Ct - Ct de β-actina).
  4. (Opcional) Realizar la electroforesis en gel de punto final para confirmar la detección de tamaño de producto por qPCR. Aquí, ejecutar 25 μL del producto de qPCR mezclado con 5 μL de 6 x colorante de glicerina en un gel de agarosa al 2% TAE a 200 V durante 20 minutos.

7. repetir con una nueva referencia a Pare abajo de los datos.

Nota: Si paso 6 valida las secuencias identificadas de T, finalizar el ciclo aquí (figura 2A). Sin embargo, una variedad de consideraciones puede motivar la continuación del ciclo, por ejemplo, si muchas secuencias R permanecen en el archivo o si ninguna de las secuencias del candidato T fueron validada por qPCR en el paso 6.

  1. Obtener una nueva referencia. Este paso permite una nueva iteración del ciclo y puede incluir datos genomic RNA-seq datos y otros conjuntos de datos reunidos. Valiosos recursos de datos de referencia son la base de datos del genoma en el centro nacional para información biotecnológica (https://www.ncbi.nlm.nih.gov/genome) que almacena montado genomas accesibles a través de FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/), y el ómnibus de expresión del Gene (https://www.ncbi.nlm.nih.gov/geo/) donde se almacena los Lee de la secuencia cruda de próxima generación. Proyectos genoma pueden proporcionar sus datos crudos de la secuencia a través de otros sitios web asociados por el proyecto y bases de datos.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Después de ejecutar el BLAST, el archivo de salida tendrá una lista de las secuencias de la consulta que coincida con la base de datos. Después resta de Python, un número de secuencias nonmatching obtenido y probado por qPCR. Los resultados de este y próximos pasos, se discuten a continuación.

Negativo resultado. Hay dos posibles resultados negativos que se observan después de la explosión a la secuencia de referencia. No puede haber ningún resultado de la explosión, lo que significa que la secuencia total no cualquier secuencia similar a la referencia. Esto puede ser un error en la selección de la secuencia de referencia adecuado para la muestra ordenada. Otra posibilidad es que hay no hay secuencias únicas en el conjunto de partida (todo se resta distancia), por lo tanto se encuentran no hay genes para la secuencia de interés. Verificar de donde vino la referencia y asegurarse de que no es el mismo tejido como la Asamblea de consulta.

Después de filtrado computacional, qPCR puede producir un resultado negativo, para ejemplos ver figura 3A, 3B, C en el que no se fue ninguna diferencia en la detección a través de los tejidos de aves. Paneles A través de C son genes representativos de restas diferentes ciclos, que iteraciones del ciclo sustractivo adicionales motivados y el desarrollo del método (figura 2A, 2B).

Resultado positivo. Un resultado positivo, la identificación de una secuencia de verdadero objetivo--se confirma cuando qPCR de ADN genómico muestra estadísticamente una mayor detección del tejido / muestra de interés en relación con la referencia (figura 3D). El proyecto sustractivo en este caso iniciado con la secuenciación del ARN del tejido del germline de macho y hembra adultos Pinzón de la cebra, obtener 10 millones de pares de leerlas de cada sexo. Por brevedad, vamos a describir el proceso de la secuencia de ovario solamente, en el que se obtuvieron 167.929 transcripciones por Asamblea de novo . Se utilizó el método sustractivo genómica (BLASTn) para eliminar cualquier secuencia que empareja el genoma somático publicado12, que dejó 5.060 transcripciones correspondientes a 598 proteínas únicas, indicando que muchas de las transcripciones eran los. La Sanger Lee crudo utilizado para generar el ensamblado de entonces fueron utilizados para el siguiente nivel de sustracción por tBLASTn, rendimiento 78 proteínas. Uno resta final fue realizada usando RNA-seq raw lee desde el lóbulo auditivo13, que dejó ocho proteínas. Cuando estas proteínas se ejecutan a través de nr NCBI BLAST, seis de las proteínas fueron virales, uno era una región repetitiva en pájaros, y el último fue un complemento de α es del germline restringido7 (figura 2B). Durante este proceso, se identificaron genes somáticos 935 que anteriormente no figuraban en la anotación del genoma; varios mostraron amplificación del qPCR uniforme a través de los tejidos (figura 3A, 3B, 3C). El gen de la α-SNAP fue validado para ser germline restringido utilizando qPCR, porque estaba agotado en el tejido somático en relación con el testículo ADN donde estaba presente en niveles equivalentes a la actina (figura 3D).

Lo que podría salir mal. El principal problema que debe ser superado cuando este método es garantizar que se utiliza la secuencia de referencia apropiada. La mejor secuencia de referencia encapsula, en el sentido más amplio, la complejidad genomic que incorpora la secuencia de interés (T). Esto puede significar que las secuencias en diversas formas; transcriptoma, Asamblea, datos primarios o datos de múltiples estudios deben usarse como referencias (figura 1). En el estudio zebra finch, hemos desarrollado bases de datos de la secuencia de RNA; sin embargo, los iniciadores no siempre funciona debido a la presencia de intrones entre o dentro de sitios de unión de la cartilla en el ADN. Probamos cada cartilla establece por PCR de DNA genómico del ADN, que codifica el objetivo (T) y la referencia (R), lo que es un adecuado control positivo del testículo. Falta de imprimación en esta etapa requiere el diseño y prueba de iniciadores nuevo hasta que se identifica un conjunto adecuado. Errores estándar de los métodos basados en PCR se aplican: condiciones de amplificación deben ser optimizadas, especificidad de la amplificación confirmada por la prueba o la clonación y la plantilla de no controles deben incluirse en todos los experimentos. Para obtener más información en ensayos de qPCR, véase22.

Figure 1
Figura 1 . El método sustractivo forma iterativa puede eliminar múltiples referencias (R) para recuperar sólo la secuencia Diana de interés (T) de datos genomic total. Las secuencias de referencia de los proyectos individuales no pueden superponerse exactamente así y pueden incluir conjuntos de datos que no se indica en la figura. Haga clic aquí para ver una versión más grande de esta figura.

Figure 2
Figura 2Métodos visuales. (A) esquema de ciclo sustractivo. El ciclo puede ser iterado tantas veces como sea necesario, cada vez que utilizando secuencias de referencia distintos, para obtener los mejores resultados. (B) ejemplo del ciclo sustractivo de medidas llevadas a cabo en Biederman et al. 7, con pasos numerados como A y con el número de secuencias en cada etapa que se muestra. Haga clic aquí para ver una versión más grande de esta figura.

Figure 3
Figura 3 . Datos de ejemplo de qPCR resultados como negativos y positivos resultados. (A) genomic DNA qPCR de CHD8, un resultado negativo. (B) genomic DNA qPCR de DNMT1, un resultado negativo. (C) genómica ADN qPCR de CHD7, un resultado negativo. (D) genomic DNA qPCR de NAPAG, confirmando la presencia en muestras de testículo y agotamiento del hígado y de ovario en relación con la actina, un resultado positivo. Todos los paneles indican la media +-desviación estándar de tres mediciones. Haga clic aquí para ver una versión más grande de esta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Aunque genómica sustractivo es potente, no es un enfoque de cortador de la galleta, que requieren personalización en varios pasos y una cuidadosa selección de secuencias de referencia y las muestras de prueba. Si la Asamblea de consulta es de mala calidad, filtrado de pasos podría aislar sólo artefactos de Asamblea. Por lo tanto, es importante validar completamente el conjunto de novo utilizando un protocolo de validación adecuado para el proyecto específico. Para RNA-seq, directrices se proporcionan en el sitio web de Trinidad18 y para el ADN, una herramienta como REAPR23 puede ser utilizado. Otro paso fundamental al usar BLAST es selección de e-valor adecuado, que va a determinar si la sustracción será relajado o estrictos. Sin embargo, se produce una inversión del método: un partido más estricto que referencia es en realidad una resta menos estrictos, como secuencias no coincidentes no se restan. Por lo tanto, un mayor valor de e (menos exigentes) puede usarse en ráfaga para una sustracción más estricta. El paso final esencial del protocolo es selección de la referencia. Para mayor eficiencia la referencia debe ser tan completa como sea posible; sin embargo, no es necesario ser perfecto porque qPCR prueba confirma si las secuencias restantes son de T o R, y si es necesario el filtrado más. Durante la implementación del Protocolo, nuevas referencias permite más estrecho hacia abajo de los genes para ser validado. Se nota que a veces puede cambiar el método de juego: para el último paso sustractivo utiliza el algoritmo BWA para asignar lecturas raws en las secuencias de consulta y utilizan python personalizado scripts para identificar secuencias de consulta con ninguna coincidencia Lee (figura 2B).

Limitaciones de este método incluyen la disponibilidad de una secuencia de referencia. Por ejemplo, Meyer et al. evaluar el genoma mitocondrial de un nuevo homínido; utilizaban humanos y Denisovan sondas para capturar ADN mitocondrial, que fue secuenciado y asignado a una referencia humana24. En este caso, no eran existentes datos de referencia del genoma nuclear que los investigadores podrían han restado contra para obtener el genoma mitocondrial, que requiere la estrategia alternativa de asignación de lectura24. Regiones ampliamente divergidas de la novela mitocondria en relación con la referencia mitocondrial humana se perdería por asignación de lectura. Sustractivo Genómica ofrece un enfoque menos sesgo de asignación de lectura pero no siempre es aplicable dependiendo de la pregunta de investigación, y en este caso los bajos niveles de ADN antiguo impiden el tipo de cobertura de la secuencia requerida para la (Asamblea) de novo Paso 1 de la genómica sustractivo).

Físicos de purificación proporciona otro método alternativo a la genómica sustractivo. Purificación de DNA o RNA se utiliza a menudo en cloroplasto toda la secuencia y genomas mitocondriales debido a que estos genomas organellar son mucho más pequeños que los genomas nucleares25,26,27,28. Humanos y otros genomas más pequeños mitocondriales pueden ser aislados para la secuencia a través de la amplificación utilizando dos conjuntos de primer, seguidos de purificación25. Sin embargo, resta genómica puede ser útil para los casos en que los genomas mitocondriales son inusualmente grandes, los sitios de unión de la cartilla son divergentes o no resultará en el genoma completo. Un ejemplo de esto es en ciliados, que tienen grandes y divergentes, de genomas mitochondrial linear29. Asignación a un genoma de referencia no es una opción viable para ciliados debido a la alta divergencia entre especies y falta de homólogos incluso en géneros30. Mediante la genómica sustractivo, el genoma mitocondrial ciliado puede aislado y analizado minimizando el potencial de la falta de segmentos del genoma. Del mismo modo, mientras que un acercamiento de la Asamblea de novo fue utilizado en la Asamblea de genoma de cloroplasto de abeto Sitka, cierre brecha comparativa involucrado Lee mapas contra el abeto blanco, potencialmente introducir sesgo en estos sitios31.

Según el proyecto, sustractiva genómica puede ofrecer tiempo y ventajas en relación con enfoques purificación o asignación, con un menor sesgo en el proceso de descubrimiento del coste. En algunas situaciones, la secuencia de destino no puede ser fácilmente aislada, ya que es totalmente desconocido, es vital para la supervivencia de la célula (mitocondria), o demasiado grande para separar por electroforesis en gel estándar. Purificación electroforética basada en tamaño es lento y requiere de importante material de partida (que puede ser caro) y optimizar las condiciones sobre múltiples intentos. Electroforesis de pulso-campo (PFGE) permite la separación de fragmentos de ADN hasta 107 bp (10 Mb) pero tiene 2-3 días, grandes cantidades de material y equipo a veces especializado que no está disponible en el mercado32. Biederman et al., la secuencia única que era conocida del cromosoma del germline restringido fue una repetición los7. Este cromosoma es el más grande de las aves, más de 100 Mb de longitud10, purificación habría sido imposible; por lo tanto, resta genómica fue capaz de hacer lo que otros métodos no pudieron. En la era genómica es a menudo más barato y más rápido a la secuencia de ahora y después del filtro por la computadora. Lo que permite el descubrimiento de secuencias completamente novedosos, genómica sustractivo utiliza una combinación de enfoques para aislar secuencias de novela incluso sin una secuencia de referencia perfecto.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Los autores reconocen Michelle Biederman, Alyssa Pedersen y Colin J. Saldanha por su ayuda con el proyecto de genómica del pinzón cebra en diversas etapas. También reconocemos Evgeny Biisk informática administración de sistemas de cluster y NIH grant 1K22CA184297 (a J.R.B.) y NIH NS 042767 (a C.J.S).

Materials

Name Company Catalog Number Comments
Accustart II Taq DNA Polymerase Quanta Bio 95141
Blasic Local Alignment Search Tool (BLAST) https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2 https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12 https://github.com/BenLangmead/bowtie2
Geneious https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6 http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer Biomatters http://www.geneious.com/
PowerSYBR qPCR mix ThermoFisher 4367659
Python v. 2.7 https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1 https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P Agilent Technologies 401456
TransDecoder v. 3.0.1 https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0 https://github.com/TransDecoder/TransDecoder/wiki

DOWNLOAD MATERIALS LIST

References

  1. Barh, D., et al. A Novel Comparative Genomics Analysis for Common Drug and Vaccine Targets in Corynebacterium pseudotuberculosis and other CMN Group of Human Pathogens. Chemical Biology & Drug Design. 78 (1), 73-84 (2011).
  2. Sarangi, A. N., Aggarwal, R., Rahman, Q., Trivedi, N. Subtractive Genomics Approach for in Silico Identification and Characterization of Novel Drug Targets in Neisseria Meningitides Serogroup B. Journal of Computer Science & Systems Biology. 2 (5), (2009).
  3. Kaur, N., et al. Identification of Druggable Targets for Acinetobacter baumannii Via Subtractive Genomics and Plausible Inhibitors for MurA and MurB. Applied Biochemistry and Biotechnology. 171 (2), 417-436 (2013).
  4. Rathi, B., Sarangi, A. N., Trivedi, N. Genome subtraction for novel target definition in Salmonella typhi. Bioinformation. 4 (4), 143-150 (2009).
  5. Epstein, J. H., et al. Identification of GBV-D, a Novel GB-like Flavivirus from Old World Frugivorous Bats (Pteropus giganteus) in Bangladesh. PLoS Pathogens. 6 (7), (2010).
  6. Kapoor, A., et al. Identification of Rodent Homologs of Hepatitis C Virus and Pegiviruses. MBio. 4 (2), (2013).
  7. Biederman, M. K., et al. Discovery of the First Germline-Restricted Gene by Subtractive Transcriptomic Analysis in the Zebra Finch, Taeniopygia guttata. Current Biology. 28 (10), 1620-1627 (2018).
  8. Readhead, B., et al. Multiscale Analysis of Independent Alzheimer's Cohorts Finds Disruption of Molecular, Genetic, and Clinical Networks by Human Herpesvirus. Neuron. 99, 1-19 (2018).
  9. Carroll, D., et al. The global virome project. Science. 359 (6378), 872-874 (2016).
  10. Pigozzi, M. I., Solari, A. J. Germ cell restriction and regular transmission of an accessory chromosome that mimics a sex body in the zebra finch. Taeniopygia guttata. Chromosome Research. 6, 105-113 (1998).
  11. Itoh, Y., Kampf, K., Pigozzi, M. I., Arnold, A. P. Molecular cloning and characterization of the germline-restricted chromosome sequence in the zebra finch. Chromosoma. 118, 527-536 (2009).
  12. Warren, W. C., et al. The genome of a songbird. Nature. 464, 757-762 (2010).
  13. Balakrishnan, C. N., Lin, Y. C., London, S. E., Clayton, D. F. RNAseq transcriptome analysis of male and female zebra finch cell lines. Genomics. 100, 363-369 (2012).
  14. Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
  15. Zhang, J., Kobert, K., Flouri, T., Stamatakis, A. PEAR: a fast and accurate Illumina Paired-End reAd mergeR. Bioinformatics. 30, 614-620 (2014).
  16. Yang, X., Dorman, K. S., Aluru, S. Reptile: representative tiling for short read error correction. Bioinformatics. 26, 2526-2533 (2010).
  17. MacManes, M. D., Eisen, M. B. Improving transcriptome assembly through error correction of high-throughput sequence reads. PeerJ. 1 (113), (2013).
  18. Grabherr, M. G., et al. Full-length transcriptome assembly from RNA-seq data without a reference genome. Nature Biotechnology. 29, 644-652 (2011).
  19. Li, H. Aligning sequence reads, clone sequences and assembly contigs with BWA-MEM. arXiv. , (2013).
  20. Langmead, B., Salzberg, S. Fast gapped-read alignment with Bowtie 2. Nature Methods. 9, 357-359 (2012).
  21. Kearse, M., et al. Geneious Basic: an integrated and extendable desktop software platform for the organization and analysis of sequence data. Bioinformatics. 28 (12), 1647-1649 (2012).
  22. Peirson, S. N., Butler, J. N. Quantitative polymerase chain reaction. Methods in Molecular Biology. 362, 349-362 (2007).
  23. Hunt, M., Kikuchi, T., Sanders, M., Newbold, C., Berriman, M., Otto, T. D. REAPR citation: REAPR: a universal tool for genome assembly evaluation. Genome Biology. 14 (5), (2013).
  24. Meyer, M., et al. A mitochondrial genome sequence of a hominin from Sima de los Huesos. Nature. 505 (7483), 403-406 (2013).
  25. Gunnarsdóttir, E. D., Li, M., Bauchet, M., Finstermeier, K., Stoneking, M. High-throughput sequencing of complete human mtDNA genomes from the Philippines. Genome Research. 21 (1), 1-11 (2010).
  26. King, J. L., et al. High-quality and high-throughput massively parallel sequencing of the human mitochondrial genome using the Illumina MiSeq. Forensic Science International: Genetics. 12, 128-135 (2014).
  27. Yao, X., et al. The First Complete Chloroplast Genome Sequences in Actinidiaceae: Genome Structure and Comparative Analysis. Plos One. 10 (6), (2015).
  28. Zhang, Y., et al. The Complete Chloroplast Genome Sequences of Five Epimedium Species: Lights into Phylogenetic and Taxonomic Analyses. Frontiers in Plant Science. 7, (2016).
  29. Swart, E. C., et al. The Oxytricha trifallax Mitochondrial Genome. Genome Biologyogy and Evolution. 4 (2), 136-154 (2011).
  30. Barth, D., Berendonk, T. U. The mitochondrial genome sequence of the ciliate Paramecium caudatum reveals a shift in nucleotide composition and codon usage within the genus Paramecium. BMC Genomics. 12 (1), (2011).
  31. Coombe, L., et al. Assembly of the Complete Sitka Spruce Chloroplast Genome Using 10X Genomics' GemCode Sequencing Data. Plos One. 11 (9), (2016).
  32. Herschleb, J., Ananiev, G., Schwartz, D. C. Pulsed-field gel electrophoresis. Nature Protocols. 2 (3), 677-684 (2007).

Tags

Genética genómica resta número 143 qPCR ráfaga Python leer mapas Asamblea De novo Primer diseño
Nueva secuencia descubrimiento por la genómica sustractivo
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Asalone, K. C., Nelson, M. M.,More

Asalone, K. C., Nelson, M. M., Bracht, J. R. Novel Sequence Discovery by Subtractive Genomics. J. Vis. Exp. (143), e58877, doi:10.3791/58877 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter