El propósito de este protocolo es utilizar una combinación de computacional y de investigación del Banco para buscar nuevas secuencias que no se puede separar fácilmente de una secuencia Co purificador, que puede ser conocida sólo parcialmente.
Sustractivo genómica puede utilizarse en cualquier investigación donde el objetivo es identificar la secuencia de un gen, la proteína o región general que está incrustado en un contexto más amplio de la genómico. Sustractivo genómica permite a un investigador aislar una secuencia Diana de interés (T) por la secuencia completa y restando elementos genéticos conocidos (referencia R). El método puede utilizarse para identificar secuencias novedosas tales como mitocondrias, cloroplastos, virus, o línea germinal restringido los cromosomas y es particularmente útil cuando T no puede ser fácilmente aislado de R. a partir de los datos genomic integrales (R + T), el método utiliza básico Local herramienta alineación de la búsqueda (BLAST) contra una secuencia de referencia, o secuencias, para quitar las secuencias conocidas correspondientes (R), dejando detrás del objetivo (T). Resta trabajar mejor, R debe ser un proyecto relativamente completo que falta T. Desde secuencias queda después de restar se prueban a través cuantitativo reacción en cadena polimerasa (qPCR), R no necesita ser completa para el método de trabajo. Aquí enlazamos pasos computacionales con medidas experimentales en un ciclo que puede ser iterado según sea necesario, secuencialmente eliminando múltiples secuencias de referencia y refinar la búsqueda para T. La ventaja de la genómica sustractivo es que puede identificarse una secuencia de destino completamente novedoso incluso en los casos en que la purificación física es difícil, imposible o costoso. Un inconveniente del método es encontrar una referencia adecuada para la resta y la obtención de T-positivos y negativos de las muestras para ensayos de qPCR. Se describe la implementación del método en la identificación el primer gen del cromosoma del germline-restricta del pinzón de la cebra. En ese caso filtrado computacional involucrados tres referencias (R), eliminados secuencialmente en tres ciclos: un incompleto conjunto genómico datos genómicos y transcriptómicos datos.
El propósito de este método es identificar un nuevo destino (T) secuencia genomic, ya sea ADN o ARN, de un contexto genómico o de referencia (R) (figura 1). El método es más útil si el objetivo no se puede separar físicamente, o que sería costoso hacerlo. Solamente unos pocos organismos han terminado perfectamente genomas para sustracción, una innovación clave de nuestro método es la combinación de computacional y métodos del Banco en un ciclo, permitiendo a los investigadores aislar secuencias diana cuando la referencia es imperfecta, o un proyecto genoma de un organismo no modelo. Al final de un ciclo, ensayo qPCR se utiliza para determinar si es necesario restar más. Una secuencia del candidato validada T mostrará estadísticamente mayor detección en muestras de T-positivo conocidas por qPCR.
Encarnaciones del método han sido implementadas en el descubrimiento de nuevas dianas bacterianas drogas que no tienen host homólogos1,2,3,4 y la identificación de nuevos virus desde equipos infectados 5,6. Además de la identificación de T, el método puede mejorar R: recientemente utilizamos el método para identificar los genes que faltan 936 desde el genoma de referencia de Pinzón de la cebra y un nuevo gen de un cromosoma sólo del germline (T)7. Sustractivo genómica es particularmente valioso cuando T es probable que sea extremadamente divergentes de secuencias conocidas, o cuando la identidad de T es ampliamente definida, como en el pinzón cebra restringido del germline del cromosoma7.
Al no requerir previamente la identificación positiva de T, una ventaja clave de la genómica sustractivo es que es imparcial. En un estudio reciente, Readhead et al examinaron la relación entre la enfermedad de Alzheimer y abundancia viral en cuatro regiones del cerebro. Para la identificación viral, Readhead et al crearon una base de datos de 515 virus8, limitando seriamente los agentes virales que su estudio podría identificar. Sustractivo genómica podría se han utilizado para comparar los sanos y genomas de Alzheimer para aislar de posibles virus nuevos asociados a la enfermedad, independientemente de su semejanza a los agentes infecciosos conocidos. Si bien hay 263 virus dirigidos a humanos, se ha estimado que existen aproximadamente 1,67 millones por descubrir especies virales, con 631.000 827.000 de ellos con un potencial para infectar a los seres humanos9.
Aislamiento de virus nuevos es un área en la cual resta genómica es muy eficaz, pero algunos estudios pueden que no necesite un método riguroso. Por ejemplo, estudios de identificables nuevos virus han utilizado imparcial secuenciación de alto rendimiento seguido por transcripción reversa y BLASTx de secuencias virales5 o enriquecimiento de ácidos nucleicos virales para extraer e invertir transcriben secuencias virales 6. mientras estos estudios secuenciación de novo y Asamblea, resta no fue utilizada porque las secuencias blanco se identificaron positivamente a través de la explosión. Si los virus eran completamente nuevos y no relacionados con (o muy relacionados) a otros virus, genómica sustractivo habría sido una técnica útil. El beneficio de la genómica sustractivo es que se pueden obtener secuencias que son completamente nuevas. Si se conoce el genoma del organismo, puede restarse a dejar cualquier secuencia viral. Por ejemplo, en nuestro estudio publicado se aislaron una secuencia viral novela del pinzón de la cebra a través de la genómica sustractivo, aunque no era nuestra intención original7.
Sustractivo genómica también ha demostrado ser útil en la identificación de los objetivos de la vacuna bacteriana, motivados por el aumento dramático en la resistencia a los antibióticos1,2,3,4. Para minimizar el riesgo de reacción autoinmune, investigadores limitado los objetivos potenciales de la vacuna restando cualquier proteínas que tienen homólogos en el anfitrión humano. Un estudio particular, mirando la pseudotuberculosis del Corynebacterium, realiza sustracción de genoma hospedador vertebrado de varios genomas bacterianos para que objetivos de medicamentos posible no afectaría a las proteínas en los anfitriones llevando a efectos secundarios 1. el flujo de trabajo básico de estos estudios es para descargar el proteoma bacteriano, determinar proteínas vitales, quitar proteínas redundantes, usar BLASTp para aislar las proteínas esenciales y BLASTp contra host proteoma para quitar cualquier proteínas con homólogos de host 1 , 2 , 3 , 4. en este caso, genómica resta asegurar que las vacunas desarrolladas no tendrá efectos off-target en el host1,2,3,4.
Utilizamos sustractivo genómica para identificar el primer gen codificante de la proteína en un restringido del germline cromosoma (GRC) (en este caso, T), que se encuentra en germlines pero no somática tejido de ambos sexos de10. Antes de este estudio, la información solamente genomic que se sabía acerca de lo GRC fue una región repetitiva11. Asamblea de novo fue realizada en RNA secuenciado de tejidos de ovario y teste (T + R) de pinzones cebra adulto. La eliminación computacional de secuencias se realizó usando publicado somático (muscular) genoma secuencia (R1)12, su materia prima (Sanger) lee datos (R2) y somático (cerebro) transcriptoma (R3)13. El uso secuencial de tres referencias fue impulsado por qPCR en paso 5 de cada ciclo (figura 2A), mostrando que el filtrado adicional se requiere. El gen de la α-SNAP descubierto fue confirmado mediante qPCR de DNA y RNA, clonación y secuenciación. Mostramos en el ejemplo que este método es flexible: no es dependiente en las coincidencias con los ácidos nucleicos (ADN vs RNA) y que resta se puede realizar con referencias (R) que están compuestos por conjuntos o lee crudo.
Aunque genómica sustractivo es potente, no es un enfoque de cortador de la galleta, que requieren personalización en varios pasos y una cuidadosa selección de secuencias de referencia y las muestras de prueba. Si la Asamblea de consulta es de mala calidad, filtrado de pasos podría aislar sólo artefactos de Asamblea. Por lo tanto, es importante validar completamente el conjunto de novo utilizando un protocolo de validación adecuado para el proyecto específico. Para RNA-seq, directrices se proporcionan en e…
The authors have nothing to disclose.
Los autores reconocen Michelle Biederman, Alyssa Pedersen y Colin J. Saldanha por su ayuda con el proyecto de genómica del pinzón cebra en diversas etapas. También reconocemos Evgeny Biisk informática administración de sistemas de cluster y NIH grant 1K22CA184297 (a J.R.B.) y NIH NS 042767 (a C.J.S).
Accustart II Taq DNA Polymerase | Quanta Bio | 95141 | |
Blasic Local Alignment Search Tool (BLAST) | https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment | ||
Bowtie 2 | https://www.python.org/download/releases/2.7/ | ||
BWA-MEM v. 0.7.12 | https://github.com/BenLangmead/bowtie2 | ||
Geneious | https://blast.ncbi.nlm.nih.gov/Blast.cgi | ||
PEAR v. 0.9.6 | http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html | ||
Personal Computer | Biomatters | http://www.geneious.com/ | |
PowerSYBR qPCR mix | ThermoFisher | 4367659 | |
Python v. 2.7 | https://sco.h-its.org/exelixis/web/software/pear/ | ||
Reptile v.1.1 | https://alurulab.cc.gatech.edu/reptile | ||
Stratagene Mx3005P | Agilent Technologies | 401456 | |
TransDecoder v. 3.0.1 | https://sourceforge.net/projects/bio-bwa/files/ | ||
Trinity v. 2.4.0 | https://github.com/TransDecoder/TransDecoder/wiki |