Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

Análisis informático de datos de la secuencia de lote levadura híbrida 2 pantallas

Published: June 28, 2018 doi: 10.3791/57802

Summary

Secuenciación profunda de las poblaciones de levaduras seleccionadas para las interacciones 2-híbrido de levadura positivos potencialmente produce una gran cantidad de información sobre la interacción de las proteínas de socio. Aquí, describimos el funcionamiento de herramientas bioinformáticas específico y personalizado software actualizado para analizar los datos de la secuencia de estas pantallas.

Abstract

Hemos adaptado el ensayo 2-híbrido de levadura para descubrir al mismo tiempo decenas de interacciones proteína transitorios y estáticos dentro de una sola pantalla utilizando la secuencia de la DNA de alto rendimiento corto-leer. Los conjuntos de datos de secuencia resultante pueden no sólo rastrear qué genes en una población que se enriquecieron durante la selección para las interacciones 2-híbrido de levadura positivos, sino también da información detallada sobre los subdominios correspondientes de proteínas suficientes para la interacción. Aquí, describimos un conjunto completo de programas de software autónomo que permite no expertos para bioinformática y estadísticas pasos para procesar y analizar archivos de fastq de secuencia de ADN de un ensayo de 2 híbrido de levadura lote. Los pasos del proceso de estos programas incluyen: 1) mapeo y cuenta Lee de la secuencia correspondiente a cada proteína candidata codificada dentro de una biblioteca de presa 2 híbrido de levadura; 2) un programa de análisis estadístico que evalúa los perfiles de enriquecimiento; y 3) herramientas para examinar la estructura traslacional y la posición dentro de la región de la codificación de cada plásmido enriquecido que codifica las proteínas interacción de interés.

Introduction

Un método para descubrir las interacciones entre proteínas es la levadura 2-híbrido (Y2H), que hazañas de ingeniería las células de levadura que crecen sólo cuando una proteína de interés se une a un fragmento de una interacción socio1. Detección de múltiples interacciones de Y2H ahora es posible con la ayuda de secuenciación masiva en paralelo alto rendimiento. Varios formatos han sido descritos2,3,4,5 incluyendo uno que desarrollado donde las poblaciones se cultivan en lotes bajo las condiciones que seleccione para la levadura que contiene plásmidos que producen un positivos de interacción Y2H6. El flujo de trabajo desarrollado, denominado DEEPN (enriquecimiento dinámico para la evaluación de redes de proteínas), identifica la interactomes diferencial de las mismas bibliotecas de presa para identificar proteínas que interactúan con una proteína (o dominio) vs. otra proteína o un dominio mutante conformationally distinto. Uno de los pasos principales de este flujo de trabajo es adecuado procesamiento y análisis de los datos de secuenciación de ADN. Alguna información puede ser obtenida simplemente contando el número de lecturas para cada gen antes y después de la selección de Y2H interacciones de manera análoga a un experimento de RNA-seq. Sin embargo, se puede extraer información mucho más detallada de estos conjuntos de datos con información sobre el subdominio de una determinada proteína que es capaz de producir una interacción Y2H. Además, considerando el enfoque DEEPN es valiosa, analizando muchas repeticiones de la muestra puede ser engorroso y costoso. Este problema se alivia mediante el uso de un modelo estadístico que fue desarrollado específicamente para conjuntos de datos DEEPN donde el número de repeticiones es limitado6. Realizar procesamiento y análisis de datos de secuenciación de ADN confiable, completo, robusto y accesible para investigadores sin conocimientos de bioinformática, hemos desarrollado una suite de programas que cubren todos los pasos del análisis.

Esta suite de programas de software independiente que se ejecutan en computadoras de escritorio incluye MAPster DEEPN y Stat_Maker. MAPster es una interfaz gráfica de usuario que permite a que cada fichero fastq en cola para el mapeo del genoma mediante el programa de HISAT27, produciendo un archivo .sam estándar para su uso en aplicaciones posteriores. DEEPN tiene varios módulos. Asigna y cuenta Lee correspondiente al gen particular similar a una cuantificación del tipo RNA-seq con el módulo 'Gene cuenta'. También extrae las secuencias correspondientes a la unión entre el dominio transcripcional Gal4 y la secuencia de la presa y recoge la posición de las uniones para permitir su inspección por parte de cuadros comparativos y gráficos (con el módulo 'Junction_Make') El módulo 'Blast_Query' permite fácil inspección, cuantificación y comparación de las secuencias de Unión Unión Gal4. Stat_Maker evalúa la Lee por datos de enriquecimiento gene estadísticamente como una forma de priorizar probable Y2H hits. Aquí, describimos cómo usar estos programas de software y analizar completamente la secuencia de la DNA datos de un Y2H DEEPN experimentan. DEEPN están disponibles para su ejecución en sistemas PC, Mac y Linux. Otros programas, como el programa de mapeo MAPster y el módulo de estadísticas DEEPN Stat_Maker confían en subprogramas que se ejecutan en Unix y sólo están disponibles en sistemas Mac y linux.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. asignación Fastq archivos

Nota: DEEPN software, así como muchos programas de Bioinformática utilizan datos de la secuencia de ADN en el que cada secuencia de lectura se ha trazado para su posición en referencia de ADN. Una variedad de programas de mapeo puede utilizarse para esta incluyendo la interfaz MAPster aquí que utiliza el programa HISTAT2 para producir archivos .sam en pasos posteriores.

  1. Asignar los datos de la secuencia a la versión correcta del genoma. Para Y2H bibliotecas de origen de ratón, utilice el genoma UCSC mm10; para aquellos con genes humanos, uso el genoma de referencia de hg38 UCSC, para Saccharomyces cerevisiae de genes, el genoma de referencia de SacCer3 de la UCSC.
  2. Instalar a MAPster.
    1. Descargar MAPster software e instalar. El software se puede encontrar utilizando un navegador web en el siguiente: https://github.com/emptyewer/MAPster/releases. HISAT2 se ejecuta en sistemas basados en Unix como un Apple Macintosh. Debido a esto, el programa MAPster sólo se ejecutará en sistemas compatibles como Apple Macintosh y linux.
      Nota: Requisitos del sistema para un Mac de Apple son: OSX 10.10 +, > 4 Gb de RAM, > 500 Gb espacio en disco y conexión a internet para la descarga de los genomas de referencia. Los usuarios pueden necesitar consultar con un institucional persona si su empresa tiene protocolos de seguridad restringir permisos y derechos de administrador.
  3. Introduzca los archivos requeridos y parámetros a través de la pestaña "Principal" (figura 1). Seleccione el botón de "Pairwise" apropiado para introducir archivos como pares o desapareado con FASTQ como el formato de archivo predeterminado.
    1. Para análisis DEEPN, gire a la opción de "Pairwise" "OFF" para ejecutar en solo leer formato.
    2. Cargar archivos en MAPster simplemente arrastrar y soltar en la ventana correspondiente.
    3. Seleccione una referencia fuente de genoma ADN que corresponde a la fuente de los insertos de biblioteca Y2H presa. Indexadas genomas de varios organismos modelo se enumeran en el cuadro de "Genoma" y pueden descargarse automáticamente desde el centro de la Universidad de Johns Hopkins para la biología computacional. Genomas de referencia se almacenarán localmente para su uso posterior.
    4. Indicar el número de procesos de computadora para ser dedicado al programa de asignación en el cuadro de "Hilos", ya que HISAT2 soporta multi-threading. MAPster buscará el equipo y sugerir el número máximo de procesadores disponibles por defecto.
    5. Especifique un nombre de archivo de salida. Este nombre de archivo se utilizará durante todo el proceso DEEPN por lo que se recomienda un nombre corto pero descriptivo sin espacio o caracteres especiales. Especifique una carpeta para los archivos asignados usando el botón de "Directorio de salida abierta" de salida.
    6. Una vez que se han seleccionado los archivos correspondientes y los parámetros, agregar el trabajo de asignación a la cola de trabajos utilizando el botón "Añadir a la cola". Los nombres de archivo en la ventana principal pueden ser eliminados y reemplazados con los archivos correspondientes a una nueva muestra y pueden agregarse a la cola después de proporcionar un nombre de archivo de salida correspondiente.
    7. Haga clic en el botón "Run Queue" una vez que todos los trabajos que se introducen en la cola de trabajos.
      Nota: Una vez que un trabajo de mapeo se ha colocado en la cola, seleccionando ese trabajo hace que la configuración de los parámetros que se muestran en la ventana de "Parámetros de trabajo" y la instrucción de línea de comandos con todos los argumentos que se mostrará en la ventana de "Comandos de trabajo". Las opciones de salida incluyen dirigir a mantener lecturas que no alinee y especificar el número de alineamientos primarios para cada lectura. El archivo de salida predeterminado de MAPster es en formato SAM (por ejemplo, un archivo '.sam'). Contendrá todas las lecturas de la secuencia de los archivos fastq especifican para esa muestra, incluyendo aquellos que fueron (asignados) y no (asignada) con éxito asignada a los complejos especificado.

2. bioinformática procesamiento utilizando DEEPN Software

Nota: Software DEEPN actualmente está compilado para el uso con bibliotecas de presas que contienen secuencias de cDNA de ratón, secuencias de cDNA humano o secuencias genómicas de ADN de S. cerevisiae . DEEPN acepta el formato de archivo estándar .sam y puede aceptar un archivo SAM (.sam) que contiene las lecturas asignadas y no asignadas o archivos separados para cada una de las lecturas asignadas y no asignadas.

  1. Descargar software DEEPN e instalar. El software se puede encontrar utilizando un navegador web en el siguiente: https://github.com/emptyewer/DEEPN/releases. Seleccione la versión que coincide con la plataforma informática y descargar. Para instalar, abrir el paquete de instalación descargado.
    Nota: Las versiones de DEEPN están disponibles para PC, Mac y Linux sysrems. Sistemas Mac y PC deben tener > espacio en disco duro de 500 Gb y > 4 Gb de RAM.
  2. Abra el software DEEPN. Desde la ventana principal (figura 2) selecciona la información correspondiente de la biblioteca de presa de la caja de selección superior. Seleccione una carpeta donde los archivos procesados pueden ir haciendo clic en el botón "Carpeta de trabajo" y navegar a la carpeta/directorio. Se puede crear un directorio nuevo si es necesario. Una vez seleccionada una "carpeta de trabajo", DEEPN creará tres subcarpetas titulado unmapped_sam_files, mapped_sam_files y sam_files.
    1. Si usando archivos .sam lecturas asignadas y no asignadas como las producidas con la configuración predeterminada del programa MAPster, colocarlos en la carpeta 'sam_files'. De lo contrario Coloque archivos .sam en el unmapped_sam_files y mapped_sam_files por consiguiente.
  3. Iniciar proceso pulsando el botón "Gene cuenta + cruce hacer".
    Nota: El procesamiento comenzará con el módulo de Gene cuenta que posiciones de asignación cuenta Lee cuántos corresponde a cada gen. Unión hace entonces va a extraer secuencias de la ensambladura (las secuencias fundieron directamente aguas abajo del dominio de activación de Gal4) la Lee e identificarlos mediante el algoritmo de Blast. Esto crea un conjunto completo de carpetas ilustrado en la figura 3. Tiempo de procesamiento depende del tamaño y número de secuencia de archivos de datos y velocidad de procesamiento de la computadora utilizada. Lee veces típicos van desde 12, 30 h para un conjunto de datos experimental de 250 millones. El procedimiento de recuento de Gene y el procedimiento de Junction_Make se pueden iniciar individualmente haciendo clic en el botón de «Recuento de genes» o el "Hacer de la Unión".
  4. Descargar e instalar Stat_Maker (https://github.com/emptyewer/DEEPN/releases). Se trata de un paquete de análisis estadístico diseñado para conjuntos de datos DEEPN que actualmente sólo funciona en sistemas Unix Mac.
    1. Abra Stat_Maker y haga clic en el botón "Verificar la instalación" (figura 4). Si ejecuta por primera vez, Stat_Maker automáticamente instalará R, JAGS y Bioconductor tirando estos recursos de internet. Una vez que se detectan JAGS y R y Bioconductor, Stat_Maker se activo y permitir mayor entrada de usuario.
    2. Haga clic en el botón "Seleccionar carpeta" para navegar hasta la carpeta de trabajo que DEEPN procesado. Stat_Maker buscar y automáticamente los archivos para el análisis estadístico en la ventana de la lista.
    3. Arrastrar y soltar los archivos correspondientes de la ventana de lista de archivo arriba en las ventanas de archivo debajo de cada conjunto de datos vectoriales y cebo y para cada condiciones de crecimiento: no seleccionado (su + media) y seleccionado (su media). Importante, Stat_Maker requiere datos duplicados vacío vector solo, dos muestras de poblaciones no seleccionadas y seleccionaron dos muestras de. Esto da una estimación de la variabilidad dentro del experimento.
    4. Haga clic en el botón "Ejecutar". Dependiendo de la velocidad de la computadora, computación tendrá entre 5-15 min.
  5. Revisar los resultados de la salida de Stat_Maker, que se colocan en una nueva subcarpeta en la carpeta principal del trabajo «Resultados de la Stat_Maker».
    Nota: Los resultados se encuentran en un archivo CSV (valores separados por comas) que puede ser abierto en común programas de hoja de cálculo. Stat_Maker se alinean hits gen que pueden enriquecerse diferencialmente en la selección con el cebo del interés sobre el pTEF-DGB vacíelo (figura 5). También tabulados es el porcentaje de lecturas para cada conjunto de datos donde el inserto del gen se encuentra aguas arriba, aguas abajo, o en el marco de lectura abierto y si el gen se encuentra también dentro del marco de lectura correcta traslación. A menudo, DEEPN podrán capturar interacciones de Y2H robustas de un cebo con las porciones de un cDNA dado que están fuera del marco de lectura apropiada de la proteína correspondiente o a una porción del cDNA que está aguas abajo de su correspondiente marco de lectura abierto. Análisis de la salida combinada de Stat_Maker optimiza la detección y eliminación de estos golpes irrelevantes.
  6. Para revisar los datos de cada candidato potencial, abrir el software DEEPN, seleccionar la información correspondiente de la biblioteca de la presa y luego la carpeta correcta de trabajo con la "carpeta de trabajo".
    1. Haga clic en el botón "Consulta de explosión". Esto carga una nueva ventana (figura 6). En el cuadro de texto superior, escriba el nombre de gen o número de GenBank NM para seleccionar los genes candidatos de interés. Estos nombres gen corresponden a los nombres que figuran en el archivo de salida StatMaker. Ingresar o devolver, que inicia la recuperación del gen de interés.
    2. Seleccione que datos se utilizarán para el análisis usando el menú "Seleccionar datos". Por lo general, estos incluyen el Vector sólo y cebo muestras cultivadas bajo condiciones no-selectivo y la muestra de cebo cultivadas bajo condiciones de selección. Inicialmente, los conjuntos de datos tomará unos momentos para cargar, sin embargo, la posterior consulta de los mismo conjuntos de datos con diferentes genes irá rápidamente. Blast_Query mostrará los puntos de fusión a lo largo de la secuencia de interés y abundantes cada punto de fusión. Esto puede mostrarse en un formato de tabla usando la pestaña "Resultados" o un formato gráfico mediante la ficha "Trama". Estos resultados pueden ser exportados a un archivo .csv haciendo clic en el botón "Save CSV" en la parte superior derecha.

3. verificación de los candidatos identificados por DEEPN

Nota: El propósito de DEEPN y Stat_Maker es identificar genes candidatos que dan una positiva interacción Y2H. Verificar tales interacciones Y2H puede ser hecho usando un formato tradicional de Y2H binario utilizando el plásmido de cebo de interés junto con el plásmido de 'presa' de dominio vacío de Gal4-activación así como emparejado con el plásmido de presa lleva el fragmento de gen/ADNc de interés. No es posible aislar el plásmido real de interés dentro de la mezcla de ADN aislado de la población de levaduras sometida a selección Y2H. Sin embargo, uno puede cómputo reconstruir lo que el fragmento de gen/cDNA es que produce la interacción de Y2H diseño de cebadores para la 5' y 3' extremos de ese fragmento y amplificar ese fragmento de la DNA aislada de la población de levaduras. Esta sección describe cómo encontrar el extremo 5' y 3' del fragmento de presa del candidato.

  1. Abra el software DEEPN y elija los parámetros "Parámetro Select" y la carpeta de trabajo "Seleccionar trabajo carpeta" correspondientes al proyecto. Lanzar el módulo de Blast_Query haciendo clic en el botón "Consulta de explosión".
  2. Escriba el nombre del gen de interés o su GenBank "NM" número en el cuadro de texto superior. Seleccione en el menú desplegable conjunto de datos que corresponde a la población de levaduras seleccionadas para el cebo de interés para recuperar la tabla de posiciones de salida en la pestaña 'Resultados'. De forma predeterminada, Blast_Query ordenará las diferentes posiciones según su abundancia en el dataset, cuantificado por el ppm del total de uniones en la base de datos.
    1. Encontrar la posición más abundante que es "en ORF" y "en el marco de la". El valor de posición corresponde a la posición del nucleótido del gen con la secuencia de referencia de NCBI (número de 'NM') encontrada en la caja de texto superior. Esta secuencia puede ser obtenida de GenBank (https://www.ncbi.nlm.nih.gov/nuccore/) o copia desde el cuadro de texto inferior de la ventana de Blast_Query.
      Nota: Un ejemplo puede encontrarse en la figura 6, panel central. En el centro conjunto de datos, los 'resultados' Mostrar como la ensambladura más abundante: «Posición»: 867; '#Junctions': 20033.821; 'Consulta Inicio', 1; CD: En ORF; y el 'Marco': en el marco. 867 nucleótido de la secuencia de referencia de GenBank NCBI NM_019648 es el comienzo del fragmento de presa.
  3. Si el inicio de la consulta es 1, el extremo 5' del primer con el nucleótido correspondiente al número de posición de diseño y extender 25 nucleótidos corriente abajo desde esa posición (figura 7). Si iniciar la consulta es más de 1, indica que hay nucleótidos adicionales entre el dominio de activación de Gal4 y la secuencia de la presa de interés y que la cartilla debe comenzar más abajo según el valor de inicio de la consulta.
  4. Desde la ventana DEEPN haga clic en el botón "Lectura profundidad" debajo de "Analizar los datos". Una vez abierta la ventana de lectura de profundidad, tipo el NCBI secuencia (NM) número o gen nombre de referencia en el cuadro de texto superior. Utilice el menú desplegable para seleccionar el conjunto de datos relevante que contiene el gen enriquecido de interés. Utilice la tabla de la izquierda y mostrar los gráficos de la derecha para determinar cuántas lecturas se encontraron en los datos que se corresponden con el gen de interés (figura 7B).
  5. Diseño 3' final primer que capturará la secuencia del fragmento del gen computado por la profundidad de la lectura. Si la abundancia de Lee va más allá del ORF y stop codon, diseño de la cartilla que incluyen el codón de parada y la región justo aguas arriba del codón de parada. Si las secuencias del gen no se extienden al pasado el codón de parada, utilice la tabla de resultados para encontrar la más distante región 3' que se puede detectar y utiliza esta posición como el más 3' posición colocar la cartilla.
    Nota: El programa de lectura profundidad analiza en intervalos para encontrar secuencias que coincida con la especificada gene/ADNc de interés. Esto ayuda a predecir Dónde está el extremo 5' y 3' del fragmento de presa más abundante de ese gen en la muestra. Las fluctuaciones en la profundidad de lectura a lo largo de la longitud de la secuencia son normales, como puede verse en la figura 7. Si la profundidad leer claramente es el codón de parada, indica que el fragmento de la presa se extiende más allá del codón y así el primer 3' puede corresponder simplemente la región alrededor del codón de parada.
  6. Llevar a cabo una reacción de PCR de 50 μL por gene. Cada reacción contiene 25 pmol de cada primer avance y retroceso que empareja el plásmido presa-biblioteca (véase tabla de materiales). Las reacciones también contienen 25 μl de alta fidelidad 2 x PCR Master Mix, 5 μg de muestra de ADN y el agua hasta 50 μl.
    1. Amplificar las reacciones para 25 ciclos con tiempos de extensión de 3 min a 72 ° C, recocido temperatura de 55 ° C por 30 s, desnaturalizando a 98 ° C por 10 s. Precede ciclismo por una desnaturalización s 30 a 98 ° C y seguir con una incubación de 5 min a 72 ° C.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Mapeo de datos fastq: el primer paso
En prácticamente todas las aplicaciones de NGS incluyendo DEEPN la salida inicial es un archivo de lecturas de secuencia corta que debe asignarse por alineación a genómico, transcriptómico, u otra referencia ADN8. El programa de alineación de HISAT2 fue desarrollado recientemente, que utiliza los algoritmos de indexación de vanguardia para aumentar dramáticamente el mapeo velocidad7,9. HISAT2 funciona de manera eficiente en una computadora de escritorio y puede típicamente tamaño mapa leer archivo en minutos. Esto nos permitió envolver HISAT2 en una interfaz gráfica de usuario llamada a MAPster que puede fastq archivos localmente, permitiendo a los usuarios evitar depender de grupos de equipo remoto de alto rendimiento que funcionan típicamente con lenguaje de línea de comandos (figura 1). Características importantes de MAPster incluyen la presencia de parámetros preestablecidos para RNA-seq y genoma traz experimentos, la capacidad de cola varios trabajos y el acceso a un conjunto completo de parámetros de HISAT2 fácilmente ajustables para usuarios expertos y modificado para requisitos particulares aplicaciones. Para ilustrar la funcionalidad de MAPster, un archivo de datos disponible públicamente eHAP células RNA-seq fue trazado a la GRChg38 conjunto genoma más transcripción referencia ADN. El eHAP A11 repetición 1 FASTQ archivo fue descargado el archivo de lectura secuencia de NCBI y contenidos Lee 38,3 millones. MAPster se ejecutó en un iMac de Apple con un procesador de 3.5 GHz Intel Core i7 con defecto RNA-seq parámetros para el archivo de lectura sin par. La asignación se completó en menos de cinco minutos. La tasa general de alineación era de 96,6%. Resultados similares se encuentran con la típica DEEPN conjuntos de datos de 15 millones Lee/muestra, aunque la tasa de alineamiento global es menor debido a la presencia de la secuencia de vector del plásmido Y2H presa.

Encontrar hits de candidato con la ayuda de Stat_Maker.
El programa de StatMaker produce un archivo de excel visible que resume la mayoría de la información pertinente necesaria para identificar proteínas interactuantes de candidato. Porque Stat_Maker hace uso de subrutinas basado en unix, se ejecuta en un Mac (OS10.10 +) pero no de PC. En primer lugar, resume las lecturas en ppm para cada gen para control de vectores y las poblaciones de cebo y también produce una probabilidad ranking si el enriquecimiento de un gen en particular cuando Y2H interacción con el cebo del interés es realmente mayor que la enriquecimiento de ese gen al seleccionado para la interacción con el control vector solamente (figura 5). En segundo lugar, StatMaker realiza los cálculos del módulo de BlastQuery en cada gen evaluado y tabula el porcentaje de lecturas de cruce en la correcta estructura traslacional y la secuencia de codificación que sería necesaria para un auténtico biológicamente relevante interactor. Este rendimiento combinado es posible rápidamente ordenar y filtrar los candidatos para identificar a los que se puede examinar más cerca por BlastQuery. Con esta salida, uno puede ordenar primero por los candidatos con el mayor paso de ser enriquecida durante la selección de Y2H interacción de la proteína cebo de interés y no seleccionado para la interacción en el plásmido vector solo. En la práctica, nos encontramos con que P > 0,95 funciona bien. Entonces los candidatos pueden ser alineados para aquellos que tienen la mayoría Lee junction en la región de la codificación y en el marco de lectura correcta con una función de clasificación simple. Aquí, los candidatos con > 85% de uniones que en la correcta estructura traslacional y se encuentran dentro de los open reading frame/proteína codificación región (ORF) o que comienzan a aguas arriba del codón de inicio (aguas arriba). Este último filtro elimina 60 – 80% de candidatos que tienen un valor aceptable de P, produciendo una lista que es biológicamente mucho más relevante y manejable para la inspección adicional.

El software DEEPN.
La base software DEEPN paquetes varios módulos computacionales para integrar todos los pasos de bioinformática utilizando archivos de SAM. Gene_Count proporciona el número de lecturas por gene, realizar un cálculo similar a una cuantificación de RNA-seq. Otros programas que realizan este tipo de cálculo pueden utilizarse también, sin embargo, el formato tendría que modificarse para que sea compatible con otros módulos DEEPN y el programa de Stat_Maker. Por otra parte, el módulo de Gene_Count podría ser utilizado para cuantificar RNAseq experimentos, sin embargo, otros paquetes integrado con programas de estadística específicos han sido desarrollados10. El proceso de emparejar una particular lectura asignada con su correspondiente gen de interés se ha mejorado desde el software DEEPN inicial utilizando una estructura de árbol de datos para la asignación del gene. El efecto de esto fue que aceleran la velocidad de procesamiento de tal forma que un típico conjunto de datos que contienen 10 millones asignados Lee toma 5-10 min en computadora de escritorio con requisitos de sistema mínimos. Otros análisis, en particular el análisis de lecturas de cruce que abarcan el dominio de activación de Gal4 y candidato de la interacción de interés, son autónomas. Que vienen con el alogorithm de la explosión que se ejecuta localmente y analizar procedimientos para cotejar correctamente todo el cruce Lee y sus posiciones para todos los genes dados. Uno de los inconvenientes del software DEEPN es que hace uso de bases de datos con formato especiales que definen que los exones en los genomas de referencia se utilizan para definir regiones de codificación o cADN y formato de bases de datos que especifican la secuencia de comienzo traslacional y paradas de cada cDNA/genes utilizados. Se encontró que era difícil recuperar toda la información de la base de datos que DEEPN requiere en un formato fiable que carecía de algunos de los errores falsos que nos encontramos con la indización de genes particulares. Así, hemos reunido las bases de datos nueva que calidad controlada y había integrado en el software DEEPN para referencia interna constante. Actualmente, ratón, humano y S. cerevisiae Y2H presa bibliotecas son compatibles con las bases de datos incluidos siempre que los archivos de ADN fastq se asignan contra el mm10, hg38 o SacCer3 referencia las bases de datos disponibles de la UCSC. Y2H bibliotecas de organismos diferentes pueden procesarse por DEEPN siempre que las bases de datos similares se construyen y colocan en el software DEEPN. En general, sin embargo, el paquete independiente de todos los módulos DEEPN, bases de datos y otros programas de hacer estos análisis bioinformáticas accesibles a los investigadores en todos los niveles de conocimientos.

Figure 1
Figura 1 : Interfaz el MAPster. Captura de pantalla de la ventana principal de MAPster. Aparecen las casillas para introducir los formatos y archivos necesarios. Desactivar "Pairwise" (A) para tratar archivos de secuencia como único extremo. El genoma de referencia es seleccionado con el menú de 'Genoma' de la barra (B). El número de procesadores utilizados por HISAT2 es seleccionado con el menú de "Hilos" (C). El nuevo nombre de la muestra puede escribirse en la ventana de texto "Nombre de archivo de salida" (D). El directorio de los archivos de salida puede ser señalado en la letraE. A continuación es una ventana que muestra la formación de colas de fin single leer archivos. Después la muestra se ha añadido a la cola, mapeo se puede iniciar con el botón de "Ejecutar cola" (F). Haga clic aquí para ver una versión más grande de esta figura.

Figure 2
Figura 2 : Interfaz DEEPN. Imagen de la interfaz gráfica de usuario utilizada para operar los módulos DEEPN. Haga clic aquí para ver una versión más grande de esta figura.

Figure 3
Figura 3 : Terminación del proceso. Una vez DEEPN procesa los datos, se crean las siguientes subcarpetas. Estos pueden ser inspeccionados, pero requieren de procesos posteriores que estas subcarpetas permanezcan dentro de la carpeta de trabajo principal y que conservan su contenido y nombres. Haga clic aquí para ver una versión más grande de esta figura.

Figure 4
Figura 4 : Análisis de Stat_Maker. Imagen de la interfaz gráfica de usuario para Stat_Maker, que ha sido cargado con los archivos correspondientes para permitir el procesamiento. Parte superior muestra la vista inicial de Stat_Maker. Una vez que la presencia de datos de soporte subyacentes han sido verificados haciendo clic en el botón de "Verificar la instalación" y la carpeta de trabajo identificado después de clic en el botón "Elegir carpeta", el GUI se convertirá en activo, lo que permite cargar archivos. Haga clic aquí para ver una versión más grande de esta figura.

Figure 5
Figura 5 : Extracto de Stat_Maker salida. Parte de la producción de Stat_Maker comparando el enriquecimiento de los candidatos de presa en una proteína solo cebo vector solo (vacío pTEF-GBD). También se muestra, es el correspondiente análisis de si la plásmidos correspondiente al candidato de la presa contiene el marco abierto de lectura adecuado. Cada gen evaluado tiene varios valores: Base, Vec, cebo y Enr. La 'Base' es la proporción promedio de lecturas (ppm) que se observaron para el gen dentro de los 2 conjuntos de datos correspondientes a las poblaciones duplicadas sólo contiene vector solo y cultivados bajo condiciones no-selectivo. "Vec" se refiere a la proporción media de Lee (ppm) que se observaron para el gen dentro de los 2 conjuntos de datos correspondientes a las poblaciones duplicadas sólo contiene vector solo y cultivados en condiciones selectivas (por ejemplo-su). 'Bait' se refiere a la proporción de lectura (ppm) que fueron observados para el gen dentro de los 2 conjuntos de datos correspondientes a las poblaciones de 2 que contienen el plásmido de cebo y crecido en condiciones selectivas (por ejemplo-su). "Enr" (enrichement) es log2 ((Bs/Bn) / (Vn/Vs)) donde Bs es la Lee para el cebo en la selección, Bn es Lee para el cebo en la no selección, Vs es vector solo en la selección y Vn es vector solo en la selección. Haga clic aquí para ver una versión más grande de esta figura.

Figure 6
Figura 6 : Pantalla de Blast_Query. Salida de Blast_Query de 3 diferentes puntos de vista. Parte superior es la vista inicial de Stat_Maker antes de que se seleccionan los conjuntos de datos de candidatos. El panel central es una vista de ejemplo de la tabla de datos mostrando la información en un determinado candidato para dos diferentes conjuntos de datos. Abajo muestra una vista gráfica de los datos tabulares, trazar el número de puntos de la Unión particular en el cDNA del gen de interés. Haga clic aquí para ver una versión más grande de esta figura.

Figure 7
Figura 7 : Encontrar los cebadores 5' y 3' amplificar. (A) muestra una secuencia hipotética y cómo diseñar el 5' oligo para captar el marco correcto y fusión punto entre el dominio de activación de Gal4 y la secuencia de la presa de interés. En el ejemplo 1, la posición del punto de fusión está en la 10th nucleótido con un comienzo de Q de 1. Usando el desplazamiento anterior mesa, 0 nucleótidos deben ser agregadas a encontrar 5' posición de la cartilla de arranque. El punto de fusión del plásmido presa reconstruido muestra que el dominio de activación de Gal4 se funde directamente a la presa en el nucleótido 10. En el ejemplo 2, el inicio de la consulta es 3, que requiere un desplazamiento de 1 nucleótido para capturar el correcto punto de partida y el marco de la inserción de la presa. El esquema de la presa reconstruido muestra que hay 2 nucleótidos entre el dominio de activación de Gal4 y la posición conocida de la inserción de la presa que debe explicarse. (B) muestra la ventana de lectura de profundidad. El cuadro de texto en la parte superior se utiliza para introducir el número de secuencia de Referencia NCBI y el menú desplegable debajo de 'archivo seleccione .sam' se utiliza para seleccionar los datos de la muestra que contiene el gen interacción enriquecido si interés. Profundidad de lectura muestra cuántas secuencias (eje Y) se encontraron en los datos que corresponden a las posiciones del nucleótido de la secuencia de interés (eje x). Haga clic aquí para ver una versión más grande de esta figura.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

La suite de software que se describe aquí permite procesar y analizar datos de secuenciación de ADN de alto rendimiento de un experimento DEEPN completamente. El primer programa utilizado es MAPster, que se la Lee de la secuencia de ADN en archivos estándar fastq y su posición en una referencia de ADN para procesar aguas abajo por un montón de programas informáticos, incluyendo el software DEEPN los mapas. La utilidad de la interfaz MAPster y su capacidad para múltiples puestos de trabajo, combinar archivos de entrada, la coleta coveniently nombre salida de archivos, juntados con la velocidad de la HISAT2 subyacente programa7 controla proporciona una asignación de herramienta fácil de utilizar para una variedad de aplicaciones más allá de DEEPN. MAPster puede acceder a varios parámetros del programa HISAT2 que son adecuados para otros tipos de análisis de datos además de DEEPN. Algunas de estas características incluyen parámetros de precolocación para RNA-seq y experimentos de mapeo del genoma entero y acceso a un conjunto completo de parámetros HISAT2 fácilmente ajustables para usuarios expertos y para aplicaciones personalizadas. Por ejemplo, el botón de RNA-seq agrega formato que facilite la Asamblea de la transcripción. La alineación de bloques CRISPR botón a la hebra de atrás complemento como sería apropiada para un archivo de ADN de referencia derivado de secuencias de ARN guía. Los parámetros opcionales se encuentran bajo cuatro fichas con la etiqueta, "Entrada, alineación, anotación y salida". Las opciones de entrada incluyen la capacidad para cambiar formatos de archivo de entrada y especificar las opciones de recorte de lectura básica. La alineación y fichas de puntuación incluyen las opciones para seleccionar sólo una hebra en el ADN de referencia y establecer las sanciones gap y desajuste de las puntuaciones de la alineación. La capacidad de cola convenientemente varios trabajos de mapeo, que cada uno con diferentes parámetros debe hacer MAPster de interés para los usuarios expertos y no expertos buscando aplicaciones complejas de NGS.

Los programas DEEPN y Stat_Maker están dedicados a los análisis bioinformáticos específicos de datos de las pantallas de lote Y2H. Esto es accesible a una amplia gama de investigadores y constituye un paquete de software bioinformático contiguos a través de una interfaz gráfica de usuario. Este paquete ha sido más optimizado e integrado desde su descripción original6 para que se ejecute más rápido y se optimiza el análisis de éxitos del candidato. Todos los pasos de Bioinformática se pueden ejecutar en una computadora de escritorio. La principal toma de software DEEPN que estos mapa posiciones para calcular cuántos Lee corresponde a cada gen formando así la base para cómo un gen determinado se enriquece en la selección. Este software encuentra también el 'cruce' secuencias que se corresponden con el inserto de interés ya que se funde en el dominio de activación transcripcional del plásmido presa y tabula los resultados que uno puede visualizar todas las partes diferentes de una ORF particular o cDNA que es suficiente para la interacción. Además, esto también proporciona información para verificar el marco de lectura de cada inserto. El tercer brazo del software bioinformático es Stat_Maker, que utiliza archivos de salida procesados por DEEPN para calcular la relevancia estadística de enriquecimientos del gene resultando de la interacción con una proteína cebo determinado vs el Gal4-Unión al ADN dominio vector solo ( vacío pTEF-GBD). Una mejora reciente es que Stat_Maker no sólo proporciona un ranking estadístico de cada candidato, sino que también recoge la información extraída de las secuencias de Unión correspondientes, poniéndolos a disposición en un único archivo, haciendo mucho más fácil para los investigadores inspeccionar y revisar los resultados.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar

Acknowledgments

Este trabajo fue financiado por National Institutes of Health: NIH R21 EB021870-01A1 y beca de proyecto de investigación NSF: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

Genética número 136 interacción de la proteína siguiente generación de secuenciación análisis de la secuencia de ADN 2-híbrido de la levadura
Análisis informático de datos de la secuencia de lote levadura híbrida 2 pantallas
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter