Genetics

Aprovechando los recursos de CyVerse para Published: May 9, 2017 doi: 10.3791/55009

DOI

Automatic Translation

English (Original)
العربية (Arabic)
中文 (Chinese)
dansk (Danish)
Nederlands (Dutch)
français (French)
Deutsch (German)
עברית (Hebrew)
हिंदी (Hindi)
italiano (Italian)
日本語 (Japanese)
한국어 (Korean)
norsk (Norwegian)
português (Portugese)
русский (Russian)
español (Spanish)
svenska (Swedish)
Türkçe (Turkish)

Blake L. Joyce^1,2, Asher K. Haug-Baltzell³, Jonathan P. Hulvey⁴, Fiona McCarthy⁵, Upendra Kumar Devisetty^1,6, Eric Lyons^1,2,3

¹BIO5 Institute, University of Arizona, ²The School of Plant Sciences, University of Arizona, ³Genetics GIDP, University of Arizona, ⁴Biology Department, University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences, University of Arizona, ⁶CyVerse, University of Arizona

Abstract

Este flujo de trabajo permite a los investigadores novatos aprovechar los recursos computacionales avanzados, como la computación en nube, para llevar a cabo una transcriptomía comparativa por pares. También sirve como una guía para que los biólogos desarrollen habilidades computacionales de científicos de datos, por ejemplo , la ejecución de comandos bash, la visualización y el manejo de grandes conjuntos de datos. Todo el código de línea de comandos y más explicaciones de cada comando o paso se pueden encontrar en el wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ ). Las plataformas Discovery Environment y Atmosphere están conectadas entre sí a través del CyVerse Data Store. Como tal, una vez que los datos iniciales de secuenciación en bruto se han cargado no hay más necesidad de transferir archivos de datos grandes a través de una conexión a Internet, minimizando la cantidad de tiempo necesario para realizar análisis. Este protocolo está diseñado para analizar sólo dos tratamientos o condiciones experimentales. El análisis diferencial de la expresión génica seComparaciones pairwise, y no será adecuado para probar múltiples factores. Este flujo de trabajo también está diseñado para ser manual en lugar de automatizado. Cada paso debe ser ejecutado e investigado por el usuario, lo que permite una mejor comprensión de los datos y resultados analíticos, y por lo tanto mejores resultados para el usuario. Una vez completado, este protocolo producirá transcriptome (s) ensamblado de novo para organismos sin servicios (sin modelo) sin necesidad de mapear a genomas de referencia previamente montados (que usualmente no están disponibles en organismos desatendidos). Estos transcriptomas de novo se usan adicionalmente en el análisis diferencial de expresión de genes en pares para investigar genes que se diferencian entre dos condiciones experimentales. Los genes expresados diferencialmente son anotados funcionalmente para entender la respuesta genética que los organismos tienen a las condiciones experimentales. En total, los datos derivados de este protocolo se utilizan para probar hipótesis sobre las respuestas biológicas de los organismos subatendidos.

Introduction

Homo sapiens y varias especies animales modelo clave tales como Drosophila melanogaster , Mus musculus , y Danio rerio representan la mayoría de trabajo de genómica funcional actual y pasado. Sin embargo, el costo rápidamente decreciente de la tecnología de secuenciación de alto rendimiento está proporcionando oportunidades para la genómica funcional en especies animales no modelo ( también conocidas como "descuidadas" o "subatendidas") ¹ . Esta es una importante transición en genómica ya que los organismos no modelo representan con frecuencia especies económicamente relevantes ( por ejemplo , ostras, camarones, cangrejos) y ofrecen oportunidades para investigar nuevos fenotipos y sistemas biológicos fuera del alcance de los encontrados en especies modelo.

Aunque los organismos desatendidos presentan una oportunidad atractiva para investigar sistemas biológicos únicos, varios desafíos se enfrentan a los investigadores particularmente durante el análisis bioinformático. Algunos de losLos desafíos son innatos al procesamiento de grandes conjuntos de datos, mientras que otros resultan de la falta de recursos genéticos disponibles para los investigadores que trabajan en organismos desatendidos, como un genoma de referencia, ontologías específicas de organismos, etc. Comparación con los de análisis de datos, y como tal los análisis bioinformáticos generalmente se muestra como el costo más subestimado de los proyectos de secuenciación [ ^2] . Por ejemplo, un análisis bioinformático de secuenciación básica de próxima generación podría consistir en los siguientes pasos: filtrar y recortar la calidad de las lecturas de secuencias sin procesar, ensamblar lecturas cortas en piezas contiguas más grandes, y anotación y / o comparaciones con otros sistemas para obtener comprensión biológica. Mientras que aparentemente simple, este flujo de trabajo del ejemplo requiere el conocimiento de la especialidad y los recursos computacionales más allá del alcance de un ordenador del laboratorio-banco, poniéndolo fuera del alcance de muchos científicos que estudian no-Organismos modelo.

Los retos innatos pueden ser de infraestructura o de conocimiento. Un desafío clásico de la infraestructura es el acceso a recursos computacionales apropiados. Por ejemplo, el ensamblaje y la anotación se basan en algoritmos computacionalmente intensivos que requieren potentes equipos o clústeres de ordenadores, con gran cantidad de RAM (256 GB-1 TB) y varios procesadores / núcleos para ejecutarse. Desafortunadamente, muchos investigadores no tienen acceso a tales recursos informáticos o no tienen los conocimientos necesarios para interactuar con estos sistemas. Otros investigadores podrían tener acceso a clusters de computación de alto rendimiento a través de sus universidades o instituciones, pero el acceso a estos recursos puede ser limitado ya veces resulta en cargos por hora de cálculo, es decir , el número de procesadores de CPU multiplicado por el número de " Horas "que esos procesadores están funcionando. Aprovechando un sistema de ciberinfraestructura financiado por la National Science FoundationComo CyVerse ^3, que proporciona acceso gratuito a los recursos de computación para investigadores, en los Estados Unidos y en todo el mundo, puede ayudar a aliviar los retos de infraestructura, como se demostrará aquí.

Un ejemplo de un reto típico basado en el conocimiento es entender el software necesario para realizar análisis completos. Para llevar a cabo con eficacia un proyecto basado en la secuenciación, los investigadores necesitan estar familiarizados con la miríada de herramientas de software que se han desarrollado para los análisis bioinformáticos. Aprender cada paquete es difícil por sí mismo, pero se ve exacerbado por el hecho de que los paquetes se actualizan constantemente, se vuelven a publicar, se reúnen en nuevos flujos de trabajo y, a veces, se restringen para su uso bajo nuevas licencias. Además, la vinculación de las entradas y salidas de estas herramientas a veces requiere transformar tipos de datos para hacerlos compatibles, agregando otra herramienta al flujo de trabajo. Por último, también es difícil saber qué paquete de software esE mejor "para un análisis, y la identificación frecuente del mejor software para condiciones experimentales particulares es una cuestión de sutiles diferencias. En algunos casos, las revisiones útiles del software están disponibles, pero debido a la liberación continuada de nuevas actualizaciones y de opciones del software, éstas pasan rápidamente de fecha.

Para los investigadores que investigan los organismos subatendidos, estos retos innatos vienen además de los retos asociados con el análisis de datos en un organismo novedoso. Estos desafíos específicos de organismos desatendidos se ilustran mejor durante la anotación de genes. Por ejemplo, los organismos desatendidos frecuentemente no tienen un organismo modelo estrechamente relacionado que pueda ser utilizado razonablemente para identificar ortografía y función genética ( por ejemplo, invertebrados marinos y Drosophila ). Muchas herramientas bioinformáticas también requieren "entrenamiento" para identificar motivos estructurales, que pueden usarse para identificar la función del gen. Sin embargo, los datos de entrenamiento normalmente solo están disponibles para modLos organismos y la formación de modelos de Markov ocultos (HMM) está fuera del alcance de los biólogos, e incluso muchos bioinformáticos. Por último, aunque se puedan realizar anotaciones utilizando datos de organismos modelo, algunas ontologías genéticas asociadas con organismos modelo no tienen sentido cuando se considera la biología y la historia natural del organismo subatendido ( por ejemplo , transferir información de Drosophila a camarón).

A la luz de estos desafíos, los recursos bioinformáticos deben desarrollarse con investigadores que realicen análisis de novo sobre organismos desatendidos específicamente en mente. Los próximos años de proyectos de secuenciación genómica funcional ayudarán a cerrar la brecha entre los organismos modelo y los subatendidos ( https://genome10k.soe.ucsc.edu/ ), pero hay muchas herramientas que deberán desarrollarse para abordar los desafíos Consideradas anteriormente. CyVerse se dedica a crear ecosistemas de iInteroperabilidad mediante la vinculación de la ciberinfrastructure existente y las aplicaciones de terceros para entregar la gestión de datos, herramientas de análisis bioinformático, y visualizaciones de datos a los científicos de la vida. La interoperabilidad ayuda a suavizar las transiciones entre aplicaciones y plataformas bioinformáticas proporcionando recursos computacionales escalables y limitando las conversiones de formato de archivo y la cantidad de datos transferidos entre plataformas. CyVerse ofrece varias plataformas, incluyendo el Discovery Environment (DE ⁴ , Atmosphere ⁵ y Data Store ^3. El DE está basado en la web y tiene muchas herramientas analíticas comunes de bioinformática convertidas en formatos de apuntar y hacer clic "), Y es la interfaz gráfica de usuario (GUI) para el almacén de datos donde se almacenan y gestionan grandes conjuntos de datos ( es decir , lecturas de secuencias sin procesar, genomas ensamblados).Utilizando los recursos computacionales de la Máquina Virtual, que tienen una amplia gama de herramientas bioinformáticas preinstaladas. Ambas plataformas están vinculadas al almacén de datos y se pueden utilizar conjuntamente para crear flujos de trabajo como los que se describen aquí. Este informe se centra en un ensamblaje de transcriptome de novo y flujos de trabajo de análisis de expresión génica diferencial, y además aborda algunas prácticas recomendadas asociadas con el desarrollo y la realización de análisis bioinformáticos. Una explicación de la misión más amplia de CyVerse ( http://www.cyverse.org/about ) y descripciones detalladas de la plataforma ( http://www.cyverse.org/learning-center ) están públicamente disponibles. Todos los análisis descritos en este documento utilizan el Entorno de Descubrimiento ⁴ (DE) y la Atmósfera ⁵ , y se presentan de una manera que los hace accesibles a los investigadores de todos los niveles computacionales. DE workflows y AtmosphLas imágenes se pueden referenciar directamente mediante URL para asegurar la procedencia a largo plazo, la reutilización y la reproducibilidad.

Protocol

NOTA: El protocolo global se ha numerado de acuerdo con las carpetas que se crean y se nombran en el paso 1.2 ( Figura 1 y 2 ). Este protocolo representa un análisis comparativo estándar de transcriptomas de novo , y cada paso detallado aquí puede no ser necesario para todos los investigadores. Este flujo de trabajo se documenta exhaustivamente en un wiki tutorial complementario, que también contiene todos los archivos adicionales y enlaces a documentos de interés de terceros desarrolladores para cada paquete de análisis ( Tabla 1 ). Los enlaces a este material se incluirán en este protocolo para facilitar el acceso a esta información. Las mejores prácticas son notas proporcionadas a los usuarios como sugerencias para la mejor manera de realizar tareas o para que los usuarios las consideren y se comunicarán mediante notas en el protocolo. Una carpeta de entrada de datos de ejemplo y de salida analítica está públicamente disponible para los usuarios, y está organizada como se sugiere en el protocolo ( de novo

1. Configure el proyecto, cargue las lecturas de secuencias sin procesar y evalúe las lecturas con FastQC

Obtenga acceso a Atmosphere y al Discovery Environment.
1. Solicite una cuenta gratuita de CyVerse accediendo a la página de registro ( por ejemplo, person@institution.edu).
2. Complete la información requerida y envíela.
3. Navegue a la página principal (http://www.cyverse.org/) y seleccione "Iniciar sesión" en la barra de herramientas superior. Seleccione "Cyverse Login" e inicie sesión con sus credenciales CyVerse.
4. Vaya a la pestaña Aplicaciones y servicios y solicite acceso a Atmosphere. El acceso al entorno de descubrimiento se concede automáticamente.
Configure el proyecto y mueva los datos al almacén de datos.
1. Inicie sesión en el entorno de descubrimiento (https://de.iplantcollaborative.org/de). Seleccione la pestaña "Datos" para abrir un menú que contenga todas las carpetas en el Almacén de datos.
2. Cree cinco carpetas dentro de la carpeta principal del proyecto para organizar los análisis ( Figura 1 ) Nombre de las carpetas como sigue sin comillas o comillas: "1_Raw_Sequence", "2_High_Quality_Sequence", "3_Assembly", "4_Differential_Expression", "5_Annotated_Assembly". Las subcarpetas se colocarán en cada una de estas carpetas de proyectos principales ( Figura 2 ).

Figura 1
Figura1: Una visión general de la organización de carpetas del proyecto y el flujo de trabajo de análisis y análisis de De Novo Transcriptome. Los usuarios cargarán las lecturas de secuencias sin procesar en la carpeta principal del proyecto en el Almacén de datos y, a continuación, colocarán los resultados de cada paso en carpetas separadas. Haga clic aquí para ver una versión más grande de esta figura.

Figura 2: Una visión general detallada del flujo de trabajo de ensamblaje y análisis de De Novo Transcriptome que se produce en Cyberinfrastructure CyVerse. Todo el flujo de trabajo de ensamblaje y análisis se completará en cinco pasos, cada uno de los cuales obtiene su propia carpeta (iconos de carpeta en negrita y numerada). Cada una de las cinco carpetas de pasos de flujo de trabajo numeradas tiene subcarpetas que contienen datos de salida de análisis bioinformáticos (carpetaIconos). Las entradas para el análisis vienen de una subcarpeta y luego se mueven a otra carpeta a través de la salida de un programa de análisis (rectángulos). Los datos finales de los tres primeros pasos se comparan y se preparan para su publicación. En última instancia, este esquema produce una carpeta principal del proyecto que tiene análisis paso a paso para los colaboradores y / o revisores manuscritos pueden entender rápidamente el flujo de trabajo y repetirlo utilizando cada archivo si es necesario. Haga clic aquí para ver una versión más grande de esta figura.

Cargue los archivos de secuencia FASTQ sin procesar en la carpeta "1_Raw_Sequence" en una subcarpeta titulada "A_Raw_Reads" utilizando uno de los tres métodos siguientes.
1. Utilice la función de carga simple del almacén de datos para navegar a la barra de herramientas de la ventana de datos haciendo clic en el botón de datos en el escritorio principal de DE y seleccione Cargar | Carga sencilla desde el escritorio. Seleccione el botón ExaminarPara navegar a los archivos de secuenciación FASTQ en bruto en el equipo local. Este método sólo es adecuado para archivos de menos de 2 GB.
2. Seleccione el botón Subir en la parte inferior de la pantalla para enviar la subida. Una notificación se registrará en la parte superior derecha de la DE en el icono de la campana que se ha enviado la subida. Otra notificación se registrará cuando se complete la carga.
3. Como alternativa, utilice Cyberduck para transferir archivos más grandes (https://wiki.cyverse.org/wiki/x/pYcVAQ). Instale Cyberduck y luego ejecute como un programa en el escritorio de la computadora local.
4. Por último, descargue iCommands e instálelo en el ordenador local de acuerdo con las instrucciones (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands).
Evalúe las lecturas de secuencias en bruto cargadas, usando la aplicación FastQC en el DE.
1. Seleccione el botón "Aplicaciones" en el escritorio principal de DE para abrir una ventana que contenga todas las aplicaciones de análisis disponibles en el DE.
2. Buscar y abrir la victoriaDow para la herramienta FastQC en la barra de herramientas de búsqueda en la parte superior de la ventana. Abra la versión multi-archivo si hay más de un archivo FASTQ. Seleccione Archivo | Nueva carpeta para crear una carpeta denominada "B_FastQC_Raw_Reads" y seleccione esta carpeta como la carpeta de salida.
3. Cargue los archivos de lectura FASTQ en la ventana de herramientas llamada "Seleccionar datos de entrada" y seleccione "Análisis de inicio".
4. Abra el archivo .html o .pdf para ver los resultados una vez que el análisis esté completo. FastQC ejecuta varios análisis que prueban diferentes aspectos de los archivos de lectura ( Figura 3 ).

2. Trim y filtro de calidad Raw lee para producir una secuencia de alta calidad

Nota: utilice la aplicación Trimmomatic o la aplicación Sickle.

Busque la aplicación Trimmomatic programable en el DE y ábrala como antes.
1. Cargue la carpeta de archivos de lectura FASTQ sin procesar en la sección "Configuración".
2. Seleccione si seLos archivos quencing son únicos o emparejados.
3. Utilice el archivo de control estándar proporcionado al seleccionar el botón Examinar y pegar / iplant / home / shared / Trinity_transdecoder_trinotate_databases en el cuadro "Viewing:". Seleccione el archivo denominado Trimmomaticv0.33_control_file y ejecute el análisis. El archivo se puede descargar, la configuración editada y, a continuación, cargarse en la segunda carpeta de proyecto para crear un script de recorte personalizado.
4. Opcional: Si el análisis FastQC identificó secuencias de adaptador, utilice el ajuste ILLUMINACLIP para recortar adaptadores Illumina. Seleccione el archivo adaptador adecuado en la carpeta / iplant / home / shared / Trinity_transdecoder_trinotate_databases como se ha indicado anteriormente.
La secuencia de recorte de calidad se lee usando Sickle.
1. Buscar y abrir la aplicación Sickle en el DE. Seleccione las lecturas de FASTQ recortadas como lecturas de entrada y renombre los archivos de salida. Incluya ajustes de calidad en las opciones. Los ajustes típicos son Formato de calidad: illumina, sanger, solexa; Calidad tUmbral: 20; Longitud mínima: 50.
2. Mueva toda la salida a la carpeta recortada y filtrada (2_High_Quality_Sequence).
Evalúe las lecturas finales usando FastQC y compare con informes anteriores de FastQC. Seleccione el archivo .html para abrir una página web de todos los resultados. Seleccione la carpeta de archivos de imagen (.png) que se proporcionan en la salida si no se puede ver.

3. De Novo Transcriptome Assembly Utilizando Trinity en la atmósfera

Abra la versión más reciente de la instancia de Atmosphere navegando a la página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). Seleccione el enlace para la versión más reciente de la imagen Trinity y Trinotate. Alternativamente, busque "Trinotate" en la herramienta de búsqueda de imágenes de Atmosphere (https://atmo.iplantcollaborative.org/application/images) para obtener todas las versiones de las imágenes Trinity y Trinotate.
1. Seleccione el botón "Iniciar sesión para iniciar" y luego el nombre de la Atmósfera iNstance.
2. Seleccione un tamaño de instancia de "medium3" (CPU: 4, Mem: 32GB) o "grande3" (CPU: 8, Mem: 64 GB). Inicie la instancia y espere a que se cree. En algunos casos raros CyVerse se somete a mantenimiento para actualizar plataformas. Las instancias existentes están disponibles durante estas actualizaciones, pero puede que no sea posible crear nuevas instancias. Visite la página de estado de CyVerse para ver el estado actual de cualquier plataforma (http://status.cyverse.org/).
Abra la instancia una vez que esté listo haciendo clic en el nombre y seleccionando "Escritorio remoto" en la parte inferior del menú de la derecha. Permitir Java y VNC Viewer si se le pregunta. Seleccione el botón "Conectar" en la ventana Visor de VNC, y luego seleccione "Continuar".
1. Inicie sesión para abrir una ventana independiente que será la nueva instancia de cloud computing.
2. Mueva los archivos de lectura FASTQ recortados y / o filtrados a la instancia utilizando uno de los tres métodos descritos en los pasos 1.3.1 a 1.3.4. NosE el navegador de Internet para acceder al DE y descargar archivos como antes en el equipo local. O utilice iCommands instalado en estas imágenes para transferir rápidamente grandes conjuntos de datos.
Ejecutar Trinity para ensamblar lecturas de alta calidad.
1. Configure la carpeta de análisis en la instancia de Atmosphere. Utilice la secuencia de comandos disponible en DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) o copie y pegue los comandos de la página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). La explicación de todos los comandos se puede encontrar en la página wiki.
2. Una vez establecida la carpeta de análisis y las bases de datos Trinotate, ejecute el ensamblador Trinity utilizando los comandos de arriba. Hay varios archivos de salida, pero lo más importante es el archivo de ensamblaje final titulado "Trinity.fasta". Cambie el nombre de este archivo FASTA para que sea único para el organismo y el tratamiento de las lecturas ensambladas antes de moverlo al almacén de datos (carpeta 3_Assembly) para minimizar la confusión potencial.
  NOTA: La salida cuenta las tablas para el análisis diferencial de la expresión génica en una carpeta (4_Differential_Expression).
Evaluar el ensamblado utilizando rnaQUAST ( Figura 4 ).
1. Mueva los archivos de salida de Trinity a la carpeta "3_Assembly" en el DE y marque la carpeta "A_Trinity_de_novo_assembly". Dé a cada transcriptome que se ensambló una subcarpeta dentro de la carpeta "A_Trinity_de_novo_assembly" con nombres únicos incluyendo el nombre científico de organismos y tratamientos asociados con cada transcriptome. Cree otra subcarpeta llamada "B_rnaQUAST_Output" en la "carpeta 3_Assembly".
2. Abra la aplicación titulada "rnaQUAST 1.2.0 (basado en denovo)" y nombre el análisis y seleccione "B_rnaQUAST_Output" como la carpeta de salida.
  1. Agregue los archivos de FASTA de ensamblaje de novo a la sección "Entrada de datos". En la sección "Salida de datos", escriba un nombre único para el
3. Seleccione opciones adicionales en las secciones "GenemarkS-T Gene Prediction", "BUSCO" y "Parameters".
  1. Seleccione prokaryote en la sección "GenemarkS-T Gene Prediction" si el organismo no es eucariótico.
  2. Ejecute BUSCO para seleccionar el botón de exploración y copie la ruta iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data en el cuadro "Visualización:" y pulse enter. Seleccione la carpeta BUSCO más específica que está disponible para el organismo.
    NOTA: BUSCO evaluará el ensamblaje para genes específicos del linaje y generará qué porcentaje de genes centrales se encuentra. Existen carpetas generales, por ejemplo , eucariota, y linajes más específicos, por ejemplo , artrópodos.
Buscar "Transcript decoder" y ejecutar Transdecoder en el de novO Trinity ensambla el archivo FASTA de salida en el entorno de descubrimiento.
Mueva el archivo .pep de salida a la carpeta de ensamblaje de novo (3_Assembly) para usarlo en el paso 5 Anotaciones.

4. Expresión Diferencial Pairwise Utilizando DESeq2 en el DE

Abra la aplicación DESeq2 en el DE como se describió anteriormente. Asigne un nombre al análisis y seleccione la carpeta de salida como 4_Differential_Expression.
En la sección "Entradas", seleccione el archivo de tabla de recuentos de la ejecución del ensamblaje de Trinity y la columna en la que se pueden encontrar los nombres de contig en la tabla de recuentos.
Introduzca los encabezados de columna del archivo de tabla de datos de cuenta para determinar qué columnas se comparan. Incluya las comas entre cada una de las condiciones. No incluya el encabezado de la primera columna que contenga los nombres contig.
Para las repeticiones, repita el mismo nombre ( por ejemplo , Tratamiento1rep1, Tratamiento1rep2, Tratamiento1rep3 se convertiría en Tratamiento1, Tratamiento1, Tratamiento1). EnE segunda línea, proporcione los nombres de las dos condiciones a comparar ( por ejemplo , Tratamiento1, Tratamiento2). Haga coincidir los nombres de encabezado de columna proporcionados en la primera línea.
NOTA: Estos encabezados de columna deben ser alfanuméricos y no pueden contener caracteres especiales.

5. Anotación usando Trinotate

Ejecute cada parte de Trinotate en la instancia de cloud computing de Atmosphere. Nota: Los comandos Bash se proporcionan en un archivo txt para copiarlos, pegarlos y luego modificarlos antes de ejecutarse en las bases de datos DE (/ iplant / home / shared / Trinity_transdecoder_trinotate_databases) o en la página wiki (https://wiki.cyverse.org/ Wiki / x / dgGtAQ). Si anota varios ensamblajes, anote cada ensamblado de uno en uno y luego transfiera los archivos de anotaciones completados a la carpeta "5_Annotation", cada uno con una carpeta única que corresponda con el nombre del ensamblado.
1. Ejecute el comando bash para buscar transcripciones de Trinity. Cambie el número de subprocesos para que coincidan con cuántas CPU hayEn la instancia, es decir , el medio tiene 4 CPUs y grande tiene 8 CPUs. Consulte el paso 3.1.2 para obtener más detalles. Cambie el comando Trinity.fasta para que coincida con el nombre de archivo FASTA del ensamblado.
  NOTA: las búsquedas BLAST + requerirán más tiempo. Puede ser días antes de que se complete. La actividad de la computadora en la nube puede comprobarse en Atmosphere sin tener que abrir el VNC Viewer.
2. Ejecute el comando bash para buscar las proteínas predichas por Transdecoder. Como antes, cambie el número de subprocesos y el nombre del archivo para que coincida con las condiciones de 5.2.1.
3. Ejecute el comando bash para HMMER y cambie el número de subprocesos como anteriormente.
4. Ejecute el comando bash para signalP y tmHMM si es necesario. SignalP predecirá los péptidos señal y tmHMM predice los motivos de la proteína transmembrana.
Cargando los resultados en la base de datos SQLite
1. Una vez completados todos los análisis anteriores, ejecute el comando bash para cargar los archivos de salida en una base de datos de anotaciones SQLite final. Eliminar cualquier comandoPara los análisis que no se ejecutaron.
2. Exporte la base de datos SQLite en un archivo .xls para verla en los visores de tablas populares.

Representative Results

Una vez que se han creado los archivos de organización del proyecto ( Figura 1 y 2 ), la primera tarea de este flujo de trabajo es evaluar los archivos de secuenciación sin procesar y, a continuación, limpiarlos mediante recorte y filtrado de calidad. FastQC generará estadísticas de resumen legibles por humanos sobre las puntuaciones de calidad y la longitud de las secuencias del formato de archivo FASTQ. Las cifras de FastQC se comparan entonces antes y después del recorte para evaluar si las lecturas finales son de alta calidad y, por tanto, adecuadas para ensamblar. "Por calidad de secuencia base" muestra la calidad media de lecturas a través de cada par de bases de secuenciación. Es mejor tener un puntaje de calidad de phred por encima de 20-28 indicado por los colores en las figuras de FastQC. "Por puntaje de calidad de secuencia" determina si el filtrado de calidad de lecturas puede ser necesario. Si demasiadas lecturas tienen una puntuación media por debajo de 20-25, puede ser necesario filtrar en función de la calidad media de lectura. "Por contenido de secuencia base" debe mostrar una distribución uniforme a través de las cuatro bases de nucleótidos. Si hay un sesgo en el contenido de nucleótidos se muestra, a continuación, los extremos de recorte puede ser necesario. "Por contenido de GC base también debe ser uniforme en todas las posiciones.Si hay una oscilación de las lecturas puede necesitar ser recortado como en 1.4.4.3." Por el contenido de la secuencia GC "debe ser una distribución normal.Adaptador o reacción en cadena de la polimerasa (PCR ) Productos pueden contaminación en la biblioteca de secuenciación y sesgar la distribución normal.En este caso, ajuste del adaptador puede ser necesario.La distribución de la longitud de la secuencia "da la longitud media de todas las lecturas.Las lecturas más pequeñas de 35-45 pares de bases se filtran por lo general. Los "niveles de duplicación de secuencias" muestran cuántas veces se ve una secuencia de lectura dada dentro de la biblioteca.La secuencia de lectura altamente duplicada y el recuento se proporcionan en la sección "Secuencias sobrerrepresentadas" FastQC también intenta identificar si las lecturas duplicadasSon secuencia adaptadora u otras secuencias conocidas asociadas con plataformas de secuenciación. Una etiqueta de "No Hit" significa que la secuencia debe ser investigada más a fondo utilizando NCBI BLAST ⁶ para determinar si es una secuencia biológicamente relevante, o si debe ser eliminado. El DE también tiene varias versiones de BLAST disponibles. La aplicación DE BLASTn está disponible en: https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d .

Después de la secuenciación en bruto han sido seleccionados para producir lecturas de alta calidad, las lecturas deben ser ensamblados para crear secuencias contiguas (contigs). En resumen, los ensamblajes se crean alineando todas las lecturas de secuencias cortas para encontrar secuencias similares. Las áreas de secuencia similar más grande que una cierta longitud se consideran el saMe porque la probabilidad de una secuencia similar que ocurre aleatoriamente de una cierta longitud es casi cero. Trinity emitirá archivos de registro, archivos fasta para cada paso del proceso de ensamblaje. Sin embargo, la salida más importante es el archivo de ensamblaje final que contiene los contigs, que lleva la etiqueta "Trinity.fasta" y que se encuentra en la carpeta principal. Este archivo contiene todos los contigs ensamblados, y en sí mismo no es prácticamente "legible por humanos". Por lo tanto, la herramienta rnaQUAST se puede utilizar para entender el ensamblaje con más profundidad. La herramienta rnaQUAST producirá cifras que permitirán a los usuarios comparar ensamblajes para determinar cuáles son los más completos ( Figura 4 ). Información adicional sobre cada figura de rnaQUAST se puede encontrar en el wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ ). Si BUSCO ⁷ se ejecutó, de particular interés es el archivo specificity.txt que muestra el número de completas ypY el número de genes GeneMarkS-T predicciones en un conjunto. Los genes BUSCO son conjuntos curados de genes comunes a un grupo de organismos. Pueden usarse para evaluar qué tan bien un conjunto está captando conjuntos de genes que se espera que estén presentes en cualquier tipo de organismo, que se basa en clados filogenéticos. Una aplicación BUSCO independiente también está disponible en el DE ( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 ).

El análisis de expresión génica diferencial identifica transcripciones que tienen diferentes patrones de expresión a través de tratamientos a partir de cuentas simples por tablas de transcripción reunidas. DESeq2 utiliza un modelo lineal generalizado (GLM) para determinar la variación de una media normalizada. Se prefieren los experimentos con repeticiones para que la variación técnica frOm secuenciación puede ser normalizado por el algoritmo DESeq2. El análisis DESeq2 DEG produce cifras y un archivo de informe .html que contiene todas las figuras de salida y una descripción. Como alternativa, EdgeR se puede utilizar en lugar de DESeq2, y el mismo .html informe se generará con visualizaciones EdgeR en su lugar. Los investigadores pueden desear ejecutar tanto DESeq2 como EdgeR para encontrar genes expresados diferencialmente identificados por ambos algoritmos para cualquier experimento dado. Trinotate creará un archivo .xls de salida que se puede abrir en cualquier programa de software de hoja de cálculo. Los archivos .txt DEG y el archivo .xls de anotación pueden analizarse y visualizarse en numerosas aplicaciones posteriores que existen fuera de la plataforma CyVerse.

Figura 3: Informes FastQC de lecturas de secuencias sin procesar, lecturas recortadas y lecturas finales recortadas y filtradas. Comparación sistemática de la secuencia de lecturaS después de cada etapa de preprocesamiento. Son necesarias lecturas de alta calidad para ensamblar transcriptomas de novo . FastQC puede ayudar a los investigadores a entender la calidad inicial de sus datos de secuenciación, y hacer un seguimiento de la eficacia de las lecturas han sido pre-procesados. Los resultados de FastQC dependerán de los organismos y las muestras que se están secuenciando, pero la uniformidad en todas las muestras que se compararán aguas abajo es el objetivo principal de las lecturas de pre-procesamiento. Un video tutorial y documentación están disponibles de los autores y desarrolladores de FastQC. Haga clic aquí para ver una versión más grande de esta figura.

Figura 4: Informes de rnaQUAST de tres ensamblajes separados. RnaQUAST se puede utilizar para comparar varios conjuntos de lectura utilizando el mismo ensamblador, o múltiples a Ssemblers usando las mismas lecturas iniciales. RnaQUAST aprovecha BUSCO para generar estadísticas de resumen sobre ensamblajes basados en conocidos genes centrales presentes en clones taxonómicos. El número de desajustes por transcripción y cuántos transcriptos coinciden con los genes canónicos, fracción de coincidencia, proporcionan una visión de la precisión de los ensambladores. Las cuatro subparcelas presentadas aquí proporcionan estadísticas resumidas de longitud de contig e isoforma y la cobertura de isoformas esperadas. NAx representa el porcentaje (x) de contigs con una longitud más larga que la longitud (pb) en el eje y. La fracción ensamblada es la transcripción más larga montada única dividida por su longitud. La fracción cubierta es el porcentaje de transcripciones / isoformas completas montadas según lo esperado por los genes procarióticos o eucariotas de BUSCO. Una descripción de todos los gráficos generados por rnaQUAST está disponible ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target =" _ blank "> Haga clic aquí para ver una versión más grande de esta figura.

Nombre de la aplicación	Plataforma CyVerse	Documentación de terceros	Documentación CyVerse	Tiempo de ejecución estimado para el conjunto de datos de muestra	Enlace a la aplicación
Ayuno	Delaware	Http: //www.bioinformatics. Babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y	Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768	15 minutos	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295
Trimmomatic v0.33	Delaware	Https://github.com/timflutre/trimmomatic	Https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-prOgrammable-0,33	30 minutos	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69
Hoz	Delaware	Https://github.com/najoshi/sickle	Https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming	30 minutos	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinidad	Atmósfera	Https://github.com/trinityrnaseq/trinityrnaseq/wiki	Https: //pods.iplantcollaborative. Org / wiki / display / atmman / Trinity + - + Trinotate + Atmósfera + Imagen	1 semana	Https: //atmo.iplantcollaborative. Org / application / images / 1261
	Delaware		Https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1	2-5 días	Https: // wikI.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1
RnaQUAST v1.2.0	DE, Atmósfera	Http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	Https: //pods.iplantcollaborative. Org / wiki / display / TUT / rnaQUAST + 1.2.0 +% 28denovo + basado% 29 + usando + DE	30 minutos	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 980dd11a-1666- 11e6-9122-930 Ba8f23352
Transdecoder	Delaware	Https://transdecoder.github.io	Https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0	2-3 horas	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179
DESeq2	Delaware	Https://bioconductor.org/packages/release/bioc/html/DESeq2.html	Https: //pods.iplantcollaborative. Org / wiki / páginas /Viewpage.action? PageId = 28115142	2-3 horas	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 9574e87c-4f90- 11e6-a594-008 Cfa5ae621
Arista	Delaware	Https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	Https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144	2-3 horas	Https: //de.iplantcollaborative. Org / de /? Type = apps & app-id = 4a08ceda-54fe- 11e6-862f-008 Cfa5ae621
Trinotate	Atmósfera	Https://trinotate.github.io/	Https: //pods.iplantcollaborative. Org / wiki / display / atmman / Trinity + - + Trinotate + Atmósfera + Imagen	1 semana	Https: //atmo.iplantcollaborative. Org / application / images / 1261

Tabla 1: Programas de análisis, plataformas en las que están disponibles, unNd Recursos adicionales disponibles para los flujos de trabajo en orden por primera aparición. Todas las versiones del paquete son actuales a partir de abril de 2016.

Discussion

Hay cinco pasos críticos en el protocolo que cada uno creará su propia carpeta separada dentro de la carpeta principal del proyecto ( Figuras 1 y 2 ). Todos los datos primarios de secuenciación en bruto son sacrosantos: se debe cargar y mantener en la primera carpeta denominada "1_Raw_Sequence" y no se altera de ninguna manera. Los datos se pueden cargar en una de tres maneras. La interfaz DE se puede utilizar para cargar archivos directamente. Esta es la forma más sencilla de cargar datos, pero también tardará más en transferirse. Cyberduck tiene una interfaz gráfica y permite a los usuarios arrastrar y soltar archivos para transferir a la DE. ICommands es una herramienta de línea de comandos que se puede utilizar para transferir datos desde y hacia el almacén de datos, crear directorios y administrar conjuntos de datos, y es probablemente la forma más rápida de transferir archivos de datos. Todos los datos del almacén de datos pueden compartirse con otros usuarios de CyVerse (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+DiscoveRy + Environment), publicadas a través de una URL generada (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links), o pueden ser alojadas en forma pública y anónima ( No se requiere nombre de usuario) datos disponibles de la comunidad (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). Dentro de esa carpeta, las lecturas de secuencia en bruto se analizan con FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/) para evaluar cómo recortar y filtrar las lecturas para generar lecturas de alta calidad. Después de recortar y filtrar la calidad es útil comparar las salidas FastQC para determinar si la calidad de lectura ha cambiado para determinar que se ha mejorado sin perder información ( Figura 3 ). Tenga en cuenta que el eje x de FastQC no es lineal, sino que se almacena para muchos gráficos de salida, lo que puede conducir a una interpretación errónea de los resultados. Las lecturas recortadas y filtradas se utilizan para ensamblar transcriptomas de novo usando una instancia de computación en nube de Atmosphere. EstaEl equipo de la nube utiliza la pantalla de la computadora local, el teclado y el ratón, pero tiene su propio software (Trinity y Trinotate) y hardware instalado. La ejecución de programas en la instancia de la computadora en la nube no afectará de ninguna manera al equipo local. El ensamblaje de novo y la anotación descendente probablemente serán los dos pasos más largos en este flujo de trabajo. Por lo tanto, se completan en Atmósfera para evitar problemas comunes de computadora de laboratorio compartido que interrumpirían el análisis como interrupciones de energía, reinicios después de actualizaciones automáticas tarde por la noche o fallos causados por otros usuarios. La anotación del trinotate utiliza BLAST + ⁸ , HMMER ⁹ , tmHMM ¹⁰ y PFAM ¹¹ . El resultado final de la anotación es una base de datos SQLite y un archivo .xls. Las salidas pueden utilizarse fuera de CyVerse en plataformas de análisis aguas abajo como KEGG ¹² ^, ¹³ .

Este flujo de trabajoEstá listo para usar en el DE y la atmósfera. Esto elimina la necesidad de pasar tiempo instalando, configurando y solucionando problemas de cada paquete de análisis y todas las dependencias que requiere cada herramienta. Esto agiliza los análisis de los investigadores, minimiza el esfuerzo desperdiciado y reduce la barrera de entrada para muchos científicos. Este flujo de trabajo ensambla específicamente las lecturas de un solo o de pares de la plataforma de secuenciación de Illumina, pero existen muchas herramientas en el DE y Atmosphere para manejar otros tipos de tecnologías de secuenciación. Las herramientas de este flujo de trabajo se pueden reemplazar fácilmente con una herramienta alternativa correspondiente para manejar cualquier tipo de tecnología de secuenciación entrante. Esto también es válido para las nuevas versiones de herramientas de análisis o herramientas completamente nuevas.

Este flujo de trabajo está específicamente diseñado para reunir, comparar y anotar sólo unos pocos transcriptomas a la vez. Por lo tanto, los usuarios pueden encontrarlo tiempo para ensamblar transcriptomes múltiples para la genética comparativa de la población. AnálisisLos oleoductos estarán disponibles para los usuarios de genética de poblaciones en un futuro próximo y el enlace a la tubería se puede encontrar en la página wiki (https://wiki.cyverse.org/wiki/x/dgGtAQ). El paso de análisis de expresión génica diferencial puede manejar repeticiones, pero es una comparación por parejas y no evaluará con exactitud múltiples factores ( p . Ej. , Condiciones que varían con el tiempo, más de dos tratamientos). Existen flujos de trabajo automatizados para organismos con genomas de referencia ( por ejemplo , TRAPLINE ¹⁴ ). Mientras que los flujos de trabajo automatizados son los más fáciles de usar para los principiantes, los ensamblajes de novo requieren evaluación y consideración para cada paso descrito aquí. Además, se requiere que los usuarios usen tuberías automatizadas a medida que se construyen y, por lo tanto, no son inherentemente flexibles para satisfacer las cambiantes demandas de los usuarios.

Dado que la mayor parte de este protocolo se realiza a través de Internet, los usuarios pueden experimentar problemas con la configuración de su navegador. En primer lugar,Los bloqueadores de ventanas emergentes pueden evitar que las ventanas se abran en absoluto o pueden impedir que las ventanas se abran hasta que se dé permiso a CyVerse en el navegador. Atmosphere utiliza VNC para acceder a escritorios remotos, pero puede utilizarse otro software. Todo este protocolo se realizó en Firefox versión 45.0.2 y debería funcionar con todos los navegadores de Internet más populares, pero pueden aparecer algunas inconsistencias. El flujo de trabajo se actualizará a medida que Trinity publique nuevas versiones (https://github.com/trinityrnaseq/trinityrnaseq/wiki). Las versiones más recientes y la información actualizada sobre el flujo de trabajo se pueden encontrar en la página del tutorial wiki ( Tabla 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ). Los usuarios pueden ponerse en contacto con el soporte directamente o publicar preguntas en Ask CyVerse (ask.cyverse.org/) para solucionar cualquier problema con el flujo de trabajo.

En el DE existen varias aplicaciones para realizar cada paso de este protocolo. Por ejemplo, los usuarios tal vez deseen ejecutar Scythe (https://github.com/najoshi/sickle) en lugar de Trimmomatic¹⁵ para leer recortar o ejecutar EdgeR ¹⁶ en lugar de DESeq ¹⁷ ^, ¹⁸ . Aunque fuera del alcance de este manuscrito, las aplicaciones DE pueden ser copiadas, editadas y publicadas por los usuarios (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) o las nuevas aplicaciones pueden ser agregadas por los usuarios (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). Las imágenes de Atmosphere también pueden ser modificadas y reimaginadas para crear flujos de trabajo nuevos o modificados que satisfagan las necesidades de los usuarios más específicamente (https://wiki.cyverse.org/wiki/x/TwHX). Este trabajo sirve como una introducción a la utilización de la línea de comandos para mover datos y ejecutar análisis. Los usuarios pueden considerar la utilización de recursos de línea de comandos más avanzados como las interfaces de programación de aplicaciones (API) CyVerse (http://www.cyverse.org/science-apis), o diseñar sus propias aplicaciones DE, las cuales requieren conocimientosAcerca de cómo se ejecuta la herramienta de análisis en la línea de comandos (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface).

Materials

Name	Company	Catalog Number	Comments
Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261