Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms

Blake L. Joyce; Asher K. Haug-Baltzell; Jonathan P. Hulvey; Fiona McCarthy; Upendra Kumar Devisetty; Eric Lyons

doi:10.3791/55009

JoVE Journal > Genetics

Please note that all translations are automatically generated. Click here for the English version.

Genetics

CyVerse 리소스 활용 드 노보 비포장 (비 모델) 생물의 비교 전이학

Published: May 09, 2017

doi:

10.3791/55009

Blake L. Joyce², Asher K. Haug-Baltzell, Jonathan P. Hulvey, Fiona McCarthy, Upendra Kumar Devisetty⁶, Eric Lyons^2,3

¹BIO5 Institute,University of Arizona, ²The School of Plant Sciences,University of Arizona, ³Genetics GIDP,University of Arizona, ⁴Biology Department,University of Massachusetts Amherst, ⁵School of Animal and Comparative Biomedical Sciences,University of Arizona, ⁶CyVerse,University of Arizona

Summary

This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.

Abstract

이 워크 플로우는 초보자 연구자가 클라우드 컴퓨팅과 같은 첨단 컴퓨팅 리소스를 활용하여 쌍 비교 transcriptomics를 수행 할 수있게합니다. 또한 생물 학자들이 데이터 과학자의 계산 기술을 개발하기위한 뇌관 역할을합니다. 예를 들어 bash 명령을 실행하고 큰 데이터 세트를 시각화하고 관리하는 일이 있습니다. 모든 명령 행 코드와 각 명령 또는 단계에 대한 자세한 설명은 wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ )에서 확인할 수 있습니다. Discovery Environment 및 Atmosphere 플랫폼은 CyVerse Data Store를 통해 서로 연결됩니다. 따라서 초기 원시 시퀀싱 데이터가 업로드되면 인터넷 연결을 통해 대용량 데이터 파일을 전송할 필요가 없어 분석을 수행하는 데 필요한 시간이 최소화됩니다. 이 프로토콜은 단지 두 실험적 처리 또는 조건을 분석하도록 설계되었습니다. 차별 유전자 발현 분석이 수행되었다.여러 쌍의 요인을 테스트하는 데는 적합하지 않습니다. 이 워크 플로는 자동화가 아닌 수동으로 설계되었습니다. 각 단계는 사용자가 실행하고 조사해야 데이터와 분석 결과를보다 잘 이해할 수 있으므로 사용자에게 더 나은 결과를 제공해야합니다. 완료되면,이 프로토콜은 이전에 조립 된 참조 게놈 (일반적으로 미숙 한 생물체에서는 이용 가능하지 않음)에 매핑 할 필요없이, 기능이 부족한 (비 모델) 생물체를 위해 de novo assembled transcriptome을 생성합니다. 이 de novo 전 사체는 두 실험 조건 사이에서 다른 유전자를 조사하기 위해 pairwise differential 유전자 발현 분석에 더 사용됩니다. 차별적으로 발현 된 유전자는 생물체가 실험 조건에 대해 갖는 유전 적 반응을 이해하기 위해 기능적으로 주석을 달았다. 총계로,이 프로토콜에서 파생 된 데이터는 빈약 한 생물체의 생물학적 반응에 대한 가설을 테스트하는 데 사용됩니다.

Introduction

Homo sapiens 와 Drosophila melanogaster , Mus musculus , Danio rerio 와 같은 몇몇 핵심 모델 동물 종은 현재와 과거의 기능 유전체학 작업의 대부분을 대표합니다. 그러나 처리량이 많은 시퀀싱 기술의 비용이 급격히 감소함에 따라 비 모델 ( 일명 "소홀히"되었거나 "부족한"동물 종)에 기능적 유전체학을위한 기회가 제공되고 있습니다 ¹ . 이것은 모델이 아닌 유기체가 종종 굴과 새우, 게와 같은 경제적으로 관련된 종을 대표하고 모델 종에서 발견되는 범위 밖의 새로운 표현형과 생물학적 시스템을 조사 할 기회를 제공하기 때문에 유전체학에서 중요한 전환점입니다.

미숙 한 생물체가 독특한 생물학적 시스템을 조사 할 수있는 매력적인 기회를 제공하지만, 특히 생물 정보학 분석 중에 연구자가 당면한 몇 가지 문제가 있습니다. 일부는다른 연구는 참조 게놈, 유기체 특정 온톨로지 (organism specific ontologies) 등과 같은 미숙 한 생물체에서 연구자가 이용할 수있는 유전 자원의 부족으로 인해 발생하는 반면에, 큰 데이터 세트를 처리하는 것은 타고난 것입니다. 핵산 분리 및 시퀀싱의 과제는 데이터 분석과의 비교와 같이, 생물 정보학 분석은 일반적으로 프로젝트를 시퀀싱하는 데 가장 과소 평가되는 비용임이 입증됩니다 ² . 예를 들어, 기본적인 차세대 시퀀싱 생물 정보 분석은 다음과 같은 단계로 구성 될 수 있습니다 : 원시 시퀀싱 읽기의 품질 필터링 및 트리밍, 더 큰 인접한 부분으로 짧은 읽기 조합, 생물학적 이해를 얻기위한 주석 및 / 또는 다른 시스템과의 비교. 겉으로보기에는 간단하지만이 예제 워크 플로우에는 랩 벤치 컴퓨터의 범위를 벗어난 전문 지식과 계산 리소스가 필요합니다.모델 유기체.

혁신적인 도전은 인프라 또는 지식 기반 일 수 있습니다. 고전적인 인프라 문제는 적절한 계산 리소스에 대한 액세스입니다. 예를 들어, 어셈블리 및 주석은 강력한 RAM 또는 RAM (256GB-1TB)과 여러 프로세서 / 코어를 실행하는 강력한 컴퓨터 또는 컴퓨터 클러스터를 필요로하는 연산 집약적 인 알고리즘에 의존합니다. 불행히도 많은 연구원은 이러한 컴퓨팅 리소스에 액세스 할 수 없거나 이러한 시스템과 상호 작용하는 데 필요한 지식이 없습니다. 다른 연구자들은 대학교 나 기관을 통해 고성능 컴퓨팅 클러스터에 액세스 할 수 있지만 이러한 리소스에 대한 액세스는 제한적일 수 있으며 때때로 CPU 시간에 실시간 "클럭 수를 곱한 계산 시간당 요금이 부과 될 수 있습니다 해당 프로세서가 실행중인 시간 수를 나타냅니다. 미국 국립 과학 재단의 자금 지원을받는 사이버 인프라 구조 시스템 활용미국 및 전세계의 연구자를위한 컴퓨팅 리소스에 대한 무료 액세스를 제공하는 CyVerse ³ 으로서의 uch는 여기에 설명 된대로 인프라 문제를 완화하는 데 도움이 될 수 있습니다.

전형적인 지식 기반 과제의 예는 완전한 분석에 필요한 소프트웨어를 이해하는 것입니다. 시퀀싱 기반 프로젝트를 효과적으로 수행하려면 연구원은 생물 정보 분석을 위해 개발 된 수많은 소프트웨어 도구에 익숙해야합니다. 각 패키지를 학습하는 것은 어려운 일이지만, 패키지가 지속적으로 업그레이드되고, 다시 릴리스되고, 새로운 워크 플로에 통합되고, 때로는 새 라이선스에서 사용이 제한된다는 사실에 의해 악화됩니다. 또한 이러한 도구의 입력과 출력을 연결하려면 데이터 형식을 호환 가능하도록 변환하여 워크 플로에 다른 도구를 추가해야하는 경우가 있습니다. 마지막으로, 어떤 소프트웨어 패키지가 '가장 좋은 '분석을 위해, 그리고 자주 특정 실험 조건에 가장 적합한 소프트웨어를 식별하는 것은 미묘한 차이점입니다. 경우에 따라 소프트웨어에 대한 유용한 리뷰를 이용할 수 있지만 새로운 업데이트 및 소프트웨어 옵션이 계속해서 릴리스됨에 따라 이러한 업데이트는 빠르게 구식이됩니다.

부족한 유기체를 연구하는 연구자에게는 새로운 유기체에서의 데이터 분석과 관련한 도전에 덧붙여 이러한 타고난 도전이 추가됩니다. 이처럼 미숙 한 유기체 특유의 문제는 유전자 주석 처리 과정에서 가장 잘 드러납니다. 예를 들어, 부족한 생물체는 흔히 유전자 orthology와 기능 ( 예 : 해양 무척추 동물과 Drosophila )을 확인하는데 합리적으로 사용할 수있는 밀접한 관련이있는 모델 유기체를 가지고 있지 않다. 많은 생물 정보 도구는 유전자 기능을 확인하는 데 사용할 수있는 구조적 모티프를 식별하기 위해 "훈련"을 요구합니다. 그러나 일반적으로 교육 데이터는 mod에서만 사용할 수 있습니다.엘 미생물 및 숨겨진 마르코프 모델 (HMMs) 교육은 생물 학자와 많은 생물 정보 학자의 범위를 벗어납니다. 마지막으로, 모델 생물체의 데이터를 사용하여 주석을 수행 할 수 있다고하더라도 모델 생물체와 관련된 일부 유전자 존재 론은 부적절한 생물체의 생물학 및 자연사를 고려할 때 의미가 없습니다 ( 예 : Drosophila 에서 새우로 정보 전달).

이러한 어려움에 비추어 볼 때, 특히 생명이 약한 생물체에 대한 de novo 분석을 수행하는 연구원들과 함께 생물 정보학 자원을 개발해야합니다. 향후 몇 년 동안의 기능 유전체 시퀀싱 프로젝트는 모델과 부족한 유기체 ( https://genome10k.soe.ucsc.edu/ ) 사이의 간격을 좁히는 데 도움이 될 것입니다. 그러나 도전 과제를 해결하기 위해 개발해야 할 많은 도구가 있습니다 위에서 고려. CyVerse는 i의 생태계 창출에 전념하고 있습니다.기존 사이버 인프라 및 타사 응용 프로그램을 연결하여 데이터 관리, 생물 정보 분석 도구 및 데이터 시각화를 생명 과학자에게 제공함으로써 상호 운용성을 제공합니다. 상호 운용성은 확장 가능한 컴퓨팅 리소스를 제공하고 파일 형식 변환 및 플랫폼간에 전송되는 데이터의 양을 제한함으로써 생물 정보 응용 프로그램과 플랫폼 간의 전환을 원활하게하는 데 도움이됩니다. CyVerse는 Discovery Environment (DE ⁴ , Atmosphere ⁵ 및 Data Store ³ )를 비롯한 여러 플랫폼을 제공합니다. DE는 웹 기반이며 많은 일반적인 생물 정보학 분석 도구가 사용자에게 친숙한 포인트 앤 클릭 형식 ( "apps ")이며, 대규모 데이터 세트 ( 즉, 원시 시퀀싱 읽기, 조립 된 게놈)가 저장되고 관리되는 데이터 저장소의 그래픽 사용자 인터페이스 (GUI)입니다 .Atmosphere는 연구원에게 향상된 유연성을 제공하는 클라우드 컴퓨팅 서비스입니다.다양한 범위의 생물 정보학 도구가 미리 설치된 Virtual Machine 계산 리소스를 사용합니다. 이 두 플랫폼은 모두 데이터 저장소에 연결되어 있으며 여기서 설명한 것과 같이 워크 플로를 만드는 데 함께 사용할 수 있습니다. 이 보고서는 새로운 transcriptome 어셈블리 및 차동 유전자 발현 분석 워크 플로에 중점을두고 있으며, 생물 정보학 분석을 개발하고 수행하는 것과 관련된 모범 사례를 다루고 있습니다. CyVerse ( http://www.cyverse.org/about ) 의 광범위한 임무와 자세한 플랫폼 설명 ( http://www.cyverse.org/learning-center )에 대한 설명이 공개되어 있습니다. 여기에 설명 된 모든 분석은 발견 환경 ⁴ (DE)와 대기 ⁵ 를 사용하며 모든 계산 수준의 연구자가 접근 할 수 있도록 제시됩니다. DE 워크 플로우 및 Atmosph장기적인 출처, 재사용 성 및 재현성을 보장하기 위해 URL을 사용하여 이미지를 직접 참조 할 수 있습니다.

Protocol

참고 : 전체 프로토콜은 1.2 단계 ( 그림 1 및 2 )에서 생성되고 이름이 지정되는 폴더에 따라 번호가 매겨져 있습니다. 이 프로토콜은 표준 비교 전 사체 전 사체 분석을 나타내며 여기에 설명 된 모든 단계가 모든 연구자에게 필요하지 않을 수 있습니다. 이 워크 플로우는 companion tutorial wiki에서 철저히 문서화됩니다. 여기에는 모든 추가 파일과 각 분석 패키지에 대한 타사 개발자 문서 링크가 포함되어 있습니다 ( 표 1 ). 이 자료에 대한 링크는이 정보에 쉽게 액세스 할 수 있도록이 프로토콜 전체에 포함됩니다. 모범 사례는 작업을 수행하거나 사용자가 고려할 수있는 최선의 방법에 대한 제안으로 사용자에게 제공되는 메모이며 프로토콜의 메모를 통해 전달됩니다. 예제 데이터 입력 및 분석 출력 폴더는 사용자가 공개적으로 사용할 수 있으며 프로토콜에 제안 된대로 구성됩니다 ( de novo 전 사체 조립 및 분석. 1. FastQC를 사용하여 프로젝트 설정, 원시 시퀀싱 읽기 업로드 및 평가 읽기 대기 및 발견 환경에 액세스하십시오. 등록 페이지 ( 예 : person@institution.edu)로 이동하여 무료 CyVerse 계정을 요청하십시오. 필요한 정보를 입력하고 제출하십시오. 기본 웹 페이지 (http://www.cyverse.org/)로 이동하고 상단 툴바에서 "로그인"을 선택하십시오. "Cyverse Login"을 선택하고 CyVerse 자격 증명을 사용하여 로그인하십시오. 앱 및 서비스 탭으로 이동하여 대기에 대한 액세스를 요청하십시오. 발견 환경에 대한 액세스는 자동으로 부여됩니다. 프로젝트를 설정하고 데이터를 데이터 저장소로 이동합니다. Discovery Environment (https://de.iplantcollaborative.org/de)에 로그인하십시오. "데이터"탭을 선택하여 데이터 저장소의 모든 폴더가 포함 된 메뉴를 불러옵니다. </li> 프로젝트와 관련된 모든 데이터를 저장할 기본 프로젝트 폴더를 만듭니다. 데이터 창의 상단에서 도구 모음을 찾고 파일 | 새 폴더. 폴더 이름이나 입 / 출력 파일 이름에 "! @ # () [] {} :; $ % ^ & *."와 같이 공백이나 특수 문자를 사용하지 마십시오. 대신 적절한 경우 밑줄이나 대시 ( 예 : "_"또는 "-")를 사용하십시오. 분석을 구성하기 위해 주 프로젝트 폴더 내에 다섯 개의 폴더를 만듭니다. ( 그림 1 ) "1_Raw_Sequence", "2_High_Quality_Sequence", "3_Assembly", "4_Differential_Expression", "5_Annotated_Assembly."와 같이 쉼표 또는 따옴표없이 폴더의 이름을 지정합니다. 하위 폴더는 이러한 주요 프로젝트 폴더 각각에 배치됩니다 ( 그림 2 ). 그림1 : 프로젝트 폴더 구성과 De Novo Transcriptome 어셈블리 및 분석 워크 플로에 대한 일반적인 개요. 사용자는 원시 시퀀싱 읽기를 데이터 저장소의 기본 프로젝트 폴더에 업로드 한 다음 각 단계의 결과를 별도의 폴더에 배치합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 2 : CyberSuite 사이버 인프라 스트럭처에서 발생하는 De Novo Transcriptome 어셈블리 및 분석 워크 플로의 상세 개요. 전체 어셈블리 및 분석 워크 플로는 5 단계로 완료되며 각 단계마다 고유 한 폴더 (굵게 표시된 번호가 매겨진 폴더 아이콘)가 생성됩니다. 번호가 매겨진 다섯 개의 워크 플로우 단계 폴더 각각에는 생물 정보 분석 (폴더)의 출력 데이터가 포함 된 하위 폴더가 있습니다아이콘). 분석을위한 입력은 하나의 하위 폴더에서 나온 다음 분석 프로그램 (사각형 상자)의 출력을 통해 다른 폴더로 이동합니다. 처음 세 단계의 최종 데이터를 비교하고 게시 할 준비를합니다. 궁극적으로이 구성표는 공동 작업자 및 / 또는 원고 검토자를위한 단계별 분석이 포함 된 주 프로젝트 폴더를 생성하여 워크 플로를 신속하게 이해하고 필요할 경우 각 파일을 사용하여 반복합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 원시 FASTQ 시퀀스 파일을 "1_Raw_Sequence"폴더에 "A_Raw_Reads"라는 제목의 하위 폴더에 다음 세 가지 방법 중 하나를 사용하여 업로드하십시오. Data Store의 간단한 업로드 기능을 사용하여 메인 DE 바탕 화면의 데이터 버튼을 클릭하여 데이터 창 툴바를 탐색하고 업로드 | 데스크톱에서 간단한 업로드. 찾아보기 버튼을 선택하십시오.로컬 컴퓨터에서 원시 FASTQ 시퀀싱 파일로 이동합니다. 이 방법은 2GB 미만의 파일에만 적합합니다. 업로드를 제출하려면 화면 하단의 업로드 버튼을 선택하십시오. 알림은 업로드가 제출 된 종 아이콘의 DE 오른쪽 상단에 등록됩니다. 업로드가 완료되면 다른 알림이 등록됩니다. 또는 Cyberduck을 사용하여 큰 파일 (https://wiki.cyverse.org/wiki/x/pYcVAQ)을 전송하십시오. Cyberduck을 설치 한 다음 로컬 컴퓨터의 바탕 화면에서 프로그램으로 실행하십시오. 마지막으로 지침에 따라 iCommands를 다운로드하고 로컬 컴퓨터에 설치하십시오 (https://wiki.cyverse.org/wiki/display/DS/Using+iCommands). DE의 FastQC 앱을 사용하여 업로드 된 원시 시퀀싱 읽기를 평가합니다. 기본 DE 데스크톱에서 "Apps"버튼을 선택하면 DE에서 사용할 수있는 모든 분석 응용 프로그램이 포함 된 창이 열립니다. 검색하여 승리 열기창의 상단에있는 검색 도구 모음의 FastQC 도구에 대한 정보를 입력하십시오. 둘 이상의 FASTQ 파일이있는 경우 다중 파일 버전을 엽니 다. 파일 | 새 폴더 "B_FastQC_Raw_Reads"라는 폴더를 만들고이 폴더를 출력 폴더로 선택하십시오. FASTQ 읽기 파일을 "Select input data"도구 창에로드하고 "Launch Analysis"를 선택하십시오. 분석이 완료되면 .html 또는 .pdf 파일을 열어 결과를 봅니다. FastQC는 읽기 파일의 다양한 측면을 테스트하는 여러 가지 분석을 실행합니다 ( 그림 3 ). 2. 높은 품질의 시퀀스를 얻기 위해 Raw Reads를 자르고 자르십시오. 참고 : Trimmomatic 앱 또는 Sickle 앱을 사용하십시오. DE에서 프로그램 가능한 Trimmomatic 앱을 검색하고 이전과 같이 엽니 다. 원시 FASTQ 읽기 파일의 폴더를 "설정"섹션에 업로드하십시오. 선택 여부종료 파일은 단일 또는 쌍으로 끝납니다. 찾아보기 버튼을 선택하고 / iplant / home / shared / Trinity_transdecoder_trinotate_databases를 "Viewing :"상자에 붙여서 제공된 표준 제어 파일을 사용하십시오. Trimmomaticv0.33_control_file이라는 파일을 선택하고 분석을 시작하십시오. 파일을 다운로드하고 설정을 편집 한 다음 두 번째 프로젝트 폴더에 업로드하여 사용자 정의 트리밍 스크립트를 만들 수 있습니다. 선택 사항 : FastQC 분석에서 어댑터 시퀀스를 식별 한 경우 ILLUMINACLIP 설정을 사용하여 Illumina 어댑터를 트리밍하십시오. 위와 같이 / iplant / home / shared / Trinity_transdecoder_trinotate_databases 폴더에서 적절한 어댑터 파일을 선택하십시오. Sickle을 사용하여 품질 트리밍 시퀀스를 읽습니다. DE에서 낫 앱을 찾아서 엽니 다. 트림 된 FASTQ 읽기를 입력 읽기로 선택하고 출력 파일 이름을 바꿉니다. 옵션에 품질 설정을 포함하십시오. 일반적인 설정은 품질 형식입니다 : illumina, sanger, solexa; 품질임계 값 : 20; 최소 길이 : 50. 모든 출력을 트리밍되고 필터링 된 폴더 (2_High_Quality_Sequence)로 이동하십시오. FastQC를 사용하여 최종 읽기를 평가하고 이전 FastQC 보고서와 비교하십시오. .html 파일을 선택하면 모든 결과의 웹 페이지가 표시됩니다. 볼 수없는 경우 출력에 제공된 이미지 파일 (.png)의 폴더를 선택하십시오. 3. De Novo Transcriptome Assembly 대기에서 삼위 일체 사용하기 위키 페이지 (https://wiki.cyverse.org/wiki/x/dgGtAQ)로 이동하여 Atmosphere 인스턴스의 최신 버전을 엽니 다. Trinity 및 Trinotate 이미지의 최신 버전에 대한 링크를 선택하십시오. 또는 Atmosphere 이미지 검색 도구 (https://atmo.iplantcollaborative.org/application/images)에서 "Trinotate"를 검색하여 Trinity 및 Trinotate 이미지의 모든 버전을 불러올 수 있습니다. "로그인하려면 로그인"버튼을 선택하고 대기 이름을 i로 지정하십시오.상태. 인스턴스 크기를 "medium3"(CPU : 4, Mem : 32GB) 또는 "large3"(CPU : 8, Mem : 64GB) 중에서 선택합니다. 인스턴스를 실행하고 빌드가 완료 될 때까지 기다립니다. 드물기는하지만 CyVerse는 플랫폼을 업데이트하기 위해 유지 관리 작업을 수행합니다. 이러한 업데이트 중에는 기존 인스턴스를 사용할 수 있지만 새 인스턴스를 만들 수는 없습니다. CyVerse 상태 페이지를 방문하면 모든 플랫폼의 현재 상태를 볼 수 있습니다 (http://status.cyverse.org/). 이름을 클릭하고 오른쪽의 메뉴 맨 아래에있는 "원격 데스크톱"을 선택하여 인스턴스가 준비되면 인스턴스를 엽니 다. 메시지가 표시되면 Java 및 VNC 뷰어를 허용합니다. VNC Viewer 창에서 "Connect"버튼을 선택한 다음 "Continue"를 선택하십시오. 새로운 클라우드 컴퓨팅 인스턴스가 될 별도의 창을 열려면 로그인하십시오. 1.3.1 – 1.3.4 단계에 설명 된 세 가지 방법 중 하나를 사용하여 트리밍 및 / 또는 필터링 된 FASTQ 읽기 파일을 인스턴스로 이동합니다. 우리e 인터넷 브라우저가 DE에 액세스하여 이전처럼 로컬 컴퓨터에서 파일을 다운로드합니다. 또는 대형 데이터 세트를 신속하게 전송하려면이 이미지에 설치된 iCommands를 사용하십시오. Trinity를 실행하여 고품질 판독을 어셈블합니다. Atmosphere 인스턴스에 분석 폴더를 설정하십시오. DE (/iplant/home/shared/Trinity_transdecoder_trinotate_databases)에서 사용 가능한 스크립트를 사용하거나 위키 페이지 (https://wiki.cyverse.org/wiki/x/dgGtAQ)의 명령을 복사하여 붙여 넣으십시오. 모든 명령에 대한 설명은 위키 페이지에서 찾을 수 있습니다. 분석 폴더와 Trinotate 데이터베이스가 설정되면 위의 명령을 사용하여 Trinity 어셈블러를 실행합니다. 여러 개의 출력 파일이 있지만 가장 중요한 것은 "Trinity.fasta"라는 최종 조립 파일입니다. 이 FASTA 파일의 이름을 생물체 고유의 이름으로 바꾸고 데이터 저장소 (폴더 3_Assembly)로 옮기기 전에 조립 된 읽기를 처리하여 혼란을 최소화하십시오. 참고 : 차등 유전자 발현 분석을위한 출력 카운트 표 (4_Differential_Expression). rnaquast를 사용하여 어셈블리를 평가합니다 ( 그림 4 ). 트리니티 출력 파일을 DE의 "3_Assembly"폴더로 이동하고 "A_Trinity_de_novo_assembly"폴더에 레이블을 지정하십시오. "A_Trinity_de_novo_assembly"폴더 안에 하위 폴더가 조립 된 각 트랜스 스크립트먼트에 생물체의 과학적 이름과 각 트랜스 스크립트먼트와 관련된 치료법을 포함한 고유 한 이름을 부여하십시오. "3_Assembly 폴더"에 "B_rnaQUAST_Output"이라는 다른 하위 폴더를 만듭니다. "rnaQUAST 1.2.0 (denovo based)"라는 앱을 열고 분석 이름을 지정하고 "B_rnaQUAST_Output"을 출력 폴더로 선택하십시오. de novo 어셈블리 FASTA 파일을 "데이터 입력"섹션에 추가하십시오. "데이터 출력"섹션에 de novo 의 고유 한 이름을 입력하십시오. 어셈블리. 이렇게하면 "B_rnaQUAST_Output"폴더 안에 rnaquast 출력 파일의 폴더가 생성됩니다. "GenemarkS-T Gene Prediction", "BUSCO"및 "Parameters"섹션에서 추가 옵션을 선택하십시오. 생물체가 진핵 세포가 아닌 경우 "GenemarkS-T Gene Prediction"섹션에서 원핵 생물을 선택하십시오. 찾아보기 버튼을 선택하고 iplant / home / shared / iplantcollaborative / example_data / BUSCO.sample.data 경로를 "Viewing :"상자에 복사하고 Enter 키를 눌러 BUSCO를 실행하십시오. 생물체에서 사용할 수있는 가장 구체적인 BUSCO 폴더를 선택하십시오. 참고 : BUSCO는 계통 별 핵심 유전자에 대한 어셈블리를 평가하고 핵심 유전자의 몇 퍼센트가 출력되는지를 출력합니다. 진핵 생물과 같은 일반 폴더와 절지류와 같은보다 구체적인 계보가 있습니다. "Transcript decoder"를 검색하고 de nov에서 Transdecoder를 실행하십시오.o 발견 환경에서 트리니티 어셈블리 출력 FASTA 파일. 출력 .pep 파일을 단계 5 주석에서 사용할 de Novovo 어셈블리 (3_Assembly) 폴더로 이동합니다. 4. DE에서 DESeq2를 사용하는 쌍으로 차동 표현 앞서 설명한대로 DE에서 DESeq2 앱을 엽니 다. 분석 이름을 지정하고 출력 폴더를 4_Differential_Expression으로 선택하십시오. "Inputs"섹션에서 Trinity 어셈블리 실행에서 counts 테이블 파일을 선택하고 해당 개수 테이블에서 contig 이름을 찾을 수있는 열을 선택합니다. 카운트 데이터 테이블 파일에서 열 머리글을 입력하여 비교할 열을 결정합니다. 각 조건 사이에 쉼표를 포함하십시오. contig 이름이 들어있는 첫 번째 열 머리글을 포함하지 마십시오. 복제물의 경우 동일한 이름을 반복하십시오 ( 예 : Treatment1rep1, Treatment1rep2, Treatment1rep3은 Treatment1, Treatment1, Treatment1이됩니다). 에서두 번째 줄에는 비교할 두 조건 ( 예 : Treatment1, Treatment2)의 이름을 입력하십시오. 첫 번째 행에 제공된 열 머리글 이름과 일치시킵니다. 참고 :이 열 머리글은 영숫자 여야하며 특수 문자를 사용할 수 없습니다. 5. Trinotate를 사용한 어노테이션 Atmosphere 클라우드 컴퓨팅 인스턴스에서 Trinotate의 각 부분을 실행하십시오. 참고 : Bash 명령은 DE (/iplant/home/shared/Trinity_transdecoder_trinotate_databases) 또는 wiki 페이지 (https://wiki.cyverse.org/)에서 실행하기 전에 txt 파일로 제공되어 복사, 붙여 넣기 및 수정됩니다. wiki / x / dgGtAQ). 여러 어셈블리에 주석을 추가하려면 한 번에 하나씩 각 어셈블리에 주석을 달고 완성 된 주석 파일을 어셈블리 이름과 일치하는 고유 폴더가있는 폴더 "5_Annotation"으로 다시 전송하십시오. Trinity 사본을 검색하기위한 bash 명령을 실행하십시오. 얼마나 많은 CPU가 일치하는지 스레드 수를 변경하십시오.즉, 매체에는 4 개의 CPU가 있고 크기에는 8 개의 CPU가 있습니다. 자세한 내용은 단계 3.1.2를 참조하십시오. 어셈블리 FASTA 파일 이름과 일치하도록 Trinity.fasta 명령을 변경하십시오. 참고 : BLAST + 검색에는 대부분의 시간이 필요합니다. 완료되기 며칠이 걸릴 수 있습니다. 클라우드 컴퓨터 활동은 VNC 뷰어를 불러올 필요없이 대기에서 확인할 수 있습니다. Transdecoder 예측 단백질 검색을위한 bash 명령을 실행하십시오. 이전과 마찬가지로 5.2.1의 조건과 일치하도록 스레드 번호와 파일 이름을 변경하십시오. HMMER에 대한 bash 명령을 실행하고 위와 같이 스레드 수를 변경하십시오. 필요한 경우 signalP 및 tmHMM에 대해 bash 명령을 실행하십시오. SignalP는 신호 펩티드를 예측하고 tmHMM은 막 횡단 단백질 모티프를 예측합니다. 결과를 SQLite 데이터베이스에로드하기 위의 모든 분석이 완료되면 bash 명령을 실행하여 출력 파일을 최종 SQLite 주석 데이터베이스에로드합니다. 모든 명령 제거실행되지 않은 분석의 경우 인기있는 테이블 뷰어에서보기 위해 SQLite 데이터베이스를 .xls 파일로 내 보냅니다.

Representative Results

프로젝트 조직 파일이 생성되면 ( 그림 1 및 2 )이 워크 플로의 첫 번째 작업은 원시 시퀀싱 파일을 평가 한 다음 트리밍 및 품질 필터링을 통해 파일을 정리하는 것입니다. FastQC는 FASTQ 파일 형식에서 품질 점수 및 시퀀스 길이에 대한 사람이 읽을 수있는 요약 통계를 생성합니다. FastQC 수치는 최종 판독 값이 고품질이어서 조립에 적합한 지 평가하기 위해 트리밍 전후에 비교됩니다. "Per Base Sequence Quality"는 시퀀싱의 각 기본 쌍에 대한 평균 읽기 품질을 보여줍니다. FastQC 수치에서 20-28을 초과하는 phred 품질 점수를 얻는 것이 가장 좋습니다. "시퀀스 별 품질 평가 점수"는 판독 품질 필터링이 필요한지 여부를 결정합니다. 너무 많은 읽기의 평균 점수가 20-25 미만이면 평균 읽기 품질을 기준으로 필터링해야 할 수도 있습니다. "염기 서열 당 함량"은 네 개의 뉴클레오티드 염기 모두에 균등 한 분포를 보여야한다. 뉴클레오타이드 함량에 바이어스가있는 경우, 트리밍 종료가 필요할 수 있습니다. "베이스 당 GC 함량도 모든 위치에서 균등해야합니다. 워블이있는 경우 1.4.4.3 에서처럼 판독을 트리밍해야 할 수도 있습니다."시퀀스 GC 양별 "은 정규 분포이어야합니다. 어댑터 또는 중합 효소 연쇄 반응 (PCR ) 제품은 서열 라이브러리에서 오염되어 정상 분포를 왜곡 할 수 있습니다.이 경우 어댑터 트리밍이 필요할 수 있습니다. "서열 길이 분포"는 모든 읽기의 평균 길이를 제공합니다. "Sequence duplication levels"은 라이브러리 내에서 주어진 읽기 시퀀스가 몇 번 있는지 보여줍니다. "중복 된 시퀀스"섹션에서 중복되는 읽기 시퀀스 및 카운트가 제공됩니다. FastQC는 또한 중복 읽기어댑터 서열 또는 시퀀싱 플랫폼과 관련된 다른 공지 된 서열이다. "No Hit"라벨은 NCBI BLAST 6 를 사용하여 서열이 생물학적으로 관련이 있는지 또는 제거되어야하는지 여부를 결정하기 위해 추가로 조사해야 함을 의미합니다. 또한 DE에는 여러 버전의 BLAST가 있습니다. DE BLASTn 앱은 https://de.iplantcollaborative.org/de/?type=apps&app-id=6f94cc92-6d28-45c6-aef1-036be697671d에서 구할 수 있습니다. 원시 시퀀싱이 높은 품질의 판독을 생성하도록 선별 된 후에는 인접 시퀀스 (contigs)를 만들기 위해 판독을 어셈블해야합니다. 간단히 말해, 어셈블리는 유사한 시퀀스를 찾기 위해 모든 짧은 시퀀스 읽기를 정렬하여 생성됩니다. 특정 길이보다 더 큰 유사한 순서의 영역은 sa로 간주됩니다왜냐하면 어떤 길이의 무작위 적으로 발생하는 유사한 서열의 확률이 거의 0이기 때문이다. Trinity는 어셈블리 프로세스의 각 단계마다 로그 파일, fasta 파일을 출력합니다. 그러나 가장 중요한 출력물은 "Trinity.fasta"라는 라벨이 붙은 contigs가 포함 된 최종 어셈블리 파일이며 기본 폴더에 있습니다. 이 파일에는 모든 어셈블리어가 포함되어 있으며 실제로는 "사람이 읽을 수있는"것이 아닙니다. 따라서 rnaquast 도구를 사용하여 어셈블리를 더 깊이 이해할 수 있습니다. rnaQUAST 툴은 사용자가 어셈블리를 비교하여 가장 완벽한 것을 결정할 수있는 수치를 출력합니다 ( 그림 4 ). rnaquast의 각 그림에 대한 추가 정보는 wiki ( https://wiki.cyverse.org/wiki/x/fwuEAQ )에서 확인할 수 있습니다. BUSCO 7 이 실행 된 경우, 특히 관심의 대상이되는 specificity.txt 파일은 완료 및 partial BUSCO 유전자 및 조립품에서 GeneMarkS-T 유전자 예측의 수. BUSCO 유전자는 유기체 집단에 공통적으로 선별 된 유전자 세트입니다. 그것들은 계통 발생 계급 (phylogenetic clades)을 기반으로하는 특정 유형의 유기체에 존재할 것으로 예상되는 유전자 세트를 어셈블리가 얼마나 잘 포착하고 있는지 평가하는 데 사용될 수 있습니다. 독립형 BUSCO 응용 프로그램은 DE ( https://de.iplantcollaborative.org/de/?type=apps&app-id=112b8a52-efd8-11e5-a15c-277125fcb1b1 )에서도 사용할 수 있습니다. 차별 유전자 발현 분석은 조립 된 전 사기 표당 간단한 카운트에서부터 치료법에 걸쳐 다른 표현 패턴을 갖는 전 사체를 확인합니다. DESeq2는 일반화 된 선형 모델 (GLM)을 사용하여 정규화 된 평균으로부터의 변동을 결정합니다. 복제본을 사용한 실험이 선호되므로 기술 변형 from 시퀀싱은 DESeq2 알고리즘에 의해 표준화 될 수있다. DESeq2 DEG 분석은 수치와 모든 출력 수치 및 설명을 포함하는 .html 보고서 파일을 산출합니다. 또는 EdgeR을 DESeq2 대신 사용할 수 있으며 대신 동일한 .html 보고서가 EdgeR 시각화와 함께 생성됩니다. 연구원은 DESeq2와 EdgeR을 모두 실행하여 주어진 실험에서 두 알고리즘에 의해 식별 된 차별적으로 발현 된 유전자를 찾을 수 있습니다. Trinotate는 모든 스프레드 시트 소프트웨어 프로그램에서 열 수있는 출력 .xls 파일을 만듭니다. DEG .txt 파일과 주석 .xls 파일은 CyVerse 플랫폼 외부에있는 수많은 다운 스트림 응용 프로그램에서 분석하고 시각화 할 수 있습니다. 그림 3 : 원시 시퀀싱 읽기, 트리밍 된 읽기 및 최종 트리밍 및 필터링 된 읽기의 FastQC 보고서 시퀀싱 읽기의 체계적인 비교s로 증가시킨다. de novo transcriptom을 조립하려면 고품질의 판독이 필요합니다. FastQC는 연구자가 시퀀싱 데이터의 초기 품질을 이해하고 읽기가 얼마나 효율적으로 사전 처리되었는지 추적 할 수있게 도와줍니다. FastQC의 결과는 시퀀싱되는 생물체와 표본에 따라 다르지만 하위 표본과 비교할 모든 표본의 균일 성은 전처리 읽기의 주 목표입니다. 튜토리얼 비디오 및 문서는 FastQC의 작성자 및 개발자가 제공합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오. 그림 4 : 3 개의 개별 어셈블리에 대한 rnaquast 보고서. rnaQUAST는 동일한 어셈블러를 사용하여 여러 개의 읽기 어셈블리를 비교하는 데 사용할 수 있습니다. ssemblers는 동일한 초기 읽기를 사용합니다. rnaQUAST는 BUSCO를 활용하여 분류 학적 클레 드에있는 알려진 핵심 유전자를 기반으로 어셈블리에 대한 요약 통계를 생성합니다. 전사 당 부적합의 수와 표준 유전자에 일치하는 전사 물의 수, 일치 된 분율은 조립 자의 정확성에 대한 통찰력을 제공합니다. 여기에 제시된 마지막 4 개 서브 플로트는 contig 및 isoform 길이의 요약 통계와 예상 된 isoform의 범위를 제공합니다. NAx는 y 축의 길이 (bp)보다 긴 길이를 갖는 컨티그의 백분율 (x)을 나타냅니다. 조립 된 분획은 길이로 나눈 가장 긴 단일 조립 전사물입니다. 커버 된 비율은 BUSCO의 핵심 원핵 또는 진핵 생물 유전자에 의해 예상되는 완전한 조립 된 전사 물 / 이소 형의 백분율이다. rnaQUAST에 의해 생성 된 모든 그래프에 대한 설명이 가능합니다 ( https://wiki.cyverse.org/wiki/x/fwuEAQ ).09 / 55009fig4large.jpg "target ="_ blank ">이 그림의 확대 버전을 보려면 여기를 클릭하십시오. 앱 이름 CyVerse 플랫폼 타사 설명서 CyVerse 문서 샘플 데이터 세트의 예상 런타임 앱에 연결 FastQC DE http : //www.bioinformatics. babraham.ac.uk/projects/fastqc/ https://www.youtube.com/watch?v=bz93ReOv87Y https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=9316768 15 분 https : //de.iplantcollaborative. org / de /? type = apps & app-id = 112b9aa8-c4a7-11e5-8209- 5f3310948295 트리 메마 틱 v0.33 DE https://github.com/timflutre/trimmomatic https://wiki.cyverse.org/wiki/display/DEapps/Trimmomatic-programmable-0.33 30 분 https : //de.iplantcollaborative. org / de /? type = apps & app-id = 9c2a30dc-028d- 11e6-a915-ab4311791e69 낫 DE https://github.com/najoshi/sickle https://wiki.cyverse.org/wiki/display/DEapps/Sickle-quality-based-trimming 30 분 https : //de.iplantcollaborative. org / de /? type = apps & app-id = 68b278f8-d4d6-414d-9a64-b685a7714f7c 삼위 일체 분위기 https://github.com/trinityrnaseq/trinityrnaseq/wiki https : //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + – + Trinotate + 대기 + 이미지 일주 https : //atmo.iplantcollaborative. org / application / images / 1261 DE https://wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 2-5 일 https : // wiki.cyverse.org/wiki/display/DEapps/Trinity-64GB-2.1.1 rnaquast v1.2.0 DE, 분위기 http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html https : //pods.iplantcollaborative. org / wiki / display / TUT / rnaquast + 1.2.0 + % 28denovo + 기반 % 29 + + DE 사용 30 분 https : //de.iplantcollaborative. org / de /? type = apps & app-id = 980dd11a-1666- 11e6-9122-930 ba8f23352 트랜스 코드 DE https://transdecoder.github.io https://wiki.cyverse.org/wiki/display/DEapps/Transcript+decoder+2.0 2-3 시간 https : //de.iplantcollaborative. org / de /? type = apps & app-id = 5a0ba87e-b0fa-4994-92a2- 0d48ee881179 DESeq2 DE https://bioconductor.org/packages/release/bioc/html/DESeq2.html https : //pods.iplantcollaborative. org / wiki / pages /viewpage.action? pageId = 28115142 2-3 시간 https : //de.iplantcollaborative. org / de /? type = apps & app-id = 9574e87c-4f90- 11e6-a594-008 cfa5ae621 EdgeR DE https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf https://wiki.cyverse.org/wiki/pages/viewpage.action?pageId=28115144 2-3 시간 https : //de.iplantcollaborative. org / de /? type = apps & app-id = 4a08ceda-54fe- 11e6-862f-008 cfa5ae621 삼중 체 분위기 https://trinotate.github.io/ https : //pods.iplantcollaborative. org / wiki / display / atmman / Trinity + – + Trinotate + 대기 + 이미지 일주 https : //atmo.iplantcollaborative. org / application / images / 1261 표 1 : 분석 프로그램, 사용 가능한 플랫폼,첫 번째 모양으로 워크 플로에 사용할 수있는 추가 리소스가 순서대로 표시됩니다. 모든 패키지 버전은 2016 년 4 월 현재입니다.

Discussion

이 프로토콜에는 주요 프로젝트 폴더 ( 그림 1 및 2 ) 내부에 각각 별도의 폴더를 만드는 5 가지 중요한 단계가 있습니다. 기본 원시 시퀀싱 데이터는 모두 신성 불가침합니다. "1_Raw_Sequence"라는 첫 번째 폴더에 업로드하여 보관해야하며 어떤 방식으로도 변경되지 않아야합니다. 데이터는 세 가지 방법 중 하나로 업로드 할 수 있습니다. DE 인터페이스는 파일을 직접 업로드하는 데 사용할 수 있습니다. 이것은 데이터를 업로드하는 가장 쉬운 방법이지만 전송하는 데 가장 오래 걸립니다. Cyberduck에는 그래픽 인터페이스가있어서 사용자가 파일을 끌어다 놓아 DE로 전송할 수 있습니다. iCommands는 데이터 저장소와 데이터를주고 받고 디렉토리를 만들고 데이터 세트를 관리하는 데 사용할 수있는 명령 줄 도구이며 데이터 파일을 전송하는 가장 빠른 방법입니다. 데이터 저장소의 모든 데이터는 다른 CyVerse 사용자와 공유 할 수 있습니다 (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discovery + 환경), 생성 된 URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)을 통해 공개되거나 공개적으로 또는 익명으로 호스팅 될 수 있습니다 사용자 이름 필요 없음) 사용 가능한 커뮤니티 데이터 (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). 이 폴더 안에는 원시 시퀀스 읽기가 FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)로 분석되어 읽기를 트리밍하고 필터링하여 고품질 읽기를 생성하는 방법을 평가합니다. 트리밍 및 품질 필터링을 한 후에는 FastQC 출력을 비교하여 읽기 품질이 변경되어 정보 손실없이 더 나은 상태인지 확인하는 것이 유용합니다 ( 그림 3 ). FastQC의 x 축은 선형이 아니라 많은 출력 그래프에 대해 binned되어 결과의 오역을 유발할 수 있습니다. 그런 다음 트리밍 및 필터링 된 읽기를 사용하여 대기 클라우드 컴퓨팅 인스턴스를 사용하여 de novo 전 사체를 어셈블합니다. 이클라우드 컴퓨터는 로컬 컴퓨터 화면, 키보드 및 마우스를 사용하지만 자체 소프트웨어 (Trinity 및 Trinotate)와 하드웨어가 설치되어 있습니다. 클라우드 컴퓨터 인스턴스에서 프로그램을 실행해도 로컬 컴퓨터에 어떤 영향도 미치지 않습니다. De novo 어셈블리 및 다운 스트림 주석은이 워크 플로에서 가장 오래 실행되는 두 가지 단계 일 가능성이 큽니다. 따라서 대기 상태에서 완료되어 정전과 같은 분석을 방해하는 일반적인 실험실 공유 컴퓨터 문제, 심야 자동 업데이트 이후 재시작 또는 다른 사용자에 의한 충돌을 피할 수 있습니다. Trinotate 주석은 BLAST + ⁸ , HMMER ⁹ , tmHMM ¹⁰ 및 PFAM ^{11을 사용} 합니다. 어노테이션의 최종 결과는 SQLite 데이터베이스와 .xls 파일입니다. 출력은 KEGG ¹² ^, ¹³ 과 같은 다운 스트림 분석 플랫폼에서 CyVerse 외부에서 사용될 수 있습니다.

이 워크 플로DE와 대기에서 사용할 준비가되었습니다. 따라서 각 분석 패키지와 각 도구에 필요한 모든 종속성을 설치, 구성 및 문제 해결에 시간을 할애 할 필요가 없습니다. 이는 연구원의 분석을 합리화하고 낭비되는 노력을 최소화하며 많은 과학자들의 진입 장벽을 낮 춥니 다. 이 워크 플로우는 특히 Illumina 시퀀싱 플랫폼에서 단일 또는 쌍방향 읽기를 어셈블하지만 DE 및 대기에서 다른 종류의 시퀀싱 기술을 처리 할 수있는 많은 도구가 있습니다. 이 워크 플로의 도구는 모든 유형의 들어오는 시퀀싱 기술을 처리 할 수있는 해당 대체 도구로 쉽게 대체 할 수 있습니다. 이것은 새로운 버전의 분석 도구 또는 완전히 새로운 도구에도 해당됩니다.

이 워크 플로는 한 번에 몇 개의 전 사체 만 어셈블하고 비교하고 주석을 달기 위해 특별히 고안되었습니다. 따라서 사용자는 비교 집단 유전학을 위해 여러 전 사체를 조립하는 데 시간이 많이 걸릴 수 있습니다. 분석파이프 라인은 조만간 인구 집단 유전학 사용자에게 제공 될 것이며 파이프 라인에 대한 링크는 wiki 페이지 (https://wiki.cyverse.org/wiki/x/dgGtAQ)에서 찾을 수 있습니다. 차동 유전자 발현 분석 단계는 복제물을 처리 할 수 있지만 쌍별 비교이며 여러 요인 ( 예 : 시간이 지남에 따라 달라지는 조건, 두 가지 이상의 치료법)을 정확하게 평가하지는 않습니다. 자동화 된 작업 흐름은 참조 게놈이있는 생물체에 존재합니다 ( 예 : TRAPLINE ¹⁴ ). 초보자를 위해 자동화 된 워크 플로우가 가장 손쉬운 방법이지만, 여기에 설명 된 각 단계에 대한 평가 및 고려가 필요합니다. 또한 사용자는 자동화 된 파이프 라인을 구성 할 때이를 사용해야하므로 사용자의 변화하는 요구 사항을 충족시키기 위해 본질적으로 유연하지 않습니다.

이 프로토콜의 대부분은 인터넷을 통해 수행되므로 사용자는 브라우저 설정에 문제가 발생할 수 있습니다. 첫째,팝업 차단기는 창을 전혀 열어 두지 않거나 브라우저의 CyVerse에 허가가있을 때까지 창을 열지 못하게 할 수 있습니다. 대기는 원격 데스크톱에 액세스하기 위해 VNC를 사용하지만 다른 소프트웨어를 사용할 수도 있습니다. 이 전체 프로토콜은 Firefox 버전 45.0.2에서 수행되었으며 모든 인기있는 인터넷 브라우저에서 작동해야하지만 일부 불일치가 나타날 수 있습니다. Trinity가 새 버전 (https://github.com/trinityrnaseq/trinityrnaseq/wiki)을 출시함에 따라 워크 플로가 업데이트됩니다. 최신 버전과 워크 플로우에 대한 최신 정보는 위키 튜토리얼 페이지 ( 표 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ)에서 확인할 수 있습니다. 사용자는 직접 지원에 문의하거나 Ask CyVerse (ask.cyverse.org/)에 질문을 게시하여 워크 플로의 문제를 해결할 수 있습니다.

DE에는이 프로토콜의 각 단계를 수행하는 여러 가지 응용 프로그램이 있습니다. 예를 들어 사용자는 Trimmomatic 대신 Scythe (https://github.com/najoshi/sickle)를 실행할 수 있습니다.¹⁵ 를 사용하여 판독 트리밍을 수행하거나 DESeq ¹⁷ ^, ¹⁸ 대신 EdgeR ¹⁶ 을 실행하십시오. 이 원고의 범위를 벗어나기는하지만 DE 앱은 사용자가 복사, 편집, 배포 할 수 있습니다 (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) 또는 새 앱을 사용자가 추가 할 수 있습니다 (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). 분위기 이미지는 또한 사용자의 요구에보다 구체적으로 부합하는 새로운 워크 플로우 또는 수정 된 워크 플로우를 생성하기 위해 수정하거나 이미지를 재구성 할 수 있습니다 (https://wiki.cyverse.org/wiki/x/TwHX). 이 작업은 명령 행을 사용하여 데이터를 이동하고 분석을 실행하는 방법을 소개합니다. 사용자는 CyVerse API (응용 프로그램 프로그래밍 인터페이스) (http://www.cyverse.org/science-apis)와 같은 고급 명령 줄 자원을 활용하거나 지식이 필요한 자체 DE 응용 프로그램을 설계 할 수 있습니다분석 도구가 명령 행 (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface)에서 실행되는 방법에 대해 설명합니다.

Disclosures

The authors have nothing to disclose.

Acknowledgements

The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).

Materials

Trimmomatic v0.33	USADELLAB.org	https://github.com/timflutre/trimmomatic	https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69
Sickle	Joshi and Fass	https://github.com/najoshi/sickle	https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c
Trinity	Broad Institute and Hebrew University of Jersalem	https://github.com/trinityrnaseq/trinityrnaseq/wiki	https://atmo.iplantcollaborative.org/application/images/1261
rnaQUAST v1.2.0	Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences	http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html	https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352
Transdecoder	Broad Institute and Commonwealth Scientific and Industrial Research Organisation	https://transdecoder.github.io	https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179
EdgeR	Robinson et al. 2010.	https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf	https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499
Trinotate	Broad Institute and Hebrew University of Jersalem	https://trinotate.github.io/	https://atmo.iplantcollaborative.org/application/images/1261

References

Hasselmann, M., Ferretti, L., Zayed, A. Beyond fruit-flies: population genomic advances in non-Drosophila arthropods. Brief. Funct. Genomics. 14 (6), 424-431 (2015).
Scholz, M. B., Lo, C. -. C., Chain, P. S. Next generation sequencing and bioinformatic bottlenecks: the current state of metagenomic data analysis. Anal. Biotech. 23 (1), 9-15 (2012).
Merchant, N., et al. The iPlant Collaborative: Cyberinfrastructure for Enabling Data to Discovery for the Life Sciences. PLoS Biol. 14 (1), e1002342 (2016).
Oliver, S. L., Lenards, A. J., Barthelson, R. A., Merchant, N., McKay, S. J. Using the iPlant collaborative discovery environment. Cur. Protoc. Bioinformatics. , 1-22 (2013).
Skidmore, E., Kim, S., Kuchimanchi, S., Singaram, S., Merchant, N., Stanzione, D. iPlant atmosphere: a gateway to cloud infrastructure for the plant sciences. Proc. 2011 ACM. , 59-64 (2011).
Altschul, S. F., Gish, W., Miller, W., Myers, E. W., Lipman, D. J. Basic local alignment search tool. J. Mol. Bio. 215 (3), 403-410 (1990).
Simão, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. , (2015).
Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10, 421 (2009).
Eddy, S. R. Profile hidden Markov models. Bioinformatics. 14 (9), 755-763 (1998).
Krogh, A., Larsson, B., von Heijne, G., Sonnhammer, E. L. Predicting transmembrane protein topology with a hidden markov model: application to complete genomes. J. Mol. Biol. 305 (3), 567-580 (2001).
Finn, R. D., Coggill, P., et al. The Pfam protein families database: towards a more sustainable future. Nucleic Acids Res. 44 (D1), D279-D285 (2016).
Kanehisa, M., Sato, Y., Kawashima, M., Furumichi, M., Tanabe, M. KEGG as a reference resource for gene and protein annotation. Nucleic Acids Res. 44 (D1), D457-D462 (2016).
Kanehisa, M., Goto, S. KEGG: Kyoto Encyclopedia of Genes and Genomes. Nucleic Acids Res. 28 (1), 27-30 (2000).
Wolfien, M., et al. TRAPLINE: a standardized and automated pipeline for RNA sequencing data analysis, evaluation and annotation. BMC Bioinformatics. 17, 21 (2016).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2010).
Anders, S. Analysing RNA-Seq data with the DESeq package. Mol. Biol. 43 (4), 1-17 (2010).
Love, M. I., Huber, W., Anders, S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. Genome Bio. 15 (12), 1-21 (2014).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Cite This Article

Joyce, B. L., Haug-Baltzell, A. K., Hulvey, J. P., McCarthy, F., Devisetty, U. K., Lyons, E. Leveraging CyVerse Resources for De Novo Comparative Transcriptomics of Underserved (Non-model) Organisms. J. Vis. Exp. (123), e55009, doi:10.3791/55009 (2017).

CyVerse 리소스 활용<em> 드 노보</em> 비포장 (비 모델) 생물의 비교 전이학

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

CyVerse 리소스 활용<em> 드 노보</em> 비포장 (비 모델) 생물의 비교 전이학

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgements

Materials

References

Tags

Play Video

Cite This Article

View Video

✖

To prove you're not a robot, please enter the text in the image below