This protocol outlines a comparative de novo transcriptome assembly and annotation workflow for novice bioinformaticians. The workflow is available for free entirely through CyVerse and connected by the Data Store. Command line and graphical user interfaces are used, but all code needed is available to copy and paste.
이 워크 플로우는 초보자 연구자가 클라우드 컴퓨팅과 같은 첨단 컴퓨팅 리소스를 활용하여 쌍 비교 transcriptomics를 수행 할 수있게합니다. 또한 생물 학자들이 데이터 과학자의 계산 기술을 개발하기위한 뇌관 역할을합니다. 예를 들어 bash 명령을 실행하고 큰 데이터 세트를 시각화하고 관리하는 일이 있습니다. 모든 명령 행 코드와 각 명령 또는 단계에 대한 자세한 설명은 wiki ( https://wiki.cyverse.org/wiki/x/dgGtAQ )에서 확인할 수 있습니다. Discovery Environment 및 Atmosphere 플랫폼은 CyVerse Data Store를 통해 서로 연결됩니다. 따라서 초기 원시 시퀀싱 데이터가 업로드되면 인터넷 연결을 통해 대용량 데이터 파일을 전송할 필요가 없어 분석을 수행하는 데 필요한 시간이 최소화됩니다. 이 프로토콜은 단지 두 실험적 처리 또는 조건을 분석하도록 설계되었습니다. 차별 유전자 발현 분석이 수행되었다.여러 쌍의 요인을 테스트하는 데는 적합하지 않습니다. 이 워크 플로는 자동화가 아닌 수동으로 설계되었습니다. 각 단계는 사용자가 실행하고 조사해야 데이터와 분석 결과를보다 잘 이해할 수 있으므로 사용자에게 더 나은 결과를 제공해야합니다. 완료되면,이 프로토콜은 이전에 조립 된 참조 게놈 (일반적으로 미숙 한 생물체에서는 이용 가능하지 않음)에 매핑 할 필요없이, 기능이 부족한 (비 모델) 생물체를 위해 de novo assembled transcriptome을 생성합니다. 이 de novo 전 사체는 두 실험 조건 사이에서 다른 유전자를 조사하기 위해 pairwise differential 유전자 발현 분석에 더 사용됩니다. 차별적으로 발현 된 유전자는 생물체가 실험 조건에 대해 갖는 유전 적 반응을 이해하기 위해 기능적으로 주석을 달았다. 총계로,이 프로토콜에서 파생 된 데이터는 빈약 한 생물체의 생물학적 반응에 대한 가설을 테스트하는 데 사용됩니다.
Homo sapiens 와 Drosophila melanogaster , Mus musculus , Danio rerio 와 같은 몇몇 핵심 모델 동물 종은 현재와 과거의 기능 유전체학 작업의 대부분을 대표합니다. 그러나 처리량이 많은 시퀀싱 기술의 비용이 급격히 감소함에 따라 비 모델 ( 일명 "소홀히"되었거나 "부족한"동물 종)에 기능적 유전체학을위한 기회가 제공되고 있습니다 1 . 이것은 모델이 아닌 유기체가 종종 굴과 새우, 게와 같은 경제적으로 관련된 종을 대표하고 모델 종에서 발견되는 범위 밖의 새로운 표현형과 생물학적 시스템을 조사 할 기회를 제공하기 때문에 유전체학에서 중요한 전환점입니다.
미숙 한 생물체가 독특한 생물학적 시스템을 조사 할 수있는 매력적인 기회를 제공하지만, 특히 생물 정보학 분석 중에 연구자가 당면한 몇 가지 문제가 있습니다. 일부는다른 연구는 참조 게놈, 유기체 특정 온톨로지 (organism specific ontologies) 등과 같은 미숙 한 생물체에서 연구자가 이용할 수있는 유전 자원의 부족으로 인해 발생하는 반면에, 큰 데이터 세트를 처리하는 것은 타고난 것입니다. 핵산 분리 및 시퀀싱의 과제는 데이터 분석과의 비교와 같이, 생물 정보학 분석은 일반적으로 프로젝트를 시퀀싱하는 데 가장 과소 평가되는 비용임이 입증됩니다 2 . 예를 들어, 기본적인 차세대 시퀀싱 생물 정보 분석은 다음과 같은 단계로 구성 될 수 있습니다 : 원시 시퀀싱 읽기의 품질 필터링 및 트리밍, 더 큰 인접한 부분으로 짧은 읽기 조합, 생물학적 이해를 얻기위한 주석 및 / 또는 다른 시스템과의 비교. 겉으로보기에는 간단하지만이 예제 워크 플로우에는 랩 벤치 컴퓨터의 범위를 벗어난 전문 지식과 계산 리소스가 필요합니다.모델 유기체.
혁신적인 도전은 인프라 또는 지식 기반 일 수 있습니다. 고전적인 인프라 문제는 적절한 계산 리소스에 대한 액세스입니다. 예를 들어, 어셈블리 및 주석은 강력한 RAM 또는 RAM (256GB-1TB)과 여러 프로세서 / 코어를 실행하는 강력한 컴퓨터 또는 컴퓨터 클러스터를 필요로하는 연산 집약적 인 알고리즘에 의존합니다. 불행히도 많은 연구원은 이러한 컴퓨팅 리소스에 액세스 할 수 없거나 이러한 시스템과 상호 작용하는 데 필요한 지식이 없습니다. 다른 연구자들은 대학교 나 기관을 통해 고성능 컴퓨팅 클러스터에 액세스 할 수 있지만 이러한 리소스에 대한 액세스는 제한적일 수 있으며 때때로 CPU 시간에 실시간 "클럭 수를 곱한 계산 시간당 요금이 부과 될 수 있습니다 해당 프로세서가 실행중인 시간 수를 나타냅니다. 미국 국립 과학 재단의 자금 지원을받는 사이버 인프라 구조 시스템 활용미국 및 전세계의 연구자를위한 컴퓨팅 리소스에 대한 무료 액세스를 제공하는 CyVerse 3 으로서의 uch는 여기에 설명 된대로 인프라 문제를 완화하는 데 도움이 될 수 있습니다.
전형적인 지식 기반 과제의 예는 완전한 분석에 필요한 소프트웨어를 이해하는 것입니다. 시퀀싱 기반 프로젝트를 효과적으로 수행하려면 연구원은 생물 정보 분석을 위해 개발 된 수많은 소프트웨어 도구에 익숙해야합니다. 각 패키지를 학습하는 것은 어려운 일이지만, 패키지가 지속적으로 업그레이드되고, 다시 릴리스되고, 새로운 워크 플로에 통합되고, 때로는 새 라이선스에서 사용이 제한된다는 사실에 의해 악화됩니다. 또한 이러한 도구의 입력과 출력을 연결하려면 데이터 형식을 호환 가능하도록 변환하여 워크 플로에 다른 도구를 추가해야하는 경우가 있습니다. 마지막으로, 어떤 소프트웨어 패키지가 '가장 좋은 '분석을 위해, 그리고 자주 특정 실험 조건에 가장 적합한 소프트웨어를 식별하는 것은 미묘한 차이점입니다. 경우에 따라 소프트웨어에 대한 유용한 리뷰를 이용할 수 있지만 새로운 업데이트 및 소프트웨어 옵션이 계속해서 릴리스됨에 따라 이러한 업데이트는 빠르게 구식이됩니다.
부족한 유기체를 연구하는 연구자에게는 새로운 유기체에서의 데이터 분석과 관련한 도전에 덧붙여 이러한 타고난 도전이 추가됩니다. 이처럼 미숙 한 유기체 특유의 문제는 유전자 주석 처리 과정에서 가장 잘 드러납니다. 예를 들어, 부족한 생물체는 흔히 유전자 orthology와 기능 ( 예 : 해양 무척추 동물과 Drosophila )을 확인하는데 합리적으로 사용할 수있는 밀접한 관련이있는 모델 유기체를 가지고 있지 않다. 많은 생물 정보 도구는 유전자 기능을 확인하는 데 사용할 수있는 구조적 모티프를 식별하기 위해 "훈련"을 요구합니다. 그러나 일반적으로 교육 데이터는 mod에서만 사용할 수 있습니다.엘 미생물 및 숨겨진 마르코프 모델 (HMMs) 교육은 생물 학자와 많은 생물 정보 학자의 범위를 벗어납니다. 마지막으로, 모델 생물체의 데이터를 사용하여 주석을 수행 할 수 있다고하더라도 모델 생물체와 관련된 일부 유전자 존재 론은 부적절한 생물체의 생물학 및 자연사를 고려할 때 의미가 없습니다 ( 예 : Drosophila 에서 새우로 정보 전달).
이러한 어려움에 비추어 볼 때, 특히 생명이 약한 생물체에 대한 de novo 분석을 수행하는 연구원들과 함께 생물 정보학 자원을 개발해야합니다. 향후 몇 년 동안의 기능 유전체 시퀀싱 프로젝트는 모델과 부족한 유기체 ( https://genome10k.soe.ucsc.edu/ ) 사이의 간격을 좁히는 데 도움이 될 것입니다. 그러나 도전 과제를 해결하기 위해 개발해야 할 많은 도구가 있습니다 위에서 고려. CyVerse는 i의 생태계 창출에 전념하고 있습니다.기존 사이버 인프라 및 타사 응용 프로그램을 연결하여 데이터 관리, 생물 정보 분석 도구 및 데이터 시각화를 생명 과학자에게 제공함으로써 상호 운용성을 제공합니다. 상호 운용성은 확장 가능한 컴퓨팅 리소스를 제공하고 파일 형식 변환 및 플랫폼간에 전송되는 데이터의 양을 제한함으로써 생물 정보 응용 프로그램과 플랫폼 간의 전환을 원활하게하는 데 도움이됩니다. CyVerse는 Discovery Environment (DE 4 , Atmosphere 5 및 Data Store 3 )를 비롯한 여러 플랫폼을 제공합니다. DE는 웹 기반이며 많은 일반적인 생물 정보학 분석 도구가 사용자에게 친숙한 포인트 앤 클릭 형식 ( "apps ")이며, 대규모 데이터 세트 ( 즉, 원시 시퀀싱 읽기, 조립 된 게놈)가 저장되고 관리되는 데이터 저장소의 그래픽 사용자 인터페이스 (GUI)입니다 .Atmosphere는 연구원에게 향상된 유연성을 제공하는 클라우드 컴퓨팅 서비스입니다.다양한 범위의 생물 정보학 도구가 미리 설치된 Virtual Machine 계산 리소스를 사용합니다. 이 두 플랫폼은 모두 데이터 저장소에 연결되어 있으며 여기서 설명한 것과 같이 워크 플로를 만드는 데 함께 사용할 수 있습니다. 이 보고서는 새로운 transcriptome 어셈블리 및 차동 유전자 발현 분석 워크 플로에 중점을두고 있으며, 생물 정보학 분석을 개발하고 수행하는 것과 관련된 모범 사례를 다루고 있습니다. CyVerse ( http://www.cyverse.org/about ) 의 광범위한 임무와 자세한 플랫폼 설명 ( http://www.cyverse.org/learning-center )에 대한 설명이 공개되어 있습니다. 여기에 설명 된 모든 분석은 발견 환경 4 (DE)와 대기 5 를 사용하며 모든 계산 수준의 연구자가 접근 할 수 있도록 제시됩니다. DE 워크 플로우 및 Atmosph장기적인 출처, 재사용 성 및 재현성을 보장하기 위해 URL을 사용하여 이미지를 직접 참조 할 수 있습니다.
이 프로토콜에는 주요 프로젝트 폴더 ( 그림 1 및 2 ) 내부에 각각 별도의 폴더를 만드는 5 가지 중요한 단계가 있습니다. 기본 원시 시퀀싱 데이터는 모두 신성 불가침합니다. "1_Raw_Sequence"라는 첫 번째 폴더에 업로드하여 보관해야하며 어떤 방식으로도 변경되지 않아야합니다. 데이터는 세 가지 방법 중 하나로 업로드 할 수 있습니다. DE 인터페이스는 파일을 직접 업로드하는 데 사용할 수 있습니다. 이것은 데이터를 업로드하는 가장 쉬운 방법이지만 전송하는 데 가장 오래 걸립니다. Cyberduck에는 그래픽 인터페이스가있어서 사용자가 파일을 끌어다 놓아 DE로 전송할 수 있습니다. iCommands는 데이터 저장소와 데이터를주고 받고 디렉토리를 만들고 데이터 세트를 관리하는 데 사용할 수있는 명령 줄 도구이며 데이터 파일을 전송하는 가장 빠른 방법입니다. 데이터 저장소의 모든 데이터는 다른 CyVerse 사용자와 공유 할 수 있습니다 (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+and+Folders+Via+the+Discovery + 환경), 생성 된 URL (https://wiki.cyverse.org/wiki/display/DEmanual/Sharing+Data+Files+Via+Public+Links)을 통해 공개되거나 공개적으로 또는 익명으로 호스팅 될 수 있습니다 사용자 이름 필요 없음) 사용 가능한 커뮤니티 데이터 (http://data.iplantcollaborative.org; http://mirrors.cyverse.org). 이 폴더 안에는 원시 시퀀스 읽기가 FastQC (http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/)로 분석되어 읽기를 트리밍하고 필터링하여 고품질 읽기를 생성하는 방법을 평가합니다. 트리밍 및 품질 필터링을 한 후에는 FastQC 출력을 비교하여 읽기 품질이 변경되어 정보 손실없이 더 나은 상태인지 확인하는 것이 유용합니다 ( 그림 3 ). FastQC의 x 축은 선형이 아니라 많은 출력 그래프에 대해 binned되어 결과의 오역을 유발할 수 있습니다. 그런 다음 트리밍 및 필터링 된 읽기를 사용하여 대기 클라우드 컴퓨팅 인스턴스를 사용하여 de novo 전 사체를 어셈블합니다. 이클라우드 컴퓨터는 로컬 컴퓨터 화면, 키보드 및 마우스를 사용하지만 자체 소프트웨어 (Trinity 및 Trinotate)와 하드웨어가 설치되어 있습니다. 클라우드 컴퓨터 인스턴스에서 프로그램을 실행해도 로컬 컴퓨터에 어떤 영향도 미치지 않습니다. De novo 어셈블리 및 다운 스트림 주석은이 워크 플로에서 가장 오래 실행되는 두 가지 단계 일 가능성이 큽니다. 따라서 대기 상태에서 완료되어 정전과 같은 분석을 방해하는 일반적인 실험실 공유 컴퓨터 문제, 심야 자동 업데이트 이후 재시작 또는 다른 사용자에 의한 충돌을 피할 수 있습니다. Trinotate 주석은 BLAST + 8 , HMMER 9 , tmHMM 10 및 PFAM 11을 사용 합니다. 어노테이션의 최종 결과는 SQLite 데이터베이스와 .xls 파일입니다. 출력은 KEGG 12 , 13 과 같은 다운 스트림 분석 플랫폼에서 CyVerse 외부에서 사용될 수 있습니다.
이 워크 플로DE와 대기에서 사용할 준비가되었습니다. 따라서 각 분석 패키지와 각 도구에 필요한 모든 종속성을 설치, 구성 및 문제 해결에 시간을 할애 할 필요가 없습니다. 이는 연구원의 분석을 합리화하고 낭비되는 노력을 최소화하며 많은 과학자들의 진입 장벽을 낮 춥니 다. 이 워크 플로우는 특히 Illumina 시퀀싱 플랫폼에서 단일 또는 쌍방향 읽기를 어셈블하지만 DE 및 대기에서 다른 종류의 시퀀싱 기술을 처리 할 수있는 많은 도구가 있습니다. 이 워크 플로의 도구는 모든 유형의 들어오는 시퀀싱 기술을 처리 할 수있는 해당 대체 도구로 쉽게 대체 할 수 있습니다. 이것은 새로운 버전의 분석 도구 또는 완전히 새로운 도구에도 해당됩니다.
이 워크 플로는 한 번에 몇 개의 전 사체 만 어셈블하고 비교하고 주석을 달기 위해 특별히 고안되었습니다. 따라서 사용자는 비교 집단 유전학을 위해 여러 전 사체를 조립하는 데 시간이 많이 걸릴 수 있습니다. 분석파이프 라인은 조만간 인구 집단 유전학 사용자에게 제공 될 것이며 파이프 라인에 대한 링크는 wiki 페이지 (https://wiki.cyverse.org/wiki/x/dgGtAQ)에서 찾을 수 있습니다. 차동 유전자 발현 분석 단계는 복제물을 처리 할 수 있지만 쌍별 비교이며 여러 요인 ( 예 : 시간이 지남에 따라 달라지는 조건, 두 가지 이상의 치료법)을 정확하게 평가하지는 않습니다. 자동화 된 작업 흐름은 참조 게놈이있는 생물체에 존재합니다 ( 예 : TRAPLINE 14 ). 초보자를 위해 자동화 된 워크 플로우가 가장 손쉬운 방법이지만, 여기에 설명 된 각 단계에 대한 평가 및 고려가 필요합니다. 또한 사용자는 자동화 된 파이프 라인을 구성 할 때이를 사용해야하므로 사용자의 변화하는 요구 사항을 충족시키기 위해 본질적으로 유연하지 않습니다.
이 프로토콜의 대부분은 인터넷을 통해 수행되므로 사용자는 브라우저 설정에 문제가 발생할 수 있습니다. 첫째,팝업 차단기는 창을 전혀 열어 두지 않거나 브라우저의 CyVerse에 허가가있을 때까지 창을 열지 못하게 할 수 있습니다. 대기는 원격 데스크톱에 액세스하기 위해 VNC를 사용하지만 다른 소프트웨어를 사용할 수도 있습니다. 이 전체 프로토콜은 Firefox 버전 45.0.2에서 수행되었으며 모든 인기있는 인터넷 브라우저에서 작동해야하지만 일부 불일치가 나타날 수 있습니다. Trinity가 새 버전 (https://github.com/trinityrnaseq/trinityrnaseq/wiki)을 출시함에 따라 워크 플로가 업데이트됩니다. 최신 버전과 워크 플로우에 대한 최신 정보는 위키 튜토리얼 페이지 ( 표 1 , https://wiki.cyverse.org/wiki/x/dgGtAQ)에서 확인할 수 있습니다. 사용자는 직접 지원에 문의하거나 Ask CyVerse (ask.cyverse.org/)에 질문을 게시하여 워크 플로의 문제를 해결할 수 있습니다.
DE에는이 프로토콜의 각 단계를 수행하는 여러 가지 응용 프로그램이 있습니다. 예를 들어 사용자는 Trimmomatic 대신 Scythe (https://github.com/najoshi/sickle)를 실행할 수 있습니다.15 를 사용하여 판독 트리밍을 수행하거나 DESeq 17 , 18 대신 EdgeR 16 을 실행하십시오. 이 원고의 범위를 벗어나기는하지만 DE 앱은 사용자가 복사, 편집, 배포 할 수 있습니다 (https://wiki.cyverse.org/wiki/display/DEmanual/Creating,+Copying,+and+Editing+DE+ Apps) 또는 새 앱을 사용자가 추가 할 수 있습니다 (https://wiki.cyverse.org/wiki/display/DEmanual/Dockerizing+Your+Tools+for+the+CyVerse+Discovery+Environment). 분위기 이미지는 또한 사용자의 요구에보다 구체적으로 부합하는 새로운 워크 플로우 또는 수정 된 워크 플로우를 생성하기 위해 수정하거나 이미지를 재구성 할 수 있습니다 (https://wiki.cyverse.org/wiki/x/TwHX). 이 작업은 명령 행을 사용하여 데이터를 이동하고 분석을 실행하는 방법을 소개합니다. 사용자는 CyVerse API (응용 프로그램 프로그래밍 인터페이스) (http://www.cyverse.org/science-apis)와 같은 고급 명령 줄 자원을 활용하거나 지식이 필요한 자체 DE 응용 프로그램을 설계 할 수 있습니다분석 도구가 명령 행 (https://wiki.cyverse.org/wiki/display/DEmanual/Creating+a+New+App+Interface)에서 실행되는 방법에 대해 설명합니다.
The authors have nothing to disclose.
The authors would like to acknowledge funding from USDA-NIFA grant 2013-00984, NSF grant IOS – 1339156, IOS – 1444490, and CyVerse (NSF: DBI – 1265383).
Trimmomatic v0.33 | USADELLAB.org | https://github.com/timflutre/trimmomatic | https://de.iplantcollaborative.org/de/?type=apps&app-id=9c2a30dc-028d-11e6-a915-ab4311791e69 |
Sickle | Joshi and Fass | https://github.com/najoshi/sickle | https://de.iplantcollaborative.org/de/?type=apps&app-id=68b278f8-d4d6-414d-9a64-b685a7714f7c |
Trinity | Broad Institute and Hebrew University of Jersalem | https://github.com/trinityrnaseq/trinityrnaseq/wiki | https://atmo.iplantcollaborative.org/application/images/1261 |
rnaQUAST v1.2.0 | Algorithmic Biology Lab, St. Petersburg Academic University of the Russian Academy of Sciences | http://spades.bioinf.spbau.ru/rnaquast/release1.2.0/manual.html | https://de.iplantcollaborative.org /de/?type=apps&app- id=980dd11a-1666-11e6-9122- 930ba8f23352 |
Transdecoder | Broad Institute and Commonwealth Scientific and Industrial Research Organisation | https://transdecoder.github.io | https://de.iplantcollaborative.org/de/?type=apps&app-id=5a0ba87e-b0fa-4994-92a2-0d48ee881179 |
EdgeR | Robinson et al. 2010. | https://bioconductor.org/packages/release/bioc/vignettes/edgeR/inst/doc/edgeR.pdf | https://de.iplantcollaborative.org/de/?type=apps&app-id=5aa9e294-6f95-42f9-98e9-c9c96b44f499 |
Trinotate | Broad Institute and Hebrew University of Jersalem | https://trinotate.github.io/ | https://atmo.iplantcollaborative.org/application/images/1261 |