Genetics

빼기 게놈에 의해 소설 시퀀스 검색

Published: January 25, 2019 doi: 10.3791/58877

Kathryn C. Asalone¹, Megan M. Nelson¹, John R. Bracht¹

¹Biology Department, American University

Summary

이 프로토콜의 목적은 계산의 조합 및 벤치 연구를 사용 하 여 부분적 으로만 알려져 있을 수 있습니다 공동 정화 시퀀스에서 쉽게 분리 될 수 없는 새로운 시퀀스를 찾을 것입니다.

Abstract

빼기 게놈 유전자, 단백질, 또는 일반 지역 큰 게놈 맥락에 포함 되는 시퀀스를 식별 하는 목표는 어떤 연구에 사용할 수 있습니다. 빼기 유전체학 포괄적인 시퀀싱 및 알려진 유전 요소 (참조, R) 빼서 (T)의 대상 시퀀스를 분리 하는 연구원을 수 있습니다. 미토 콘 드리 아, 엽록체, 바이러스, 소설 시퀀스를 식별 하는 메서드를 사용할 수 있습니다 또는 생식 염색체, 제한 및 T R. 포괄적인 게놈 데이터 (R + T) 메서드를 사용 하면 시작에서 쉽게 분리 될 수 없을 때 특히 유용 일치 알려진된 시퀀스 (R), 대상 (T) 뒤에 남겨두고 제거 참조 시퀀스 또는 시퀀스에 대 한 기본적인 현지 줄 맞춤 검색 도구 (폭발)을 사용 합니다. 가장 잘 작동 하도록 빼기, R t. 없는 비교적 완전 한 초안 이어야 합니다. 빼기를 통해 정량적 중 합 효소 연쇄 반응 (정량) 테스트 후 나머지 시퀀스 이후 R 않습니다 필요가 없습니다 작동 방법에 대 한 완전 한 수 없습니다. 순차적으로 여러 참조 시퀀스를 제거 하 고 t.에 대 한 검색을 정제 실험 단계 필요에 따라 반복 수 사이클로 계산 단계 여기 링크 빼기 유전체학의 장점은 실제 정화는 어려운, 불가능 한, 또는 비싼 경우에도 완전히 소설 대상 시퀀스를 확인할 수 있습니다. 방법의 단점은 빼기에 대 한 적절 한 참조를 찾는 이며 T-긍정을 얻는 정량 테스트용 샘플을 제외 하 고. 얼룩말 피리 새 류의 생식 제한 염색체에서 첫 번째 유전자의 식별에서 방법의 우리의 구현을 설명합니다. 이 경우 3 참조 (R), 3 주기를 순차적으로 제거 관련 전산 필터링: 불완전 한 게놈 집합, 원시 게놈 데이터 및 transcriptomic 데이터.

Introduction

이 방법의 목적은 소설 대상 (T) 게놈 시퀀스, DNA 또는 RNA 게놈 컨텍스트나 참조 (R) (그림 1)에서 식별 하는 것입니다. 대상 물리적으로 분리 될 수 없다, 또는 그것은 그렇게 비싼 것 하는 경우 메서드를 사용 하면 가장 유용 합니다. 약간 유기 체만 완벽 하 게 마친 게놈 빼기, 그래서 우리의 방법의 주요 혁신은 때 참조 완벽 하지 않습니다, 대상 시퀀스를 분리 하는 연구원을 활성화 주기 또는 초안에 계산의 조합 방법과 벤치 비 모델 유기 체에서의 게놈 사이클의 끝에, 정량 시험 더 빼기가 필요한 지 여부를 결정 하는 데 사용 됩니다. 검증 된 후보 T 시퀀스 정량으로 알려진된 T-양성 샘플에 통계적으로 더 큰 감지를 표시 됩니다.

호스트 homologs^,¹²^,^,³⁴ 가 없는 새로운 세균 약물 목표의 발견에 감염 된 호스트^{에서에서 새로운 바이러스의 식별 방법의 화신 구현 되었습니다. 5}^,⁶. T의 식별, 뿐만 아니라 방법 연구: 우리는 최근 얼룩말 피리 새 류 참조 게놈에서 936 누락 된 유전자와 생식 전용 염색체 (T)⁷에서 새로운 유전자를 식별 하는 방법을 사용을 개선할 수 있습니다. T는 매우 알려진된 시퀀스에서 분기 될 가능성이 있거나 T의 정체성은 얼룩말 피리 새 류 생식 제한 염색체⁷에서 광범위 하 게 정의 된 빼기 유전체학은 특히 중요 합니다.

여 하지 미리 T의 긍정적인 식별, 빼기 유전체학의 주요 장점은 그것이 편견입니다. 최근 연구에서 Readhead 외. 알 츠 하이 머 병 및 4 개의 두뇌 영역에서 바이러스 성 풍부 사이 관계를 검사합니다. 바이러스 성 식별을 위해 Readhead 그 외 여러분 515 바이러스⁸, 그들의 연구를 식별할 수 있는 바이러스 성 대리인을 가혹 하 게 제한 하는 데이터베이스를 만들었습니다. 빼기 게놈 수 사용 되었습니다 건강 한와 츠의 게놈을 비교 하 알려진된 전염 성 요원 그들의 유사성에 질병와 관련 된 가능한 새로운 바이러스를 분리 하기 위하여. 263 알려진된 인간을 대상으로 바이러스 그러나 그것 추정 되었다는 대략 1.67 백만 알려지지 않은 바이러스 종이 존재, 인간⁹감염 가능성이 그들의 631,000 827,000와 함께.

새로운 바이러스의 고립은 빼기 있는 지역 유전체학은 특히 효과적입니다 하지만 일부 연구 엄격한 방법 필요 하지 않을 수 있습니다. 예를 들어 연구 식별 소설 바이러스 추출 하 고 반전 반전 녹음 방송 BLASTx 바이러스 시퀀스⁵ 에 이어서 편견된 높은 처리량 시퀀싱 또는 바이러스 성 핵 산의 풍부 사용 바이러스 시퀀스^{녹음 6}. 이러한 연구 고용 드 노 보 시퀀싱 및 어셈블리, 빼기는 대상 시퀀스 폭발을 통해 긍정적으로 확인 되었습니다 있기 때문에 사용 되지 않았습니다. 만약 바이러스 완전히 소설과 관련이 없는 (또는 먼 관련) 다른 바이러스를 빼기 유전체학 되었을 것 이다 유용한 기술. 빼기 유전체학의 혜택은 완전히 새로운 시퀀스를 얻을 수 있습니다. 생물의 게놈은 알려져 경우 그것은 어떤 바이러스 시퀀스를 떠나 밖으로 공제 수 있습니다. 예를 들어 우리의 출판된 연구에서 우리는 우리의 원래 의도⁷아니었지만 빼기 유전체학을 통해 얼룩말 피리 새 류에서 소설 바이러스 시퀀스 고립.

빼기 유전체학 또한 세균 백신 대상, 극적인 상승 항생제 저항¹^,²^,^,³⁴에 의해 동기의 식별에 유용한 입증 했다. 면역 반응의 위험을 최소화 하기 위해 연구팀은 인간의 호스트에서 homologs 있는 어떤 단백질을 빼서 잠재적인 백신 대상 좁혀. Corynebacterium pseudotuberculosis, 보고 한 특정 연구 가능한 약물 목표 부작용을 선도 하는 호스트에 있는 단백질에는 영향을 미치지 것을 보장 하기 위해 여러 가지 세균성 게놈에서 척추 호스트 게놈의 빼기 수행 ¹. 세균성 프로테옴 다운로드, 중요 한 단백질 결정, 중복 단백질 제거 호스트 homologs와 어떤 단백질을 제거 하려면 호스트 프로테옴에 대 한 필수적인 단백질을 분리 하는 BLASTp 및 BLASTp를 사용 하는 것입니다 이러한 연구의 기본 작업 흐름 ¹ ^, ² ^, ³ ^, ⁴.이 경우 빼기 게놈 확인 백신 개발 호스트¹^,²^,^,³⁴에서 어떤 대상에서 효과 없을 것 이다.

우리는 생식 제한 염색체 (강선) (이 경우, T)에 germlines에서 발견 되는 첫 번째 단백질 코딩 유전자를 식별 하기 위해 빼기 게놈을 사용 하지만 하지 체세포 조직 둘 다의 남녀¹⁰. 이 연구를 하기 전에 그리스에 대 한 알려진 유일한 게놈 정보 반복 지역¹¹했다. 드 노 보 어셈블리 성인 얼룩말 피리 새 류에서 난소와 버 조직 (R + T)에서 시퀀싱 하는 RNA에서 수행 되었다. 시퀀스의 계산 제거 게시 된 체세포 (근육) 게놈 시퀀스 (R₁)¹²를 사용 하 여 수행 되었다, 그것의 원시 (생어) 읽을 데이터 (R₂), 그리고 체세포 (뇌) transcriptome (R₃)¹³. 3 참조의 연속 사용을 필요로 했다 추가 필터링을 보여주는 각 주기는그림 2(A)의 단계 5에서 테스트 하는 정량에 의해 주도 되었다. 검색 된 α-스냅 유전자 DNA와 RNA, 그리고 복제 및 시퀀싱에서 정량 통해 확인 됐다. 우리는 우리의 예제에서는이 메서드는 유연에 표시: 그것은 일치 하는 핵 산 (DNA vs RNA)에 의존 하 고 그 빼기 어셈블리 또는 원시 읽기로 구성 된 참조 (R) 수행할 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 노 보 드 조립 시작 시퀀스

참고: 다음-세대 시퀀스 (NGS) 데이터 사용할 수 있습니다로 그 데이터에서 어셈블리를 생성할 수 있다. 적합 한 입력된 데이터 포함 Illumina, PacBio, 또는 옥스포드 Nanopore 읽습니다 fasta 파일에 조립. Concreteness에 대 한 설명 Illumina 기반 transcriptomic 어셈블리 얼룩말 피리 새 류 연구에 우리 수행⁷. 그러나 구체적인 프로젝트에 의해 달라 집니다 유의 하십시오. 우리의 예제 프로젝트에 대 한 원시 데이터는 MiSeq에서 파생 되었다 고 약 10 백만 쌍된 읽기 각 샘플에서 가져온.

Trimmomatic 0.32¹⁴ 를 사용 하 여 어댑터 Illumina와 낮은 품질 기지를 제거. 커맨드 라인에서 입력:
자바-trimmomatic-0.32.jar PE 용기-phred33 forward.fq.gz reverse.fq.gz-baseout quality_and_adaptor_trimmed ILLUMINACLIP:TruSeq3-PE.fa:2:30:10 선도: 3 후행: 3 SLIDINGWINDOW:4:20 MINLEN:40
0.9.6 대 배¹⁵ 를 사용 하 여 기본 매개 변수를 사용 하 여 trimmomatic 출력 쌍 읽기에서 높은-품질 병합 된 읽기 만들. 커맨드 라인에서 입력:
배-f < quality_and_adaptor_trimmed_1P.fastq > r < quality_and_adaptor_trimmed_2P.fastq >
오류를 해결 하려면 1.1¹⁶ 대 사용 파충류 읽기 배 통해 생산. ¹⁷에서 설명 하는 단계별 프로토콜을 따릅니다.
2.4.0 대 트리니티를 사용 하 여 수정 된 시퀀스를 기본 모드에서¹⁸ . 물가 관련 라이브러리를 사용 하 여-SS_lib_type 매개 변수. 출력은 fasta 파일 (your_assembly.fasta). 커맨드 라인에서 입력:
트리니티-seqType fq-SS_lib_type FR-max_memory 10 G-Trinity_output-quality_and_adaptor_trimmed_forward_paired_reads.fq 왼쪽 출력-quality_and_adaptor_trimmed_reverse_paired_reads.fq-CPU 10 오른쪽
참고: 출력 Trinity_output, 새 디렉터리에 배치 됩니다 및 어셈블리 이름을 바꿀 수 있습니다 Your_assembly.fasta로 원하는 경우 ' Trinity.fasta' 라는 것 이다. 자세한 내용은 트리니티 웹사이트 참조: https://github.com/trinityrnaseq/trinityrnaseq/wiki/Running-Trinity.

2. 폭발 참조 시퀀스에 대 한 어셈블리

참고: 사용이이 단계는 참조 어셈블리 또는 긴 때 생어; 처럼 읽습니다. 그것은의 구성 된다 원시 Illumina 읽습니다 쿼리에 읽기를 매핑하기 위한 아래의 3 단계를 참조 하십시오. 모든 폭발 단계 명령을 어떤 최근 폭발 버전에 작동 한다 버전 2.2.29+와 함께 완료 되었습니다.

명령줄에서 기준 시퀀스 (nucleotide_reference.fasta)의 폭발 데이터베이스를 확인 합니다. 명령줄에 입력 합니다 다음:
makeblastdb-dbtype nucl-nucleotide_reference.fasta에-nucleotide_reference.db에 밖으로
폭발-일치 참조 데이터베이스에 쿼리 어셈블리 (단계 1에서에서 생성 된). 출력 파일을 가져오려면 [-BLAST_results.txt 밖으로] [outfmt-6]를 사용 하는 테이블 형식의 출력 (파이썬 스크립트 후속 단계에 필요)를 생성 하 고. 이 옵션은 임의의 순서로 결합 될 수 있다, 그래서 예를 들어 완료 명령 [blastn-쿼리 your_assembly.fasta db-nucleotide_reference.db-BLAST_results.txt-outfmt 6 개]. E 값 설정을 원하는 경우 예를 들어 [-evalue 1e-6] 적절 한 번호로-evalue 옵션을 사용 합니다. 그러나 그 빼기 주기 효과적으로 반전 evalue 토론에 설명 된 대로 설정을 알고 있어야 합니다.
증가 엄중에 대 한 번역 된 뉴클레오티드 (뉴클레오티드) 데이터베이스의 6 방향 변환을 수행 폭발 (tBLASTn)와 폭발 쿼리로 어셈블리에서 단백질 시퀀스를 사용 합니다. 이 메서드는 불완전 한 단백질 주석 문제를 피하고 대부분의 비-모델 시스템에 대 한 것이 좋습니다.
1. 공부, 사용 되는 유기 체에 대 한 올바른 유전자 코드를 선택 확인-db_gencode 옵션. 쿼리에 대 한 단백질 시퀀스를 얻으려면 조립된 쿼리 시퀀스에서 긴 열려있는 독서 프레임을 식별 하 (3.0.1 대 TransDecoder 패키지)에서 TransDecoder.LongOrfs 명령을 실행 합니다. [TransDecoder.LongOrfs-t your_assembly.fasta]는; 출력 'transcripts.transdecoder_dir' 라는 디렉토리에 배치 됩니다 하 고 your_assembly.fasta에 각 시퀀스에서 긴 예측된 단백질 시퀀스를 포함 하는 longest_orfs.pep 라는 파일을 포함 됩니다.
2. TBLASTn를 사용 하려면 실행 명령을 [tblastn-longest_orfs.pep-db nucleotide_reference.db 쿼리-BLAST_results.txt-outfmt 6 개]. 높은-품질 단백질 참조를 사용할 수 있으면 tBLASTn 보다는 오히려 BLASTp와 일치 하는 단백질을 사용 합니다.
3. 단백질 기준의 폭발 데이터베이스 만들기 [makeblastdb-dbtype 제자-protein_reference.fasta에-protein_reference.db에 밖으로] 그리고 [blastp-longest_orfs.pep-db protein_reference.db 쿼리-BLAST_results.txt-outfmt 6 개]. 다운스트림 처리, 파일로 결과 저장 하 고 Python 스크립트 올바르게 그들을 구문 분석할 수 있도록 테이블 형식 (outfmt 6)를 사용 합니다.

3. 지도 어셈블리에 읽습니다.

참고: 참조 데이터 집합 원시 게놈 읽기 보다는 조립된 시퀀스의 구성 또는 생어 시퀀스는 케이스 사용 폭발 (2.1 단계) 하는 경우이 메서드를 사용할 수 있습니다.

BWA 사용-MEM 0.7.12 대¹⁹ 또는 bowtie2²⁰, 다운로드 원시 읽기 (raw_reads.fastq) 쿼리 어셈블리에 매핑합니다. 출력은.sam 포맷 될 것입니다. 명령어는 다음과 같습니다: 먼저 어셈블리 색인: [bwa 인덱스 your_assembly.fasta] 다음 읽기를 지도 하 고 [bwa mem your_assembly.fasta raw_reads.fastq > mapped.sam]. (참고는 ' >' 기호 여기는 큰-기호; 대신 파일 mapped.sam에가 서 출력 지시).

4. 파이썬 스크립트 제거 모든 일치 하는 시퀀스를 사용 하 여

참고: 파이썬 2.7 스크립트 작업 제공.

2 단계 다음 [./Non-matching_sequences.py your_assembly.fasta BLAST_results.txt] 명령을 사용 하 여 빼기 Python 스크립트를 사용 합니다. 스크립트를 실행 하기 전에 있는지 확인 폭발 출력 파일 형식 6 (테이블 형식) 합니다. Fasta 형식에 일치 하지 않는 시퀀스 파일 이름 your_assembly.fasta_non matching_sequences_BLAST_results.txt.fasta 및 또한 your_assembly.fasta_matching_sequences_BLAST_로 레코드 시퀀스에 일치 하는 스크립트 출력 results.txt.fasta.는 일치 하지 않는 파일은 가장 중요 한, 테스트에 대 한 잠재적인 T 시퀀스의 소스 및 추가 빼기 유전체학의 사이클 있을 것입니다.
파이썬 스크립트 removeUnmapped.py로 실행 3 단계를 다음 단계의 3.1.sam 입력 어떤 일치 읽기 없이 쿼리 시퀀스의 이름을 식별 하 고 새 텍스트 파일에 저장. [./RemoveUnmapped.py mapped.sam] 명령을 사용 하 여 고 출력 mapped.sam_contigs_with_no_reads.txt 될 것입니다. (프로그램 제거 모든 매핑되지 않은 읽기로 slimmed 다운 sam 파일을 생성 합니다;이 파일은이 프로토콜의 목적을 위해 무시 될 수 있습니다 하지만 다른 분석에 유용할 수 있습니다.)
이전 단계의 출력 시퀀스 이름 mapped.sam_contigs_with_no_reads.txt 라는 텍스트 파일에 목록으로 추출이 시퀀스 fasta 파일: [./getContig.py your_assembly.fasta mapped.sam_contigs_with_no_reads.txt]. 출력은 mapped.sam_contigs_with_no_reads.txt.fasta 라는 파일이 있을 것입니다.

5. 남아 있는 시퀀스에 대 한 뇌관 디자인

참고:이 시점에서 있다 fasta 파일 후보 T 시퀀스를 포함 하는. 이 섹션에서는 설명 합니다 그들이 온 T 또는 r.의 이전에 알려지지 않은 지역에서 실험적으로 테스트를 정량을 4 단계에서 빼기 모든 시퀀스를 제거 하는 경우 다음 초기 어셈블리 T를 포함 하는 데 실패 하거나 빼기 너무 엄격한 되었을 수도 있습니다.

Geneious²¹ 을 사용 하 여 수동으로 최적의 뇌관 순서를 결정.
1. 앞으로 뇌관을 위한 21-28 bp의 후보 시퀀스를 강조 표시 합니다. 4 이상의 모든 자료의 실행을 하지 마십시오. 모든 basepairs의 조합으로 상당히 균일 한 지역을 대상으로 하려고 합니다. 뇌관을 고정 하는 단일 G 또는 C 3' 끝에를, 도움이 됩니다.
2. 시퀀스의 후보 지역 강조 녹는 온도 (Tm)를 추정 보려면 화면 오른쪽에 통계 탭에서 클릭 합니다. 반복 및 G/c.의 긴 실행을 피하는 동안 55-60 ° C 사이의 용융 온도를 보고합니다
3. 5.1.1 단계. 그리고 역방향 뇌관을 선택 하는 5.1.2 150-250 기본 쌍 3' 앞으로 뇌관의 위치. 뇌관의 길이 일치 하지 않아도, 하는 동안 예측된 Tm 앞으로 뇌관의 Tm에 가능한 한 가까이 있어야 합니다. 보수는 순서를 확인 하십시오 (순서를 강조 하는 동안 Geneious에서 마우스 오른쪽 단추로 클릭 하는 경우 그것은 메뉴 옵션).
시퀀스 창에서 상단 도구 모음에 있는 뇌관 디자인 기능을 사용 합니다.
1. 뇌관 디자인 버튼 클릭 합니다. 대상 지역에서 증폭 지역을 삽입 합니다.
2. 특성 탭에서 원하는 크기, 녹는 온도 (Tm), 및 %GC (참조 단계 5.1.1.)를 삽입 합니다.
3. 생성 된 뇌관을 확인 을 클릭 합니다. 사용자 지정 올리고 서비스를 통해 뇌관을 주문.
Tm 및 확장 시간 최적화를 제어 dna (인코딩 T 및 R) 뇌관을 확인 합니다. 밴드 크기를 볼 일반 Taq와 젤 전기 이동 법을 사용 하지만 최적화 정량 방법 6 단계에서 다음을 수행할 수 있습니다.
1. 뇌관 10 μ M의 농도가지고 있도록 정방향 및 역방향 뇌관의 10 배 희석을 확인 합니다.
2. DNTP의 0.5 μ, 앞으로 뇌관의 0.5 μ, 역방향 뇌관의 0.5 μ, Taq 중 합 효소의 0.1 μ, 서식 파일의 2 μ, 마그네슘의 0.75 μ, 버퍼의 2.5 μ와 물의 18.15 μ의 PCR 혼합을 사용 하 여 5의 농도와 서식 파일 당 25 μ를 ng / Μ입니다.
3. PCR 프로그램에 다른 녹는 온도에 뇌관을 테스트 합니다. 일반적으로 최적의 성능이 관찰된 용융 온도 뇌관의 그러나 보통 60 ° c.의 위 예측된 Tm 보다 약간은 또한이 가이드를 사용 하 여 항상 최적의 확장에 대 한 테스트: 1000 bp 당 1 분 (따라서, amplicon 길이 따라 보통 10-30 초).
4. 끝점 젤 전기 이동 법 뇌관 예상된 시퀀스 증폭 확인을 수행 합니다. 200 V 20 분 2% 태 agarose 젤에 글리세롤 염료 X 6의 5 μ와 혼합 정량 제품의 25 μ를 실행 합니다.

6. 정량 나머지 시퀀스의 유효성 검사

참고:이 단계는 뇌관 유효성 검사 및 PCR 조건 5 단계에서 설립 필요 합니다.

다음 혼합;과 3 중에 각 서식 파일을 실행 PowerSYBR 그린 마스터 믹스의 12.5 μ, 10 μ M, 10 μ M, 물, 10.5 μ 및 1 μ (2 ng/μ의 농도)에 템플릿 DNA의 농도와 역방향 뇌관의 0.5 μ의 농도와 앞으로 뇌관의 0.5 μ 각 잘 총 볼륨 25 μ를 포함 되도록.
유효 온도 및 4 단계에서 확장 시간에 의해 정량 프로그램을 실행 합니다. 우리 설계 검증 2 단계 주기, 95 ° C 10 분 초기 용융과 호환 되도록 모든 뇌관 그리고 95의 40 주기 30 s 및 1 분 동안 60 ° C에 ° C. 그러나, 3 단계 (용융 anneal-확장) 프로그램 더 뇌관에 대 한 최적의 수 있으며 필요한 경우 적응 해야. 최종 변성 곡선 뇌관 DNA 제품의 확대를 확인 하기 위해 정량에 고용 되어 처음으로 이상 생성 하는 것이 좋습니다.
측정 정량/SYBR 녹색 신호 말라 (또는 다른 적당 한 'R' 제어) 코네티컷에 의해 모든 경우 계산 평균 및 표준 편차 2의^{-(유전자 Ct-β-말라 Ct)}.
(선택 사항) 끝점 젤 전기 이동 법 정량 하 여 올바른 제품 크기 탐지를 확인을 수행 합니다. 여기, 200 V 20 분 2% 태 agarose 젤에 글리세롤 염료 x 6의 5 μ와 혼합 정량 제품의 25 μ를 실행 합니다.

7. 반복 데이터 아래로 껍질을 벗기십시오에 대 한 새로운 참조.

참고: 6 단계에서에서 식별 된 시퀀스의 유효성을 검사 하는 경우 여기 주기 (그림 2A) 끝. 그러나, 고려의 다양 한 동기를 부여 하는 예를 들어 많은 R 시퀀스 파일에 남아 또는 후보 T 시퀀스의 정량에 의해 확인 되었다 경우에 6 단계 사이클의 연속 수 있습니다.

새 참조를 얻을. 이 단계는 사이클의 새로운 반복을 가능 하 게 하 고 원시 게놈 데이터, 원시 RNA-seq 데이터, 또는 다른 조립된 데이터 집합에 포함 될 수 있습니다. 참조 데이터에 대 한 귀중 한 자원 생물 공학 정보 (https://www.ncbi.nlm.nih.gov/genome)는 매장 조립 게놈 FTP (ftp://ftp.ncbi.nlm.nih.gov/genomes/)를 통해 액세스할 수에 대 한 국립 센터에서 게놈 데이터베이스 포함 그리고 원시 다음-세대 시퀀스 읽기 저장 되는 유전자 식 옴니 버스 (https://www.ncbi.nlm.nih.gov/geo/). 게놈 프로젝트는 다른 프로젝트에 연결 된 웹 사이트 및 데이터베이스를 통해 그들의 원시 시퀀스 데이터를 제공할 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

폭발을 실행 한 후 출력 파일 데이터베이스를 일치 하는 쿼리에서 시퀀스의 목록을 해야한다. Python 빼기 후 일치 하지 않는 시퀀스 수, 고 정량에 의해 테스트 됩니다. 이 결과 및 다음 단계를 아래에 설명 되어 있습니다.

결과 부정. 폭발 후 참조 시퀀스를 볼 수 있는 두 가지 가능한 부정적인 결과 있다. 폭발 결과, 전체 순서는 어떤 유사한 시퀀스 참조에 의미 있을 수 있습니다. 이 시퀀싱 하는 샘플에 대 한 올바른 참조 시퀀스 선택에 오류가 있을 수 있습니다. 또 다른 가능성은 (모든 멀리 뺍니다) 시작 어셈블리에 없는 독특한 시퀀스 있는, 그러므로 아무 유전자 관심사의 순서에 대 한 찾을 수 있습니다. 참조에서 온 확인 하 고 확인 쿼리 어셈블리와 동일한 조직이 아니다.

전산 필터링 후 정량 부정적인 결과 얻을 수 있습니다, 그리고 예를 참조 하십시오 그림 3A, 3B, C는 거기 감지에 차이가 새 조직에 걸쳐. C 위원회 A는 다른 빼기 사이클, 어떤 동기 추가 빼기 주기 반복 및 방법 (그림 2, 2B)의 개발에서에서 대표적인 유전자.

긍정적인 결과. 긍정적인 결과-진정한 대상 시퀀스-의 식별은 genomic DNA 정량 조직에 통계적으로 더 큰 감지 표시 확인 / 참조 (그림 3D) 상대적으로 관심의 샘플. 이 경우 빼기 프로젝트 10 백만 읽기 쌍 각 섹스에서 얻는 남성과 여성의 성인 얼룩말 피리 새 류, 생식 조직에서 RNA 시퀀싱 시작. 간단히, 167,929 성적 드 노 보 집합에 의해 얻은 했다만, 난소 시퀀스의 처리를 설명 합니다. 빼기 유전체학 메서드 (BLASTn) 게시 된 체세포 게놈¹², 598 독특한 단백질, 녹취 록의 많은 noncoding 했다 나타내는 5,060 증명서 해당 왼쪽 일치 하는 모든 시퀀스를 제거 하기 위해 사용 되었다. 생어 원시 읽기 어셈블리를 생성 하는 데 사용 했다 사용 됩니다 빼기의 다음 수준에 대 한 tBLASTn, 78 단백질 저조한. 최종 빼기 RNA-seq 원시를 사용 하 여 수행 되었다 청각 lobule¹³, 8 개의 단백질을 왼쪽에서 읽습니다. 이 단백질은 NCBI nr 폭발을 통해 실행 했다, 단백질의 6 개은 바이러스, 하나 조류, 반복적인 지역 이었고 마지막은 그 생식 제한⁷ (그림 2B) α-스냅. 이 과정 이전 전체 게놈 주석에 포함 되지 않은 935 체세포 유전자는 확인 되었다; 여러 조직 (그림 3A, 3B, 3c)에 걸쳐 균일 한 정량 Pcr 증폭을 보여주었다. Α-스냅 유전자 생식 testis DNA 어디 걸 (그림 3D)에 동일한 수준에서 존재 했다 상대적인 체세포 조직에 고갈 했다 때문에 정량를 사용 하 여 제한 된 수를 확인 했다.

무엇이 잘못 될 수 있습니다. 때이 메서드를 사용 하 여 적절 한 레퍼런스 시퀀스 사용 보장은 극복 되어야 하는 주요 문제. 최고의 참조 시퀀스 캡슐화, 넓은 의미에서 관심사 (T)의 순서를 포함 하는 게놈 복잡 합니다. 이 의미는 다른 형태로 시퀀스 transcriptome, 어셈블리, 원시 데이터, 또는 여러 연구에서 데이터 참조 (그림 1)로 사용 될 필요가 있다. 얼룩말 핀치 연구에 우리는 RNA 시퀀싱 데이터에서 뇌관을 개발 그러나, 뇌관 introns 사이 또는 DNA에 뇌관 바인딩 사이트 내에서 존재로 인해 항상 작동 하지 않았다. 우리는 각 뇌관 고환 대상 (T) 및 참조 (R), 적합 한 긍정적인 제어 하기가 인코딩하는 DNA에서에서 genomic DNA에서 PCR에 의해 설정 테스트. 이 단계에서 뇌관 실패 디자인과 적당 한 세트 확인 될 때까지 새로운 뇌관의 테스트 필요로 합니다. PCR 기반 방법의 표준 함정 적용: 증폭 조건 낙관 되어야 한다, 증폭 특이성 테스트 하 여 확인 하거나 복제, 그리고 no-템플릿 컨트롤은 모든 실험에 포함 되어야 합니다. 에 대 한 자세한 내용은 정량 분석 실험,²²참조.

그림 1 . 빼기 접근 반복적으로 총 게놈 데이터에서 관심 (T)의 대상 시퀀스만 복구 (R)에 대 한 여러 참조를 제거할 수 있습니다. 개별 프로젝트의 참조 순서는 이렇게 정확 하 게 중복 되지 수 고 하지는 그림에 표시 된 데이터 집합을 포함할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 2. 시각적 방법. (A) 빼기 주기 회로도 주기 필요 때마다 고유한 참조 시퀀스를 활용 하 여 최상의 결과 얻으려면 여러 번 반복 될 수 있습니다. (단계의 빼기 사이클의 B) 특정 한 예 Biederman 외 실시 ⁷단계 A에서 번호와 표시 된 각 단계에서 나머지 시퀀스 수. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 3 . 부정적이 고 긍정적인 결과 포함 하 여 정량 결과의 예제 데이터. (CHD8, 부정적인 결과의 A) 게놈 DNA 정량. (DNMT1, 부정적인 결과의 B) 게놈 DNA 정량. (C) Genomic DNA 정량 CHD7, 부정적인 결과의. (특히 고환 샘플 및 간, 말라, 긍정적인 결과 기준으로 난소에서 고갈에 존재를 확인 하는 NAPAG의 D) 게놈 DNA 정량. 모든 패널 3 측정의 표준 편차 + 평균을 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

빼기 유전체학 강력한 동안, 몇 가지 주요 단계, 및 참조 시퀀스 및 테스트 샘플의 주의 깊은 선택에서 사용자 지정을 요구 하는 쿠키 커터 접근 아니다. 쿼리 어셈블리 품질의 경우 필터링 단계 어셈블리 유물만 격리 수 있습니다. 따라서, 그것은 철저 하 게 노 보 드 어셈블리를 특정 프로젝트에 적절 한 유효성 검사 프로토콜을 사용 하 여 유효성을 검사 하는 것이 중요입니다. RNA-seq, 트리니티 웹사이트¹⁸ 과 DNA, REAPR²³ 를 사용할 수 있는 같은 도구에 대 한 지침이 제공 됩니다. 또 다른 중요 한 단계 때 폭발을 사용 하 여 적절 한 전자-값, 빼기 편안 또는 엄격한 될 것입니다 여부를 결정 하는의 선택 이다. 그러나, 전도 방법에서 발생: 참조 하려면 더 엄격한 일치는 실제로 보다 적게 엄격한 빼기, 일치 하지 않는 시퀀스 뺀 하지. 따라서, 더 큰 (엄격한) e 값 폭발에 더 엄격한 빼기에 대 한 사용 해야 합니다. 프로토콜의 마지막 필수 단계는 참조 선택 이다. 훌륭한 효율성에 대 한 참조 가능한; 완료 해야한다 그러나, 정량 테스트 확인 T 또는 R, 나머지 시퀀스 인지 여부 더 필터링 하는 것이 필요 하기 때문에 완벽 하 게 될 필요가 없습니다. 프로토콜의 구현 동안 새 참조 유효성 검사 유전자 아래로 사용할 수 있습니다. 우리는 때로는 일치 방법을 변경 될 수 있습니다 주의: 마지막 빼기 단계 우리 쿼리 시퀀스에 원시 읽기 지도 알고리즘 BWA 사용 하 사용자 지정 파이썬 쿼리 시퀀스를 식별 하는 스크립트에 대 한 (그림 2B) 읽고 일치 하는 없음.

이 방법의 한계 참조 시퀀스의 포함합니다. 예를 들어 메이어 외. 새로운 hominin;의 미토 콘 드리 아 게놈을 평가 그들은 인간의 사용 하 고 Denisovan 캡처 시퀀스와 인간의 참조²⁴에 매핑된 미토 콘 드리 아 DNA 프로브. 이 경우에, 연구원은 수는 공제에 대 한 미토 콘 드리 아 게놈을 얻기 위해²⁴읽기 매핑 대체 전략 필요로 하는 기존 핵 게놈 참조 데이터 했다. 인간의 미토 콘 드리 아 참조 기준으로 소설 mitochondrion의 광범위 하 게 차이점이 어떤 지역 읽기 매핑에 의해 손실 될 것입니다. 빼기 유전체학 읽기 매핑 하지만 항상 연구 문제에 따라 적용 이며 고 대 DNA의 낮은 수준 시퀀스 범위 드 노 보 어셈블리 (에 필요한의 종류를 배제 하는 경우에 보다 덜 바이어스 접근 제공 1 단계 빼기 유전체학의)입니다.

물리적 정화 빼기 유전체학에 다른 대체 방법을 제공합니다. DNA 또는 RNA의 정화는이 organellar 유전자 핵 게놈²⁵^,²⁶^,^,²⁷²⁸보다 훨씬 작은 있기 때문에 시퀀싱 전체 엽록체와 미토 콘 드리 아 게놈에서 자주 사용 됩니다. 인간과 다른 더 작은 미토 콘 드리 아 게놈 증폭 정화²⁵다음 두 뇌관 세트를 사용 하 여 통해 시퀀싱에 대 한 격리 수 있습니다. 그러나, 빼기 유전체학 미토 콘 드리 아 게놈은 비정상적으로 큰 뇌관 바인딩 사이트 분기 또는 전체 게놈에 발생 하지 것입니다 경우에 대 한 도움이 될 수 있습니다. 이 예제에 있는 큰, 분기, ciliates 선형 미토 콘 드리 아 게놈²⁹이다. 매핑을 참조 게놈 아니다 ciliates 높은 분기 때문에 대 한 실행 가능한 옵션이 종과 homologs의 부족에 걸쳐 genuses³⁰에서도. 사용 하 여 빼기 유전체학, ciliate 미토 콘 드리 아 게놈 절연 고 게놈의 누락 된 세그먼트의 가능성을 최소화 하면서 분석 될 수 있습니다. 마찬가지로, 드 노 보 어셈블리 접근 싯카 가문비나무 엽록체 게놈 어셈블리에서 사용 되었다, 하는 동안 간격 폐쇄 관련된 비교 읽기 화이트 스프루 스, 잠재적으로 이러한 사이트³¹에서 바이어스를 도입에 대 한 매핑.

프로젝트에 따라 빼기 유전체학 시간을 제공 하 고 검색 프로세스에 더 적은 바이어스를 제공 하는 동안 정화 또는 접근에 상대적인 장점 비용 수 있습니다. 경우에 따라 대상 시퀀스 쉽게 고립 때문에 수 없습니다 그것은 완전히 알려진 (미토 콘 드리 아), 세포 생존에 필수적 이다 또는 너무 커서 표준 젤 전기 이동 법으로 분리. 전기 이동 정화 크기 기반은 느린 이며 여러 시도 조건을 최적화 하는 동안 중요 한 시작 물자 (비용이 있을 수 있습니다). 펄스-필드 젤 전기 이동 법 (PFGE) 10⁷bp (10mb)까지 DNA 조각의 분리 하지만 2-3 일, 많은 양의 소재, 그리고 때로는 특수 장비 상용³²는 걸립니다. Biederman 외., 생식 제한 염색체에서 알려진 유일한 시퀀스는 noncoding 반복⁷. 이 염색체는 새, 길이¹⁰, 100 Mb 이상의 큰 정화는 불가능 했습니다; 따라서, 빼기 유전체학 다른 방법 수 없습니다 할 수 있었습니다. 게놈 시대에서 그것은 종종 저렴 하 고 빠르게 지금, 시퀀싱 하 고 나중에 컴퓨터에 의해 필터링입니다. 완전히 새로운 시퀀스의 발견을 사용 하면, 빼기 유전체학 완벽 한 참조 시퀀스 없이 새로운 시퀀스를 분리 하는 접근의 조합을 활용 합니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 없다.

Acknowledgments

저자 미셸 Biederman, Alyssa 페데르센, 그리고 콜린 J. Saldanha 얼룩말 피리 새 류 게놈 프로젝트와 다양 한 단계에서 그들의 지원에 대 한 인정합니다. 우리는 또한 컴퓨팅 클러스터 시스템 관리 및 NIH 그랜트 1K22CA184297 (J.R.B.)를 및 NIH NS 042767 (C.J.S)를 위한 Evgeny Bisk를 인정 합니다.

Materials

Name	Company	Catalog Number	Comments
Accustart II Taq DNA Polymerase	Quanta Bio	95141
Blasic Local Alignment Search Tool (BLAST)			https://github.com/trinityrnaseq/trinityrnaseq/wiki/Transcriptome-Assembly-Quality-Assessment
Bowtie 2			https://www.python.org/download/releases/2.7/
BWA-MEM v. 0.7.12			https://github.com/BenLangmead/bowtie2
Geneious			https://blast.ncbi.nlm.nih.gov/Blast.cgi
PEAR v. 0.9.6			http://www.mybiosoftware.com/reptile-1-1-short-read-error-correction.html
Personal Computer	Biomatters		http://www.geneious.com/
PowerSYBR qPCR mix	ThermoFisher	4367659
Python v. 2.7			https://sco.h-its.org/exelixis/web/software/pear/
Reptile v.1.1			https://alurulab.cc.gatech.edu/reptile
Stratagene Mx3005P	Agilent Technologies	401456
TransDecoder v. 3.0.1			https://sourceforge.net/projects/bio-bwa/files/
Trinity v. 2.4.0			https://github.com/TransDecoder/TransDecoder/wiki