Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biology

파편을 사용하여 풀링된 장면에서 드문 게놈 변종의 탐지

Published: June 23, 2012 doi: 10.3791/3943

Summary

풀링된 유전자 시퀀싱은 큰 무리에서 복잡한 phenotypes와 관련된 희귀한 변종을 탐지하기위한 빠르고 비용 효율적인 전략이다. 여기 가시가 소프트웨어 패키지를 사용하여 32 암 관련 유전자의 풀링, 차세대 시퀀싱의 전산 분석을 설명합니다. 이 방식은 확장성, 그리고 관심의 표현형에 적용됩니다.

Abstract

DNA 시퀀싱 기술이 현저하게 최근 2에 진출했습니다로서 임의의 두 개인 사이의 유전적 변이의 양을 이전에 3 생각보다 큰 것이 점점 더 분명되었다. 대조적으로, 배열 기반 genotyping은 4,5 흔한 질환의 phenotypic 다양성에 일반적인 순서 변종 큰 공헌을 식별하는 데 실패했습니다. 함께 촬영이 관찰 공통 질병 / 일반 및 복잡한 phenotypes의 "누락 heritability"대부분의 대신 희귀 또는 개인의 DNA 변종 6-8 중 개인의 개인 프로필에 의한 것을 제안 희귀 변종 가설의 발전을 이끈 것은 . 그러나 드문 변형 복잡한 phenotypes 영향을 얼마나 특성화하는 것은 많은 게놈 loci에 많은 영향을받는 개인의 분석을 필요로하고, 이상적으로 영향을받지 일대에서 비슷한 설문 조사에 비교됩니다. 오늘날의 플랫폼이 제공하는 시퀀싱 전력에도 불구하고많은 게놈의 loci 및 필요한 후속 전산 분석 인구 기반 조사는 많은 수사관을위한 금지 남아있다.

이 요구를 충족하기 위해, 우리는 풀링된 시퀀싱 기법 1,9와 결과 데이터에서 고도로 정확하고 희귀한 변종 검출을위한 새로운 소프트웨어 패키지 1을 개발했습니다. 영향을받는 개인 및 설문 조사 단일 시퀀싱 라이브러리에서 여러 대상 지역에서 유전 변이의 정도의 전체 인구에서 풀 genomes에 대한 능력은 기존의 단일 샘플 시퀀싱 방법론에 뛰어난 비용 및 시간 절감 효과를 제공합니다. 25 배 이상의 allele 당 평균 시퀀싱 보험 혜택과 함께, 우리의 사용자 정의 알고리즘, 가시가 1로 최대의 수영장에서 높은 민감도와 특이성과 길이가 무려 기본 쌍에 삽입, 삭제 및 대체를 호출하기위한 내부 변형 호출 제어 전략을 사용 500 개인의 돌연변이 allele. 여기 풀링을 준비하는 방법을 설명도서관을 equencing 것은 풀링 시퀀싱 분석 (위해 가시 패키지를 사용하는 방법에 대한 단계별 지침은 다음 http://www.ibridgenetwork.org/wustl/splinter ). 우리는 947 개인의 풀링된 시퀀싱 간의 비교를 보여, 누구의도 인당 시퀀싱의 20킬로바이트 이상에서 게놈 차원의 배열을 받았습니다. 태그가의 genotyping과 풀링된 샘플로 불리는 새로운 변종 사이의 일치가 우수했다. 이 방법은 쉽게 게놈 loci과 개인의 숫자의 개수까지 확장할 수 있습니다. 연구하에 인구를 모방 비율에서 내부 긍정과 부정 amplicon 컨트롤을 통합함으로써, 알고리즘은 최적의 성능을 보정 할 수 있습니다. 이 전략은 또한 하이브리드화 캡처 또는 개별 고유의 바코드와 함께 사용하도록 수정할 수와 같은 종양의 DNA와 같은 천연 이기종 샘플의 시퀀싱에 적용할 수 있습니다.

Protocol

이 방법은 Vallania FML 외. 게놈 연구 2010 년 보고된 연구에 사용되었다.

1. 샘플 풀링 및 타겟 게놈 Loci의 PCR 캡처

  1. 당신의 수영장 (들)의 각각의 게놈 DNA를 표준 금액을 결합. PCR 반응 인당 DNA의 0.3 NG를 사용하면 수영장에서 allele 당 균일한 증폭의 가능성을 향상 각각의 PCR 반응으로 인당 약 50 diploid의 genomes를 통합할 것입니다.
  2. 게놈 시퀀스는 NCBI (에서 얻을 수 있습니다 http://www.ncbi.nlm.nih.gov/ ) 또는 UCSC 게놈 브라우저 ( http://genome.ucsc.edu/index.html ).를 사용해야합니다 반복 영역의 프라이머를 디자인 피하는 시퀀스를 얻어 "RepeatMasker"( "N"으로 표시).
  3. 웹 기반 Primer3을 (사용rimer3/input.htm "목표는 ="_blank "> http://frodo.wi.mit.edu/primer3/input.htm) 유틸리티 관심 플러스 몇 가지 측면 시퀀스의 게놈 영역을 잘라내어 붙여넣기하여 primers를 설계하는 (중 amplicons 600-2000 BP)은 일반적으로 적합 사용되는 프라이머 3에 대한 최적 프라이머 설계 조건은 10입니다 : 최소 프라이머 크기 = 19; 최적 프라이머 크기 = 25; 최대 뇌관 크기 = 30; 최소 TM = 64 ° C, 최적 TM. = 70 ° C, 최대 TM = 74 ° C, 최대 TM 차이 = 5 ° C, 최저 GC 함량 = 45; 최대 GC 함량 = 80, (이것은 임의입니다) = 20를 반환하는 숫자, 최대 3 '말단 안정성 = 100 관심의 모든 게놈 loci를 증폭합니다. 디자인 primers. primers를 접수하는 즉시는 동결 건조된 주식은 ddH에 추가 10시 1분 희석 뒤에 100 어의 최종 농도에 10 밀리미터 트리스, 산도 7.5 + 0.1 밀리미터 EDTA (에틸렌 다이아 민 테트라 초산)에 희석 수 2 O는 10 ~ 음.
  4. PCR 증폭 : 우리는 대규모 게놈을 증폭하기위한 높은 충실도의 DNA 중합 효소의 사용을 권장합니다낮은 오류율 (10 -7)과 무딘 종료된 제품 (이것은 하류 내고 단계에 필요한)의 생성으로 인해 amplicons. 우리는 PfuUltra 하이 피델리티를 사용했지만 유사한 특성 (예 : Phusion 등) 효소는 비교 결과를 제공해야합니다. 각각의 PCR 반응 2.5 U PfuUltra 높은 충실도 효소의 최종 농도를 포함, 1 M의 베타인, 각 프라이머 400 NM, 200 μm의 dNTPs, 1X PfuUltra 버퍼 (또는 + 효소 충실도를 유지하기 위해서는 ≥ 2 밀리미터 밀리그램 2를 포함하는 버퍼) 50 μL의 최종 볼륨에서 풀링된 DNA의 5-50 NG. 1 : 다음의 PCR 조건을 사용합니다. 93-95 ° 2 분을 C 2. 30 초 93-95 ° C에서 3. 30 초 58-60 ° C, 4. 65-70 ° amplicons 500-1000 BP / amplicons> 1킬로바이트위한 3~5분 용 250-500 BP / 1.5-3 분 amplicons위한 60~90초위한 C; 5. 반복 25-40 사이클에 대해 2-4 단계; 6. 65 ° C 10 분, 7. 4 ° C를 누르고 있습니다. 필요한 경우 PCR 결과는 일반적으로 좋아질 수 : 1)2) 대형 amplicons위한 어닐링 온도를 높여; 작은 amplicons위한 어닐링 온도를 낮추면 3. 어떤 amplicon의 확장 시간을 길어.
  5. 가시가 컨트롤의 작성 : 매주 가시 실험은 부정과 긍정적인 컨트롤의 존재가 최적의 정확도를 얻기 위해 필요합니다. 부정적인 제어는 이전에 (HapMap 샘플 등) 순서가되어 개별, 바 - 코드 샘플에있는 모든 homozygous 기본 위치로 구성될 수 있습니다. 긍정적인 컨트롤은 다음 두 개 이상의 같은 샘플의 혼합물로 구성되어 것이다. 이 보고서 내용은 부정적인 컨트롤 M13mp18 ssDNA 벡터의 백본에서 1,934 BP 증폭 지역입니다. PCR 제품은 어떤 순서 변동이 소스 재료 또는 PCR의 증폭에서 존재하지 않는 것을 확인하기 위해 이전의 사용에 Sanger 호기했습니다. 긍정적인 통제는 특정 삽입되거나 삭제, substit으로 설계 삽입 복제된 72 BP와 pGEM-T 쉬운 벡터의 패널로 구성되어 있습니다utions (표 1). 우리는 어금니 비율에서 야생 타입 배경 함께 벡터를 섞어 돌연변이가 수영장에서 하나의 allele (예 : 100 allele 풀에 대해 하나의 allele의 빈도는 1 %입니다)의 주파수에 존재라서 정말. 그러면 PCR은 pGEM-T 쉬운 M13 PUC 프라이머 사이트를 사용하여 최종 355bp 긴 PCR 제품을 생성하는 복합 컨트롤 템플릿을 증폭.

2. 풀링된 PCR 도서관 준비 및 장면

  1. PCR 제품의 풀링 : 각 PCR 제품이 초과 primers로 세척해야합니다. 우리는 Qiagen Qiaquick 칼럼 정화 또는 대규모 정화를위한 진공 매니폴드와 96 - 웰 플레이트 필터를 사용했습니다. 정화 후, 각 PCR 제품은 표준 기술을 사용하여 계량한다. 농도가 풀링으로 분자 수로 정규화 수영장으로 모든 PCR 제품을 (컨트롤 포함) 결합은 작은 amplicons 오븐의 overrepresentation집니다어 큰 제품보기. 농도는 수식을 사용하여 볼륨마다의 DNA 분자의 절대적인 숫자로 변환된다 : (G / μL) × (1 몰 X BP / 660g) × (amplicon 1 / # BP) × (6 × 10 23 분자 / 1 몰 ) = 분자 / μL. 그러면 수영장 amplicon 당 분자의 정규화된 숫자에 필요한 각 반응에서 볼륨을 결정합니다. 이 숫자는 임의입니다 조정할 수 있으며, 정말 정확성을 유지만큼 큰 볼륨을 pipetting에 따라 달라집니다. 우리는 일반적으로 각 amplicon 1-2 X 10 10 분자를 풀.
  2. PCR 제품의 결합 :이 단계는 작은 PCR의 amplicons의 sonication 그들의 끝을 향해 그들의 표현을 편견하므로 균일한 배열 범위를 달성하는 데 필요합니다. 이것을 극복하기 위해 우리는 분열 이전의 대형 concatemers (> = 10 KB)으로 풀링된 PCR 제품을 ligate. Pfu 울트라 HF의 효소는 효율적인 결합 (DNA 형성 촉매 기반의 중합 효소가되지 않습니다 3P ""오버행을 추가할 예정으로 이어지는, 무딘 끝을 생성채우기 또는 blunting 사전없이 llow의 결합)가.이 반응은 2-3 배 필요한 경우를 확장할 수 있습니다. 결합 반응은 50 μL의 최종 볼륨에서 풀링된 PCR 제품의 2 μg ~ 10 U T4 폴리 뉴클레오 타이드의 키나제, 200 U T4 ligase 15 % W / V 폴리에틸렌, 1X T4 ligase 버퍼, 글리콜 8,000 MW를 포함합니다. 반응은 20 분 동안 65 ° C 다음과 ° C 이후 4 시에 개최 16시간 22 ° C에서 incubated됩니다. 이 단계의 성공은 1 % 아가로 오스 겔에 샘플의 50 NG를로드하여 확인하실 수 있습니다. 성공적인 결합은 차선의 높은 분자 - 중량 밴드 선물 (그림 2 차선 3 참조)가 발생합니다.
  3. 디엔에이 조각 :이 시점에서 당신은 PCR 제품의 대형 concatemers을 (> 10킬로바이트)이 있어야합니다. 우리는 24 샘플 Diagenode Bioruptor의 sonicator를 사용하여 임의의 sonication 전략을 가지고 그 조각이 25 분 안에 이러한 concatemers (40 초 분당 / 20 초 "OFF" "에 대한") 수 있습니다. Sonication 너무, PEG에 의해 도입된 점도에 의해 저해된다이것은 Qiagen PB 버퍼에 샘플 10시 1분을 diluting에 의해 극복할 수있다. 결과는 2 % 아가로 오스 겔 (그림 2, 4 및 5 차선 참조)에서 확인하실 수 있습니다.
  4. 예제는 "최종 수리"단계에서 Illumina 게놈 라이브러리 샘플 준비 프로토콜 시작에 직접 통합할 준비가되어 있습니다. 여기에 보고된 데이터는 단일 엔드에서 Illumina 게놈 분석기 IIx를 읽고 있지만, 우리는 HiSeq 2000을 사용하고 단일 또는 결합하여 엔드 비교 결과와 함께 읽습 수행했습니다. 만든 도서관의 규모를 감안할 때, 우리는 또한 HiSeq 플랫폼 (데이터가 보이지 않음)가 제공하는 대역폭을 수용하는 멀티 플렉스 복합 풀링 라이브러리를 위해 사용자 정의 barcoded 어댑터를 사용했습니다. 제조 업체의 프로토콜과 키트와 함께 권장 사항을 따르십시오. 25 배 또는 allele 회 이상의 변형 감지, 대상 범위에 대한 최적의 감도와 특이성을 달성하기 위해서하는 것은 (그림 3)을 권장합니다. 이 견적은 수영장 크기의 독립이다및 변형의 종류가 발견 될 수 있습니다. 필요한 여러 골목길과 달리기는 적절한 범위를 달성하기 위해 조합하여 사용할 수있는 경우.

3. 시퀀싱은 정렬 및 분석을 읽습니다

  1. 파일 압축 및 서식 : 원료 시퀀싱의 읽기 파일 중 스카프 형식 또는 압축된로 변환해야합니다. 그것이 모든 관련 정보를 잃지 않고 이후의 분석 단계를위한 시간과 공간을 절약할로 압축은 선택 사항입니다. 이것은 다음 명령에 포함된 스크립트 RAPGAP_read_compressor_v2.pl를 사용하여 달성된다 :
    ./RAPGAP_read_compressor_v2.pl [읽기 파일]> [압축 파일 읽기]
    읽기 허용 파일의 입력 형식은 스카프와 FASTQ, gzip으로 압축하거나 또는 압축되지 않은 다음과 같습니다
    스카프 형식의 예 :
    HWI-EAS440 : 7:1:0:316 # 0 / 1 : NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC : DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
    FASTQ 형식 예 :
    @ HWI-EAS440_7_1_0_410 # 0 / 1
    NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
    +
    및 / 8888888888888888888854588767777666!
  2. 원시 읽기 정렬 : 원료 읽기는 이제 PCR 반응뿐만 아니라 긍정적이고 부정적인 컨트롤에 포함된 대상 지역에 특정한 주석 FASTA 참조 순서로 정렬됩니다. 정렬은 포함 정렬 도구 RAPGAPHASH5d를 사용하여 수행할 수 있습니다. 이 시점에서 입력 형식은 스카프 또는 압축되어야합니다. 정렬을위한 명령은 다음과 같습니다 :
    ./RAPGAPHASH5d [압축 파일 읽기] [FASTA 파일] [편집 횟수 금지]> [파일 연합]
    레퍼런스 시퀀스에 비해 허용되는 읽기 당 불일치의 수는 사용자 정의 매개 변수입니다. 불일치의 초과 번호를 읽기은 무시됩니다. 우리는 101 BP 읽기에 대한 BP 객관적 으론 76 5 불일치 36 BP 읽기, 4 불일치 2 불일치를 허용하는 것이 좋습니다. 더 많은 불일치를 허용하는 것은 알으로 허용 초과 시퀀싱 오류의 가능성을 높일 것입니다데이터를 igned. 읽기 길이가 더 오래되고 지속적으로이 값은 더욱 높이실 수 있습니다.
  3. 태그 같은 flowcell에서 파일을 정렬 :이 시점에서 전체 파일을 읽을 정렬은 같은 시퀀싱 실행 (같은 flowcell에서 즉 여러 차선을 총체적 수에 속하는 읽을 파일을 식별하기 위해 고유 식별자 ( "태그") 부여하여야한다 와) 단일 태그를 부여. 각 기계의 운영이 태그를 통해 특성화 수있는 고유의 오류 프로파일을 생성하기 때문에 태그가 필요합니다. 태그 읽습 세트를 (가 밑줄 "_"파싱 문제에 사용하지 않아야합니다) 구분하는 데 사용되는 문자의 alphanumerical 문자열입니다. 다른 태그는 다른 flowcells이나 시스템 실행에서 생성된 정렬 읽기 파일에 사용해야합니다. 태그는 다음과 같은 명령을 포함 RAPGAP_alignment_tagger.pl를 사용하여 추가할 수 있습니다 :
    . / RAPGAP_alignment_tagger.pl [정렬된 파일] [TAG]> [태그가 지정된 파일을 연합]
    이 시점 이후 정렬여러 다른 flowcells에서 생성된 동일한 라이브러리에서 파일을 각각의 태그로 함께 조합하여 사용할 수 있습니다한다고 대중들이 구분하도록 노력하겠습니다.
  4. 오류 모델 생성 : 위에서 설명 한바와 같이, 각 기계의 실행은 정확한 변형 통화를 위해 특성화해야 시퀀싱 오류의 독특한 프로파일을 생성합니다. 각 기계의 운영에 대해이 오류를 모델링하기 시퀀스의 유사 찾아볼 수없는 것으로 알려진 내부 통제 순서는 각 풀링된 샘플 라이브러리에 포함되어 있습니다. 정렬 태그를 파일에서 오류 모델 파일은 부정적인 컨트롤 레퍼런스 시퀀스에 포함된 도구 EMGENERATOR4를 사용하여 생성할 수 있습니다. 모든 부정적인 제어 시퀀스 또는 5 '및 3'입력에있는 대부분의 기지에 의해 지정된 그것만이 하위 집합을 사용하거나 할 수 있습니다. 고유는 읽고 pseudocounts 항상 사용해야합니다 :
    ./EMGENERATOR4 [연합 태그를 파일] [부정적인 제어 시퀀스] [출력 파일 이름] 대부분의 기지 [5 '[3 사용되는 부정적인 컨트롤의 대부분의 거점]을'사용되는 부정적인 컨트롤] 독특 [포함 단지를 읽고? = Y] [선형은 컷오프를 편집] [pseudocounts을 입력하십시오? = Y는]
    EMGENERATOR4 도구 _0, _1 또는 _2 다음 출력 파일 이름을 매개 변수로 명명된 3 개의 파일이 생성됩니다. 이러한 파일은 0번째, 1 각각 두번째 주문 오류 모델에 해당합니다. 가시가 함께 부르는 변종의 경우, 2 주문 오류 모델이 항상 사용해야합니다.
  5. 실행의 에러율 프로필을 시각화 내용 error_model_tabler_v4.pl는 0번째 주문 오류 모델 파일 (그림 4)에서 PDF 오류 음모를 생성하는데 사용될 수 있습니다 :
    ./error_model_tabler_v4.pl [오류 모델 0번째 순서 파일] [출력 파일 이름]
    줄거리 파일은 런타임 특정 오류 동향을 발표할 예정하고 다음 섹션에서 설명되는 분석에 사용되는 읽기 기지의 최대 개수를 추측하는 데 사용할 수 있습니다.

4. 가시를 사용 희귀한 변종 감지

  1. 변종 들리파편에 의해 g : 비용 분석의 첫 번째 단계는 오류 모델과 참조 시퀀스를 사용하여 정렬된 파일에 가시가 도구를 실행하는 것입니다. 이렇게하는 명령은 다음과 같습니다 :
    ./SPLINTER6r [연합 태그를 파일] [FASTA 파일] [2 주문 오류 모델 파일] [수와 사용될 기지를 읽기] [제외되는 기지 또는 사이클을 읽는] [P-값 컷오프 = -1.301] 독특 [사용 읽고 = Y] [선형은 컷오프를 편집] 사용 가능한 옵션에서 [풀 크기] [절대적인 범위를 인쇄 가닥 당 = Y]> [가시 파일]
    사용되는 읽기 기지의 숫자는 다양하고 각 실행에 따라 평가해야합니다. 우리는 일반적으로 그들은 최고 품질의 데이터를 (처음 24 예를 들어, 읽기 36bp 길이의 기지를 읽고) 대표로 읽기의 첫 2/3rds를 사용하는 것이 좋습니다. (쉼표 또는 N 예 : 5,7,11 또는 N으로 구분) 결함이 발견된 경우에는 싱글 읽어 기지는 분석에서 제외시킬 수 있습니다. P-값 컷오프는 변종 통화 분석이 될 것입니다 얼마나 엄격한 거잖아요. 우리도mally -1.301 최소 단절을 (log10 규모 ≤ 0.05 P-값에 대응하는) 허용하여 분석을 시작합니다. 수영장 크기 옵션은 실제 수영장에서 하나의 allele의 그것보다 덜 사소한 allele 주파수와 잠재적인 변종을 제거하여 알고리즘 "신호 대 잡음"차별을 최적화합니다. 50 개인의 수영장에서 예를 들면, 가장 낮은 관찰된 변종은 0.01 주파수 또는 100 개의 대립 유전자가 1에서 기대할 수 있습니다. 따라서, 수영장 크기 옵션 (40 명이 조사하는 경우에 가장 가까운 옵션 100의 풀 사이즈 될 수 있도록, 우리는 80 개의 대립 유전자가 기대 IE) 실험에서 분석 대립 유전자의 실제 개수보다 큰 가장 가까운 값으로 설정해야 . 주파수 <0.01로 불리는 변종 그러면 소음으로 무시됩니다. 이 파일은 변형의 위치에 대한 설명, 변형의 종류의 DNA 가닥 당 P-값, 변형의 빈도와 DNA의 가닥 당 총 보상 (함께 샘플에 걸쳐 통계적으로 의미있는 모든 안타를 반환
  2. 소위 변종에 대한 범위를 정규화 : 시료 전체 범위의 변동은 가짜 안타를 생성할 수 있습니다. 이것은 다음과 같이 splinter_filter_v3.pl 스크립트를 적용하여 해결할 수있다 :
    ./splinter_filter_v3.pl [가시 파일] [목록 파일] [엄중]> [가시가 정규 파일]
    목록 파일은 탭으로 구분된 파일의 형태로 긍정적인 제어 히트의 목록입니다.
    두번째 필드는 돌연변이가 존재하는 위치를 나타내는 반면에 첫 번째 필드는 관심 amplicon을 나타냅니다. N은 순서의 나머지 어떤 변이를 포함하지 않는다는 것을 나타냅니다.
  3. 긍정적인 제어 데이터를 사용하여 최적의 P-값이 임계값을 결정 : 정규화 후, 긍정적인 컨트롤의 분석은 특정 시료 분석의 민감도와 특이성을 극대화하기 위해 필수 불가결합니다. 이것은 informa를 사용하여 최적의 P-값 컷오프을 찾는함으로써 달성될 수긍정적인 컨트롤에서 기. 대부분의 -1.301의 초기 P-값이면, 긍정적이거나 부정적인 컨트롤에서 잘못된 반응의 부름집니다있는만큼 엄격한되지 않습니다. 모든 파편 분석하는가 선험을 예측할 수 없습니다, (표 2 열 5와 6 참조) 각 소위 변종에 대한 P-값은 실제를 보여줍니다. 그러나, 전체 분석 알려진 진정한 긍정 기본 위치의 초기 출력에 표시 P-값은 적어도 엄격한를 사용하여 반복 수 있습니다. 이것은 모든 아니라, 잘못된 반응한다면, 대부분을 제외하고는 일반적으로 훨씬 큰 P-값을 진정한 긍정적 비교가있을 때, 모든 진실 반응을 유지하기 위해이 될 것입니다. 이 과정을 자동화하기 위해 cutoff_tester.pl을 사용 할 수 cutoff_tester.pl는 가시가 출력 파일과 정규화에 사용되는 것과 탭으로 구분된 파일의 형태로 긍정적인 제어 히트의 목록이 필요합니다. :
    . / cutoff_tester.pl [가시 필터에드 파일] [파일 목록]
    결과 출력은 점진적 (표 3 참조) 최적의 하나에 도달 단절의 목록이 될 것입니다. 형식은 다음과 같습니다 :
    [최대 감도와 특이성의 거리] [감성] [특이성] [차단]
    예를 들면 :
    7.76946294170104e-07 일 0.999118554429264 -16.1019999999967
    마지막 라인은 실행을위한 가장 최적의 단절을 상징하므로 데이터 분석을 위해 사용될 수 있습니다. 최적의 결과는 1 민감도와 특이성을 달성하는 것입니다. 이 결과에 도달하지 않는 경우, 파편 분석은 법인의 수가 가장 최적의 조건이 달성될 때까지 기지를 읽어 변경하여 반복 수 있습니다.
  4. 최종 변형 필터링 : 최종 컷오프는 최적의 컷오프 아래 조회수 있던 파편 출력 파일을 필터링합니다 cutoff_cut.pl 스크립트를 사용하여 데이터에 적용할 수있는
    . / cutoff_cut.pl [가시가 필터링된 파일] [차단]> [가시 최종파일]
    이 단계는 샘플에있는 SNPs와 Indels를 포함 최종 가시가 출력 파일을 생성합니다. 삽입의 출력은 대체 또는 삭제 (표 2)에 비해 약간 다르다는 것을 유의하시기 바랍니다.

5. 대표 결과

우리는 947 개인의 인구를 풀링 및 시퀀싱을위한 20킬로바이트 이상 대상. 우리는 우리의 표준 프로토콜에 따라 희귀 변종의 탐지를 위해 가시를 적용했습니다. 각 개인은 이전 게놈 차원 배열 genotyping 수행 genotyping했다고했다. 태그가의 genotyping과 풀링된 샘플로 불리는 새로운 변종 사이의 일치는 (그림 6) 우수했다. 인구 드문 분인 두하는 (rs3822343와 rs3776110)의 세 변종은, 시퀀싱 결과에서 드 노보라는되었으며 개별 pyrosequencing에 의해 확인되었다. 수영장에서 마이너 allele 주파수 (MAF)는 MAF와 유사한 있었다 dbSNP 빌드 129로 보도했다. pyrosequencing 및 풀링된 시퀀싱 사이 MAF의 일치는 (표 3) 우수했습니다.

표 1
긍정적인 제어를위한 표 1.의 DNA oligonucleotide 시퀀스. 각 시퀀스는 두 대체하거나 삽입 하나 삭제하거나하여 야생 유형 레퍼런스에서 다양한 유전자 조각으로 구성되어 있습니다. 큰 이미지를 보려면 여기를 클릭하십시오 .

표 2
표 2. 가시 출력의 예. 처음 두 행 치환 또는 삭제 (파란색 헤더)에 대한 표준 가시 출력을 나타냅니다. 마지막 행은 삽입 (보라색 헤더)에 대한 표준 가시 출력을 나타냅니다.rget = "_blank"> 큰 이미지를 보려면 여기를 클릭하십시오.

표 3
표 3. 다섯 알려진 세 소설 변종은 큰 인구에서 확인 및 개별 genotyping에 의해 확인되었다. 개별 유효성 검사는 pyrosequencing (행 1-3), TaqMan 분석 (행 4-6) 또는 Sanger 시퀀싱 (행 7,8)에 의해 수행되었다. 광범위한 allele 주파수 범위와 MAF있는 5 순위 <1 %를 포함한 내용은 풀링된 시퀀싱 allele 주파수 추정 및 개별 genotyping 사이의 일치가 강했어요. 별표 (*)로 표시된 위치는 이전 보도 자료 9 적응할 수있다.

그림 1
그림 1. 풀링된 -의 DNA 시퀀싱 및 가시가 분석 개요. 환자의 DNA가 풀링된됩니다그리고 선택한 loci에서 증폭. 최종 PCR 제품은 몰 비율에서 긍정적이고 부정적인 컨트롤과 함께 풀링됩니다. 풀링된 믹스 그 다음 순서가되고 그 결과 읽기들은 참조로 다시 매핑됩니다. 매핑 부정적인 제어 읽기는 런타임 특정 오류 모델을 생성하는 데 사용됩니다. 가시가 다음 오류 모델과 긍정적인 컨트롤에서 정보를 통합하여 희귀 SNPs와 indels를 감지하는 데 사용할 수 있습니다. [Vallania FLM 외, 게놈 연구 2010에서 적응] 큰 이미지를 보려면 여기를 클릭하십시오 .

그림 2
그림 2. 풀링된 PCR의 amplicon의 결합과 sonication. 결합 및 도서관 준비 프로토콜의 임의의 조각화 단계 시범적으로 pUC19 벡터는 효소 차선 2에 표시된 조각으로 소화했다. 이러한 조각은 노마 있었다, 분자 번호로 lized 결합하여 무작위로 위의 1.7 단계에 따라 출혈도 잡았. 그 결과 대형 concatamers는 차선 3에 표시됩니다. 위의 단계 1.8에 설명된대로 출혈도 잡았 concatamers 동일하게 sonication으로 나누어 받게했다. 각 기술 복제에 대한 DNA 조각의 결과로 얼룩이 차선 4와 5에 표시됩니다. 브래킷은 겔 추출 및 시퀀싱 라이브러리 생성에 사용되는 크기의 범위를 강조 표시합니다.

그림 3
그림 3. 풀링된 예제에서 하나의 allele를위한 보험의 함수로 정확도. 정확도 0.5 (무작위)에서 1.0 (완벽한 정확성)으로 범위 수신기 운영자 곡선 (ROC)의 곡선 (AUC)에서 지역으로 추정된다. AUC는 200, 500 및 1000 대립 유전자 (A)의 수영장에서 단일 돌연변이 대립 유전자의 검출에 대한 allele 당 보험의 기능으로 꾸몄다있다. AUC는 대체, 삽입 및 D에 대한 함수 전체 범위로 꾸몄다있다eletions (B). [Vallania FLM 외, 게놈 연구 2010에서 적응].

그림 4 그림 4. 오류 플롯은 지정된 위치에 잘못된 기지를 통합의 가능성을 보여줍니다. 오류 프로필 시퀀싱 읽기의 3 '끝을 향해 증가 추세와 낮은 에러 률을 보여줍니다. 특히, 서로 다른 기준 세포핵 다른 오류 확률 (예 : 참고로 G 주어진 C를 통합의 가능성을 참조)가 표시됩니다. [Vallania FLM 외, 게놈 연구 2010에서 적응].

그림 5
그림 5. allele 당 25 배 이상의 범위를 가지고 위치에 대한 allele의 빈도를 추정의 가시 같았다의 정확도. 패널, ≥ 25 배 범위와 단일 변종 검출을위한 최적의 감도를 보여주는 그림 3에서 결과를 토대로매우 높은 상관 관계 (R = 0.999)에서 GWAS 결과로 측정 allele 카운트로 가시로 추정 풀링된-유전자 allele 주파수 사이의 비교. [Vallania FLM 외, 게놈 연구 2010에서 적응].

그림 6
그림 6. 974 개인의 풀링된 시퀀싱에서 가시가 예상에 비해 GWAS로 측정 allele 주파수 사이의 비교. 비교를위한 genotyped loci과 시퀀스 지역 사이 19 일반 입장이 있었다. 결과 상관 관계가 매우 높은 (R = 0.99538).는 큰 그림을 보려면 여기를 누르십시오 .

Discussion

발병률과 일반적인 복잡한 phenotypes과 같은 비만 8, 고콜레스테롤혈증 4, 고혈압 7, 다른 사람과 같은 질병의 치료 반응은 드문 변이의 개인 프로필에 의해 검토됨 수있다는 것을 증가하는 증거가있다. 영향을받는 인구의 집계 이러한 변형은 깊은 진단 및 치료에 영향을 미칠 것이다 유전자 및 경로를 식별하지만, 별도로 영향을받는 개인을 분석하는 것은 매번 금지 비용하실 수 있습니다. 인구 기반의 분석은 여러 loci에서 유전자 변화를 관측을위한보다 효율적인 방법을 제공합니다.

우리는 인구에 걸쳐 유전적 변이의 유형을 식별하기위한 가시가 소프트웨어 패키지와 결합하여 소설 풀링된-DNA 시퀀싱 프로토콜을 소개합니다. 우리는 있었다 희귀 변종을 포함, 947 개인 대형 풀링된 인구 내에서 사소한 대립 유전자를 식별하고 quantifying에이 방법의 정확성을 입증풀링된 시퀀싱에서 드 노보 전화 개별 pyrosequencing에 의해 확인되었습니다. 우리의 전략은 주로 긍정의 설립 모든 실험 내에서 부정적인 통제에 의해 다른 프로토콜과 다릅니다. 이것은 파편이 다른 접근 방식 1에 비해 훨씬 더 높은 정확성과 파워를 얻을 수 있습니다. allele 당 25 배 이상의 최적 범위는 풀 크기에만 비늘이 선형적으로 이러한 요구 사항 등 대형 수영장의 분석이 가능하게, 독립적으로 수영장의 크기의 고정됩니다. 우리의 접근 방식은 매우 유연하며 관심의 표현형을뿐 아니라 그러한 혼합 세포 인구 및 종양 biopsies 같은 자연적으로 이기종있는 샘플에 적용할 수 있습니다. 같은 exome 또는 게놈과 같은 대형 대상 지역의 풀링된 시퀀싱에서 계속 늘어나는 관심을 감안할 때, 우리 도서관 준비와 가시가 분석 맞춤 캡처 및 전체 - exome 시퀀싱과 호환지만 가시가 패키지에 정렬 유틸리티는 위해 설계되지 않았습니다 큰레퍼런스 시퀀스. 따라서, 우리는 성공적으로 풀링된 샘플 (라모스 외., 제출)에서 전화 변종이어서 게놈 차원의 정렬을 위해, Novoalign, 동적 프로그래밍 aligner를 이용했습니다. 따라서, 우리의 풀링된 시퀀싱 전략은 대상 시퀀스의 증가 금액과 큰 수영장을 성공적으로 확장할 수 있습니다.

Disclosures

관심의 어떠한 충돌 선언 없습니다.

Acknowledgments

이 작품은 어린이 디스커버리 연구소 부여 MC-II-2006-1 (RDM과 TED), NIH Epigenetics 로드맵 부여 [1R01DA025744-01 및 3R01DA025744-02S1] (RDM 및 FLMV), U01AG023746 (SC), Saigh에 의해 지원되었다 재단 (FLMV와 TED), 1K08CA140720-01A1와 알렉 스의 레모네이드가 'A'상 지원 (TED)하라. 우리는 게놈 분석과 관련하여 도움이 의학의 워싱턴 대학 대학원에서 유전학의학과 게놈 기술 교통 센터에 감사드립니다. 센터는 부분적으로 연구 자원에 대한 NationalCenter (NCRR), 건강 (NIH)의 국립 연구소의 한 구성 요소에서 # UL1RR024992 NCI 암센터 지원 부여 Siteman 암 센터 # P30 CA91842 의해 ICTS / CTSA 그랜트에 의해 지원되고 의학 연구에 대한 NIH 로드맵. 이 책자는 전적으로 저자의 책임이며 반드시 NCRR 또는 NIH의 공식 견해를 대변하지 않습니다.

Materials

Name Company Catalog Number Comments
PfuUltra High-Fidelity Agilent 600384 1.4
Betaine SIGMA B2629 1.4
M13mp18 ssDNA vector NEB N4040S 1.5
pGEM-T Easy Promega A1360 1.5
T4 Polynucleotide Kinase NEB M0201S 2.2
T4 Ligase NEB M0202S 2.2
Polyethylene Glycol 8000 MW SIGMA P5413 2.2
Bioruptor sonicator Diagenode UCD-200-TS 2.3

DOWNLOAD MATERIALS LIST

References

  1. Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
  2. Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
  3. The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
  4. Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
  5. Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
  6. Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
  7. Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
  8. Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
  9. Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
  10. Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).

Tags

유전학 문제 64 지노 믹스 암 생물학 생물 정보학은 유전자 시퀀싱 가시 희귀 유전자 변형 유전자 선별 표현형 높은 처리량 전산 분석 DNA PCR primers를 풀링된
파편을 사용하여 풀링된 장면에서 드문 게놈 변종의 탐지
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vallania, F., Ramos, E., Cresci, S., More

Vallania, F., Ramos, E., Cresci, S., Mitra, R. D., Druley, T. E. Detection of Rare Genomic Variants from Pooled Sequencing Using SPLINTER. J. Vis. Exp. (64), e3943, doi:10.3791/3943 (2012).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter