Biology

Nachweis seltener Varianten von Genomic Pooled-Sequenzierung mit SPLINTER

Published: June 23, 2012 doi: 10.3791/3943

Francesco Vallania¹, Enrique Ramos¹, Sharon Cresci², Robi D. Mitra¹, Todd E. Druley^1,3

¹Center for Genome Sciences and Systems Biology, Department of Genetics, Washington University School of Medicine, ²Department of Internal Medicine, Washington University School of Medicine, ³Department of Pediatrics, Washington University School of Medicine

Summary

Pooled DNA-Sequenzierung ist eine schnelle und kostengünstige Strategie, um seltene Varianten mit komplexen Phänotypen assoziiert in großen Kohorten zu erkennen. Hier beschreiben wir die computergestützte Analyse von gepoolten, Next-Generation-Sequenzierung von 32 Krebs-Genen unter Verwendung des SPLINTER Software-Paket. Diese Methode ist skalierbar und für jeden interessierenden Phänotyp.

Abstract

Als DNA-Sequenzierung-Technologie hat sich in den letzten Jahren ² vorgeschoben hat sich immer deutlicher gezeigt, dass die Menge an genetischer Variation zwischen zwei beliebigen Individuen größer als bisher angenommen ³ ist. Im Gegensatz dazu hat sich Array-basierte Genotypisierung konnten keine signifikante Anteil an gemeinsamen Sequenzvarianten auf die phänotypische Variabilität von ^4,5 häufige Erkrankung zu identifizieren. Zusammengenommen haben diese Beobachtungen auf die Entwicklung der Volkskrankheit / seltene Variante Hypothese, dass die Mehrheit der "fehlenden Erblichkeit" in gemeinsamen und komplexen Phänotypen statt beruht auf einer individuellen persönlichen Profil von seltenen oder private DNA-Varianten ^8.6 geführt . Allerdings charakterisieren, wie selten Variation komplexen Phänotypen beeinflusst erfordert die Analyse von vielen Betroffenen an vielen genomischen Loci, und eignet sich ideal zu einer ähnlichen Befragung in einem nicht betroffenen Kohorte verglichen. Trotz der Macht durch die Sequenzierung der heutigen Plattformen, eine angebotenebevölkerungsbezogene Umfrage von vielen genomischen Loci und der anschließenden computergestützten Analyse erforderlich bleibt unerschwinglich für viele Forscher.

Um diesem Bedarf zu begegnen, haben wir eine Pool-Sequenzierung Ansatz ^1,9 und eine neuartige Software-Paket ¹ für hochgenaue Erfassung seltene Variante aus den resultierenden Daten entwickelt. Die Fähigkeit, Pool Genome von ganzen Populationen von betroffenen Einzelpersonen und Befragung der Grad der genetischen Variation an verschiedenen Zielregionen in einer einzigen Bibliothek Sequenzierung bietet eine hervorragende Kosten-und Zeitersparnis zu herkömmlichen Single-Probe-Sequenzierung Methodik. Mit einer mittleren Sequenzierung Deckung pro Allel des 25-fachen, nutzt unsere benutzerdefinierten Algorithmus, Splinter, eine interne Variante Aufruf Regelstrategie zu Insertionen, Deletionen und Substitutionen rufen bis zu vier Basenpaare lang mit hoher Sensitivität und Spezifität aus Pools von bis zu 1 mutierte Allel in 500 Individuen. Hier beschreiben wir die Verfahren zur Herstellung der gepoolten sequencing Bibliothek gefolgt von Schritt-für-Schritt-Anleitung, den Splitter-Paket für gepoolten Analyse Sequenzierung (verwenden http://www.ibridgenetwork.org/wustl/splinter ). Wir zeigen einen Vergleich zwischen gepoolten Sequenzierung von 947 Individuen, von denen alle unterzog sich auch genomweite Array, an über 20kb der Sequenzierung pro Person. Übereinstimmung zwischen Genotypisierung von getaggt und neue Varianten in der Sammelprobe genannt waren ausgezeichnet. Diese Methode kann einfach skaliert werden bis zu einer beliebigen Anzahl von genomischen Loci und einer beliebigen Anzahl von Individuen. Durch die Integration der internen positiven und negativen Kontrollen Amplikon in Verhältnissen, die die Bevölkerung imitieren untersuchten, kann der Algorithmus für eine optimale Leistung zu kalibrieren. Diese Strategie kann auch zur Verwendung mit der Hybridisierung Fang oder individualspezifischen Barcodes geändert werden und dann zur Sequenzierung von natürlich heterogenen Proben, wie Tumor-DNA eingesetzt werden.

Protocol

Diese Methode wurde in der Forschung in Vallania FML et al. Genome Research 2010 gemeldet werden.

1. Beispiel Pooling und Capture-PCR gezielte genomischen Loci

Kombinieren Sie eine normalisierte Menge an genomischer DNA von jedem Einzelnen in Ihrem Pool (s). Verwendung von 0,3 ng DNA pro Person pro PCR-Reaktion wird etwa 50 diploiden Genomen pro Person in jeder PCR-Reaktion, was die Wahrscheinlichkeit gleichmäßige Verstärkung pro Allel im Pool verbessert übernehmen.
Die genomischen Sequenzen aus der NCBI (bezogen werden http://www.ncbi.nlm.nih.gov/ ) oder UCSC Genome Browser ( http://genome.ucsc.edu/index.html ). Achten Sie auf die Verwendung "RepeatMasker" (markiert mit "N") mit dem Erhalt der Sequenz zu vermeiden Entwerfen eines Primers in einem repetitiven Region.
Verwenden Sie die Web-basierte Primer3 (rimer3/input.htm "target =" _blank "> http://frodo.wi.mit.edu/primer3/input.htm)-Dienstprogramm, um Primer durch Ausschneiden und Einfügen der genomischen Regionen von Interesse plus einigen flankierenden Sequenzen zu entwerfen (Amplikons 600-2000 bp sind in der Regel ideal) Die optimalen Bedingungen für die Primer-Design Primer 3 verwendet werden sollen ^10: Mindestanforderungen Primer size = 19; Optimale Grundierung size = 25; Maximale Primer size = 30; Minimum Tm = 64 ° C; Optimale Tm. = 70 ° C; Maximale Tm = 74 ° C; Tm Maximale Differenz = 5 ° C; Minimum GC-Gehalt = 45; Maximale GC-Gehalt = 80; Anzahl an = 20 zurück (dies ist beliebig); Maximale 3'-Ende Stabilität = 100 . Entwurf Primer an alle genomischen Loci von Interesse zu amplifizieren. Bei Empfang der Primer, kann die lyophilisierten hat in 10 mM Tris, pH 7,5 + 0,1 mM EDTA auf eine Endkonzentration von 100 pM durch eine zusätzliche Verdünnung in ddH 10.01 verdünntem werden ₂ O bis 10 um.
PCR-Amplifikation: Wir empfehlen die Verwendung eines High-Fidelity DNA-Polymerase, um große genomische verstärkenAmplikons aufgrund der geringen Fehlerrate (10 ^-7) und die Erzeugung von Produkten mit stumpfen Enden (dies ist notwendig für das Downstream-Ligationsschritt). Wir haben PfuUltra High-Fidelity benutzt, aber Enzymen mit ähnlichen Eigenschaften (wie z. B. Phusion) sollten vergleichbare Ergebnisse liefern. Jede PCR-Reaktion enthält eine Endkonzentration von 2,5 U PfuUltra High-Fidelity-Polymerase, 1 M Betain, 400 nM von jedem Primer, 200 pM dNTPs, 1x PfuUltra Puffer (oder einen Puffer enthält ≥ 2 mM Mg ^{2 +,} um enzymatische Treue zu erhalten) , 5-50 ng gepoolter DNA in einem Endvolumen von 50 ml. Verwenden Sie die folgenden PCR-Bedingungen: 1. 93-95 ° C für 2 Minuten, 2. 93-95 ° C für 30 Sekunden, 3. 58-60 ° C für 30 Sekunden, 4. 65-70 ° C für 60-90 Sekunden für Amplikons von 250-500 bp / 1,5-3 Minuten für Amplikons 500-1000 bp / 3-5 Minuten für Amplikons> 1 kb; 5. Wiederholen Sie die Schritte 2-4 für 25-40 Zyklen; 6. 65 ° C für 10 Minuten, 7. 4 ° C gehalten. Falls erforderlich, kann PCR-Ergebnisse typischerweise durch verbessert werden: 1)Absenken der Glühtemperatur für kleine Amplikons; 2) Erhöhen der Glühtemperatur für große Amplikons, 3. Verlängerung der Verlängerungszeit für Amplikons.
Vorbereitung von Splinter Kontrollen: Jeder SPLINTER Experiment erfordert das Vorhandensein eines negativen und positiven Kontrolle, um eine optimale Genauigkeit zu erzielen. Eine negative Kontrolle kann aus allen homozygot Basenpositionen in einzelnen, Barcode-Muster, das zuvor sequenziert (z. B. eine Probe HapMap) aus. Die positive Kontrolle würde dann aus einer Mischung von zwei oder mehr solcher Proben bestehen. Für diesen Bericht ist die negative Kontrolle ein 1934 bp amplifizierten Region aus dem Rückgrat der M13mp18 ssDNA-Vektor. Die PCR-Produkt wurde sequenziert Sanger vor seiner Verwendung, um zu bestätigen, dass keine Sequenzvariation aus dem Ausgangsmaterial oder die PCR-Amplifikation vorhanden ist. Die positive Kontrolle besteht aus einem Panel von pGEM-T Easy Vektoren mit einem 72 bp klonierten Inserts mit spezifischen Insertionen, Deletionen, entwickelt Substituentenutions (Tabelle 1). Wir mischen die Vektoren zusammen gegen eine Wildtypstamm bei molaren Verhältnissen, so dass die Mutationen bei der Frequenz von einem Allel in dem Becken (dh für einen 100-Allel Pool, die Frequenz eines einzelnen Allel 1%) sind. Dann PCR zu amplifizieren das gemischte Steuerelementvorlage unter Verwendung der Primer M13 PUC Plattformen pGEM-T Easy, Erzeugen einer endgültigen 355bp langen PCR-Produkt.

2. Pooled PCR-Bibliothek Vorbereitung und Sequencing

PCR-Produkt-Pooling: Jedes PCR-Produkt sollte von überschüssigem Primer gereinigt werden. Wir verwendeten QIAGEN QIAquick Säule gereinigt oder 96-Well-Filterplatten mit Vakuum-Verteiler für große Aufräumen. Nach der Reinigung sollte jeder PCR-Produkt unter Verwendung von Standardverfahren quantifiziert werden. Kombinieren Sie jedes PCR-Produkt (einschließlich der Kontrollen) in einen Pool von Molekül-Nummer als Bündelung von Konzentration normalisiert wird in Überrepräsentation der kleinen Amplicons ov führenER größere Produkte. Die Konzentrationen sind an der absoluten Zahl der DNA-Moleküle pro Volumen nach der Formel umgerechnet: (g / ul) x (1 mol x bp / 660 g) x (1 / # bp Amplikon) x (6 x 10 ²³ Moleküle / 1 mol ) = Moleküle / ul. Wir bestimmen dann das Volumen von jeder Reaktion erforderlich ist, um Pool eine normalisierte Zahl der Moleküle pro Amplikon. Diese Zahl ist willkürlich, kann eingestellt werden und hängt davon ab, wirklich Pipettiervolumina groß genug, um die Genauigkeit zu erhalten. Wir typischerweise Pool 1-2 x ¹⁰ 10 Molekülen jedes Amplikon.
Ligation von PCR-Produkten: Dieser Schritt ist notwendig, um eine gleichmäßige Abdeckung zu erreichen Sequenzierung als Beschallung von kleinen PCR-Produkte wird ihre Vertretung zu ihren Enden hin vorgespannt ist. Um dies zu überwinden, ligieren wir die gepoolten PCR-Produkte in großen Konkatemeren (> = 10 Kb) vor der Fragmentierung. Pfu Ultra-HF-Polymerase erzeugt stumpfen Enden, was zu einer effizienten Ligation (eine Taq-Polymerase-basierte einen 3p "A", die nicht einen Überhang fügtllow Ligation ohne vorherige Fill-in oder Abstumpfung). Diese Reaktion kann bis zu 2-3 fache bei Bedarf skaliert. Die Ligationsreaktion enthält 10 U T4-Polynukleotidkinase, 200 U T4-Ligase, 15% w / v Polyethylen, 1X T4-Ligase-Puffer, Glykol 8000 MW, bis zu 2 ug gepoolten PCR-Produkte in einem Endvolumen von 50 ml. Die Reaktionen werden bei 22 ° C für 16 Stunden bei 65 ° C für 20 Minuten gehalten, gefolgt bei 4 ° C inkubiert danach. Der Erfolg dieses Schrittes kann durch Laden von 50 ng der Proben in einer 1% igen Agarosegel überprüft werden. Erfolgreiche Ligation wird in einem hochmolekularen Bande in der Spur (siehe Abbildung 2, Bahn 3) zur Folge haben.
DNA-Fragmentierung: An dieser Stelle sollten Sie große Konkatemeren (> 10kb) von PCR-Produkten haben. Wir haben eine zufällige Strategie Beschallung mit einem 24-Probe Diagenode Bioruptor Sonicator das Fragment kann diese Konkatemeren in 25 Minuten (40 Sek. "on" / 20 sec "Aus" pro Minute). Eine Beschallung wird durch die Viskosität durch das PEG eingeführt gehemmt, soDies kann durch Verdünnen der Probe 10:1 in Qiagen PB-Puffer gelöst werden. Die Ergebnisse können auf einem 2% igen Agarosegel (siehe Abbildung 2, Spuren 4 & 5) überprüft werden.
Die Probe ist bereit, direkt integrieren in die Illumina genomischen Bibliothek Probenvorbereitung Protokoll beginnend mit dem "End Repair" Schritt. Die übermittelten Daten sind hier aus Single-End liest auf dem Illumina Genome Analyzer IIx, aber wir haben den HiSeq 2000 eingesetzt und durchgeführt Einzel-oder Paired-End mit vergleichbaren Ergebnissen. Angesichts des Umfangs der Bibliothek erstellt, haben wir auch individuelle Barcode-Adapter verwendet, um mehrere Multiplex vereinigt Bibliotheken, um die Bandbreite von der HiSeq Plattform (Daten nicht gezeigt) zugeführt aufzunehmen. Folgen Sie dem Protokoll des Herstellers und Empfehlungen, die mit dem Kit kommen. Um eine optimale Sensitivität und Spezifität zur Erkennung Variante, Ziel-Abdeckung von 25-fach oder mehr pro Allel zu erreichen wird empfohlen (Abbildung 3). Diese Schätzung ist unabhängig von der Größe des Poolsund Art der Variante nachgewiesen werden. Bei Bedarf mehrere Gassen und Läufe können kombiniert werden, um eine angemessene Abdeckung zu erreichen.

3. Liest Sequencing and Analysis Alignment

Datei-Komprimierung und-Formatierung: Raw Read-Sequenzierung Dateien sollten entweder in SCHAL-Format oder mit Druckluft umgewandelt werden. Die Kompression ist optional, da es Zeit und Raum für die anschließende Analyse Schritte spart, ohne dabei alle relevanten Informationen. Dies wird durch die mitgelieferte Skript RAPGAP_read_compressor_v2.pl mit dem folgenden Befehl erreicht:
./RAPGAP_read_compressor_v2.pl [Read-Datei]> [Komprimierte Datei lesen]
Akzeptierte Datei lesen Input-Formate sind Schal und fastq, entweder gzip oder unkomprimiert:
SCHAL-Format Beispiel:
HWI-EAS440: 7:1:0:316 # 0/1: NTCGATTCACTGCCCAACAACACCAGCTCCTCTCCC: DNWUQSPWWWWUVVPVVWVVVUVVUUPUUWWWWWUW
Fastq Format Beispiel:
@ HWI-EAS440_7_1_0_410 # 0/1
NGTGGTTTCTTCTTTGGCTGGGGAGAGGAGCTGGTG
+
& / 8888888888888888888854588767777666!
Raw lesen Ausrichtung: Der Raw Reads können jetzt mit dem FASTA kommentierte Referenz-Sequenz spezifisch für den jeweiligen Regionen in den PCR-Reaktionen sowie den positiven und den negativen Kontrollen einbezogen ausgerichtet werden. Die Ausrichtung kann mit dem mitgelieferten Werkzeug Ausrichtung RAPGAPHASH5d werden. Das Eingabeformat an dieser Stelle muss Schal oder komprimiert. Der Befehl für die Ausrichtung ist:
./RAPGAPHASH5d [Druckluft-Datei lesen] [FASTA-Datei] [Anzahl der Bearbeitungen erlaubt]> [Ausgerichtet Datei]
Die Anzahl der Mismatches pro Lesevorgang, die im Vergleich zu der Referenzsequenz erlaubt sind ist eine benutzerdefinierte Parameter. Aufrufe, die eine zusätzliche Anzahl von Mismatches haben, werden verworfen. Wir empfehlen, nach Abzug von 2 Mismatches für 36 bp mal gelesen, 4 Mismatches für 76 bp liest und 5 Mismatches für 101 bp liest. So dass mehr Mismatches wird die Wahrscheinlichkeit von Fehlern ermöglicht überschüssige Sequenzierung in den al erhöhenigned Daten. Wie zu lesen Längen bis zu mehr weiter, kann dieser Wert weiter gesteigert werden.
Tagging ausgerichtet Dateien aus dem gleichen Durchflusszelle: Zu diesem Zeitpunkt der gesamte ausgerichtet lesen Datei sollte eine eindeutige Kennung ("Tag") gegeben werden, um Dateien zu lesen, die der gleichen Abfolge ausgeführt werden (dh mehrere Bahnen aus dem gleichen Durchflusszelle können aggregiert werden identifiziert und mit einer einzigen tag). Der Tag ist notwendig, da jede Maschine laufen erzeugt einen eindeutigen Fehlerverlauf, die über den Tag charakterisiert werden kann. Ein Tag ist eine alphanumerische Zeichenfolge verwendet, um einen Satz liest (der Unterstrich "_" sollte nicht zum Parsen von Fragen genutzt werden) zu unterscheiden. Verschiedene Tags sollten für ausgerichtet Lese-Dateien auf verschiedenen Durchflusszellen oder Maschine läuft generiert werden. Tags können hinzugefügt mit dem mitgelieferten RAPGAP_alignment_tagger.pl mit dem folgenden Befehl werden:
. / RAPGAP_alignment_tagger.pl [Aligned-Datei] [TAG]> [Ausgerichtet getaggt Datei]
Nach diesem Punkt ausgerichtetDateien aus derselben Bibliothek auf mehreren verschiedenen Fließzellen erzeugt werden zusammen als ihre jeweiligen Tags kombiniert werden bleiben sie getrennt.
Fehler Modellgeneration: Wie bereits erwähnt, erzeugt jeder Maschine laufen über ein einzigartiges Profil der Sequenzierung Fehler, die für eine genaue Variante Berufung gekennzeichnet werden muss. Um diese Fehler für jede Maschine laufen zu modellieren, wird ein internes Kontroll-Sequenz bekannt ist, dass ohne Sequenzvariation in jeder Sammelprobe Bibliothek enthalten. Vom ausgerichtet getaggt Datei kann ein Fehler Modell-Datei erzeugt mit dem beigelegten Werkzeug EMGENERATOR4 mit der negativen Kontrolle Referenzsequenz werden. Alle negativen Kontroll-Sequenz kann verwendet werden, oder alternativ nur eine Teilmenge davon, die von 5 'und 3' in den meisten Basen Eingang angegeben. Einzigartige liest und pseudocounts sollte immer verwendet werden:
./EMGENERATOR4 [Ausgerichtet getaggt Datei] [negativen Kontroll-Sequenz] [Output file name] [5 'am Fuß der Negativ-Kontrolle verwendet werden] [3' am BodenDie negative Kontrolle verwendet werden] [gehören einzigartige liest nur? = Y] [Ausrichtung Bearbeitungen Cutoff] [Enter pseudocounts? = Y]
Das Tool generiert EMGENERATOR4 3 Dateien wie der Name der Ausgabedatei-Parameter durch _0, _1 oder _2 gefolgt benannt. Diese Dateien auf eine 0., 1. und 2. Ordnung Fehlermodell jeweils entsprechen. Für die Variante mit Aufruf Splinter, der Fehler 2. Ordnung Modell sollte immer verwendet werden.
Für die Visualisierung der Fehlerrate Profil eines Laufs kann die error_model_tabler_v4.pl verwendet, um eine PDF-Fehler auf dem Grundstück 0. Um Fehler Modell-Datei (Abbildung 4) zu erzeugen:
./error_model_tabler_v4.pl [Error Modell 0. Ordnung Datei] [Name der Ausgabedatei]
Die Plot-Datei wird zeigen, run-spezifischen Fehler Trends und können verwendet werden, um die maximale Anzahl von Basen zu lesen für die Analyse, die im nächsten Abschnitt erläutert wird verwendet, werden Rückschlüsse gezogen werden.

4. Seltene Variante Nachweis unter Verwendung SPLINTER

Variant calling durch SPLINTER: Der erste Schritt in der Analyse ist, den Splitter-Tool auf dem ausgerichtet Datei mit dem Fehler-Modell und die Referenz-Sequenz laufen. Der Befehl dazu lautet:
./SPLINTER6r [Ausgerichtet getaggt Datei] [FASTA-Datei] [Fehler 2. Ordnung Modell-Datei] [Anzahl der Lese-Basen verwendet werden] [lesen Basen oder Zyklen ausgeschlossen werden] [p-Wert = -1,301 Cutoff] [Verwendung einzigartigen liest = Y] [Ausrichtung Bearbeitungen Cutoff] [Pool-Größe aus den verfügbaren Optionen] [drucken Sie die absolute Deckung pro Strang = Y]> [SPLINTER Datei]
Die Anzahl der Lese-Basen verwendet werden soll, variiert und sollte nach jedem Durchlauf ausgewertet werden. Generell empfehlen wir mit den ersten 2/3rds der Lese, da sie die Daten von höchster Qualität (die ersten 24 zu lesen Basen eines 36bp lange lesen, zum Beispiel) zu vertreten. Einzel lesen Basen können aus der Analyse ausgeschlossen werden, wenn als fehlerhaft erweist (getrennt durch ein Komma oder N zB 5,7,11 oder N). Der p-Wert bestimmt, wie Cutoff strengen Variante der Berufung Analyse sein wird. Wir nochnormalerweise die Analyse starten, indem man ein Minimum Cutoff von -1,301 (entsprechend einem p-Wert ≤ 0,05 log10 in Skala). Die Größe des Pools Option optimiert die Algorithmen "Signal-Rausch-" Diskriminierung durch den Wegfall potenziellen Varianten mit kleinen Allelfrequenzen geringer als die eines einzigen Allels in der eigentlichen Pool. Zum Beispiel in einem Pool von 50 Personen, kann der niedrigsten beobachteten Variante bei 0,01 Frequenz oder 1 von 100 Allele zu erwarten. Somit sollte der Pool-Größe Option auf den nächsten Wert, der größer ist als die tatsächliche Anzahl der Allele im Experiment analysierten eingestellt werden (dh, wenn 40 Personen befragt werden, wir erwarten 80 Allele, so dass die nächste Option ein Pool von 100 wäre) . Varianten bei Frequenzen <0,01 genannt wird dann als Rauschen ignoriert werden. Diese Datei liefert alle Treffer, die statistisch signifikant über der Probe sind, mit einer Beschreibung der Lage der Variante, die Art der Variante, p-Wert pro DNA-Strang, der Häufigkeit der Variante und totale Deckung pro DNA-Strang (
Normalisieren Deckungssumme für die genannten Varianten: Schwankungen der Berichterstattung über die Probe kann generiert unechte Treffer. Dies kann durch die Anwendung des splinter_filter_v3.pl Skript wie folgt korrigiert werden:
./splinter_filter_v3.pl [SPLINTER Datei] [Datei-Liste] [Stringenz]> [SPLINTER normalisierte Datei]
wo die List-Datei ist eine Liste der positiven Kontrolle Treffern in der Form einer Tab-getrennte Datei.
Das erste Feld zeigt das Amplikon von Interesse, während das zweite Feld zeigt die Position, in der die Mutation vorliegt. N bedeutet, dass der Rest der Sequenz enthält keine Mutation.
Die Bestimmung der optimalen p-Schwellenwerte mit den positiven Steuerdaten: Nach der Normalisierung, die Analyse der positiven Kontrolle für die Optimierung der Empfindlichkeit und Spezifität einer bestimmten Probe Analyse unverzichtbar. Dies kann durch die Bestimmung des optimalen p-Wert unter Verwendung des Cutoff-Informationen erreicht werdention von der positiven Kontrolle. Höchstwahrscheinlich wird die anfängliche p-Wert von -1,301 nicht streng genug, was wenn ja, wird in der Berufung von False Positives von der positiven oder negativen Kontrolle führen. Jeder SPLINTER Analyse wird die tatsächliche p-Wert für jede genannte Variante zeigen (siehe Spalten 5 und 6 auf Tabelle 2) kommen, die die a priori nicht vorhergesagt werden. Jedoch kann die gesamte Analyse unter Verwendung der am wenigsten stringenten p-Wert wird auf dem ersten Ausgang für den bekannten wahren positive Basis Positionen wiederholt werden. Dies wird dazu dienen, alle wahren Positiven zu halten, während ohne die meisten, wenn nicht alle, Fehlalarme und sie haben in der Regel viel weniger signifikanten p-Werte im Vergleich zu wahren Positiven. Um diesen Prozess zu automatisieren, kann der cutoff_tester.pl verwendet werden cutoff_tester.pl erfordert einen Splitter Ausgabedatei und eine Liste der positiven Kontrolle Treffern in der Form einer Tab-getrennte Datei mit der für die Normalisierung verwendet.:
. / Cutoff_tester.pl [SPLINTER Filtered-Datei] [Datei-Liste]
Bei der Ausgabe wird eine Liste der Abschaltungen, die schrittweise erreicht die optimale ein (siehe Tabelle 3). Das Format ist:
[Entfernung von max Sensitivität und Spezifität] [Empfindlichkeit] [Spezifität] [Cutoff]
zum Beispiel:
7.76946294170104e-07 1 0,999118554429264 -16,1019999999967
Die letzte Zeile stellt die optimale Cutoff für den Lauf und kann daher für die Datenanalyse verwendet werden. Das optimale Ergebnis wird die Empfindlichkeit und Spezifität von 1 zu erreichen. Bei diesem Ergebnis nicht erreicht wird, kann die SPLINTER Analyse durch Ändern der Anzahl der gelesen wird, bis die Basen optimalen Zustand erreicht wird wiederholt werden.
Endgültige Variante Filterung: Die endgültige Abschaltung können die Daten mit Hilfe cutoff_cut.pl Skript, das die SPLINTER Ausgabedatei von Treffern unterhalb der optimalen Cutoff-Filter angewendet werden wird,
. / Cutoff_cut.pl [SPLINTER gefiltert Datei] [Cutoff]> [SPLINTER FinaleDatei]
Dieser Schritt wird erzeugen die SPLINTER Ausgabedatei, die SNPs und indels in der Probe enthält. Bitte beachten Sie, dass die Ausgabe für Einfügungen etwas anders als für Substitutionen oder Deletionen (Tabelle 2) ist.

5. Repräsentative Ergebnisse

Wir gepoolt eine Bevölkerung von 947 Personen und gezielt über 20 kb für die Sequenzierung. Wir wendeten SPLINTER für die Detektion von seltenen Varianten nach unserer Standardprotokoll. Jeder einzelne hatte zuvor hatten die Genotypisierung von genomweiten Genotypisierung Array durchgeführt. Übereinstimmung zwischen Genotypisierung von getaggt und neue Varianten in der Sammelprobe genannt waren ausgezeichnet (Abbildung 6). Drei Varianten, von denen zwei (rs3822343 und rs3776110) selten in der Bevölkerung waren, wurden von den De-novo-Sequenzierung Ergebnisse genannt und wurden von einzelnen Pyrosequenzierung validiert. Minor Allelfrequenzen (MAF) in den Pool waren ähnlich wie die MAF berichtet in dbSNP Build 129. Die MAF Konkordanz zwischen Pyrosequenzierung und gepoolt Sequenzierung war ausgezeichnet (Tabelle 3).

Tabelle 1. DNA-Oligonukleotid-Sequenzen für die positive Kontrolle. Jede Sequenz besteht aus einem DNA-Fragment, die sich von der Wild-Typ Referenz, entweder durch zwei Substitutionen oder eine Insertion und eine Deletion. Klicken Sie hier für eine größere Ansicht .

Tabelle 2. Beispiel von Splinter Ausgang. Die ersten beiden Zeilen stellen den Standardfehler SPLINTER Ausgang für eine Substitution oder Deletion einer (blau-Header). Die letzte Zeile entspricht dem Standard SPLINTER Ausgang für eine Insertion (lila-Header).rget = "_blank"> Klicken Sie hier für eine größere Ansicht.

Tabelle 3. Fünf bekannte und drei neue Varianten wurden aus großen Populationen identifiziert und validiert durch individuelle Genotypisierung. Individuelle Validierung erfolgte durch Pyrosequenzierung (Zeilen 1-3), TaqMan-Assay (Zeilen 4-6) oder Sanger-Sequenzierung (Zeilen 7,8) durchgeführt. Für eine breite Palette von Allelfrequenzen und darunter fünf Positionen mit MAF <1%, Konkordanz zwischen gepoolten Sequenzierung Allelfrequenz Schätzung und individuelle Genotypisierung war stark. Positionen mit einem Stern (*) markiert sind, werden von früher berichteten Daten ⁹ angepasst.

Abbildung 1. Pooled-DNA-Sequenzierung und Analyse SPLINTER Überblick. Patienten-DNA wird gebündeltund an ausgewählten Loci amplifiziert. Die endgültige PCR-Produkte werden mit einer positiven und negativen Kontrollproben in äquimolaren Verhältnissen vereinigt. Die gepoolte Gemisch wird dann sequenziert und die resultierende Lesevorgänge werden zurück in ihre Referenz zugeordnet. Zugeordnet negative Kontrolle gelesen werden verwendet, um eine Laufzeit-spezifischen Fehler-Modell zu generieren. SPLINTER kann dann verwendet werden, um seltene SNPs und indels indem Informationen aus den Fehler Modell und die positive Kontrolle zu detektieren. [Übernommen aus Vallania FLM et al, Genome Research 2010] Klicken Sie hier für eine größere Ansicht .

Abbildung 2. Pooled PCR-Amplikons Ligation und Beschallung. Als Demonstration der Ligation und zufällige Fragmentierung Schritte in der Bibliothek Herstellung Protokoll wurde pUC19-Vektor enzymatisch an die Fragmente in Spur 2 gezeigt verdaut. Diese Fragmente wurden Normalized von Molekül-Nummer, und zufällig kombiniert ligiert nach 1,7 obigen Schritt. Die resultierenden großen Konkatamere in Spur 3 gezeigt ist. Die ligierten Konkatamere waren gleich aufgeteilt und einer Beschallung unterworfen, wie in Schritt 1.8 erwähnten beschrieben. Das resultierende Ausstrich von DNA-Fragmenten für verschiedene technische replizieren sind in den Spuren 4 und 5 gezeigt. Die Konsole zeigt den Größenbereich für Gel-Extraktion und Sequenzierung Bibliothek Schöpfung eingesetzt.

Abbildung 3
3. Genauigkeit als Funktion der Bedeckung für eine Allels in einer gepoolten Probe. Die Genauigkeit wird als die Fläche unter der Kurve (AUC) einer ROC-Kurve (ROC), die sich von 0,5 (zufällig) bis 1,0 (perfekte Genauigkeit) im Bereich geschätzt. AUC als Funktion der Bedeckung pro Allel für die Detektion von einzelnen Mutanten-Allele in Pools von 200, 500 und 1000 Allele (A) aufgetragen. AUC wird als Funktion flächendeckend für Substitutionen, Insertionen und d aufgetrageneletions (B). [Übernommen aus Vallania FLM et al, Genome Research 2010].

Abbildung 4 4. Fehler Plot zeigt die Wahrscheinlichkeit des Einfügens von einer fehlerhaften Base bei einer gegebenen Position. Der Fehler-Profil zeigt geringe Fehlerraten mit steigender Tendenz zum 3'-Ende der Sequenzierung zu lesen. Insbesondere zeigen unterschiedliche Referenz-Nukleotiden verschiedenen Fehlerwahrscheinlichkeiten (siehe zum Beispiel Wahrscheinlichkeit des Einfügens von einem C ein G als Referenz). [Übernommen aus Vallania FLM et al, Genome Research 2010].

Abbildung 5. Genauigkeit bei der Schätzung von Splinter Allelfrequenz für Positionen, die größer ist als 25-fachen Abdeckung pro Allel hatten. Basierend auf den Ergebnissen in Teil A, Abbildung 3 zeigt die optimale Empfindlichkeit für einzelne Variante Detektion mit ≥ 25-fachen Abdeckung, einVergleich zwischen gepoolten DNA-Allelfrequenzen durch Holzsplitter mit Allel zählt durch GWAS ergeben sich sehr hohe Korrelation (r = 0,999) gemessen geschätzt. [Übernommen aus Vallania FLM et al, Genome Research 2010].

Abbildung 6. Vergleich zwischen Allelfrequenzen von GWAS im Vergleich zu zersplittern Schätzungen aus gepoolten Sequenzierung von 974 Individuen gemessen. Es gab 19 gemeinsame Positionen zwischen den Loci genotypisiert und die Sequenzbereiche zum Vergleich. Die resultierende Korrelation ist sehr hoch (r = 0,99538). Klicken Sie hier für eine größere Abbildung anzuzeigen .

Discussion

Es gibt zunehmend Hinweise, dass die Inzidenz und therapeutische Reaktion von gemeinsamen, komplexen Phänotypen und Krankheiten wie Fettleibigkeit ^{8, 4} Hypercholesterinämie, Hypertonie ⁷ und andere durch persönliche Profile von seltenen Variation kann moderiert werden. Identifikation der Gene und Signalwege, wo diese Varianten Aggregat in die betroffene Bevölkerung tiefe diagnostische und therapeutische Implikationen haben wird, aber die Analyse Betroffenen separat Zeit sein und unerschwinglich. Populations-basierte Analyse bietet eine effizientere Methode zur Erfassung genetischer Variation an verschiedenen Loci.

Wir stellen eine neue gepoolte-DNA-Sequenzierung-Protokoll mit der Splinter-Software-Paket entwickelt, um diese Art der genetischen Unterschiede zwischen den Populationen zu identifizieren gepaart. Wir zeigen die Genauigkeit dieser Methode bei der Identifizierung und Quantifizierung von kleineren Allele innerhalb eines großen gepoolten Population von 947 Personen, darunter seltene Varianten, die warenDe-novo-Sequenzierung aus der gepoolten genannt und validiert durch einzelne Pyrosequenzierung. Unsere Strategie unterscheiden sich von anderen Protokollen durch den Einbau von einer positiven und einer negativen Kontrolle in jedem Versuch. Dies ermöglicht SPLINTER viel höhere Genauigkeit und Leistung im Vergleich zu anderen Ansätzen ^{1 zu} erzielen. Die optimale Abdeckung von 25-fach pro Allel wird unabhängig von der Größe des Pools, fixiert damit die Analyse von großen Pools möglich wie diese Anforderung nur skaliert linear mit der Größe des Pools. Unser Ansatz ist sehr flexibel und kann an jeden Phänotyp von Interesse, sondern auch für Proben, die von Natur aus heterogen sind, wie gemischte Zellpopulationen und Tumorbiopsien angewendet werden. Angesichts der ständig wachsenden Interesse an der gepoolten Sequenzierung von großen Zielregionen wie die Exom oder Genom, ist unsere Bibliothek prep und Splinter Analyse kompatibel mit Custom-Abscheidung und-ganze-Exom Sequenzierung, aber die Angleichung Dienstprogramm in der Splinter-Paket wurde nicht entwickelt für großArtikeln Sequenzen. Deshalb haben wir erfolgreich die dynamische Programmierung Aligner eingesetzt, für genomweite Ausrichtungen durch Aufruf Variante aus der Sammelprobe (Ramos et al., Eingereicht) gefolgt Novoalign. So können unsere vereinigt Sequenzierungs-Strategie erfolgreich zu skalieren auf größere mit steigenden Mengen an Ziel-Sequenz.

Disclosures

Keine Interessenskonflikte erklärt.

Acknowledgments

Diese Arbeit wurde von der Kinder-Discovery Institute Zuschuss MC-II-2006-1 (RDM und TED), der NIH Epigenetik Roadmap Zuschuss [1R01DA025744-01 und 3R01DA025744-02S1] (RDM und FLMV), U01AG023746 (SC), die Saigh unterstützt Foundation (FLMV und TED), 1K08CA140720-01A1 und Alex 'Lemonade Stand "A"-Award-Unterstützung (TED). Wir danken dem Access-Genome Technology Center in der Abteilung für Genetik an der Washington University School of Medicine um Hilfe bei der Genomanalyse. Das Zentrum wird teilweise durch NCI Cancer Center Support Grant # P30 CA91842 dem Siteman Cancer Center und von ICTS / CTSA Grant # UL1RR024992 aus dem NationalCenter for Research Resources (NCRR), eine Komponente von den National Institutes of Health (NIH) unterstützt wird, und NIH-Roadmap for Medical Research. Diese Publikation ist ausschließlich in der Verantwortung der Autoren und stellen nicht notwendigerweise die offizielle Meinung der NCRR oder NIH.

Materials

Name	Company	Catalog Number	Comments
PfuUltra High-Fidelity	Agilent	600384	1.4
Betaine	SIGMA	B2629	1.4
M13mp18 ssDNA vector	NEB	N4040S	1.5
pGEM-T Easy	Promega	A1360	1.5
T4 Polynucleotide Kinase	NEB	M0201S	2.2
T4 Ligase	NEB	M0202S	2.2
Polyethylene Glycol 8000 MW	SIGMA	P5413	2.2
Bioruptor sonicator	Diagenode	UCD-200-TS	2.3

DOWNLOAD MATERIALS LIST

References

Vallania, F. L. M., Druley, T. E., Ramos, E., Wang, J., Borecki, I., Province, M., Mitra, R. D. High-throughput discovery of rare insertions and deletions in large cohorts. Genome Research. 20, 1391-1397 (2010).
Shendure, J., Mitra, R., Varma, C., Church, G. M. Advanced Sequencing Technologies: Methods and Goals. Nature Reviews of Genetics. 5, 335-344 (2004).
The 1000 Genomes Project Consortium. A map of human genome variation from population-scale sequencing. Nature. 467, 1061-1073 (2010).
Manolio, T. A., Collins, F. S., Cox, N. J., Goldstein, D. B., Hindorff, L. A., Hunter, D. J., McCarthy, M. I., Ramos, E. M., Cardon, L. R. Finding the missing heritability of complex diseases. Nature. 461, 747-753 (2009).
Reich, D. E., Lander, E. S. On the allelic spectrum of human disease. Trends Genet. 17, 502-510 (2001).
Cohen, J. C., Kiss, R. S., Pertsemlidis, A., Marcel, Y. L., McPherson, R., Hobbs, H. H. Multiple rare alleles contribute to low plasma levels of HDL cholesterol. Science. 305, 869-872 (2004).
Ji, W., Foo, J. N., O'Roak, B. J., Zhao, H., Larson, M. G., Simon, D. B., Newton-Cheh, C., State, M. W., Levy, D., Lifton, R. P. Rare independent mutations in renal salt handling genes contribute to blood pressure variation. Nat. Genet. 40, 592-599 (2008).
Ahituv, N., Kavaslar, N., Schackwitz, W., Ustaszewska, A., Martin, J., Hebert, S., Doelle, H., Ersoy, B., Kryukov, G., Schmidt, S. Medical sequencing at the extremes of human body mass. Am. J. Hum. Genet. 80, 779-791 (2007).
Druley, T. E., Vallania, F. L., Wegner, D. J., Varley, K. E., Knowles, O. L., Bonds, J. A., Robison, S. W., Doniger, S. W., Hamvas, A., Cole, F. S., Fay, J. C., Mitra, R. D. Quantification of rare allelic variants from pooled genomic DNA. Nat. Methods. 6, 263-265 (2009).
Mitra, R. D., Butty, V., Shendure, J., Housman, D., Church, G. M. Digital Genotyping and Haplotyping with Polymerase Colonies. Proc. Natl. Acad. Sci. 100, 5926-5931 (2003).