Målrettet næste generation sequencing er en tid – og omkostningseffektiv tilgang, der bliver stadig mere populære i både forskning og klinisk diagnosticering. Protokollen beskrevet her præsenterer komplekse arbejdsprocessen kræves til sekvensering og bioinformatik processen bruges til at identificere genetiske varianter, der bidrager til sygdom.
Next generation sequencing (NGS) er hurtigt revolutionerer hvordan forskning i de genetiske determinanter for forfatningsmæssige sygdom er udført. Teknikken er yderst effektiv med millioner af sekventering læser bliver produceret i et kort tidsrum og til en relativt lav pris. Specifikt er målrettet NGS at fokus undersøgelser genomisk regioner af særlig interesse baseret på sygdom i undersøgelsen. Ikke alene betyder dette yderligere reducere omkostninger og øge hastigheden på processen, men det mindsker den beregningsmæssige byrde, som ofte ledsager NGS. Selvom målrettede NGS er begrænset til visse regioner i genomet, kan forhindrer identifikation af potentielle roman loci af interesse, det være en fremragende teknik når de står med en fænotype og genetisk heterogene sygdomme, for hvilke der er tidligere kendte genetiske sammenslutninger. På grund af den komplekse karakter af sekventering teknik er det vigtigt at nøje overholde protokoller og metoder for at opnå sekventering læsninger af høj dækning og kvalitet. Yderligere, når sekventering læser er opnåede, en sofistikeret Bioinformatik arbejdsproces er udnyttet til at nøjagtigt kort læser til en reference genom, at kalde varianter og sikre varianterne passere quality metrics. Varianter skal også kommenteret og kurateret baseret på deres kliniske betydning, som kan standardiseres ved anvendelse af American College for medicinsk genetik og genomforskning patogenicitet retningslinjer. De metoder, der præsenteres heri vil vise de forskellige trin i generere og analysere NGS data fra en målrettet sekventering panel, ved hjælp af panelet ONDRISeq neurodegenerativ sygdom som en model til at identificere varianter, som kan være af klinisk betydning.
Som definerer de genetiske determinanter for forskellige betingelser tager på en højere prioritet i forskning og i klinikken, næste generation sequencing (NGS) har vist sig for at være en høj overførselshastighed og omkostningseffektive redskab til at opnå disse mål1,2 ,3. I næsten 40 år, Sanger sekventering havde været guldstandarden til at identificere genetiske varianter4; dog, for sygdomme med genetiske heterogenitet eller ukendte genetiske ætiologi, mange mulig kandidat gener skal evalueres, ofte samtidigt. I forbindelse Sanger sekventering bliver dyrt og tidskrævende. NGS indebærer imidlertid massiv parallelle sekventering af millioner af DNA fragmenter, giver mulighed for en omkostnings- og effektive teknik til samtidigt afsløre en bred vifte af genetisk variation på tværs af forskellige regioner i genomet.
Der er tre typer af NGS for sekventering DNA: 1) hele-genome sequencing (WGS), 2) hele-exome sekventering (WES) og 3) målrettet sekventering5. WGS evaluerer hele genomisk indholdet af en individuel, mens WES indebærer sekventering kun de protein-kodende regioner i genomet6. Målrettet sekventering, fokuserer derimod på bestemte områder af genomet baseret på relativt få specifikke gener forbundet af fælles patologiske mekanismer eller kendt klinisk fænotype. Enten exons eller introns, eller enhver intergenic regioner af et gen eller en bestemt gruppe af gener kan angives ved hjælp af denne fremgangsmåde. Derfor kan målrettet sekvensering være en glimrende tilgang, når der er allerede et fundament af kandidat gener kendt for at være forbundet med sygdom af interesse. Rettet mod bestemte regioner i genomet giver mulighed for fjernelse af overflødige og irrelevant genetisk variation, der kan Sky eller distrahere fra kliniske fortolkning. Mens både WGS og WES producerer en stor mængde af data af høj kvalitet, kan mængden af data være overvældende. Ikke kun kræver denne store datamængder beregningskrævende Bioinformatik analyse, men dataopbevaring kan ofte præsentere problemer7. Denne udfordring af datalagring også tilføjer yderligere omkostninger til både WGS og WES, der anses ofte ikke i første omgang ved beregning af bekostning af sekventering. Yderligere, selv om det faldende, udgifter til WGS og WES forbliver relativt høje. Målrettet sekventering kan være en mere omkostningseffektiv løsning, især når sekventering af et stort antal individer er påkrævet.
The Ontario Neurodegenerative Disease Research Initiative (ONDRI) er en multi-platform, provincial-wide, observationelle kohorteundersøgelse kendetegner fem neurodegenerative sygdomme, herunder: 1) Alzheimers sygdom og mild kognitiv svækkelse, 2). Amyotrofisk lateral sklerose, 3) frontotemporal demens, 4) Parkinsons sygdom, og 5) vaskulære kognitiv svækkelse8. ONDRI genomforskning undergruppe sigter mod at belyse som en del af den oprindelige karakterisering af denne kohorte i disse fænotype og genetisk heterogene sygdomme ofte diskonteret, men yderst vigtige genetiske landskab. Neurodegenerative sygdomme er således egnede kandidater for NGS metoder og målrettede sequencing i særdeleshed.
Vi har custom-designet en målrettet NGS panel, ONDRISeq, at sekvens 528 deltagere involverede i ONDRI for de protein-kodende regioner af 80 gener, der har været tidligere forbundet med de fem sygdomme af interesse. Med denne metode er vi i stand til at udnytte den NGS data af høj kvalitet på en målrettet og effektiv måde. Design og validering af panelet ONDRISeq med flere konkordans undersøgelser har været tidligere beskrevet, som panelet ONDRISeq var i stand til at identificere roman, sjældne varianter af eventuelle kliniske betydning i 72,2% af 216 tilfælde anvendes til panelet validering 9. selv om NGS teknologien har udviklet sig hurtigt og bemærkelsesværdigt i de seneste år, mange forskere står over for en udfordring ved behandling af raw-data i en liste over anvendelig, kommenteret varianter10. Yderligere, fortolkning af varianterne kan være komplekse, især når de står med mange, som er sjældne eller roman11.
Her, beskriver vi i trinvist, metode af målrettede NGS og tilknyttede Bioinformatik arbejdsprocessen kræves til resequencing, variant gerning, og variant anmærkning med ONDRISeq undersøgelse som et eksempel. Efter generation af NGS data skal rå sekventering filer justeres menneskelige reference genom for at præcist kalde varianter. Varianter skal derefter være kommenteret for at udføre efterfølgende variant datasikring. Vi vil også forklare vores gennemførelse af American College of Medical Genetics standarder og retningslinjer til præcist klassificere variant sygdomsfremkaldende evne.
På vej fra DNA prøve udvinding til at identificere varianter, der kan være af interesse, når man overvejer en patients diagnose, sygdomsprogression og mulige behandlingsmuligheder, er det vigtigt at anerkende den mangfoldige natur af den metode, der kræves for både sekvensering og ordentlig behandling. Protokollen beskrevet heri er et eksempel på udnyttelsen af målrettede NGS og efterfølgende bioinformatic analyse væsentligt at identificere sjældne varianter af potentiel klinisk betydning. Specifikt, præsenterer vi ONDRI genomforskning undergruppe fremgangsmåde, når du bruger panelet ONDRISeq specialdesignede NGS.
Det erkendes, at disse metoder blev udviklet baseret på en specifik NGS platform og at der er andre sekventering platforme og target berigelse kits, der kan bruges. Dog blev NGS platform og desktop instrument (Table of Materials) valgt på grundlag af sin tidlige US Food and Drug Administration (FDA) godkendelse46. Denne tilladelse afspejler høj kvalitet sekventering, der kan udføres med protokollerne NGS valg og pålidelighed, der kan placeres på sekventering læser.
Selv om at opnå nøjagtig sekventering læser med dybden af dækningen er meget vigtigt, Bioinformatik behandling kræves for endelige sjælden variant analyse er afgørende og kan være beregningskrævende. På grund af de mange kilder til fejl, der kan forekomme inden for sekventering proces, skal en robust Bioinformatik rørledning korrigere for de forskellige unøjagtigheder, der kan indføres. De kan opstå som følge af forskydninger i tilknytningsprocessen, forstærkning bias indført ved PCR-amplifikation i biblioteket forberedelse og technology producerer sekventering artefakter47. Uanset den software, der bruges til at udføre Læs kortlægning og variant kald, er der fælles måder at reducere disse fejl, herunder lokale kursjustering, fjernelse af dubletter tilknyttede læser, og indstille ordentlig parametre for kvalitetskontrol, når du ringer varianter. Derudover kan de parametre, der er valgt under variant kald variere baseret på hvad der er mest hensigtsmæssigt for at studere på side11. Minimumsdækningen og kvalitetsresultat en variant og de omkringliggende nukleotider, der blev anvendt heri var valgt at skabe en balance mellem passende specificitet og sensitivitet. Disse parametre er blevet valideret for panelet ONDRISeq baseret på variant kaldende konkordans med tre separate genetiske teknikker, som tidligere beskrevet, herunder: 1) chip-baserede genotypebestemmelse; 2) allel forskelsbehandling assay; og 3) Sanger sekventering9.
Efter nøjagtig variant kræver, for at bestemme de af potentiel klinisk betydning, er Kommentering og datasikring afgørende. På grund af sin åbne platform er ANNOVAR et fremragende værktøj til både annotation og foreløbige variant screening eller eliminering. Ud over at være lettilgængelige, ANNOVAR kan anvendes til enhver VCF fil, uanset hvilken sekventering platform er brugt, og er tilpasselig baseret på behovet for forskning26.
Efter anmærkning fortolkes varianter for at bestemme, hvis de skal betragtes som værende af klinisk betydning. Ikke alene gør denne proces bliver kompliceret, men det er ofte udsat for subjektivitet og menneskelige fejl. Derfor har ACMG sæt retningslinjer til at vurdere beviserne for sygdomsfremkaldende evne af enhver variant. Vi anvender en ikke-synonym, sjælden variant-baserede manuel datasikring tilgang, der er bygget baseret på disse retningslinjer og tilgodeset ved individuelt at vurdere hver variant, der er i stand til at passere gennem rørledning med et specialdesignet Python script som klassificerer varianter baseret på retningslinjerne. På denne måde, hver variant er tildelt en rangordning af patogene, sandsynligvis patogene, usikker betydning, sandsynligvis godartede, eller godartet, og vi er i stand til at tilføje standardisering og gennemsigtighed til variant datasikring proces. Det er vigtigt at anerkende, at detaljerne i variant datasikring, ud over Bioinformatik-rørledningen, vil individualiseres baseret på behovene i forskningen, og var derfor uden for rammerne af de metoder, der er præsenteret.
Selv om de metoder, der præsenteres her er specifikke for ONDRI, kan trinene beskrevet oversat, når man overvejer et stort antal konstitutionelle sygdomme af interesse. Efterhånden som antallet af genet foreninger øges for mange fænotyper, målrettede NGS giver mulighed for en hypotese drevet tilgang, der kan udnytte den tidligere forskning, der er blevet gjort i feltet. Der er dog begrænsninger til målrettede NGS og metodik præsenteres. Ved kun at fokusere på bestemte områder af genomet, er områder af discovery begrænset til romanen alleler af interesse. Derfor roman gener eller andre genomisk loci ud over dem, der er omfattet af sekventering mål, som kunne blive afsløret med WGS eller WES tilgange, ikke vil blive identificeret. Der er også regioner i genomet, der kan være svært at nøjagtigt sekvens med NGS tilgange, herunder dem med en høj grad af gentagne sekvenser48 eller dem, der er rige på GC indhold49. Heldigvis, når udnytte målrettet NGS, der er en priori en høj grad af fortrolighed med de genomiske regioner er sekventeret, og om disse kan indebære tekniske udfordringer. Endelig, påvisning af kopi nummer varianter fra NGS data på nuværende tidspunkt er ikke standardiseret50. Bioinformatik løsninger på disse betænkeligheder kan imidlertid være i horisonten; nye beregningsmæssige værktøjer kan hjælpe til at analysere disse yderligere former for variation i ONDRI patienter.
Trods sine begrænsninger er målrettede NGS stand til at få data af høj kvalitet, inden for en hypotese-drevet strategi, mens de resterende billigere end dens WGS og WES modparter. Ikke alene er denne metode passende for effektiv og styret forskning, kliniske gennemførelse af målrettede NGS vokser eksponentielt. Denne teknologi bruges til at besvare mange forskellige spørgsmål om den molekylære veje af forskellige sygdomme. Det er også udvikles til en nøjagtig diagnostisk redskab til en relativt lav pris når imod WES og WGS. Selv sammenlignet med guld-standard Sanger sekventering, målrettet kan NGS outcompete i sin tid – og omkostninger-nyttevirkning. Af disse grunde er det vigtigt for en videnskabsmand eller kliniker, der modtager og bruger NGS data, for eksempel, leveres som tekst i et laboratorium eller kliniske rapport, for at forstå komplekse “black box”, der ligger til grund for resultaterne. De metoder, der præsenteres heri bør hjælpe brugerne at forstå processen underliggende generation og fortolkning af NGS data.
The authors have nothing to disclose.
Vi vil gerne takke alle ONDRI deltagere for deres samtykke og samarbejde med vores undersøgelse. Tak til ONDRI efterforskere (www. ONDRI.ca/people), herunder vores ledende efterforsker (MJS), og ONDRI for udvalg: forretningsudvalg, styregruppe, publikation udvalget, rekruttere udvalget, vurdering platforme og project management team. Vi takker også London Regionalcentret genomforskning for deres tekniske ekspertise. AAD understøttes af Alzheimers Society of London og Middlesex mestre Graduate Research Scholarship. SMKF understøttes af ALS Canada Tim E. Noël postdoc stipendium.
4 ml EDTA K2 tubes | Fisher Scientific | 02-689-4 | |
1 M Tris Buffer | Bio Basic Canada Inc. | SD8141 | |
Gentra Puregene Blood Kit | Qiagen | 158389 | 1000 mL Kit. This is the blood extraction kit, referred to in step 1.3. |
NanoDrop-1000 Spectrophotometer | Thermo Fisher Scientific | ND-2000 | Replaced by the NanoDrop-2000 Spectrophotometer. This is the full-spectrum spectrophotometer, referred to in steps 1.4 and 2.1.2. |
Qubit 2.0 fluorometer | Invitrogen | Q32866 | This is a fluorometer appropriate for the quantification of DNA, referred to in steps 2.1.4, 2.1.6, 2.2.3, and 3.1.3. |
Nextera Rapid Custom Capture Enrichment Kit | Illumina, Inc. | FC-140-1009 | Specifically designed for the ONDRISeq panel, sequencing the exons of 80 genes, resulting in 971,388 base pairs of sequence in paired-end reads of 150 bases in length; 288 samples per kit. This is the target enrichment kit, referred to in steps 2.2, 2.2.2, 2.2.3, 3.1.5, 3.1.6, 3.4.1, and the Discussion. |
2100 BioAnalyzer | Agilent Technologies | G2939BA | This is a automated electrophoresis system, referred to in step 3.1.4. |
High Sensitivity DNA Reagent Kit | Agilent Technologies | 5067-4626 | 110 Samples per kit; This is a DNA quality analysis kit, referred to in step 3.1.4. |
MiSeq Reagent Kit v3 | Illumina, Inc. | MS-102-3003 | 600 Cycle Kit; This is the NGS desktop instrument reagent kit, referred to in step 3.1. |
MiSeq Personal Genome Sequencer | Illumina, Inc. | SY-410-1003 | This is a NGS desktop instrument, referred to in steps 2.2.1, 3.1, 3.1.1, 3.1.2, 3.1.8, 3.2, 4.2.6, the Representative Results, and the Discussion. |
Experiment Manager | Illumina, Inc. | This is NGS technology software, referred to in step 3.1.1 and Figure 1. https://support.illumina.com/sequencing/sequencing_software/experiment_manager/downloads.html | |
BaseSpace | Illumina, Inc. | SW-410-1000 | This is a cloud-based computing environment, referred to in steps 3.1.2, 3.2, 3.3, 3.3.1, 3.3.2, 3.4, 3.4.1, 3.4.2 and 3.4.3. https://basespace.illumina.com/ |
CLC Genomics Workbench 10.1.1 | Qiagen | 832000 | Open source options for data pre-processing are also available that can model the workflow used in this protocol. This is the software used for data pre-processing, referred to throughout step 4 and in Figure 2. |
Annotate Variation | http://annovar.openbioinformatics.org/en/latest/user-guide/download/ | ||
RefSeq | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/refseq/ | |
dbSNP138 | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi?view+summary=view+summary&build_id=138 | |
Exome Aggregation Consortium | Broad Institute | http://exac.broadinstitute.org/ | |
National Heart, Lung, and Blood Institute Exome Sequencing Project European Cohort | University of Washington and the Broad Institute | http://evs.gs.washington.edu/EVS/ | |
ClinVar | National Center for Biotechnology Information | https://www.ncbi.nlm.nih.gov/clinvar/ | |
Combined Annotation Dependent Depletion | University of Washington and Hudson-Alpha Institute for Biotechnology | http://cadd.gs.washington.edu/ | |
Sorting Intolerant from Tolerant | J. Craig Venter Instutite | http://sift.jcvi.org/ | |
PolyPhen-2 | Brigham and Women's Hospital, Harvard Medical School | http://genetics.bwh.harvard.edu/pph2/ | |
Human Gene Mutation Database | Qiagen | 834050 | This is a disease mutation database, referred to in step 5.2 and the Representative Results. https://portal.biobase-international.com/cgi-bin/portal/login.cgi?redirect_url=/hgmd/pro/start.php |
Splicing-based Analysis of Variants | Frey lab, University of Toronto | http://tools.genes.toronto.edu/ | |
Human Splicing Finder | Aix Marseille Université | http://www.umd.be/HSF3/HSF.shtml | |
Other materials | |||
Centrifuge | |||
Disposable transfer pipets |