Genetics

Hybrid De Novo Genome Assembly för generering av kompletta genom av urinbakterier med kort- och långläsningssekvenseringsteknik

Published: August 20, 2021 doi: 10.3791/62872

Belle M. Sharon¹, Neha V. Hulyalkar¹, Vivian H. Nguyen¹, Philippe E. Zimmern², Kelli L. Palmer¹, Nicole J. De Nisco¹

¹Department of Biological Sciences, University of Texas at Dallas, ²Department of Urology, University of Texas Southwestern Medical Center

Summary

Detta protokoll beskriver en omfattande strategi för odling, sekvensering och de novo hybrid genom montering av urinvägsbakterier. Det ger ett reproducerbart förfarande för generering av kompletta, cirkulära genomsekvenser som är användbara för att studera både kromosomala och extrakromosomala genetiska element som bidrar till urinkolonisering, patogenes och antimikrobiell resistens spridning.

Abstract

Kompletta genomsekvenser ger värdefulla data för förståelse av genetisk mångfald och unika koloniseringsfaktorer för urinmikrober. Dessa data kan omfatta mobila genetiska element, såsom plasmider och extrakromosomal, som bidrar till spridning av antimikrobiell resistens och ytterligare komplicerar behandlingen av urinvägsinfektion (UTI). Förutom att ge fin upplösning av genomstrukturen möjliggör kompletta, slutna genom detaljerade jämförande genomik och evolutionära analyser. Genereringen av kompletta genom de novo har länge varit en utmanande uppgift på grund av begränsningar av tillgänglig sekvenseringsteknik. Parad nästa generations sekvensering (NGS) ger korta avläsningar av hög kvalitet som ofta resulterar i exakta men fragmenterade genomenheter. Tvärtom ger Nanopore sekvensering långa avläsningar av lägre kvalitet som normalt leder till felbenägna kompletta sammansättningar. Sådana fel kan hämma genomomfattande associationsstudier eller ge vilseledande analysresultat. Därför har hybridmetoder som kombinerar både korta och långa läsningar dykt upp som tillförlitliga metoder för att uppnå mycket exakta slutna bakteriegenom. Rapporteras häri är en omfattande metod för odling av olika urinbakterier, art identifiering av 16S rRNA gen sekvensering, extraktion av genomisk DNA (gDNA), och generering av korta och långa läsningar av NGS respektive Nanopore plattformar. Dessutom beskriver denna metod en bioinformatisk pipeline av kvalitetskontroll, montering och gen förutsägelse algoritmer för generering av kommenterade kompletta genomsekvenser. Kombinationen av bioinformatiska verktyg möjliggör val av högkvalitativa läsdata för hybridgenommontering och nedströmsanalys. Den strömlinjeformade metoden för hybrid de novo genom montering som beskrivs i detta protokoll kan anpassas för användning i alla odlingsbara bakterier.

Introduction

Urinmikrobiomet är ett framväxande forskningsområde som har krossat en årtionden lång missuppfattning om att urinvägarna är sterila hos friska individer. Medlemmar av urinmikrobiotan kan tjäna till att balansera urinmiljön och förhindra urinvägsinfektion (UTI)¹^,². Uropathogena bakterier invaderar urinvägarna och använder olika virulensmekanismer för att förskjuta den bosatta mikrobiotan, kolonisera urotheliumet, undvika immunsvar och motverka miljötryck³^,⁴. Urin är ett relativt näringsbegränsat medium som kännetecknas av hög osmolaritet, begränsad kväve- och kolhydrattillgänglighet, låg syresättning och lågt pH^5,⁶^,⁷. Urin anses också vara antimikrobiell, bestående av höga koncentrationer av hämmande urea och antimikrobiella peptider såsom den mänskliga cathelicidin LL-37⁸. Att undersöka mekanismer som används av både bosatta bakterier och uropatogener för att kolonisera urinvägarna är avgörande för att ytterligare förstå urinvägarnas hälsa och utveckla nya strategier för UTI-behandling. Dessutom, när misslyckandet med främre antimikrobiella terapier blir vanligare, blir det allt viktigare att övervaka spridningen av mobila genetiska element som bär antimikrobiell resistensdeterminanter inom populationer av urinbakterier⁹^,¹⁰.

För att undersöka genotyper och fenotyper av urinbakterier är deras framgångsrika kultur och efterföljande helgenomsekvensering (WGS) absolut nödvändigt. Kulturberoende metoder är nödvändiga för att upptäcka och identifiera livskraftiga mikrober i urinprov¹¹. Standard klinisk urinkultur innebär att urine på 5% fårblod agar (BAP) och MacConkey agar och inkubation aerobiskt vid 35 °C för 24 h¹². Med en detektionströskel på ≥^{10 5} CFU/mL¹³rapporteras dock inte många medlemmar av urinfloran med denna metod. Förbättrade odlingstekniker som enhanced quantitative urine culture (EQUC)¹¹ använder olika kombinationer av olika urinvolymer, inkubationstider, kulturmedier och atmosfäriska förhållanden för att identifiera mikrober som ofta missas av vanlig urinkultur. Beskrivs i detta protokoll är en modifierad version av EQUC, som kallas här Modified Enhanced Urine Culture protokoll, som möjliggör odling av olika urinbakterier och uropathogener med hjälp av selektiva medier och optimala atmosfäriska förhållanden men är inte i sig kvantitativ. Den framgångsrika isoleringen av urinbakterier möjliggör utvinning av genomiskt DNA (gDNA) för nedströms WGS och genommontering.

Genomaggregat, kompletta sammansättningar i synnerhet, möjliggör upptäckt av genetiska faktorer som kan bidra till kolonisering, nischunderhåll och virulens bland både bosatta mikrobiota och uropatiska bakterier. Utkastgenomsammansättningar innehåller ett varierat antal sammanhängande sekvenser (contigs) som kan innehålla sekvenseringsfel och saknar orienteringsinformation. I en komplett genommontering har både orienteringen och noggrannheten hos varje baspar verifierats¹⁴. Dessutom ger erhållande av kompletta genomsekvenser insikt i genomstruktur, genetisk mångfald och mobila genetiska element¹⁵. Korta läsningar ensam kan identifiera närvaron eller frånvaron av viktiga gener men kanske inte fastställa deras genomiska sammanhang¹⁶. Med möjliggörande långläsande sekvenseringsteknik som Oxford Nanopore och PacBio, kräver det inte längre ansträngande metoder som manuell stängning av de novo-sammansättningar av multiplex PCR¹⁷^,¹⁸. Kombinationen av nästa generations kortläsningssekvensering och Nanopore långläsande sekvenseringsteknik möjliggör enkel generering av exakta, kompletta och slutna bakteriegenomaggregat till relativt låga kostnader¹⁹. Kortläst sekvensering ger exakta men fragmenterade genomenheter som i allmänhet består av i genomsnitt 40-100 contigs, medan Nanopore sekvensering genererar långa avläsningar på ca 5-100 kb i längd som är mindre exakta men kan fungera som byggnadsställningar för att sammanfoga contigs och lösa genomisk synteni. Hybridmetoder som använder både kortläst och långläsningsteknik kan producera exakta och kompletta bakteriegenom¹⁹.

Beskrivs här är ett omfattande protokoll för isolering och identifiering av bakterier från mänsklig urin, genomisk DNA-extraktion, sekvensering och fullständig genommontering med hjälp av en hybridmonteringsmetod. Detta protokoll ger särskild tonvikt på de steg som krävs för att korrekt modifiera avläsningar som genereras av kortläsning och långläsningssekvensering för korrekt montering av en sluten bakteriekromosom och extrakromosomala element som plasmider.

Protocol

Bakterier odlades från urin som samlats in från samtyckande kvinnor som en del av institutionella granskningsnämndens godkända studier 19MR0011 (UTD) och STU 032016-006 (UTSW).

1. Modifierad förbättrad urinkultur

OBS: Alla odlingssteg måste utföras under sterila förhållanden. Sterilisera alla instrument, lösningar och media. Rengör arbetsområdet med 70% etanol, sätt sedan upp en Bunsenbrännare och arbeta försiktigt nära lågan för att minska risken för förorening. Alternativt kan ett biosäkerhetsskåp av klass II användas för att upprätthålla en steril miljö. Använd lämplig personlig skyddsutrustning (PPE) för att undvika exponering för potentiellt patogena mikrober.

Plätering av glycerolfylld urin och koloniisolering
1. Tina glycerolfylld urin vid rumstemperatur (RT). När provet har tinats, virvlar du provet i 5 s för att blanda. I sterila mikrocentrifugerör bereder du 1:3 och 1:30 utspädningar av urinen i steril 1x fosfatbuffrad saltlösning (PBS) till en slutlig volym på 100 μL.
  OBS: Glycerolfylld urin framställs genom blandning av 500 μL outspädd urin och 500 μL 50% steril glycerol i kryovialer och lagring vid -80 °C.
2. Förvarma agarplattor vid 37 °C i 15 min före användning. Se figur 1 för medietyper och odlingsförhållanden som är lämpliga för vanliga urinbakteriella släkten. Blanda den utspädda urinen väl genom pipettering före plätering, plätera 100 μL av den utspädda urinen på önskad agarplatta och sprid provet med sterila glaspärlor. Platta 100 μL av 1x PBS-spädningsspelet på en separat platta som ingen tillväxtkontroll.
  OBS: Om man försöker odla vanliga uropathogena arter (t.ex. Escherichia coli, Klebsiella spp., Enterococcus faecalis, etc.), rekommenderas att använda kromogen agar(Tabell över material) eftersom det gör det enkelt att identifiera uropatisk bakterieart(figur 1). Colistin Nalidixic Acid (CNA) eller MRS agar är användbara för att isolera kräsna grampositiva arter (t.ex. Lactobacillus spp.) från urin som är känd för att innehålla gramnegativa uropatogener, som kan konkurrera ut de kräsna arterna i icke-selektiva agarer.
3. Inkubera plattan inverterad i önskat atmosfäriskt tillstånd vid 35 °C under en period av 24 timmar för uropatogener och 3-5 dagar för kräsna bakterier(figur 1).
4. Efter inkubationsperioden, ta bort plattorna från inkubatorn. Från varje platta väljer du kolonierna som uppvisar en unik färg, morfologi eller hemolytiska mönster.
5. Re-streak bakteriekolonin med hjälp av en steril slinga på motsvarande agar och inkubera plattan inverterad i 2-5 dagar i önskad atmosfär för att få välisolerade kolonier.
  OBS: Om bap utnyttjas för primärkultur kan korrigering av kolonier på kromogen agar ge användbar information om bakteriepopulationens heterogenitet i provet.
Odling i flytande buljong och glycerol-strumpa bakterieisolat
1. När de isolerade kolonierna som matchar moderkolonins morfologi erhålls, välj en enda koloni och inokulera i 3 ml flytande buljong med hjälp av en steril inokuleringsslinga. Se figur 1 för buljong som kan stödja tillväxten av vanliga urinmikrobiota släkten. Försegla agarplattorna med parafilm och förvara dem vid 4 °C i 2-4 dagar. Inkubera flytande kulturer i önskade atmosfäriska förhållanden i 1-5 dagar tills kulturen är synligt grumlig.
2. Efter tillväxt observeras, virvla kulturen och tillsätt sedan 1 ml av nattkulturen till 500 μL steril 50% glycerol i en 2 mL cryovial; försegla och blanda försiktigt genom inversion. Förbered två glycerol lager för varje koloni (en fungerar som en säkerhetskopia) och lagra vid -80 °C.

2. Identifiering av bakteriearter genom 16S rRNA-gen Sanger sekvensering

OBS: Mikrobiell identitet kan alternativt bekräftas med Matrix-assisterad laserdesorption joniseringstid för flygmassspektrometri (MALDI-TOF)²⁰.

Koloni-polymeras kedjereaktion (PCR)
1. Förbered en 25 μL pcr-reaktion i PCR-rör genom att tillsätta 12,5 μL 2x Taq Polymerase Master Mix, 0,5 μL 10 μM 8F primer, 0,5 μL 10 μM 1492R primer(Materialtabell)och 11,5 μL nukleasfritt vatten²¹.
  OBS: Om du utför PCR för flera prover, gör en reaktionsblandning av Taq Polymerase-blandning, primers och sterilt nukleasfritt vatten. Sedan alikvot 25 μL i varje PCR-rör.
2. För att utföra koloni-PCR, svep en välisolerad koloni från re-streak med en steril tandpetare eller pipettspets. Återsuspend kolonin i PCR reaktionsblandningen beredd i steg 2.1.1. Blanda försiktigt. Samla vätskan längst ner på röret med en snabb spinn vid 2000 x g.
  OBS: Se till att provet är fritt från luftbubblor. Inkludera ett NTC-exempel (No-template control) som enbart innehåller PCR-reaktionsmixen.
3. Placera provrören i termocykeln och kör följande program: 95 °C i 3 min; 40 cykler av: 95 °C för 30 s, 51 °C för 30 s och 72 °C för 1 min 30 s; 72 °C i 10 minuter; håll vid 10 °C.
Gelutvinning och artidentifiering
1. Kontrollera PCR-produkten på en 1% agarosegel som beretts i 0,5x Tris-Borate-EDTA (TBE) buffert när PCR-körningen är klar. Innan du gjuter gelén, tillsätt etidiumbromid (EtBr). Gjut sedan gelén med kammar för brunnar som rymmer minst 20 μL provvolym.
  VARNING: EtBr är ett interkalerande medel som misstänks vara cancerframkallande. Använd alltid handskar och personlig skyddsutrustning vid hantering av den och kassera material som innehåller EtBr enligt institutionens riktlinjer.
2. När gelén är inställd, placera gelén i elektroforestanken fylld med 0,5x TBE-buffert och ta bort kammen. Ladda stegen på 1 kb i den första brunnen och 10-20 μL av PCR-reaktionen i efterföljande brunnar. Kör vid 100-140 V tills det är löst. Visualisera gelén under UV-ljus och bekräfta närvaron av ett tydligt definierat band på ~ 1,5 kb som saknas i NTC-brunnen.
  VARNING: UV-strålar är skadliga för hud och ögon, använd ett lämpligt skydd när du visualiserar gelén och bär lämplig PERSONLIG skyddsutrustning.
  OBS: Koloni PCR kan misslyckas för vissa bakterier; att fortsätta med PCR från isolerat gDNA är ett alternativt alternativ²².
3. Ta bort de ~1,5 kb banden med en rakhyvel och överför gelsticklingarna till rena mikrocentrifugerör. Fortsätt med gelutsugningsprotokoll enligt tillverkarens instruktioner(Tabell över material). Mät koncentrationen av det renade DNA med mikrovolumspektrofotometer.
  OBS: En koncentration >10 ng/μL är önskvärd, och A260/280 mellan 1,7-2,0 är acceptabel.
4. Förbered två Sanger sekvenseringsreaktioner för varje prov, en med 8F och den andra med 1492R-primern i nukleasfritt vatten enligt riktlinjerna för alla valda Sanger-sekvenseringstjänst.
5. När sekvenseringsdata har tagits emot laddar du upp DNA-sekvenserna till NCBI Basic Local Alignment Search Tool (BLAST) webbplats (blast.ncbi.nlm.nih.gov/Blast.cgi), väljer Nucleotide BLAST (blastn), väljer rRNA / ITS-databasen 16S ribosomala RNA-sekvenser (bakterier och arkéer) och kör Megablast-programmet. Isolatet kan identifieras med högsta kvalitet träff till en referens från databasen.
  OBS: Vissa bakteriearter uppvisar hög identitet i sina 16S rRNA-sekvenser och kan vara oskiljbara enbart med denna metod. Speciation kommer att kräva DNA-homologi och biokemiska analyser för att med säkerhet skilja medlemmar av samma släkte²³.

3. Extraktion av genomiskt DNA (gDNA)

OBS: Detta avsnitt använder reagenser och spinn-kolonner som tillhandahålls i gDNA-extraktionssatsen som refereras i tabellen över material för hög avkastningsextraktion av kvalitetsgenomiskt DNA från olika bakteriearter. Nedan följer rekommenderade ändringar och instruktioner.

Förbered satsreagenser enligt tillverkarens instruktioner.
Förbered 3-10 ml-kulturer i lämplig sterilbuljong (figur 1) genom att vaccinera bakterier från välisolerade kolonier till media och inkubera vid den temperatur och det atmosfäriska tryck som anges i figur 1 tills tillräcklig tillväxt observeras.
Efter inkubation, mät den optiska densiteten vid 600 nm (OD₆₀₀₎av kulturen med hjälp av en spektrofotometer²⁴.
1. Förbered provet för kvantifiering genom att späda ut kulturer över natten i förhållandet 1:10. Inkludera ett tomrum av det sterila odlingsmediet för mätning också. Beräkna den optiska densiteten genom att subtrahera den tomma avläsningen från provavläsningen och multiplicera med utspädningsfaktorn tio.
Beräkna hur många milliliter kultur som behövs för att få 2 x 10⁹ celler med hjälp av OD_{600-mätningen} och ett fördefinierat FÖRHÅLLANDE MELLAN₆₀₀ och CFU/ml för arten.
Centrifugera önskad odlingsvolym i 5 min vid 5000 x g till pellet. Aspirera på supernatanten och återanvända pelleten i 200 μL kall TE-buffert (förkylning på is i början av proceduren).
Centrifugera provet i 2 min vid 5000 x g. Ta bort supernatanten och återanvänd pelleten i 180 μL enzymatisk lysbuffert (ELB) och tillsätt 20 μL förkokt RNase A (10 mg/ml). För effektiv lys av grampositiva bakterier tillsätt 18 μL mutanolysin (25 kU/ml). Virvelbrunn och inkubera sedan proverna vid 37 °C på rotatorn i 2 timmar.
OBS: Det rekommenderas att använda ELB som beskrivs i tillverkarens protokoll för både grampositiva och gramnegativa bakterier.
Fortsätt enligt tillverkarens instruktioner.
OBS: Upprepa elutionsstegen en eller två gånger till för att få ytterligare gDNA-utbyte, om så önskas.
Utvärdera kvaliteten på extraherat gDNA enligt 4 § och lagra gDNA vid 4 °C om det kommer att användas inom en vecka. Alternativt kan du hålla gDNA vid -20 °C för långtidslagring.

4. Bedömning av kvaliteten på extraherat gDNA

För att bedöma kvaliteten med gelelektrofores, bered 1% agarose gel enligt beskrivningen i underavsnitt 2.2. Förbered provet i ett rent rör: blanda 1-2 μL extraherat gDNA och 3 μL 2x lastfärg på parafilm. Kör gelén när den har laddats och visualisera den sedan under UV-ljus.
OBS: Framgångsrik gDNA-extraktion kommer att märkas av ett diskret band högst upp på gelén och minimal utstrykning (figur 2A). Smutskastning tyder på klippning. Om inget gDNA-band är uppenbart och/eller utstryket är betydande, upprepa gDNA-extraktion. Överväg att minska inkubationstiden i RNase A och Proteinase K. Om två band runt 1,5-3 kb observeras tyder detta på RNA-kontaminering(figur 2B). Förbered färsk RNase A och upprepa extraktionen.
För att bedöma kvaliteten med mikrovolumspektrofotometer, mät gDNA-koncentrations- och absorbansförhållande A260/280 med mikrovolumspektrofotometer. Koncentrationerna >50 ng/μL och A260/280 mellan 1,7-2,0 är godtagbara.
OBS: Lågt gDNA-utbyte kan bero på låg ingång, hög ingång, förorening av nukleaser, otillräcklig lys. Absorbanskvoter över intervallet indikerar RNA-kontaminering. Upprepa extraktionen om gDNA-kvaliteten är dålig.
För att bedöma kvaliteten med fluorometer, följ tillverkarens instruktioner för att kvantifiera gDNA-koncentrationen med hjälp av högkänslighetsanalyssats och fluorometerinstrument(Tabell över material). Koncentration >50 ng/μL är önskvärt.

5. Parad nästa generations kortläsningssekvensering och biblioteksförberedelser

OBS: Kortläsningssekvensering kan utföras på olika instrument med olika läslängder och orienteringar. 150 bp (300 cykel) parad sekvensering rekommenderas för bakteriell WGS. Både biblioteksförberedelser och sekvensering kan läggas ut på kärnanläggningar eller kommersiella laboratorier.

Förbered sekvenseringsbiblioteket enligt tillverkarens instruktioner(Tabell över material). Följ tillverkarens rekommenderade slutliga lastbibliotekskoncentration; En rekommenderad ändring är dock att ladda det poolade biblioteket med 1,8 pM för optimal läsgenerering på NextSeq-instrument.
Även om det är valfritt, använd en Bioanalyzer(Table of Materials) för att bedöma den poolade biblioteksfragmentfördelningen och se till att fragmentstorleken är 600 bp i genomsnitt.

6. Nanopore MinION sekvensering bibliotek förberedelse

Förbered sekvenseringsbiblioteket enligt tillverkarens protokoll(Tabell över material). Genom att använda två streckkodsexpansionssatser kan du använda fleraxering av upp till 24 prover på en enda flödescell. Det rekommenderas att utföra biblioteksförberedelser i två delar, 12 prover åt gången när du multiplexerar 24 prover. Alla 24 proverna får samlas enligt beskrivningen nedan.
OBS: Prover kan lagras vid 4 °C över natten när du har avslutat native barkodsligation - detta ger en stopppunkt i protokollet, om det behövs. I slutet av avsnittet Native streckkodsligation i bibliotekets förberedelseprotokoll rekommenderas att slå samman equimolarmängder av varje prov upp till maximal DNA-massa (ng).
1. För att göra detta, kvantifiera alla prover efter streckkodsliggning med hjälp av en fluorometer(Tabell över material)enligt tillverkarens instruktioner. Uppskatta provets volym med den lägsta dsDNA-koncentrationen och beräkna sedan den totala dsDNA som finns i detta prov. Använd det här numret för att bestämma de likmolära mängderna för alla andra prover som ska slås samman.
  OBS: Eftersom beräkningen av equimolar maximerar mängden poolad dsDNA och därmed ger en högvolymspool (>65 μL), är rensning nödvändig för att koncentrera poolen.
dsDNA-poolrensning och koncentration
1. Tillsätt 2,5x volym paramagnetiska pärlor(Table of Materials) till DNA-poolen och snärta sedan försiktigt röret för att blanda innehållet. Placera röret i rotatorn i 5 min vid RT. Snurra ner provet vid 2000 x g och pellet på en magnet.
2. Tillsätt 250 μL nyberedd 70% etanol (i nukleasfritt vatten), var försiktig så att du inte stör pelleten. Aspirera etanolen och upprepa etanoltvätten en gång.
3. Efter den andra strävan, snurra ner provet vid 2000 x g och placera det tillbaka på magneten. Pipettera bort eventuell restetanol och låt provet torka i cirka 30 s.
4. Ta bort röret från magneten och återanvänd pelleten i 60-70 μL nukleasfritt vatten. Inkubera på RT i 2 min. Pellet provet på magneten tills eluteen är klar, och ta sedan bort eluten och överför till ett rent 1,5 ml mikrocentrifugerör.
5. Kvantifiera den koncentrerade poolen med hjälp av en fluorometer och förbered sedan en alikvot för att gå vidare till adapterligatursteget: förbered 700 ng av provet i 65 μL slutlig volym. Behåll resten av poolen vid 4 °C så att en andra körning slutförs när den första körningen är klar.
6. Fortsätt med adapterligering enligt tillverkarens anvisningar och ladda provet på flödescellen. Starta sekvenseringskörningen.
  OBS: Aspirera luft och ~200 μL lagringsbuffert från flödescellens evakueringsport före provbelastningen. Detta är avgörande för den lyckade flödescellsprimingen och provinläsningen. Använd en p1000 pipett och tips när du ritar och deponerar lösningar genom flödescellens primingport.
Sekvensera biblioteket enligt tillverkarens instruktioner.
1. Öppna driftprogramvaran för sekvensering och klicka på Start. Ange ett namn för experimentet, en rekommenderad nomenklatur innehåller körningsdatumet och användarens namn. Klicka på Fortsätt till kitval, välj lämpligt biblioteksförberedande paket och streckkodsexpansionspaket som används och klicka sedan på Fortsätt att köra alternativ.
2. Justera körningslängden till 48 h om du planerar att förbereda tillräckligt med bibliotek för en andra körning (annars lämna vid standard 72 h). Klicka på Fortsätt till Basecalling.
3. Kontrollera bassamtalsalternativet Config: Fast Basecalling och se till att streckkoden är inställd på Aktiverad så att UTdata FASTQ-filer trimmas av streckkodssekvenserna och demultiplexeras till separata kataloger baserat på streckkod. Klicka på Fortsätt till utdata.
4. Välj var utdata ska sparas. Förvänta dig cirka 30-50 Gb data om du bara sparar FASTQ-utdata och >500 Gb data om du också sparar FAST5-utdata. Avmarkera filtreringsalternativet Qscore: 7 | Readlength: Ofiltrerad om du planerar att fortsätta med filtrering som beskrivs i avsnitt 7.2, annars lämna kontrollerad och justera Readlength till 200.
5. Klicka på Fortsätt att köra installationsprogrammet och granska alla inställningar. Om inställningarna är korrekta klickar du på Start, annars klickar du på Back och gör nödvändiga justeringar.
6. Om så önskas kan flödescellen tvättas enligt tillverkarens instruktioner och laddas om med den återstående poolen. Upprepa stegen i 6.2 för den återstående poolen när den första körningen är klar och flödescellen har tvättats.
  OBS: När du ställer in den andra körningen justerar du biasspänningen till -250 mV enligt tillverkarens rekommendationer för flödesceller som tidigare användes i körningar över 48 timmar.

7. Bedömning och förberedelse av läsningar

Obs: En rekommenderad katalogstruktur visas i figur 4. Skapa katalogerna som finns i skrivbordet, nämligen Long_Reads, Short_Reads och Trimmed_Reads, innan du fortsätter med beräkningsstegen nedan.

Korta läsningar (Bild 3)
OBS: Korta läsningar genereras i FASTQ-format. Filerna innehåller högst 4000 avläsningar per FASTQ. Dessa är ofta zippade (.gz arkiv) och organiserade i flera filer. Beroende på plattform trimmas streckkoder vanligtvis. Vissa program accepterar filer i zippade format, andra kan kräva extraktion innan de importeras. Avläsningarna måste klara kvalitetskontrollen (QC) steg för att säkerställa datanoggrannhet under genommontering. Om CLC Genomics Workbench inte är tillgänglig kan alternativa program användas för att trimma och QC korta läsningar som Trimmomatic²⁵ eller Trim Galore (https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/) för trimning och FastQC (http://www.bioinformatics.babraham.ac.uk/projects/fastqc/) för utvärdering av läskvalitet. Genomsnittlig kortläsningstäckning, uppskattad genom att multiplicera antalet läsningar med genomsnittlig läslängd och dividera med genomstorleken, rekommenderas att vara >100x.
1. Öppna Genomics Workbench programvara (Tabell över material) och importera alla parade kortlästa FASTQ filer. Ihopparade filer genereras automatiskt.
  1. Skapa en ny mapp under CLC_Data genom att klicka på nytt i det övre verktygsfältet och välja Mapp... för att lagra filerna. Namnge mappen efter önskemål, en rekommenderad konvention använder exempel-ID: Bespara alla utdata från följande steg till den här mappen.
  2. Klicka på knappen Importera i det övre verktygsfältet och välj Illumina... Navigera till och markera alla kortlästa filer som motsvarar exemplet. Kontrollera att alternativet parkopplade läsningar är markerat och avmarkera alternativet Ta bort misslyckade läsningar. Klicka på Nästa, välj Sparaoch klicka på Nästa igen. Välj att spara de importerade filerna i den nya mappen som skapades i föregående steg och klicka på Slutför.
2. Skapa en sekvenslista över alla parkopplade filer för isolatet. Detta kommer att sammanfoga läsdata i en enda fil för enkelhet i analysen.
  1. Klicka på knappen Ny i det övre verktygsfältet och välj Sekvenslista... Markera de filer som ska sammanfogas i kataloglistan till vänster och använd pilarna för att flytta dem till listan över markerade filer till höger. Klicka på Nästa, välj Sparaoch klicka på Nästa igen. Välj att spara sekvenslistan och klicka på Slutför.
  2. När sekvenslistan har genererats byter du omedelbart namn på den med exempel-ID: t.
3. Kör verktyget QC for Sequencing Reads i sekvenslistan: Den här proceduren kommer att bedöma de övergripande kvalitetsparametrarna för de läsningar som genereras av kortläst NGS.
  1. Sök efter verktyget QC för sekvenseringsläsningar i verktygslådans meny (fönster längst ned till vänster). Dubbelklicka på verktyget och välj sedan sekvenslistan som ska analyseras och klicka på Nästa.
  2. Kontrollera att alla utdataalternativ är kontrollerade och välj Spara under Resultathantering. Klicka på Nästa och ange för att spara utdatafilerna och klicka sedan på Slutför.
4. Kör verktyget Trimma läsningar i sekvenslistan: Trimning görs baserat på kvalitet, längd och tvetydighet. Den här processen förutsätter att streckkoderna som används vid sekvensering har trimmats före det här steget.
  1. Sök efter verktyget Trimma läsningar i verktygslådan (fönster längst ned till vänster). Dubbelklicka på Trimma läsningaroch välj sedan sekvenslistan som ska analyseras och klicka på Nästa.
  2. Kvalitets trimning: ställ in kvalitetspoänggränsen till 0,01 och lämna tvetydiga nukleotider till 2. Klicka på Nästa.
    Obs: Parametrarna kan justeras efter användarens gottfinnande. Det här är de rekommenderade inställningarna.
  3. Avmarkera automatisk genomläsning av kortklippning (gör det bara om adaptrar har trimmats från avläsningarna före import till CLC). Klicka på Nästa och markera Ignorera läsningar under längd, använd standard 15.
  4. Klicka på Nästa, markera Skapa rapportoch välj sedan Spara. Klicka på Nästa och ange var utdatafilerna ska sparas. Klicka på Slutför.
5. Exportera den trimmade sekvenslistan: efterföljande hybridmontering och analys slutförs utanför CLC och kräver att trimmade kortlästa filer exporteras.
  1. Från katalognavigeringen längst upp till vänster väljer du den trimmade filen som genereras i steg 7.1.4 och klickar sedan på Exportera i det övre verktygsfältet. Välj Fastq för exportfiltypen och klicka på Nästa. Kontrollera listan Exportera parkopplad sekvens till två filer. Klicka sedan på Nästa och välj den Trimmed_Reads katalogen att exportera filerna till. Klicka på Slutför. Se till att de trimmade kortläsningsfilerna exporterades som två filer (R1 och R2) med tillägget .fastq.
    OBS: Den trimmade sekvenslistan måste exporteras till två filer, vanligtvis betecknade av CLC som R1 och R2. Detta är avgörande eftersom nedströms hybrid sammansättning kräver att data indata med kort läsning konfigureras som sådan.
  2. Byt namn på de exporterade filerna, vänligen avstå från användning av blanksteg och specialtecken i filnamn. För enkelhetens skull är ett rekommenderat format trimmed_short_file. R1.fastq.
Lång (MinION) läser (Bild 3)
OBS: Följande pipeline för förberedelse av Lång (MinION) sekvensering läser för hybrid montering använder NanoFilt och Nanostat program²⁶ som körs av kommandoraden. Installera verktygen innan du fortsätter och var bekant med grunderna i UNIX för att utföra dessa kommandon. Standardterminaler och Bash Shell rekommenderas. En lektionsguide för vanliga terminalkommandon och användning finns på Software Carpentry²⁷. Instruktionerna nedan förutsätter att de filer som genereras kommer att namnges med streckkodsnomenklaturen (NB01, NB02, etc.) och sparas i Long_Reads katalogen. Alternativt kan läsfiltrering utföras med MinKNOW när sekvenseringskörningen konfigureras. Genomsnittlig lång lästäckning rekommenderas att vara >100x. Rekommenderad genomsnittlig läslängd är >2000 bp; Därför är antalet långa läsningar som behövs lägre än antalet korta läsningar.
1. Skapa nya kataloger för varje streckkod som används i körningen (streckkod01, streckkod02 osv.) i Long_Reads katalogen (bild 4). Kopiera alla FASTQ-filer som motsvarar varje streckkod till lämplig mapp. Kombinera alla .fastq-filer för varje streckkod från varje körning.
2. Öppna Terminal och navigera till streckkodskatalogerna i Long_Reads-katalogen med kommandot cd: cd Desktop/Long_Reads/barcode01
3. Sammanfoga alla .fastq-filer per streckkod till en enda FASTQ-fil genom att köra följande kommando: cat *.fastq > NB01.fastq
  OBS: Det här kommandot kombinerar alla läsningar från var och en av FASTQ-filerna till en stor, enda FASTQ med namnet NB01.fastq.
4. Använd NanoStat för att bedöma provets läskvalitet genom att köra följande kommando: NanoStat --fastq NB01.fastq
5. Spela in resultaten genom att kopiera utdata till en text- eller Word-fil för framtida referens.
6. Använd NanoFilt för att filtrera MinION-läsningar som ignorerar läsningar med Q < 7 och längd < 200 genom att köra kommandot: NanoFilt -q 7 -l 200 bp NB01.fastq | gzip > NB01 _trimmed.fastq.gz
7. Kör NanoStat på den trimmade filen som genereras i steg 7.2.6 genom att köra kommandot: NanoStat --fastq NB01 _trimmed.fastq.gz
8. Registrera resultaten genom att kopiera utdata till en text- eller Word-fil och jämför med resultaten från steg 7.2.4 för att säkerställa att filtreringen lyckades (tabell 1).
9. Upprepa steg 7.2.2 till 7.2.8 för varje streckkod som används i sekvenseringskörningen.
  OBS: Filen NB01_trimmed.fastq.gz som genereras i steg 7.2.6 kommer att användas för hybridmontering.

8. Generera hybridgenommontering

OBS: Följande monteringspipeline använder Enhjuling^19,²⁸^,²⁹^,³⁰ för att kombinera korta och långa avläsningar som bereds i avsnitten 7.1 och 7.2(figur 3). Installera Unicycler och dess beroenden och kör kommandona nedan. Kortlästa filer som exporteras i steg 7.1.5 antas namnges trimmed_short_file. R1.fastq och trimmed_short_file. R2.fastq för enkelhet.

Ordna de kortlästa filerna och de långlästa filerna i en enda katalog med namnet Trimmed_Reads. Katalogen måste innehålla följande:
1. En .fastq.gz fil för trimmade långa läsningar (genereras i steg 7.2.6).
2. Två .fastq-filer (R1 och R2) för trimmade korta läsningar (genererade i steg 7.1.5).
Navigera till katalogen Trimmed_Reads som lagrar läsfilerna med kommandot cd i Terminal: cd Desktop/Trimmed_Reads
1. När du har rätt katalog, zip de två kortlästa filerna så att de också är i .fastq.gz-format genom att köra följande kommando: gzip trimmed_short_file. R1.fastq
Upprepa steg 8.2 för både R1 och R2. Kontrollera att alla lästa filer nu är i SNABB-.gz format och kontrollera att alla filer matchar samma isolat.
Starta hybridsammansättningen med Unicycler genom att köra följande kommando:
enhjuling -1 trimmed_short_file. R1.fastq.gz -2 trimmed_short_file. R2.fastq.gz -l NB01 _trimmed.fastq.gz -o unicycler_output_directory
OBS: -o anger katalogen där Unicycler-utdata ska sparas, Enhjuling kommer att skapa den här katalogen när kommandot har körts. generera inte katalogen i förväg. Körtiden varierar beroende på beräkningskraften hos den dator som används samt genomstorleken och antalet avläsningar. Detta kan ta allt från 4 timmar till 1 eller 2 dagar. Detta protokoll utfördes på en CentOS Linux 7-maskin med 250 Gb RAM, Intel Xeon (R) CPU med 2,5 GHz 12 praktiska kärnor och 48 virtuella kärnor. Alternativt kan persondatorer med 16 Gb RAM och 2,6 GHz 6-kärniga processorer beräkna dessa sammansättningar vid en längre bearbetningstid.
När körningen är klar granskar du enhjulingsfilen.log för att säkerställa att inga fel visas – registrera antalet, storleken och statusen (fullständig, ofullständig) för de contigs som genereras.
1. Om ofullständiga contigs identifieras (betecknas som ofullständiga i Unicycler-loggen) kör du Enhjuling i fetstilsläge igen genom att lägga till följande flagga i kommandot i steg 8.4: --läge fetstilt.
  OBS: Fetstilt läge sänker kvalitetströskeln som accepteras för långa läsbryggor under monteringen. Detta kan ge en fullständig montering, men monteringskvaliteten kan försämras. Det rekommenderas att använda djärvt läge endast när det behövs och som preliminära bevis för contig-anslutning som senare bekräftas av PCR.

9. Bedömning av monteringskvaliteten

OBS: Följande protokoll använder Bandage³¹ och QUAST³², två program som måste ställas in före användning (figur 2 och figur 4). Bandage kräver inte installation när det har laddats ner och QUAST kräver förtrogenhet med grundläggande kommandoradsanvändning. Det rekommenderas också att bedöma genomets fullständighet med hjälp av Benchmarking Universal Single-Copy Orthologs (BUSCO)³³.

Bandage: Klicka på Arkiv. Välj sedan Läs in diagram och välj filen assembly.gfa som sparades för att unicycler_output_directory som genererades av Unicycler i steg 8.4. När du har laddat klickar du på knappen Rita diagram i verktygsfältet till vänster och tittar på hur contigs (kallade noder) är anslutna och organiserade för att utvärdera om sammansättningen är klar (bild 5).
OBS: Kompletta sammansättningar representeras av enstaka cirkelkontiger som är länkade i båda ändar (figur 5A, B). Ofullständiga sammansättningar har flera contigs sammankopplade eller linjära (bild 5C). Små linjära contigs kanske inte är ofullständiga eftersom de kan indikera linjära extrachromosomal element. Täckning, även kallad djup, kommer att noteras i bandage och representerar det relativa överflöd av contigs till kromosomen, normaliserad i Enhjuling till 1x.
QUAST
1. Navigera till mappen som lagrar Unicycler-utdata med kommandot cd: cd Desktop/Trimmed_Reads/unicycler_output_directory
  OBS: Utrymmen är inte tillåtna i sökvägen till där monteringen är placerad, dvs. inga kataloger som leder till Unicycler-utgången kan ha utrymmen i deras namn. Du kan också kopiera filen assembly.fasta till skrivbordet för enkel åtkomst.
2. Kör QUAST genom att köra följande kommando: quast assembly.fasta -o quast_output_directory
3. Granska rapporterna som genereras av QUAST i utdatakatalogen quast_output_directory.

10. Genomanotering

OBS: Nedanstående anteckningspipeline använder Prokka³⁴, ett kommandoradsverktyg som måste installeras före användning. Du kan också använda Prokka via den automatiska GUI K-Base(Table of Materials) eller kommentera genom via webbservern RAST³⁵. Om du deponerar genom i NCBI kommer de automatiskt att kommenteras med hjälp av Prokaryotic Genome Annotation Pipeline (PGAP)³⁶.

Navigera i terminalen till mappen som lagrar Unicycler-utdata med kommandot cd (se steg 9.2.1). Kör sedan Prokka genom att köra följande kommando: prokka --prefix sample_ID --outdir prokka_output_directory assembly.fast
OBS: --prefix kommer att namnge alla utdatafiler baserat på den angivna sample_ID. --outdir kommer att skapa en utdatakatalog med det angivna namnet där alla Prokka-utdatafiler sparas; skapa inte en utdatakatalog för Prokka i förväg.
Granska anteckningarna genom att öppna tabellen .tsv och/eller genom att ladda upp GFF-filen som genereras till ett sekvensanalysprogram för att visualisera och analysera anteckningarna (figur 6).
Specifika typer av anteckningar kan genereras beroende på genetiska faktorer av intresse. Vi rekommenderar att du börjar med de användarvänliga verktygen på webbservern Center for Genomic Epidemiology (www.genomicepidemiology.org/) för preliminär analys^37,³⁸^,³⁹^,⁴⁰^,⁴¹. Ytterligare verktyg för detektion av CRISPR-cas-system och profag finns tillgängliga (figur 3)⁴²^,⁴³.

11. Föreslagna metoder för datademokratisering

När det är möjligt, deponera alla rådata samt monterade genom i ett offentligt arkiv som NCBI Sequence Read Archive (SRA) och Genbank. Genom kommenteras automatiskt via PGAP-pipelinen under NCBI-deponeringsprocessen.

Representative Results

Detta protokoll har optimerats för odling och sekvensering av urinbakterier som tillhör de släkten som anges i figur 1. Inte alla urinbakterier är odlingsbara med denna metod. Kulturmedier och kulturförhållanden anges av släktet i figur 1. Exemplariska gelelektroforesbedömningar av gDNA-integritet beskrivs i figur 2. En översikt över bioinformatikpipelinen för sekvensering av läsbehandling, genommontering och anteckning beskrivs i figur 3. En guide för beräkningskatalogstruktur finns i figur 4 för att både förenkla protokoll förståelsen och tillhandahålla ramverk för framgångsrik organisation. Dessutom ingår representativa fullständiga genom av två Klebsiella spp., K. pneumoniae och K. oxytoca, som genererades av detta protokoll. En representation av dessa församlingar finns i figur 5 och innehåller också ytterligare ett ofullständigt exempel K. pneumoniae genom. En detaljerad översikt över varje helt kommenterat komplett genom visas i figur 6. Slutligen ges en sammanfattning av sekvenseringsläsningsstatistiken i tabell 1 för att ge en bred förståelse av råa och trimmade data som är tillräckliga för att generering av slutna genomsamlingar av hög kvalitet. Dessutom, nyckelparametrar för de två representativa kompletta Klebsiella spp. genom listas. Genom och rådata deponerades i Genbank under bioproject PRJNA683049.

Figur 1: Modifierad förbättrad urinkultur av olika urinsläkten. Diagram för agar och flytande buljong som kan användas för att odla olika urinsläkten. All odling föreslås utföras vid 35 °C enligt beskrivningen i underavsnitt 1.1. Cirklar representerar media som är lämpliga för odling av ett visst släkte, färger valdes godtyckligt för att skilja en medietyp från en annan. CDC-AN BAP (röd), CDC Anaerobe Sheep Blood Agar; 5% Får-BAP (orange), Fårblod Agar; BHI (grön), Brain Heart Infusion; TSB (gul), tryptisk sojabuljong; CHROMagar orientering (blå). ^aGardnerella vaginalis ska odlas på HBT Bilayer G. vaginalis Selektiv agar i mikroaerofil atmosfär och under särskilda buljongkulturbehov⁴⁴. ^bLactobacillus iners bör odlas på 5% Kanin-BAP plattor och NYCIII buljong i mikroaerophilic atmosfär. ^cLactobacillus spp. kan odlas på MRS under mikroaerofila förhållanden. Klicka här för att se en större version av den här figuren.

Figur 2: Bilder av genomisk DNA-extraktionsagarosgel. Representativa gel bilder som visar gDNA extraktion resultat. (A) Bana 1: 1 kb stege, Lane 2: intakt gDNA som representerar framgångsrik extraktion, Lane 3: smutskastning som indikerar fragmenterad gDNA. (B) Bana 1: 1 kb stege, Lanes 2 & 3: rRNA-förorening betecknad av två band mellan 1,5 kb och 3 kb. Klicka här för att se en större version av den här figuren.

Bild 3: Arbetsflöde för hybridgenommontering. Schemat för steg från läskvalitetskontroll och förbearbetning till monteringsanteckning. Läs trimning tar bort tvetydiga och lågkvalitativa läsningar. Parametrarna Q-poäng och längd anges och representerar de avläsningar som behålls. Montering använder både korta och långa läsningar för att generera en hybrid de novo genommontering. Monteringskvaliteten utvärderas utifrån fullständighet och korrekthet med hjälp av angivna verktyg och parametrar. Den slutliga genommonteringen är kommenterad för alla gener och specifika lokus av intresse. Klicka här för att se en större version av den här figuren.

Bild 4: Bioinformatik katalogstrukturguide. Ett schema för rekommenderad katalog- och filorganisation för bearbetning av korta och långa läsningar, hybrid sammansättning och genomanteckning och QC. Viktiga kommandoradsdatabehandlingssteg markeras bredvid motsvarande filer och kataloger. Framkalla kommandon och flaggor (fetstil), inmatningsfiler (blå), utdatafiler eller kataloger (rött), användarinmatning, till exempel filnamnkonvention (magenta). Klicka här för att se en större version av den här figuren.

Bild 5: Genommonteringsgrafer av bandage. Representativa kompletta genommonteringsgrafer av (A) Klebsiella oxytoca KoPF10 och (B) Klebsiella pneumoniae KpPF25 och ofullständig genommontering av (C) Klebsiella pneumoniae KpPF46. Det fullständiga genomet av KoPF10 visar en enda sluten kromosom och det fullständiga genomet av KpPF25 består av en sluten kromosom och fem slutna plasmider. Den ofullständiga kromosomen av KpPF46 består av två sammankopplade contigs. Unicycler hybrid de novo montering genererar en monteringsgraf som visualiseras av Bandage. Monteringsdiagrammet ger ett förenklat schema av genomet, som indikerar sluten kromosom eller plasmider av en länk som förbinder två ändar av en enda contig. Förekomsten av mer än en sammankopplad contig indikerar ofullständig montering. Contig storlek och djup kan också noteras i Bandage. Klicka här för att se en större version av den här figuren.

Figur 6: Kompletta genomkartor av kommenterade hybridaggregat. Monteringskartor genererade av Geneious Prime för det fullständiga genomet av (A) K. oxytoca KoPF10 och (B) K. pneumoniae KpPF25 som visar kommenterade gener betecknade av färgade pilar längs plasmid ryggrader. Kromosomer visar bara rRNA- och tRNA-gener för enkelhetens skull. Genom anteckningar utfördes med Prokka som anges i avsnitt 10 i detta protokoll. Klicka här för att se en större version av den här figuren.

Table 1
Tabell 1: Representant Klebsiella spp. kompletta monteringsegenskaper. Monteringsparametrar för K. oxytoca stam KoPF10 och K. pneumoniae stam KpPF25. Anslutningsnummer för deponerade uppgifter om NCBI tillhandahålls. Antal avläsningar både före och efter trimning anges för båda sekvenseringsteknikerna. N50 tillhandahålls endast för långa läsningar eftersom korta läsningar är av kontrollerad längd. Plasmid replicon förutspådde med hjälp av PlasmidFinder v2.1 Enteroebacteriaceae databas med parametrar inställda på 80% identitet och 60% längd. ^en MLST, Multilocus sekvenstyp. ^b CDS, Kodningssekvenser. ^c Plasmid replicon förutspådde med hjälp av PlasmidFinder v2.1 Enterobacteriaceae databas med parametrar inställda på 80% identitet och 60% längd. ^d Oxford Nanopore Technologies (ONT) deponerade läsdata. ^e Illumina deponerade läsdata. Klicka här för att ladda ner den här tabellen.

Discussion

Det omfattande hybrid genom montering protokollet beskrivs här erbjuder en strömlinjeformad strategi för framgångsrik odling av olika urin microbiota och uropathogens, och fullständig montering av deras genom. Framgångsrika WGS av bakteriella genom börjar med isolering av olika och ibland kräsna mikrober för att extrahera deras genomiska DNA. Hittills saknar befintliga urinodlingsprotokoll antingen den nödvändiga känsligheten för att upptäcka många urinarter eller involverar långa och omfattande tillvägagångssätt som kräver längre tid och resurser¹¹. Den modifierade förbättrade urin kultur metoden beskrivs erbjuder ett förenklat men omfattande protokoll för framgångsrik isolering av bakterier som tillhör 17 vanliga urinvägssläkten, inklusive potentiellt patogena eller fördelaktiga commensal arter, och både fakultetsmässiga och obligatoriska aeroba eller anaeroba bakterier. Detta ger i sin tur det nödvändiga utgångsmaterialet för noggrann sekvensering och montering av bakteriella genom och för kritiska fenotypiska experiment, vilket bidrar till förståelsen av urinhälsa och sjukdom. Dessutom ger denna modifierade kulturmetod en mer definierad klinisk diagnos av livskraftiga mikroorganismer som finns i urinprover och möjliggör biobankning för framtida genomiska studier. Detta protokoll är dock inte utan begränsningar. Det kan kräva långa inkubationstider beroende på organismen samt användning av resurser såsom en hypoxikammare eller kontrollerade inkubatorer som kanske inte är lättillgängliga. Användningen av anaeroba GasPaks erbjuder en alternativ lösning, men dessa är kostsamma och producerar inte alltid en hållbar och kontrollerad miljö. Slutligen kan kulturbias och provdiversitet göra det möjligt för vissa organismer och uropatogener att konkurrera ut kräsna bakterier. Trots dessa begränsningar möjliggörs en kultur av olika urinbakterier genom detta tillvägagångssätt.

Genomisk sekvensering har blivit populär med utvecklingen av nästa generations sekvenseringsteknik som oerhört ökade både avkastningen och noggrannheten hos sekvenseringsdata¹⁴^,¹⁵. Tillsammans med utvecklingen av algoritmer för databehandling och de novo-montering är kompletta genomsekvenser till hands för nybörjare och expertforskare både¹⁵^,⁴⁵. Kunskap om övergripande genomorganisation som tillhandahålls av kompletta genom erbjuder viktiga evolutionära och biologiska insikter, inklusive genduplicering, genförlust och horisontell genöverföring¹⁴. Dessutom är gener som är viktiga för antimikrobiell resistens och virulens ofta lokaliserade på mobila element, som vanligtvis inte löses i utkastgenomaggregat¹⁵^,¹⁶.

Protokollet häri följer en hybridmetod för kombinationen av sekvenseringsdata från kortlästa och långlästa plattformar för att generera kompletta genomenheter. Medan fokus på urinbakteriella genom, detta förfarande kan anpassas till olika bakterier från olika isoleringskällor. Kritiska steg i detta tillvägagångssätt inkluderar att följa adekvat steril teknik och använda lämpliga media och kultur villkor för isolering av rena urinvägsbakterier. Dessutom är extraktion av intakt, högavkastande gDNA avgörande för att generera sekvenseringsdata utan förorenande läsningar som kan hämma monteringsframgång. Efterföljande biblioteksförberedande protokoll är avgörande för generering av kvalitetsläsningar av tillräcklig längd och djup. Därför är det av yttersta vikt att hantera gDNA med omsorg under biblioteksförberedelser för långläsningssekvensering i synnerhet, eftersom denna tekniks största fördel är genereringen av långa läsningar utan teoretisk övre längdgräns. Också skisseras är avsnitt för lämplig kvalitetskontroll (QC) av sekvenseringsläsningar som eliminerar bullriga data och förbättrar monteringsresultatet.

Trots framgångsrik DNA-isolering, biblioteksberedning och sekvensering kan naturen hos genomisk arkitektur hos vissa arter fortfarande utgöra ett hinder för generering av en sluten genommontering⁴⁵^,⁴⁶. Repetitiva sekvenser komplicerar ofta sammansättningsberäkningen och trots långa läsdata kan dessa regioner lösas med lågt förtroende eller inte alls. Långa läsningar måste därför vara i genomsnitt längre än den största upprepningsregionen i genomet eller täckningen måste vara hög (>100x)¹⁹. Vissa genom kan förbli ofullständiga och kräva manuella metoder för slutförande. Hybridmonterade ofullständiga genom består dock vanligtvis av färre contigs än kortlästa utkastgenom. Att justera standardparametrarna för monteringsalgoritmen eller följa strängare bryten för läst QC kan hjälpa. Alternativt är en föreslagen metod att kartlägga långa läsningar till de ofullständiga regionerna på jakt efter bevis för den mest sannolika monteringsvägen och sedan bekräfta sökvägen med PCR och Sanger-sekvensering av den förstärkta regionen. Kartläggning av läsningar med Minimap2 föreslås och Bandage erbjuder ett användbart verktyg för visualisering av mappade läsningar längs monterade contigs som ger bevis för contig linkage⁴⁷.

En ytterligare utmaning för att generera kompletta genom ligger i förtrogenhet och komfort med kommandoradsverktyg. Många bioinformatiska verktyg är utvecklade för att erbjuda beräkningsmöjligheter för alla användare; Deras användning bygger dock på en förståelse med grunderna i UNIX och programmering. Detta protokoll syftar till att tillhandahålla tillräckligt detaljerade instruktioner för att göra det möjligt för individer utan föregående kommandoradserfarenhet att generera slutna genomsamlingar och kommentera dem.

Disclosures

Författarna har inget att avslöja.

Acknowledgments

Vi tackar Dr. Moutusee Jubaida Islam och Dr. Luke Joyce för deras bidrag till detta protokoll. Vi vill också uppmärksamma University of Texas vid Dallas Genome Center för deras feedback och support. Detta arbete finansierades av Welch Foundation, tilldelningsnummer AT-2030-20200401 till N.J.D., av National Institutes of Health, tilldelningsnummer R01AI116610 till K.P., och av Felecia och John Cain Chair in Women's Health, som innehas av P.E.Z.

Materials

Name	Company	Catalog Number	Comments
Equipment:
Bioanalyzer 2100	Agilent	G29398A	Optional but recommended
Centrifuge	Eppendorf	--	Any centrifuge for spinning conicals and microcentrifuge tubes (e.g. Models 5810R/5424R)
Electrophoresis	BioRad Laboratories	1645070
Gel Imaging System	BioRad Laboratories		ChemiDoc models
Incubator	ThermoFisher Scientific	--	Any CO₂ Incubator (e.g. Thermo Forma model 3110)
Magnetic Rack	New England BioLabs	S15095	12-tube rack
MinION	Oxford Nanopore Technologies	--
Nanodrop	ThermoFisher Scientific	ND-ONE-W
NextSeq 500	Illumina	SY-415-1002	Other Illumina models are acceptable
Plate Reader	BioTek	--	Synergy H1
Qubit fluorometer	ThermoFisher Scientific	Q33238
Rotator	Benchmark Scientific	H2024
Thermocycler	ThermoFisher Scientific	--	Any thermocycler for PCR reactions (e.g. ProFlex PCR system)
Materials:
10X Phosphate Buffered Saline (PBS)	Fisher Scientific	BP3991
10X TBE buffer	--	--	1M Tris,1M Boric Acid,0.2M EDTA (pH 8.0)
1429R primer	Sigma Aldrich (Custom oligos)	--	GGTTACCTTGTTACGACTT
1kb Ladder	VWR	101228-494
1M Tris-Cl (pH 7.5)	ThermoFisher Scientific	15567027
6x Loading dye	Fisher Scientific	NC0783588
8F primer	Sigma Aldrich (Custom oligos)	--	AGAGTTTGATCCTGGCTCAG
Agar	Fisher Scientific	BP1423-2
Agarose	BioRad Laboratories	63001
AMPure XP Beads	Beckman Coulter	A63880
Anaerobe Pouch System - GasPak EZ	BD Diagnostic Systems	B260683
Boric Acid	Fisher Scientific	A73-500
Brain Heart Infusion Broth	BD Diagnostic Systems	212304
CDC Anaerobe 5% Sheep Blood Agar	BD Diagnostic Systems	L007357
CHROMagar Orientation	BD Diagnostic Systems	PA-257481.04
DNeasy Blood & Tissue	QIAGEN	69504
DreamTaq Master Mix	ThermoFisher Scientific	K1081
Dry Anaerobic Indicator Strips	BD Diagnostic Systems	271051
EDTA	Fisher Scientific	S311-500
Ethanol 200 Proof	Sigma Aldrich	E7023	For molecular biology
Ethidium Bromide	ThermoFisher Scientific	BP130210
Flow cell priming kit	Oxford Nanopore Technologies	EXP-FLP002
Flow cell wash kit	Oxford Nanopore Technologies	EXP-WSH003
Gel Extraction Miniprep Kit	BioBasic	BS654
Ligation sequencing kit	Oxford Nanopore Technologies	SQK-LSK109
Lysozyme	Research Products International Corp	L381005.05
Mutanolysin	Sigma Aldrich	M9901-5KU
Native barcoding expansion 1-12	Oxford Nanopore Technologies	EXP-NBD104
NEB Blunt/TA Ligase Master Mix	New England BioLabs	M0367L
NEBNext FFPE DNA Repair Mix	New England BioLabs	M6630L
NEBNext quick ligation buffer	New England BioLabs	B6058S
NEBNext Ultra II End repair / dA-tailing module	New England BioLabs	E7546L
Nextera DNA CD Indexes	Illumina	20018708
Nextera DNA Flex Library Prep - (M) Tagmentation	Illumina	20018705
Nuclease-free water	Sigma Aldrich	W4502
Qubit 1X dsDNA HS Assay Kit	ThermoFisher Scientific	Q33230
Qubit Assay Tubes	ThermoFisher Scientific	Q32856
Quick T4 DNA Ligase	New England BioLabs	E6056L
R9 Flow cell	Oxford Nanopore Technologies	FLO-MIN106D
RNase A	ThermoFisher Scientific	EN0531
Sheep Blood	Hemostat Laboratories	DS13250
TE buffer	--	--	10mM Tris, 1mM EDTA (pH 8.0)
Triton X-100	Sigma Aldrich	T8787
Tryptic Soy Broth	BD Diagnostic Systems	211825
Software & Bioinformatic Tools:
Bandage	--	--	https://rrwick.github.io/Bandage/
Center for Genomic Epidemiology	--	--	http://www.genomicepidemiology.org/
CLC Genomics Workbench 12	QIAGEN	--
CRISPRcasFinder	--	--	https://crisprcas.i2bc.paris-saclay.fr/
FastQC	--	--	https://www.bioinformatics.babraham.ac.uk/projects/fastqc/
Geneious Prime	Geneious	--
gVolante (BUSCO)	--	--	https://gvolante.riken.jp/
Kbase Prokka Wrapper	--	--	https://kbase.us/applist/apps/ProkkaAnnotation/annotate_contigs/release
Minimap2	--	--	https://github.com/lh3/minimap2
MinKNOW	Oxford Nanopore Technologies	--
NanoFilt	--	--	https://github.com/wdecoster/nanofilt
NanoStat	--	--	https://github.com/wdecoster/nanostat
PHASTER	--	--	https://phaster.ca/
Prokka	--	--	https://github.com/tseemann/prokka
QUAST	--	--	http://quast.sourceforge.net/quast
Trim Galore	--	--	https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/
Trimmomatic	--	--	http://www.usadellab.org/cms/?page=trimmomatic
Unicycler	--	--	https://github.com/rrwick/Unicycler#necessary-read-length

DOWNLOAD MATERIALS LIST

References

Brubaker, L., Wolfe, A. The urinary microbiota: a paradigm shift for bladder disorders. Current Opinion in Obstetrics & Gynecology. 28 (5), 407-412 (2016).
Neugent, M. L., Hulyalkar, N. V., Nguyen, V. H., Zimmern, P. E., De Nisco, N. J. Advances in understanding the human urinary microbiome and its potential role in urinary tract infection. mBio. 11 (2), (2020).
Klein, R. D., Hultgren, S. J. Urinary tract infections: microbial pathogenesis, host-pathogen interactions and new treatment strategies. Nature Reviews. Microbiology. 18 (4), 211-226 (2020).
Horsley, H., et al. Enterococcus faecalis subverts and invades the host urothelium in patients with chronic urinary tract infection. PLoS One. 8 (12), 83637 (2013).
Reitzer, L., Zimmern, P. Rapid growth and metabolism of uropathogenic Escherichia coli in relation to urine composition. Clinical Microbiology Reviews. 33 (1), 00101-00119 (2019).
Snyder, J. A., et al. Transcriptome of uropathogenic Escherichia coli during urinary tract infection. Infection and Immunity. 72 (11), 6373-6381 (2004).
Ipe, D. S., Horton, E., Ulett, G. C. The basics of bacteriuria: Strategies of microbes for persistence in urine. Frontiers in Cellular and Infection Microbiology. 6, 14 (2016).
Babikir, I. H., et al. The impact of cathelicidin, the human antimicrobial peptide LL-37 in urinary tract infections. BMC Infectious Diseases. 18 (1), 17 (2018).
Jancel, T., Dudas, V. Management of uncomplicated urinary tract infections. The Western Journal of Medicine. 176 (1), 51-55 (2002).
Ventola, C. L. The antibiotic resistance crisis: part 1: causes and threats. P & T. 40 (4), 277-283 (2015).
Price, T. K., et al. The clinical urine culture: Enhanced techniques improve detection of clinically relevant microorganisms. Journal of Clinical Microbiology. 54 (5), 1216-1222 (2016).
Kass, E. H. Asymptomatic infections of the urinary tract. Transactions of the Association of American Physicians. 69, 56-64 (1956).
Garcia, L. S. Clinical microbiology procedures handbook. 3rd edn. , ASM Press. (2010).
Fraser, C. M., Eisen, J. A., Nelson, K. E., Paulsen, I. T., Salzberg, S. L. The value of complete microbial genome sequencing (you get what you pay for). Journal of Bacteriology. 184 (23), 6403-6405 (2002).
Chen, Z., Erickson, D. L., Meng, J. Benchmarking hybrid assembly approaches for genomic analyses of bacterial pathogens using Illumina and Oxford Nanopore sequencing. BMC Genomics. 21 (1), 631 (2020).
Greig, D. R., Dallman, T. J., Hopkins, K. L., Jenkins, C. MinION nanopore sequencing identifies the position and structure of bacterial antibiotic resistance determinants in a multidrug-resistant strain of enteroaggregative Escherichia coli. Microbial Genomics. 4 (10), 000213 (2018).
Carraro, D. M., et al. PCR-assisted contig extension: stepwise strategy for bacterial genome closure. Biotechniques. 34 (3), 626-628 (2003).
Tettelin, H., Radune, D., Kasif, S., Khouri, H., Salzberg, S. L. Optimized multiplex PCR: efficiently closing a whole-genome shotgun sequencing project. Genomics. 62 (3), 500-507 (1999).
Wick, R. R., Judd, L. M., Gorrie, C. L., Holt, K. E. Unicycler: Resolving bacterial genome assemblies from short and long sequencing reads. PLoS Computational Biology. 13 (6), 1005595 (2017).
Singhal, N., Kumar, M., Kanaujia, P. K., Virdi, J. S. MALDI-TOF mass spectrometry: an emerging technology for microbial identification and diagnosis. Frontiers in Microbiology. 6, 791 (2015).
Turner, S., Pryer, K. M., Miao, V. P., Palmer, J. D. Investigating deep phylogenetic relationships among cyanobacteria and plastids by small subunit rRNA sequence analysis. The Journal of Eukaryotic Microbiology. 46 (4), 327-338 (1999).
Weisburg, W. G., Barns, S. M., Pelletier, D. A., Lane, D. J. 16S ribosomal DNA amplification for phylogenetic study. Journal of Bacteriology. 173 (2), 697-703 (1991).
Janda, J. M., Abbott, S. L. 16S rRNA gene sequencing for bacterial identification in the diagnostic laboratory: pluses, perils, and pitfalls. Journal of Clinical Microbiology. 45 (9), 2761-2764 (2007).
Stevenson, K., McVey, A. F., Clark, I. B. N., Swain, P. S., Pilizota, T. General calibration of microbial growth in microplate readers. Science Reports. 6, 38828 (2016).
Bolger, A. M., Lohse, M., Usadel, B. Trimmomatic: a flexible trimmer for Illumina sequence data. Bioinformatics. 30 (15), 2114-2120 (2014).
De Coster, W., D'Hert, S., Schultz, D. T., Cruts, M., Van Broeckhoven, C. NanoPack: visualizing and processing long-read sequencing data. Bioinformatics. 34 (15), 2666-2669 (2018).
Wilson, G., et al. The UNIX Shell. Zenodo. , (2019).
Bankevich, A., et al. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. Journal of Computational Biology. 19 (5), 455-477 (2012).
Vaser, R., Sovic, I., Nagarajan, N., Sikic, M. Fast and accurate de novo genome assembly from long uncorrected reads. Genome Research. 27 (5), 737-746 (2017).
Walker, B. J., et al. Pilon: an integrated tool for comprehensive microbial variant detection and genome assembly improvement. PLoS One. 9 (11), 112963 (2014).
Wick, R. R., Schultz, M. B., Zobel, J., Holt, K. E. Bandage: interactive visualization of de novo genome assemblies. Bioinformatics. 31 (20), 3350-3352 (2015).
Gurevich, A., Saveliev, V., Vyahhi, N., Tesler, G. QUAST: quality assessment tool for genome assemblies. Bioinformatics. 29 (8), 1072-1075 (2013).
Simao, F. A., Waterhouse, R. M., Ioannidis, P., Kriventseva, E. V., Zdobnov, E. M. BUSCO: assessing genome assembly and annotation completeness with single-copy orthologs. Bioinformatics. 31 (19), 3210-3212 (2015).
Seemann, T. Prokka: rapid prokaryotic genome annotation. Bioinformatics. 30 (14), 2068-2069 (2014).
Aziz, R. K., et al. The RAST server: rapid annotations using subsystems technology. BMC Genomics. 9, 75 (2008).
Tatusova, T., et al. NCBI prokaryotic genome annotation pipeline. Nucleic Acids Research. 44 (14), 6614-6624 (2016).
Carattoli, A., Hasman, H. PlasmidFinder and In Silico pMLST: Identification and Typing of Plasmid Replicons in Whole-Genome Sequencing (WGS). Methods in Molecular Biology. 2075, 285-294 (2020).
Carattoli, A., et al. In silico detection and typing of plasmids using PlasmidFinder and plasmid multilocus sequence typing. Antimicrobial Agents and Chemotherapy. 58 (7), 3895-3903 (2014).
Larsen, M. V., et al. Multilocus sequence typing of total-genome-sequenced bacteria. Journal of Clinical Microbiology. 50 (4), 1355-1361 (2012).
Bortolaia, V., et al. ResFinder 4.0 for predictions of phenotypes from genotypes. The Journal of Antimicrobial Chemotherapy. 75 (12), 3491-3500 (2020).
Joensen, K. G., et al. Real-time whole-genome sequencing for routine typing, surveillance, and outbreak detection of verotoxigenic Escherichia coli. Journal of Clinical Microbiology. 52 (5), 1501-1510 (2014).
Arndt, D., et al. PHASTER: a better, faster version of the PHAST phage search tool. Nucleic Acids Research. 44 (1), 16-21 (2016).
Couvin, D., et al. CRISPRCasFinder, an update of CRISRFinder, includes a portable version, enhanced performance and integrates search for Cas proteins. Nucleic Acids Research. 46 (1), 246-251 (2018).
Totten, P. A., Amsel, R., Hale, J., Piot, P., Holmes, K. K. Selective differential human blood bilayer media for isolation of Gardnerella (Haemophilus) vaginalis. Journal of Clinical Microbiology. 15 (1), 141-147 (1982).
Nagarajan, N., Pop, M. Sequence assembly demystified. Nat Reviews. Genetics. 14 (3), 157-167 (2013).
Phillippy, A. M., Schatz, M. C., Pop, M. Genome assembly forensics: finding the elusive mis-assembly. Genome Biology. 9 (3), 55 (2008).
Wick, R. R. Unicycler Wiki. , Available from: https://github.com/rrwick/Unicycler/wiki (2017).

Genetics

Hybrid De Novo Genome Assembly för generering av kompletta genom av urinbakterier med kort- och långläsningssekvenseringsteknik

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.