Genetics

Metagenomanalyse von Silage

Published: January 13, 2017 doi: 10.3791/54936

Richard K. Tennant¹, Christine M. Sambles¹, Georgina E. Diffey¹, Karen A. Moore¹, John Love¹

Introduction

Metagenomics ist die direkte Analyse von DNA aus biologischen Gemeinschaften innerhalb Umweltproben ¹ gefunden gereinigt und wurde ursprünglich verwendet , kultivierbarer Bakterien in Sedimenten ² gefunden zu erkennen. Metagenomics wurde für eine Reihe von Anwendungen, beispielsweise die Identifizierung der humanen microbiome ^3, Klassifizieren mikrobiellen Populationen im Meer ⁴ und auch für die Analyse der Bakteriengemeinschaften, entwickeln sich auf Kaffeemaschinen ⁵ eingesetzt. Die Einführung der nächsten Generation-Sequencing-Technologien führte zu größeren Sequenzierungsdurchsatz und Ausgang. Folglich wurde DNA Sequenzierung wirtschaftlichere ⁶ und die Tiefe der Sequenzierung werden , die stark erhöhte durchgeführt hat werden kann, Metagenomics werden ein leistungsfähiges, analytisches Werkzeug ermöglicht.

"Front-end" Verbesserungen in der praktischen, molecular Aspekt metagenomic Sequenzierung haben , das Wachstum der in getriebensilico Bioinformatik - Tools zur Verfügung für die taxonomische Klassifizierung ^7-9, funktionelle Annotation ^10,11 und visuelle Darstellung ^12,13 von DNA - Sequenzdaten. Die zunehmende Zahl der zur Verfügung stehenden, sequenziert pro- und eukaryotischen Genomen ¹⁴ ermöglicht eine weitere Genauigkeit bei der Klassifizierung von mikrobiellen Gemeinschaften, die gegen ausnahmslos durchgeführt werden , ein "Back-End" Referenzdatenbank von sequenzierten Genome ^15. Zwei Hauptansätze für Metagenom-Analyse übernommen werden.

Die herkömmlicheren Verfahren ist die Analyse der 16S rRNA-Gen codierende Region der bakteriellen Genoms. Die 16S - rRNA ist stark zwischen Prokaryonten Spezies konserviert , aber weist neun hypervariablen Regionen (V1 - V9) , die zur Spezies Identifizierung ¹⁶ ausgenutzt werden kann. Die Einführung von mehr Sequenzierung (≤ 300 bp paarigen end) für die Analyse von DNA-Sequenzen erlaubt Spanning zwei hypervariablen Regionen, insbesonderedie V3 - V4 Bereich ^17. Advances in anderen Sequenzierungstechnologien, wie Oxford Nanopore ¹⁸ und PacBio ^19, erlauben die gesamte 16S - rRNA - Gen angrenzend sequenziert werden.

Während 16S rDNA basierte Bibliotheken einen gezielten Ansatz zur Identifizierung von Arten liefern und den Nachweis von geringer Kopienzahl DNA ermöglichen, die in gereinigten Proben, Shotgun-Sequenzierung Bibliotheken ermöglichen die Detektion von Spezies natürlicherweise vorkommt, die DNA-Bereiche enthalten, die entweder nicht amplifizierbare durch die 16S sind rRNA Marker Primersequenzen verwendet werden, oder weil die Unterschiede zwischen der Template - Sequenz und die Verstärkungsprimersequenz sind zu groß , ^20,21. Obwohl weiterhin DNA - Polymerasen eine hohe Genauigkeit der DNA - Replikation, können Basisfehler dennoch während des PCR - Amplifikation auftreten und auf diese eingebauten Fehler in falsche Klassifizierung der ursprünglichen Spezies ²² führen kann. Vorspannungen in der PCR-Amplifikation des Templates seqüsse kann auch auftreten; Sequenzen von DNA mit einem hohen GC - Gehalt kann unter im endgültigen Amplikon Pool ²³ und ähnlich unnatürliche Basenmodifikationen, wie Thymin Glykol dargestellt werden, können DNA - Polymerasen , wodurch Fehler in der Amplifikation von DNA - Sequenzen ²⁴ stoppen. Im Gegensatz dazu ist eine Shotgun-Sequenzierung DNA-Bibliothek eine DNA-Bibliothek, die unter Verwendung aller der gereinigten DNA hergestellt worden ist, die aus einer Probe und anschließend fragmentiert in kürzere DNA-Kettenlängen vor der Herstellung für die Sequenzierung extrahiert wurde. Taxonomische Klassifizierung von DNA - Sequenzen , die durch Shotgun - Sequenzierung erzeugt wird genauer , wenn im Vergleich zu 16S - rRNA - Amplikon - Sequenzierung ^25, obwohl der finanzielle Aufwand eine zuverlässige Sequenzierungstiefe zu erreichen ist erforderlich größer als die der Amplikon - Sequenzierung ^26. Der große Vorteil der Shotgun-Sequenzierung Metagenom ist, dass sequenzierten Regionen der verschiedenen Genomen in der Probe für die Gen-Prospektion zur Verfügung stehen, sobald sie gewesen seinwurde ²⁷ taxonomisch klassifiziert.

Metagenom-Sequenzdaten werden von einer ständig wachsenden Palette bioinformatischer Tools analysiert. Diese Werkzeuge sind in der Lage eine Vielzahl von Anwendungen auszuführen, zum Beispiel Qualitätskontrolle Analyse der Roh - Sequenzdaten ^28, der gekoppelten Ende überlappende liest ^29, de novo Assemblierung von Sequenz liest zu Contigs und Gerüsten ^30,31, taxonomische Klassifizierung und Visualisierung der Sequenz liest und montierten Sequenzen ^7,12,32,33 und die funktionelle Annotation von montierten Sequenzen ^34,35.

Silage, von den Landwirten auf der ganzen Welt aus fermentiertem Getreide hergestellt wie Mais (Zea Mays) wird überwiegend als Viehfutter verwendet. Silage wird mit dem Bakterium Lactobacillus sp behandelt. zu unterstützen ³⁶ Gärung bis heute, aber es gibt begrenzte Kenntnis der anderen in Silage gefunden mikrobiellen Populationen. Die fermentation Prozess kann zu unerwünschten und potenziell schädlichen Mikroorganismen führen , dass weit verbreitet in der Silage ^37. Neben Hefen und Schimmelpilze, Bakterien sind besonders anpassungsfähig an die anaerobe Umgebung in Silagen Fermentieren und häufiger im Zusammenhang mit Erkrankungen bei Nutztieren sind statt der Abbau der Silage ^38. Buttersäurebakterien können versehentlich aus dem Boden zugesetzt werden , bleibt , wenn die Silage Silos Füllen und sind in der Lage , die Milchsäure, ein Produkt von anaerober Digestion, um Buttersäure zu konvertieren, wodurch der pH - Wert der Silage Erhöhung ^39. Dieser Anstieg des pH - Wertes kann in Fäulnisbakterien zu einem Aufschwung führen , die normalerweise nicht in der Lage sein würde , ³⁸ Wachstum unter optimalen Silagefermentationsbedingungen aufrecht zu erhalten. Clostridium spp. , Listeria spp. und Bacillus spp. sind von besonderer Bedeutung, vor allem in Silage für Milchvieh Futtermittel, wie Bakteriensporen, die die gastr überlebt habenointestinal - Darm - Trakt ⁴⁰ können die Nahrungskette gelangen, führen zu Verderb von Lebensmitteln und in seltenen Fällen von Mensch und Tier Todesfälle ^37,39,41-44. Hinzu kommt, dass es schwierig ist, die genaue wirtschaftlichen Auswirkungen der tierärztlichen Behandlung und Vieh Verlust von Silage Verderb verursacht abschätzen zu können, ist es wahrscheinlich zu einer Farm schädlich sein, wenn ein Ausbruch stattfinden war.

Es wird vermutet, dass durch eine Metagenom-Ansatz können wir die mikrobiellen Populationen zu klassifizieren, die in Silageproben vorhanden sind und weiterhin mikrobielle Gemeinschaften mit Silage Verderb verbunden sind, identifizieren, die wiederum würde möglicherweise eine schädliche Wirkung auf das Vieh haben, so dass Abhilfemaßnahmen zu vor der Silage genommen ist als Nahrungsquelle verwendet werden.

Protocol

1. Site Location

Sammeln Sie die Silage Probe aus einer geeigneten Stelle wie einer Farm. Hier wurde der Bauernhof in Ballydulea, Co. Cork, Irland (51 ° 51'58.4 "N 8 ° 16'48.7" W).

2. DNA-Extraktion

HINWEIS: DNA-Extraktion wurde ein kommerzieller Kit folgenden Anweisungen des Herstellers durchgeführt. Eine negative Kontrolle, die keine Probe enthielt, wurde in der gesamten Bibliothek Herstellungsverfahren verwendet.

In 100 bis 400 mg der Probe bis 978 & mgr; l Natriumphosphat-Puffer und 122 ul Boden Lysepuffer in den Lyse Rohre geliefert.
Homogenisieren Proben durch die Lyse Rohre in den Homogenisator für 40 s bei einer Geschwindigkeit von 6,0 m / s setzen.
Centrifuge Lysate bei 14000 × g für 15 min und den Überstand auf eine saubere Mikrozentrifugenröhrchen mit 250 ul Proteinpräzipitates Solution (PPS). Mischen Sie die Lösung durch Umkehren 10-mal und Zentrifugebei 14000 × g für 5 min.
Fügen Sie den Überstand in 1 ml DNA-Bindungsmatrix in einem sauberen 15 ml-Zentrifugenröhrchen. Mischen Sie die Lösung durch das Rohr ständig für 3 min zu invertieren. Lassen Sie die Mischung für 3 Minuten absetzen, verwerfen dann 500 & mgr; l Überstand. Mischen Sie die verbleibende Überstand.
Übertragung von 600 & mgr; l der Suspension auf einem Spinfilter und Zentrifuge bei 14.000 × g für 1 min. Entsorgen Sie das Filtrat und wiederholen Sie den Vorgang mit der verbleibenden Suspension.
Hinzufügen 500 ul Waschpuffer auf die DNA-Bindungsmatrix innerhalb des Spinfilter, mischen durch Pipettieren, dann Zentrifugieren bei 14.000 × g für 1 min.
Entsorgen Sie das Filtrat und Zentrifuge wieder den Spinfilter bei 14.000 × g für 2 min alle Waschpuffer entfernt wird, um sicherzustellen. Trocknen Sie die Spinfilter bei 23 ° C für 5 min.
Pre-warm (70 ° C) der DNase-freiem Wasser (DES) und resuspendieren die DNA-Bindungsmatrix in 100 ul DES innerhalb des Spinfilter. Übertragen Sie die Spinfilter auf ein sauberes 1,5 ml Mikrozentrifugen tuund Zentrifuge bei 14.000 × g für 1 min DNA zu eluieren. Lagern Sie die gereinigte DNA bei -20 ° C bis zur weiteren Analyse durchgeführt wird.

3. DNA-Reinigung mit DNA Purification Beads

HINWEIS: Vor metagenomic Bibliothek Vorbereitung der extrahierten DNA wurde unter Verwendung von Reinigungsperlen gereinigt, um eine reine DNA-Probe, um sicherzustellen, erhalten.

Inkubieren der Perlen bei 23 ° C für 30 min vor dem Gebrauch. Hinzufügen 2 Volumina Kügelchen zu der DNA-Probe und inkubiere die Lösung bei 23 ° C für 5 min.
Legen Sie die Proben auf eine Trennung Magnet für 5 min und dann den Überstand verwerfen. Waschen Sie die Perlen zweimal mit 200 & mgr; l frischem 80% igem Ethanol (EtOH). Luft trocknen die Kügelchen für 10 min.
Entfernen Sie die Proben aus dem Trennmagneten und 50 & mgr; l Elutionspuffer (EB), mischen durch Pipettieren.
Inkubieren der Suspension bei 23 ° C für 5 min, wonach die Proben wieder auf die Trennmagnet für 3 min schalten.
Transfer den Überstand, der die DNA enthält, in ein sauberes Röhrchen. Entsorgen Sie die Perlen.
Quantifizieren der gereinigten DNA gemäß Abschnitt vier.

4. Quantifizierung der gereinigten DNA

HINWEIS: Die gereinigte DNA wurde quantifiziert den Anweisungen des Herstellers nach einem Fluorometer und doppelsträngige (dsDNA) High Sensitivity (HS) Assay-Kit.

Bereiten Sie eine Arbeitslösung unter Verwendung von 199: 1-Verhältnis von Puffer zu Reagenz.
Fügen Sie 10 ul jeder DNA-Standard bis 190 & mgr; l der Arbeitslösung.
In 10 ul gereinigter DNA zu 190 & mgr; l der Lösung arbeiten. Das Endvolumen sollte 200 & mgr; l sein. Inkubieren Standard und DNA-Proben bei 23 ° C für 2 min.
Analysieren Standards, bevor die DNA-Proben auf dem Fluorometer die Anweisungen auf dem Bildschirm verwendet wird.

5. Shotgun Sequencing Bibliothek Vorbereitung

HINWEIS: Die Shotgun-Sequenzierung Bibliothek wurde unter Verwendung einerkommerzielle Bibliothek Vorbereitung Kit Anweisungen des Herstellers verwendet wird.

Verdünnen Sie die DNA-Proben auf 0,2 ng / & mgr; l unter Verwendung von EB. Alle , die Probe ist bereits unterhalb dieser Konzentration, dh die negative Kontrolle wird an der aktuellen Konzentration gelassen.
Mix 5 & mgr; l der gereinigten DNA mit 10 & mgr; l Puffer und 5 & mgr; l Enzymgemisch. Inkubieren Proben bei 55 ° C für 5 min.
In 5 & mgr; l Puffer zu neutralisieren und Inkubation der Lösung bei 23 ° C für 5 min.
Werden 5 & mgr; l von jeder der probenspezifischen Sequenzindizes und 15 & mgr; l PCR-Mastermix.
In einem Thermocycler, Inkubation der Proben bei 72 ° C für 3 min, 95 ° C für 30 s, vor 12 Zyklen von 95 ° C für 10 s, 55 ° C für 30 s und 72 ° C für 30 s. Inkubieren Proben schließlich bei 72 ° C für 5 min.
Reinige den vorbereiteten DNA des Wulstes Reinigung wie zuvor, aber mit einer endgültigen Elution von 30 & mgr; l EB verwendet wird.

6. Library Quantität und Qualität prüfen

HINWEIS: Die Menge und die Qualität der hergestellten Bibliotheken wurden unter Verwendung eines kommerziellen Kits und Instrumentierungs beurteilt.

Inkubieren Sie die Komponenten des Kits bei 23 ° C für 30 Minuten vor der Verwendung.
Fügen Sie 2 & mgr; l DNA bis 2 & mgr; l Puffer und vortex für 1 min bei 2000 Upm.
Drehen um die Probe nach unten zu gewährleisten, ist es an der Unterseite des Rohres ist.
Setzen Sie die Probenröhrchen, Analyseband und Spitzen in das Gerät, und führen Sie Analyse, wie durch die Software gerichtet.

7. DNA - Sequenzierung

Übertragen Sie die vorbereiteten und quantifizierten DNA - Sequenzierung Bibliotheken Proben auf eine Sequenzierdienstleister und Sequenz mit 300 bp gepaart Ende Sequenzierung ^45.

8. Analyse von Roh-Sequenzdaten

HINWEIS: Die Befehle für jedes Programm ein Linux-Betriebssystem verwenden, werden unter dem Protokollschritt gezeigt. Die Pipeline für s verwendetequence Datenanalyse ist in Abbildung 1 dargestellt. Die Programme sind vor der Analyse durch den Benutzer installiert werden. Dieser Prozess sollte für jede Probe einzeln durchgeführt werden.

Analyse und Visualisierung von Daten DNA - Sequenz FastQC mit ⁴⁶ eingeben , indem Sie auf der Kommandozeile / path-to-file / fastqc, gefolgt von der Vorwärts- und Rückwärts rohen raw_read1.fastq raw_read2.fastq liest.
einen Ausgabeordner angeben, indem Sie -o output_fastqc und das Dateiformat der rohen Lese Dateien durch -f fastq eingeben.
Sehen Sie sich die Ausgabedatei (Abbildung 2).
path-to-file / fastqc raw_read1.fastq raw_read2.fastq -o output_directory -f fastq.

9. Qualitätskontrolle Trimming und Filtern von Sequenzdaten

Führen Sie das Trimmen Programm, Trimmomatic ²⁸ durch in die Kommandozeile java -jar / path-to-file / trimmomatic-0.35.jar eingeben.
Geben Sie die Dateien gepaart Ende Dateien durch Eingabe von "PE". Staat, dass 16 zentrale prHOLZBEARBEITUNGS- Einheiten (CPUs) sollte 16 -threads durch die Eingabe von dem Programm verwendet werden.
Führen Sie die beiden Dateien in der QC-Überprüfung durch die Namen der rohen vorwärts eingeben und rückwärts liest. Das Präfix der Ausgabedateien wird durch die Eingabe einer -baseout Silage bestimmt.
Definieren Sie die Optionen für das Programm von ILLUMINACLIP eingeben: NexteraPE-PE.fa: 2: 30: 10 LEADING: 3 TRAILING: 3 SLIDINGWINDOW: 4: 20 ERNTE: 200 HEADCROP: 15 MINLEN: 36.
Wenn Sie fertig sind, analysieren die getrimmten Sequenzen unter Verwendung von FastQC wie zuvor, und die Ausgabe auf den Roh-Sequenzdaten zu vergleichen, um sicherzustellen, wurde erfolgreich durchgeführt trimmen.
HINWEIS: Das Software-Tool, Trimmomatic, getrimmt liest weiter durch führende niedrige Qualität oder N-Basen zu entfernen (unter Qualität 3), Entfernen von geringer Qualität oder N Basen Hinter (unter Qualität 3) und jede Abtastung mit einem 4-Sockel breite Schiebefenster lesen. Die Parameter wurden eingestellt für das Schneiden, wenn die durchschnittliche Qualität pro Base unter 20 fällt und dann unter 36 Basen jeder liest lange fallen zu lassen. Schließlich wurden 15 Basen abgeschnitten from Kopf jeder lesen und wurden liest abgeschnitten vom Beginn des Lese 200 Basen zu halten. Dieser letzte Schritt wurde durchgeführt, einige Qualitätsprobleme zu überwinden, wenn die Sequenzierung lang (> 200 bp) liest. Diese können für bestimmte Proben ²⁸ eingestellt werden.
java -jar /path-to-file/trimmomatic-0.35.jar PE -threads 16 raw_read1.fastq raw_read2.fastq -baseout Silage ILLUMINACLIP: NexteraPE-PE.fa: 2: 30: 10 LEADING: 3 TRAILING: 3 SLIDINGWINDOW: 4 : 20 ERNTE: 200 HEADCROP: 15 MINLEN: 36

10. Metagenom Versammlung

das ungepaarte Merge, liest, indem Sie Katze durch das ungepaarte liest gefolgt getrimmt; silage_read1_unpaired.fastq silage_read2_unpaired.fastq. Schreiben Sie die Dateien in eine neue Datei, indem Sie> silage_merged_unpaired.fastq
Katze silage_read1_unpaired.fastq silage_read2_unpaired.fastq> silage_merged_unpaired.fastq
Um de novo die sequenzierte DNA montieren, verwenden Sie Spades (St. Petersburg Genom Assembler) ³⁰ , indem Sie / path-to-file / spades.py. Gibt an, dass 16 CPUs, indem Sie -t 16 und dass der metagenomic Parameter angewendet sollte, indem Sie --meta verwendet werden sollen.
Identifizieren Sie die nach vorne getrimmt liest mit -1 silage_read1_paired.fastq und die Rückseite liest von -2 silage_read2_paired.fastq. Das fusionierte ungepaarten liest werden durch -s silage_merged_unpaired.fastq angegeben.
Definieren Sie den Ausgabeordner von silage_spades eingeben -o.
path-to-file / spades.py -t 16 --meta -1 silage_read1_paired.fastq -2 silage_read2_paired.fastq -s silage_merged_unpaired.fastq -o silage_spades

11. Gepaart-End Read Overlap

Merge Paare der DNA - Sequenz liest FLASH (schnelle Verstellung des Kurz Liest) unter Verwendung von ²⁹ durch die Eingabe in Kommandozeile / path-to-file / Blitz. Gibt an, dass 16 CPUs sollten über -t 16 und die Ausgabe Präfix, indem Sie -o Silage verwendet werden.
Identifizieren getrimmten liest von silage_trimmed_R1.fastq silage_trimmed_R2.fastq eingeben
path-to-file / flash t 16 -o geflasht silage_read1_paired.fastq silage_read2_paired.fastq

12. taxonomische

Typ / path-to-file / kraken und die Datenbank angeben, indem Sie --db / path-to-file / Standard.
Definieren Sie, dass 16 CPUs sollten, indem Sie --threads 16 und identifizieren einen Ausgabeordner unter Verwendung --output FLASHed_silage_extendedFrags_kraken.txt verwendet werden. Geben Sie den Eingabedateinamen; FLASHed_silage.extendedFrags.fastq
path-to-file / kraken --db Standard --thread 16 --output FLASHed_silage_extendedFrags_kraken.txt FLASHed_silage.extendedFrags.fastq
HINWEIS: Die Einstufung der DNA - Sequenz zusammengesetzt Gerüste mit Kraken ⁷ gegen die jüngsten, abgeschlossen wurde Standard - Kraken - Datenbank , die alle verfügbaren Prokaryote Genomsequenzen enthalten.
Transfer Spalten 2 und 3 aus der Ausgabedatei und in eine neue Datei durch die Eingabe einer Schnitt -f2,3 FLASHed_silage_extendedFrags_kraken.txt> FLASHed_silage_extendedFrags_kraken.int

schneiden -f2,3 FLASHed_silage_extendedFrags_kraken.txt> FLASHed_silage_extendedFrags_kraken.int

Importieren Sie die neue Datei in Krona ¹² durch ktImportTaxonomy eingeben. Geben Sie die Eingabedatei durch FLASHed_silage_extendedFrags_kraken.int eingeben. Identifizieren Sie die Ausgabedatei von FLASHed_silage_extendedFrags_kraken.out.html eingeben -o.
path-to-file / ktImportTaxonomy FLASHed_silage_extendedFrags_kraken.int -o FLASHed_silage_extendedFrags_kraken.out.html

13. Funktions Annotation

Gehen Sie auf die MG-RAST ⁴⁷ Website, http://metagenomics.anl.gov/. Registrieren Sie sich als neuer Benutzer, falls erforderlich. in, klicken Sie auf die Schaltfläche "Hochladen" Nach der Anmeldung. Laden Sie die zusammengebauten Gerüsten aus Schritt 10.
Sobald die Dateien hochgeladen haben, klicken Sie auf "Senden" und folgen Sie den Anweisungen und warten auf die Fertigstellung der Analyse.
Nachdem die Analyse abgeschlossen ist, sehen Sie den Link per em gesendetail von MG-RAST oder alternativ klicken Sie auf "Progress". Es gibt eine Liste der abgeschlossenen Aufträge. Klicken Sie auf den entsprechenden Job-ID und dann auf den Link zum "Download-Seite".
Auf der Download-Seite unter der Überschrift "Protein Clustering 90%", klicken Sie auf das Protein, um die vorhergesagten Protein Datei, 550.cluster.aa90.faa zum Download bereit.
Um die Proteine zu klassifizieren als mutmaßlich Zugehörigkeit zu einer bestimmten cazy Enzymklasse, zu vergleichen , die heruntergeladenen Proteine an die cazy Datenbank ^48. Laden Sie die Kohlenhydrat-aktive Enzyme Database (cazy) von Dateien sind: AA.zip, CE.zip, GH.zip, GT.zip und PL.zip. Diese Dateien repräsentieren die folgenden Enzymklassen jeweils: Hilfs Aktivitäten (AA), Carbohydrate Esterasen (CE), Glycosidhydrolasen (GH), Glycosyltransferasen (GT) und Polysaccharidlyasen (PL).
Entpacken Sie die Datenbankdateien und mit Anmerkungen versehen, die die Proteine durch die Bestimmung der Protein Ähnlichkeit mit den cazy Datenbank Proteine, die die USEARCH UBLAST algor mitithm ^49. Um eine Bash-Schleife (for i in * .txt) über die 5-Datenbank TXT-Dateien Typ iterieren "for i in * .txt; do".
Führen Sie USEARCH, indem Sie / path-to-file / usearch8 mit dem Parameter -ublast um den ublast Algorithmus zu verwenden. Geben Sie dann den Namen der Datei Proteinsequenz heruntergeladen von MG-RAST "mgmXXXXXX.3.550.cluster.aa90.faa".
Um die Datenbankdatei angeben , um Typ verwendet werden "-db $ i" und die E-Wertschwelle bei 1e ^-5, Typ "-evalue 1e-5" zu spezifizieren.
Um die Suche nach der Entdeckung einer Zielsequenz zu beenden und damit , dass die Proteinsequenz Klassifizierung als zu der Zielenzymklasse, zB GH, Typ "-masaccepts 1" gesetzt .
Um festzulegen, dass 16 CPUs sollten Typ verwendet werden "-threads 16" und das Format der Ausgabedatei als ATAB-separierte Texttyp "-blast6out" angeben. Um die Ausgabedateityp "$ i.ublast" identifizieren. Um die Bash-Schleife zu beenden, typ "; getan"
für i in * .txt;
do / path-to-file / usearch8 -ublast ../mgmXXXXXX.3.550.cluster.aa90.faa -db $ i -evalue 1e-5 -maxaccepts 1 -threads 16 -blast6out $ i.ublast;
erledigt

14. Visualizing cazy Annotation

Um die Ausgabe von der cazy Annotation als Venn-Diagramm visualisieren, Protein-ID-Listen für jede Enzymklasse mit einer Bash-Schleife erzeugen. Geben Sie "for i in * .ublast; do".
Um Spalte 1 aus der Ausgabedatei übertragen und in eine neue Datei, geben Sie "cat $ i | cut -f 1> $ i.list".
Beenden Sie die Schleife und geben Sie "; done".
Öffnen Sie die .list Dateien in einem Texteditor. Gehen Sie auf die Webseite, wählen Sie die Anzahl der Sätze als 5 und fügen Sie den Inhalt der einzelnen Listendatei in einer separaten Box. Laden Sie das resultierende Diagramm als SVG-Datei.
für i in * .ublast;
tun cat $ i | cut -f 1> $ i.list;
erledigt

Representative Results

Vor der bioinformatischen Verarbeitung, liest wurden Rohsequenz getrimmt und Adapter wurden mit Trimmomatic Software ²⁸ entfernt. Nach dem Trimmen und Filterungsschritt liest die Anzahl von bis zu 50% der Sequenz reduziert liest (Tabelle 1). Die durchschnittliche Basis phred Stand> 30 nach Qualitätskontrolle (Abbildung 2).

Paare von DNA - Sequenzen , die wurden überlappende Bereiche hatten ²⁹ FLASH Software verschmolzen mit zu erzeugen einzelne länger liest, nicht überlappende liest in einer separaten Datei gespeichert. 45.47% liest (105.343) erfolgreich kombiniert. Im Anschluss an die Überlagerung von liest FLASH mit der liest, sind die resultierenden Fragmente erweitert bakterielle taxonomische Klassifizierung mit Kraken - Software ⁷ und wurden anschließend visualisiert mit Krona Software (Abbildung 3) unterzogen wurden .

Abbildung 4 zu sehen ist. Die häufigsten Arten in der Metagenom waren Lactobacillus spp. (24%; Firmicutes), Corynebacterium spp. (8%; Actinobacteria), Propionibacterium spp. (3%; Actinobacteria) und Prevotella spp. (3%; Bacteroidetes). Arten wichtig für die Tiergesundheit und in Krankheit in Verbindung gebracht wurden ebenfalls beobachtet; Clostridium spp. (1%) , Bacillus spp. (0,6%), Listeria spp. (0,2%) vorhergesagt wurden, die in der Silage Probe sein.

Functional Annotation wurde am durchgeführt montiert liest. Die Metagenom wurde mit der Pik montiert Assembler ³⁰ der zugeschnittene und filtriertPaired-End und ungepaarten liest Erzeugung 92.284 Gerüste. Um Cellulasen zu identifizieren, wurden die Proteine vorhergesagt MG-RAST mit und kommentierte die Kohlenhydrat-aktive Enzyme Datenbank unter Verwendung von (cazy). Von den 97.562 vorhergesagten Proteine wurden 6357 als mutmaßliche Kohlenhydrat-aktives Enzym kommentierte in einer der fünf Enzyme Klassen, die die cazy Datenbank (Abbildung 5) bilden. Die Ergebnisse wurden als ein Venn - Diagramm unter Verwendung von ⁵⁰ InteractiVenn visualisiert Software die Verteilung von Protein Annotationen einschließlich derjenigen zeigt , die mehr als eine Cazy Enzymklasse Annotation. Davon wurden 3861 vorhergesagt Glycosid-Hydrolase-Aktivität aufweisen und im Labor weiter charakterisiert werden Funktion zu bestätigen.

Abbildung 1: Die bioinformatische Metagenomics Pipeline für die Analyse von Silage. Zwei Hauptansätze warenverwendet, um die microbiome von Silage, taxonomische Klassifizierung und funktionelle Annotation zu untersuchen. Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

Figur 2
Abbildung 2: Sequenz Qualität Per-Basis vor und nach dem Trimmen und Adapter Entfernen. Die pro-Basensequenz Qualität Plot von FASTQC zeigt die durchschnittliche phred Punktzahl über die Länge der Sequenz liest vor und nach der Qualitätskontrolle. Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

Figur 3
Abbildung 3: Die taxonomische Classification des bakteriellen Microbiome Solid Silage. Klassifizierung von getrimmt und überlappende Sequenz liest aus FLASH durchgeführt wurde Kraken ⁷ verwenden und anschließend mit Krone sichtbar gemacht . Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

Abbildung 4: Taxonomische Klassenverteilung des 4 am reichlichsten Phyla in der Bakterien Microbiome Solid Silage. Der Anteil der einzelnen Klassen von Bakterien innerhalb der vier am häufigsten vorkommende Stämme. Firmicutes: Clostridien (rot) und Bazillen (dunkelblau); Proteo: delta / epsilon (rosa), alpha (blassblau), Gamma (orange) und Beta (türkis); Bacteroidetes: Flavobacteriia (dunkelblau) und Bacteroidia(blasses Grün); Actinobacteria: Coriobacteriia (dunkelviolett) und andere Actinobacteria (dunkelgrün). Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

Abbildung 5: cazy Annotation des Prognostizierte Proteome im festen Silage Microbiome. Venn-Diagramm der Verteilung der fünf Enzymklassen Cazy Annotationen in der vorhergesagten Proteoms von festen Silage microbiome zeigt. Bitte klicken Sie hier , um eine größere Version dieser Figur zu sehen.

# Raw liest	# Filtered liest (gepaart) # Filtered liest	# Geflasht liest
(Gepaart)	# Filtered liest (gepaart) # Filtered liest	# Geflasht liest	(Ungepaarten)
2.374.949 x2	231.679 x2	1892534	105343

Tabelle 1: Zusammenfassung Tabelle der Sequenzierung liest.

Discussion

Während eine in silico Analyse kann einen hervorragenden Einblick in die mikrobiellen Gemeinschaften geben , die in Umweltproben vorhanden sind, ist es wichtig , dass die taxonomische Klassifikationen zeigte mit entsprechenden Kontrollen und dass eine geeignete Tiefe der Sequenzierung erreicht wurde , in Verbindung durchgeführt werden , um die gesamte zu erfassen Bevölkerung derzeit ^51.

Mit jeder Computeranalyse, gibt es viele Wege ein ähnliches Ziel zu erreichen. Die Methoden , die wir in dieser Studie verwendet wurden , sind Beispiele für geeignete und einfache Methoden, die zusammengebracht wurden , um eine Reihe von Analysen auf der Silage microbiome zu erzielen. Eine Vielzahl und eine ständig wachsende Zahl von Bioinformatik - Tools und Techniken zur Verfügung metagenomic Daten zu analysieren, zum Beispiel Phylosift ⁸ und MetaPhlAn2 ^52, und diese sollten für ihre Relevanz für die Probe und die Analyse req auf die Untersuchung vor ausgewertet werdenuired ^53. Metagenomanalyse Methoden werden von den Datenbanken zur Verfügung begrenzt für die Einstufung, Sequenzierung Tiefe und die Qualität der Sequenzierung.

Die bioinformatische Verarbeitung hier demonstriert wurde auf lokaler, Hochleistungs-Maschine durchgeführt; jedoch Cloud-basierte Systeme sind ebenfalls erhältlich. Diese Cloud-basierte Dienste ermöglichen die Vermietung der notwendigen Rechenleistung, ohne die hohen Kosten Investition eines geeigneten leistungsfähigen lokalen Arbeitsplatz haben. Eine mögliche Anwendung dieser Methode wäre Silage in der Landwirtschaft vor seiner Verwendung zu beurteilen, daher sicherstellen, dass keine potenziell schädlichen Bakterien vorhanden sind, um sie in die Lebensmittelkette zu verhindern.

Materials

Name	Company	Catalog Number	Comments
FastDNA SPIN Kit for Soil	MP Bio	116560200	DNA Extraction
DNA FastPrep	MP Bio	116004500	DNA Extraction
Agencourt AMPure XP beads	Beckman Coulter	A63880	DNA Purification
Elution Buffer	Qiagen	19806	DNA Purification
Qubit Fluorometer	Thermo Fisher	Q33216	DNA Quantification
Qubit dsDNA HS Assay Kit	Thermo Fisher	Q32854	DNA Quantification
Nextera XT DNA Library Prep Kit	Illumina	FC-131-1024	Library Preparation
Nextera XT Index Kit	Illumina	FC-131-1001	Library Preparation
TapeStation 2200	Agilent	G2964AA	DNA Quantification
HS D100 ScreenTape	Agilent	5067-5584	DNA Quantification
HS D100 ScreenTape Reagents	Agilent	5067-5585	DNA Quantification
TapeStation Tips	Agilent	5067-5153	DNA Quantification
TapeStation Tubes	Agilent	401428 and 401425	DNA Quantification
HiSeq 2500	Illumina		DNA Sequencing - provided by a sequencing service
High Power Analysis Workstation	Various		Local or cloud based, user preferred system