RNA Next-Generation-Sequenzierung und eine Bioinformatik-Pipeline zur Identifizierung von ausgedrückten LINE-1s auf der Locus-spezifischen Ebene

Genetics
 

Summary

Hier stellen wir einen bioinformatischen Ansatz und Analysen vor, um LINE-1-Ausdruck auf der ortsspezifischen Ebene zu identifizieren.

Cite this Article

Copy Citation | Download Citations

Kaul, T., Morales, M. E., Smither, E., Baddoo, M., Belancio, V. P., Deininger, P. RNA Next-Generation Sequencing and a Bioinformatics Pipeline to Identify Expressed LINE-1s at the Locus-Specific Level. J. Vis. Exp. (147), e59771, doi:10.3791/59771 (2019).

Please note that all translations are automatically generated.

Click here for the english version. For other languages click here.

Abstract

Long INtersed Elements-1 (LINEs/L1s) sind wiederholte Elemente, die sich kopieren und zufällig in das Genom einfügen können, was zu genomischer Instabilität und Mutagenese führt. Das Verständnis der Ausdrucksmuster von L1 loci auf der individuellen Ebene wird das Verständnis der Biologie dieses mutagenischen Elements ermöglichen. Dieses autonome Element macht mit über 500.000 Exemplaren einen erheblichen Teil des menschlichen Genoms aus, obwohl 99% abgeschnitten und defekt sind. Ihre Fülle und die dominante Anzahl an defekten Kopien machen es jedoch schwierig, authentisch ausgesprochene L1s aus L1-bezogenen Sequenzen zu identifizieren, die als Teil anderer Gene ausgedrückt werden. Es ist auch eine Herausforderung, zu erkennen, welcher spezifische L1-Locus aufgrund der sich wiederholenden Natur der Elemente ausgedrückt wird. Um diese Herausforderungen zu bewältigen, stellen wir einen bioinformatischen Ansatz RNA-Seq vor, um den L1-Ausdruck auf der lokalen Ebene zu identifizieren. Zusammenfassend können wir zytoplasmatische RNA sammeln, für polyadenylierte Transkripte auswählen und strand-spezifische RNA-Seq-Analysen nutzen, um die Leselesungen auf L1 loci im menschlichen Referenzgenom eindeutig zu kartieren. Wir kuratieren jeden L1-Locus visuell mit einzigartig abgebilteten Lesezeichen, um die Transkription von seinem eigenen Promoter zu bestätigen und die Abschrift der Transkriptionslesungen anzupassen, um die Abbildung jedes einzelnen L1-Locus zu berücksichtigen. Dieser Ansatz wurde auf eine Prostata-Tumorzelllinie, DU145, angewendet, um die Fähigkeit dieses Protokolls zu demonstrieren, den Ausdruck aus einer kleinen Anzahl von L1-Elementen in voller Länge zu erkennen.

Introduction

Retrotransposons sind wiederholte DNA-Elemente, die in einem Copy-and-Paste-Mechanismus über RNA-Zwischenprodukte im Genom "springen" können. Ein Teil der Retrotransposons ist als Long INterspersed Elements-1 (LINEs/L1s) bekannt und bildet mit über 500.0000 Exemplaren1ein Sechstel des menschlichen Genoms aus. Trotz ihres Überflusses sind die meisten dieser Exemplare defekt und mit nur geschätzten 80-120 L1-Elementen abgeschnitten, die als aktiv angesehen werden. Ein L1 in voller Länge ist etwa 6 kb lang mit 5 ' und 3 ' unübersetzten Regionen, einem internen Promoter und dem dazugehörigen Anti-Sinse-Promoter, zwei nicht überlappenden offenen Lesefahmen (ORFs) und einem Signal-und PolyA-Schwanz3,4,5 . Beim Menschen bestehen L1s aus Unterfamilien, die sich durch evolutionäre Zeitalter auszeichnen, wobei die älteren Familien im Laufe der Zeit im Vergleich zur jüngsten Unterfamilie, L1HS 6,7,einzigartigeSequenzmutationen angehäuft haben. L1s sind die einzigen autonomen, menschlichen Retrotransposons und ihre ORFs kodieren eine umgekehrte Transkriptase, Endomuclease und RNPs mit RNA-Bindungs-und Chaperone-Aktivitäten, die erforderlich sind, um das Nachsetzen und Einfügen im Genom in einem Prozess, der als zielgrundiert bezeichnet wird. Rückschrift8,9, 10,11,12.

Es wurde berichtet, dass die RetroUmsetzung von L1s durch eine Vielzahl von Mechanismen, darunter die Einfügung von Mutagenese, die Streichung von Zielvorgaben und die Neuordnungvon13, 14, 15, die durch eine Vielzahl von Mechanismen,darunterdie Einfügung von Mutagenese, die Streichung von Zielvorgaben und die Neuordnung 13,14,15 , 16. In jüngster Zeit wurde vermutet, dass L1s eine Rolle bei der Onkogenese und/oder Tumorfortschritt spielen können, da in einer Vielzahl von epithelialen Krebserkrankungen 17, 18 eineerhöhte Ausdrucks-und Einfügeungsereignisse dieses mutagenischen Elements beobachtet wurden. . Es wird geschätzt, dass es eine neue L1-Einlage in jeder 200 Geburten 19 gibt. Daher ist es unerlässlich, die Biologie des aktiven Ausdrucks L1s besser zu verstehen. Die sich wiederholende Natur und die Fülle an defekten Kopien, die in Transkripten anderer Gene gefunden wurden, haben diese Analyse herausfordernd gemacht.

Glücklicherweise wurden mit dem Aufkommen von Technologien für die Sequenzierung hoher Durchsatzsequenzierungstechnologien Schritte unternommen, um die L1s auf der lokalen Ebene authentisch auszudrücken und zu identifizieren. Es gibt unterschiedliche Philosophien darüber, wie man ausgedrückte L1s am besten identifizieren kann, indem man die Sequenzierung der nächsten Generation der RNA verwendet. Es wurden nur zwei vernünftige Ansätze für die Kartierung von L1-Transkripten auf der locus-spezifischen Ebene vorgeschlagen. Man konzentriert sich nur auf die mögliche Transkription, die sich durch das L1-Polyadenylierungssignalundin Flankierungssequenzen 20 liest. Unser Ansatz nutzt kleine Sequenzunterschiede zwischen den L1-Elementen und bildet nur jene RNA-Seq-Lesungen ab, die eineeinzigartige Karte zu einem Ort 21 führen. Beide Methoden haben Einschränkungen in Bezug auf die Quantifizierung der Transkriptionsstufen. Die Quantitation kann potenziell verbessert werden, indem eine Korrektur für die "einzigartige Abbildung" jedes L1-Locus21 hinzugefügt wird, oder durch die Verwendung komplexerer Algorithmen, die die mehrfach abgebildete Lesezeichen, die nicht eindeutig auf einen bestimmten Locus 22 abgebildet werden konnten, umverteilen. Hier werden wir Schritt für Schritt das RNA-Extraktions-und Sequenzierungs-und Bioinformatikprotokoll detailliert erläutern, um die ausgesprochenen L1-Elemente auf der lokalen Ebene zu identifizieren. Unser Ansatz nutzt unser Wissen über die Biologie funktionaler L1-Elemente. Dazu gehört auch, zu wissen, dass funktionale L1-Elemente aus dem L1-Promoter generiert werden müssen, der zu Beginn des L1-Elements initiiert wurde, in das Zytoplasma übersetzt werden müssen und dass ihre Transkripte mit dem Genom nebeneinander erfolgen sollten. Kurz gesagt, wir sammeln frische, zytoplasmatische RNA, wählen für polyadenylierte Transkripte aus und nutzen stationsspezifische RNA-Seq-Analysen, um die Leselesungen im menschlichen Referenzgenom auf einzigartige Karte zu stellen. Diese ausgerichteten Lesevorgänge erfordern dann noch eine umfangreiche manuelle Kuration, um festzustellen, ob die Transkriptionslesungen vom L1-Promoter stammen, bevor sie einen Locus als authentisch ausdrückte L1 bezeichnen. Wir verwenden diesen Ansatz auf der Prostata-Tumorzellen-Stichprobe von DU145, um zu zeigen, wie sie relativ wenige aktiv transkribierte L1-Mitglieder aus der Masse inaktiver Kopien identifiziert.

Protocol

1. Zytoplasmatische RNA-Extraktion

  1. Erhalten Sie Zellen über die folgenden Methoden.
    1. Sammeln Sie lebende Zellen von 2,75% – 100% Einfluss, T-75-Flaschen.
      1. Waschen Sie die Flasche 2 Mal in 5 ml kalten PBS, und in der letzten Wäsche abkratzen Zellen und auf eine 15 ml konische Röhre. Zentrifuge für 2 min bei 1.000 x g und 4 ° C, und vorsichtig entfernen und abwerfen supernatant (Tabelle der Materialien).
    2. Sammeln Sie Zellen aus Gewebeproben.
      1. Bereiten Sie Gewebe für die zytoplasmatische RNA-Extraktion innerhalb einer Stunde nach der Trennung und immer auf Eis. Für die langfristige Lagerung verwenden Sie RNA-Inhibitor-Lösungen, um Gewebe bis zu 72 Stunden nach der Trennung nach dem Herstellerprotokoll (Materialtabelle) zu speichern.
      2. Würden Sie eine 10-μm3-Probe und homogenisieren Sie die frische Probe mit 5 ml kaltem PBS in einem sterilen Dounce Homogenizer, übertragen auf eine 15 ml konische Röhre, Zentrifuge für 2 min bei 1.000 x g bei 4 ° C, und vorsichtig entfernen und abwerfen supernatant (Tabelle der Materialien < /c8 >).
  2. Fügen Sie 2 ml Lysepuffer zu zellulärem Pellet-Mix und Inkubat auf Eis für 5 min.
    1. Bereiten Sie frischen Lysepuffer mit 150 mM NaCl, 50 mM HEPES (pH 7.4) und 25 μg/mL digitonin (Materialtabelle)vor.
    2. Da die minimale Konzentration von Digitonin im Lysepuffer, die für das Eindringen in die Plasmamembran erforderlich ist, je nach Zelltyp variieren kann, bestätigen sie mikroskopisch, dass Zellen, die mit Lysepuffer behandelt werden, die Plasmamembran verlieren und die intakte Kernmembran behalten.
    3. Kurz vor dem Gebrauch, fügen Sie 1.000 U/mL RNase-Inhibitor (Tabelle der Materialien).
  3. Zentrifuge für 1 min bei 1.000 x g und 4 ° C, und sammeln Sie den Supernatant.
  4. Übernatant zu vorgekühlten 7,5 mL Trizol und 1,5 ml Chloroform hinzufügen. Alle Schritte, die eine Chloroform erfordern, müssen innerhalb einer sauberen chemischen Haube (Materialtabelle) durchgeführt werden.
  5. Zentrifuge für 35 min bei 3.220 x g und 4 ° C.
  6. Den wässrigen Teil (obere Schicht) auf ein frisches, vorgekühltes 15 mL Rohr übertragen.
  7. 4,5 ml Chloroform und Wirbel hinzufügen.
  8. Zentrifuge für 10 min bei 3.220 x g und 4 ° C.
  9. Übertragen Sie den wässrigen Teil auf frisches vorgekühltes Rohr.
  10. 4,5 mL Isopropanol dazugeben, gut schütteln und bei-80 ° C über Nacht inkubieren (Materialtafel).
  11. Zentrifuge bei 3.220 x g und 4 ° C für 45 Minuten.
  12. Isopropanol entfernen, 15 ml 100% Ethanol (Materialtabelle) hinzufügen.
  13. Zentrifuge bei 3.220 x g für 10 min.
  14. Ethanol entfernen, abtropfen lassen und ca. 1 Stunde trocknen.
    1. Verwenden Sie einen sterilen Baumwollschwab, um das restliche Ethanol(Materialtabelle) auszublenden.
  15. Nachsetzen Probe in 100 bis 200 μL RNase freies Wasser je nach Pelletsgröße (Materialtabelle).
  16. Fraktionieren Sie Proben mittels Elektrophorese-Technologie, um die Qualität und Konzentration der Proben nach den Eindringlingen des Herstellers zu bestimmen 23 (Materialtabelle).
    1. Die Samples qualifizieren sich für die RNA-Seq-Analyse, wenn RIN > 824.

2. Sequenzierung der nächsten Generation

  1. Senden Sie zytoplasmatische RNA-Proben, die mit Hilfe der Sequenzierplattform der nächsten Generation sequenziert werden sollen, um mindestens 50 Millionen paired-end 100 bp zu erzeugen.
  2. Wählen Sie für polyadenylierte RNAs und eine strand-spezifische Sequenzierung.

3. Erstellen von Anmerkungen (optional, wenn man eine bestehende Anmerkung hat)

  1. Erstellen Sie die vollständige L1-Notiz oder laden Sie die L1-Note in voller Länge herunter (Supplemental File 1a-b).
    1. Laden Sie Repeat-Masker-Anmerkungen für LINE-1-Elemente aus dem UCSC-Genom-Browser mit dem Tabellen-Browser-Tool (https://genome.ucsc.edu/cgi-bin/hgTables) herunter. Geben Sie die Säugetierschklbe, das menschliche Genom, die hg19-Versammlung (oder hg38 für ein aktualisierteres Genom) und Filter für "LINE1" unter Klassennamen. Download als .gtf-Datei und Etikett als FL-L1-BLAST.gtf.
    2. Führen Sie eine lokale BLAST-Suche des ersten 300 bp des ersten L1.3-Gesamtelements L1 durch, das die Promoter-Region im menschlichen Genom umfasst, und fügen Sie 6.000 bp flussabwärts hinzu, um ein Ende der L1-Koordinaten in die Anmerkungen-Datei zu schaffen. Speichern Sie in einer gtf-Datei und etikettieren Sie als FL-L1-RM.gtf.
    3. Intersektieren Sie die RepeatMasker-Notiz und die Promoter-basierte L1-Notiz mit Bettwerkzeugen und etikettieren Sie als FL-L1-BLAST _ RM.txt (Software-Pakete).
      1. Verwenden Sie diesen Befehl im Linux-Terminal: bedtools schneiden-a FL-LAST.gtf-b FL-L1-RM.gtf > FL-L1-BLAST _ RM.txt.
    4. Trennen Sie die gekreuzte FL-L1-Anmerkung durch den oberen und unteren Strang.
      1. Kopieren Sie über den FL-L1-BLAST _ RM.txt in Tabellenkalkulationssoftware und sortieren Sie nach dem "minus" und "plus"-Strang und sortieren Sie dann nach Chromosomenstandortung.
      2. Erstellen Sie zwei neue Tabellenkalkulationsdokumente, eines mit den durchschnittenen Koordinaten für L1s in voller Länge und eines am unteren Strang, und speichern Sie als FL-L1-BLAST _ RM _ minus.xls und FL-L1-BLAST _ RM _ plus.xls.
      3. Speichern Sie die beiden neuen Dokumente als .txt-Dateien.
    5. Verwenden Sie das mac2unix-Programm, um die .txt-Dateien in die richtigen Kommentardateien (Software-Pakete) zu konvertieren.
      1. Verwenden Sie diesen Befehl im Terminal: mac2unix.sh FL-L1-BLAST _ RM _ minus.gff.
      2. Verwenden Sie diesen Befehl im Terminal: mac2unix.sh FL-L1-BLAST _ RM _ plus.gff.
      3. Speichern Sie neue Dateien mit der .gff-Erweiterung.
    6. Alternativ können Sie AWK verwenden, um Datensätze zu filtern, die mit dem + und – Strang verbunden sind.
      1. Verwenden Sie den folgenden Befehl, um den + strand zu erhalten: awk '/+/' FL-L1_BLAST_RM.gtf FL-L1_BLAST_RM_plus.gtf.
      2. Verwenden Sie die folgende Kommandozeile, um den-strand-strauen L1_BLAST_RM.gtf FL-L1_BLAST_RM_minus.gtf zuerhalten.

4. Lesen Sie die Ausrichtungsleitung, um die ausgesprochenen L1s zu identifizieren

wahl beschreibung
– p Dies gibt die Anzahl der Threads an, die der Computer verwenden soll, um die Ausrichtung zu starten. Ein größerer Computerspeicher ermöglicht mehr Threads und sollte empirisch d sein.
– m 1 Dies sagt dem Programm, nur Lesungen zu akzeptieren, die ein Match im Genom haben, das besser ist als jedes andere Genomspiel.
– y Dies ist der tryhard Switch, der die Kartierung nach allen möglichen Übereinstimmungen durchführt und es ihr nicht erlaubt, nach Erreichen einer festen Anzahl von Matches zu beenden.
– v 3 Dies erlaubt es dem Programm nur, den Speicher für abgebildete Lesevorgänge mit 3 oder weniger Fehleinstimmungen zum Genom zu nutzen.
– X 600 Dies erlaubt nur gepaart, dass die Karte innerhalb von 600 Basen voneinander entfernt ist. Dies stellt sicher, dass die Lesepaare im Genom mitlinear sind und sich gegen s mit verarbeiteten RNA-Molekülen aussuchen.
– chunkmbs 8184 Dieser Befehl weist zusätzlichen Speicher für die Handhabung der großen Anzahl von Ausrichtungen zu, die für jede L1-bezogene Lektüre möglich sind.

Tabelle 1: Befehlszeilen-Optionen für Bowtie.

  1. Führen Sie die Ausrichtung der schnellq-Sequenzierung mit der RNA-Seq-Probe von Interesse mit Bowtie aus.
    NOTE: Bowtie1 muss verwendet werden und nicht Bowtie2, weil die Parameter, die für eine einzigartige Ausrichtung erforderlich sind, speziell nur in dieser Version von Bowtie (Software-Pakete) gefunden werden. Bowtie wird über splice-bewusste Ausrichter wie STAR verwendet, um konkordante, zusammenhängende Lesungen zu bewerten, die für die L1-Biologie und den Ausdruck relevanter sind.
    1. Verwenden Sie diese Kommandozeile im Linux-Terminal: bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg _ X _ M _ index-1 hg_sample_1.fq-2 hg_sample_2.fq | samtools view-hbuS-| samtools sort – hg _ sample _ sorted.bam. Siehe Tabelle 1 für eine Beschreibung der Kommandozeilen-Optionen für Bowtie.
  2. Strand trennt die Ausgabebam-Datei mit Samtools (Software-Pakete) und den folgenden Linux-Befehlen. Beachten Sie, dass die tatsächlichen Flaggenwerte variieren können, wenn man keine Standard-Sequenzierungsprotokolle der nächsten Generation verwendet.
    1. Verwenden Sie diese Kommandozeile, um für den oberen Strang auszuwählen: Samtools-Blick-h hg _ sample _ sorted.bam | awk ' substr-' $0,1,1) = = "@" | | | | $2 = = 83 | | $2 = = 163 {print} ' | Samtools view-bS-> hg _ sample _ sorted _ topstrand.bam.
    2. Verwenden Sie diese Befehlszeile, um für den unteren Strang zu wählen: Samtools-Ansicht-h hg _ sample _ sorted.bam | awk ' substr-' $0,1,1) = = "@" | | | | $2 = = 99 | | $2 = = 147 {print} ' | Samtools view-bS-> hg _ sample _ sorted _ bottomstrand.bam.
  3. Mit Hilfe von bedtools (Software-Pakete) können Lesezahlen gegen Anmerkungen für L1 loci generieren.
    1. Verwenden Sie diese Befehlszeile, um Lesezahlen für L1s in der Sinnesrichtung am oberen Strang zu erzeugen: Die-Dateien ist abam, L1-BLAST _ RM _ plus.gff-b hg _ sample _ sorted _ topstrand.bam > hg _ sample _ sorted _ bowtie _ tryhard _ plus _ top.txt.
    2. Verwenden Sie diese Befehlszeile, um Lesezahlen für L1s in der Sinnesrichtung am unteren Strang zu erzeugen: Die Abdeckung von-abam FL-L1-BLAST _ RM _ minus.gff-b hg _ sample _ sorted _ bottomstrand.bam > hg _ sample _ sorted _ bowtie _ tryhard _ minus _ bottom.txt.
  4. Indexbam-Datei aus Schritt 5.1.1, um sie im Integrativen Genomics Viewer (IGV) 25 ( Software-Pakete) sichtbar zu machen.
    1. Verwenden Sie diese Kommandozeile: Samtools Index hg _ sample _ sorted.bam
  5. Um einen Batch-Modus zu verwenden, um die Anzahl der RNA-Seq-Proben zu erhöhen, die zu einer Zeit durchgeschliffen wurden, verwenden Sie ein Superrekortskript, um Schritt 4.1 mit dem Namen Human _ bowtie.sh zu vervollständigen, ein Skript, um Schritte 4.2-4.3 zu vervollständigen, wurde human_L1_pipeline.sh aufgerufen, und ein Skript, das zu vervollständigen ist. Schritt 4.4 wurde mit dem Namen bam _ index.sh erstellt. Diese Skripte können in der Ergänzungsdatei 2 mit zugehörigen Supercomputer-Befehlen gefunden werden, um die Skripte auszuführen.

5. Manuelle Kuration

  1. Erstellen Sie eine Tabellenkalkulation für Lesezeichen, die auf jeden kommentierten L1-Locus abgebildet sind.
    1. Kopieren Sie über hg _ sample _ sorted _ bowtie _ tryhard _ minus _ bottom.txt erstellt in Schritt 4.3.2 und Etikettenseite als "minus-bottom".
      1. Sortieren Sie alle Spalten, die auf der höchsten bis niedrigsten Anzahl von reads in Spalte J gefunden werden.
    2. Kopieren Sie über hg _ sample _ sorted _ bowtie _ tryhard _ plus _ top.txt erstellt in Schritt 4.3.1 und etikettieren Sie als "top-plus" in einer anderen Tabelle.
      1. Sortieren Sie alle Spalten, die auf der höchsten bis niedrigsten Anzahl von reads in Spalte J gefunden werden.
    3. Erstellen Sie eine dritte Seite, die als "kombiniert" gekennzeichnet ist, und fügen Sie alle Loci mit zehn oder mehr Lesezeichen von "minus-bottom" und "Plus-top"-Seiten hinzu.
      1. Sortieren Sie alle Spalten, die auf der höchsten bis niedrigsten Anzahl von reads in Spalte J gefunden werden.
    4. Laden Sie die folgenden Dateien in IGV25 (Software-Pakete): 1) Referenzgenom von Interesse, um kommentierte Gene zu visualisieren, 2) FL-L1-BLAST _ RM.gff, um die L1-Anmerkung zu visualisieren, 3) hg _ sample _ sorted.bam, um gemappte Transkripte von Stichprobe von Interesse, und 4) hg _ genomicDNA _ sorted.bam, um die Mappability von genomischen Regionen zu beurteilen.
    5. Entfernen Sie die Abdeckung und die Anschlusspfeilen, die mit jeder bam-Datei verbunden sind.
    6. Komprimieren hg _ sample _ sorted.bam und hg _ genomicDNA _ sorted.bam, so dass alle IGV-Tracks auf einen Bildschirm passen.
  2. Manuell kurat.
    1. Mit Hilfe von Koordinaten von loci, die auf der Tabellenkalkulation "combined" Seite aufgeführt sind, sehen Sie Loci in IGV25 (Software-Pakete).
    2. Kuratieren Sie einen Ort, der authentisch aus seinem eigenen ausgedrückt werden soll, wenn es keine Lesungen flussaufwärts in der L1-Richtung bis zu 5 kb gibt.
      1. Etikettieren Sie die Reihe grün in der Farbe und beachten Sie, warum es sich um eine authentisch ausgedrückte L1 handelt.
        Hinweis: Eine Ausnahme von dieser Regel gibt es, wenn die Region vor der L1 nicht abgebildet ist. Wenn dies der Fall ist, kennzeichnen Sie die Zeile rot in Farbe und beachten Sie, dass der Ausdruck der Region vor dem L1-Promoter nicht ausgewertet werden kann und daher der Ausdruck der L1 nicht sicher bestimmt werden kann.
    3. Ein Locus, um nicht authentisch von seinem eigenen Promoter ausgedrückt werden, wenn es Lesungen im Upstream bis zu 5 kb.
      1. Kennzeichnen Sie die Zeile rot in der Farbe und beachten Sie, warum es sich nicht um eine authentisch ausgedrückte L1.
      2. Kuratieren Sie einen Locus als falsch, wenn er in einem Intron eines ausgedrückten Gens in die gleiche Richtung mit den Lesungen vorgelagert von der L1 ausgedrückt wird, wenn er stromabwärts eines ausgedrückten Gens in die gleiche Richtung mit den Lesungen vorgelagert der L1 ist, oder für nicht kommentierte Ausdrucksmuster mit re Anzeigen vor der L1.
        Hinweis: Eine Ausnahme von dieser Regel gilt, wenn es minimale Leseausschreitungen gibt, die sich direkt über die Startseite des L1-Promoters überschneiden, aber etwas vorgelagert von der L1. Wenn es keine anderen Lesungen vor einem solchen Fall L1 gibt, halten Sie diese L1 für authentisch ausgedrückt. Beschriftet die Zeile grün und notieren Sie sich, warum es sich um eine authentisch ausgedrückte L1 handelt.
    4. Curate ein L1-Locus, der wahrscheinlich falsch ist, wenn das Muster der abgebileten Lesezeichen auf den Locus nicht mit den spezifischen L1-Regionen der Mappability korreliert.
      Hinweis: Wenn zum Beispiel ein L1 sehr mappbar ist, aber nur einen Haufen von Lesungen in einer kondensierten Region innerhalb der L1 hat, ist es weniger wahrscheinlich, dass er mit dem L1-Ausdruck des eigenen Promoters in Verbindung gebracht wird und eher aus nicht kommentierten Quellen wie Exons oder LTRs stammt. In solchen Fällen kuratieren Sie die Loci als Orange und notieren Sie, warum der Locus verdächtig ist. Überprüfen Sie die Quellen verdächtiger Stapelaufzüge, indem Sie den L1-Standort im UCSC-Genom-Browser überprüfen.
    5. Kuratieren Sie einen Ort, der nicht authentisch ausgedrückt wird, wenn er sich in einer genomischen Umgebung von sporadisch ausgedrückten unkommentierten Regionen befindet
      Hinweis: Zum Beispiel können Lesezeichen 10 kb flussaufwärts der L1 ausgedrückt werden, aber alle 10 kb oder so gibt es abgebildete Lesezeichen und einige dieser Lesevorlesungen richten sich an die L1. Diese L1s werden seltener von ihrem eigenen Promoter ausgedrückt, und eher werden sie aufgrund von nicht kommentierten Mustern des genomischen Ausdrucks vorgelesen. In solchen Fällen kuratieren Sie die Loci als Orange und notieren Sie, warum der Locus verdächtig ist.

6. Lesen Sie die Ausrichtungsstrategie zur Beurteilung der Mappability im Referenzgenom (optional, wenn man einen bestehenden, ausgerichteten genomischen DNA-Datensatz hat)

  1. Laden Sie ganze Genom-DNA-Sequenzdateien herunter und konvertieren Sie in .fq-Dateien
    1. Zur NCBI-Website finden Sie hier: https://www.ncbi.nlm.nih.gov/sra
    2. Typ in WGS HeLa gepaartEnde.
    3. Wählen Sie für Homo sapiens unter Ergebnisse per Taxon.
    4. Wählen Sie ein Muster aus, das am Ende gepaart ist und mit 100 oder mehr bp wie der folgenden Probe gelesen wird: https://www.ncbi.nlm.nih.gov/sra/ERX457838[accn]
    5. Bestätigen Sie die Leselänge, indem Sie Run und dann Metadaten auswählen , wie hier gezeigt: https://trace.ncbi.nlm.nih.gov/Traces/sra/?run=ERR492384
    6. Um die gesamten Genom-DNA-Sequenzdaten herunterzuladen, geben Sie diesen Befehl im Linux-Terminal ein: sratoolkit.2.9.2-mac64/bin/prefetch-X 100G ERR492384
      Hinweis: Die SRA Toolkit Prefetch-Funktion lädt die Beitrittsnummer "ERR492384" herunter, die auf der NCBI-Seite (Software-Pakete) zu finden ist. Die "100G" begrenzt die Menge der heruntergeladenen Daten auf 100 Gigabyte.
    7. Geben Sie diesen Befehl im Linux-Terminal ein: fastq-dump--split-files ERR492384
      Hinweis: Dadurch wird der heruntergeladene genomische DNA-Datensatz in zwei Fastq-Dateien aufgeteilt.
  2. Laufausrichtung mit Bowtie.
    1. Verwenden Sie diesen Befehl in Linux für die Ausrichtung: Bowtie-p 10-m 1-S-y-v 3-X 600--chunkmbs 8184 hg _ X _ Y _ M _ index-1 hg_genomicDNA_1.fq-2 hg_genomicDNA_2.fq | samtools view-hbuS-| samtools sort – hg _ genomicDNA _ sorted.bam.
      1. Siehe Schritt 4.1, um die in der Bowtie-Ausrichtung (Software-Pakete) verwendeten Parameter zu verstehen.
      2. Laden Sie die genomisch ausgerichtete bam-Datei herunter, um die Mappability zu beurteilen, die auf Wunsch des Autors verfügbar ist.
  3. Indexbam-Datei aus Schritt 4.2.1 mit Samtools, um sie in IGV25 (Software-Pakete) sichtbar zu machen, um die manuelle Curation weiter zu informieren.
    1. Verwenden Sie diese Kommandozeile in Linux: Samtools Index hg _ genomicDNA _ sorted.bam
  4. Die Mappbarkeit jedes L1 loci
    1. Bestimmen Sie die Anzahl der eindeutig abgebildete Lesezeichen auf L1 loci mit Hilfe des Bettwerkstattprogramms, der FL-L1-Anmerkung und der ausgerichteten genomischen Sequenzdaten (Software-Pakete).
      1. Verwenden Sie diese Kommandozeile in Linux: bedtools Abdeckung-abam FL-L1-BLAST _ RM.gtf – b hg _ genomicDNA _ sorted.bam > L1_Mappability_hg_genomicDNA.txt.
    2. Bezeichnen Sie einen L1-Locus so, dass er die volle Abdeckungsfähigkeit hat, wenn 400 einzigartige Lesezeichen darauf ausgerichtet sind.
    3. Bestimmen Sie den Faktor, der benötigt wird, um die genomische DNA auf 400 für jeden einzelnen L1 zu skalieren oder zu skalieren.
    4. Um ein skaliertes Ausdrucksmessungsmaß nach der individuellen L1-Locus Mappability zu haben, multiplizieren Sie den im Schritt 6.4.3 bestimmten Faktor auf die Anzahl der RNA-Transkriptral-Lesungen, die sich an authentisch ausgedrückten L1s richten, die in den Abschnitten 4 – 5 bestimmt sind.

Representative Results

Die oben beschriebenen und grafisch beschriebenen Schritte wurden auf eine menschliche Prostata-Tumorzelllinie DU145 angewendet. Die RNA-Probe wurde zytoplasmisch vorgepresst und in einem mehr-A ausgewählten, strand-spezifischen, paired-End-Protokoll sequenziert. Mit Bowtie wurden die Paired-End-Sequenzierungsdateien ausgerichtet, so dass nur einzigartige Übereinstimmungen möglich waren, in denen das gepolsterte Ende besser auf einen genomischen Ort im Vergleich zu jedem anderen genomischen Ort passte. Die DU145-Sequenzdateien wurden auf das menschliche Nachschlagewerk ausgerichtet, das eine bam-Datei erstellt, die auf Wunsch des Autors verfügbar ist. Mit Hilfe von Bettwerkzeugen wurden Daten aus den DU145 strand-getrennten Bam-Dateien auf die Anzahl der auf L1s in voller Länge abgebildeten Lesezeichen extrahiert. Diese Lesevorgänge wurden in einer Tabelle von der größten bis zur kleinsten sortiert und manuell kuratiert, indem die genomische Umgebung um jeden L1-Locus in IGV untersucht wurde, um seine Authentizität zu bestätigen (Supplemental Table 1). Wenn eine Probe kuratiert wurde, um authentisch ausgedrückt zu werden, war sie farblich grün mit einer Erklärung für ihre Akzeptanz in der rechten Spalte. Beispiele von L1 loci, die nach den in der Methodensektion beschriebenen Richtlinien authentisch ausgedrückt werden, sind in Abbildung2a-b dargestellt. Wurde eine Probe abgelehnt, um authentisch ausgedrückt zu werden, so wurde sie farblich rot mit dem Grund für die Ablehnung auf der rechten Spalte. Beispiele von L1 loci, die aufgrund des Ausdrucks eines Promoters abgelehnt wurden, die nicht die eigenen folgenden Richtlinien, die im Methodenbereich beschrieben sind, sind in Abbildung2c-e detailliert.

Hier wurden nur abendfüllende L1s mit einer intakten Förderregion untersucht. Wenn diese Unterscheidung nicht gemacht wird, wird eine große Quelle von transkriptionalem Rauschen aus abgeschnittenen L1s eingeführt. Beispiele für abgeschnittene L1s in DU145 sind in Abbildung 3a-b zu sehen, wo sie als eindeutig abgebildete RNA-Seq-Lesungen identifiziert wurden. In der IGV zeigt sich jedoch, dass diese Transkripte nicht aus dem abgeschnittenen L1, sondern aus der Aufnahme der L1-Sequenz in ein Gen oder stromabwärts eines ausgedrückten Gens initiiert wurden.

Insgesamt beträgt der Anteil der L1-Level und der L1-Lesungen, die nach der manuellen Kuration als authentisch ausgedrückt werden, in DU145 etwa 50% (Ergänzungstabelle 2), die den hohen Anteil der L1-Abschrift auslösten, die den hohen Grad der L1-Abschrift aufzeigen, die Ansonsten werden sie ohne manuelle Kuration als falsches Positives aufgezeichnet. Konkret gab es in DU145 114 L1-Levo-Klassen in voller Länge, die mit insgesamt 3.152 Lesungen einzigartig in der Sinnesrichtung abgebildet waren, aber es wurden nur 60 Loci identifiziert, die nach manueller Kuration mit 1.879 Lesezeichen von ihrem eigenen Promoter ausgedrückt werden ( Ergänzende Tabelle 1). Dies ist auch der Fall, wenn Schritte unternommen wurden, um den Ausdruck zu reduzieren, der für die L1-Biologie irrelevant ist, indem sie für zytoplasmatische mRNA ausgewählt wurde. Beachten Sie, dass der Locus mit der höchsten Stufe der gemappten Transkripte in DU145 abgelehnt wurde, weil es sich nicht um eine authentisch ausgedrückte L1 handelte (Abbildung4). Insgesamt liegt die Anzahl der gemappten Transkripte auf bestimmte L1-Lok-Bereiche ähnlich zwischen dem akzeptierten und abgelehnten L1-Lci, wiesie nach der manuellen Kuration authentisch ausgedrückt werden (Abbildung 4).

Nach der manuellen Kuration reicht die Anzahl der Lesezeichen, die eine einzigartige bis authentisch ausgedrückte spezifische L1-Loka in DU145 darstellen, von 175 Lesezeichen bis hin zu einem willkürlich gewählten minimalen Ausschnitt von 10 Lesezeichen (Abbildung 5). Dieser Ansatz, eindeutig abgebildeter Transkriptionslesung auf L1s zu identifizieren, schränkt die Fähigkeit ein, den Ausdruck genau zu quantifizieren. Um dies zu berücksichtigen, wurde für jeden Locus ein Korrekturfaktor erstellt, der auf seiner Anordnbarkeit basiert. Um diesen Korrekturfaktor zu erzeugen, wurden erste Bettwerkzeuge verwendet, um die Anzahl der einzigartig gemappten Lesezeichen aus der HeLa genomic bam-Datei zu extrahieren, die sich an alle L1-Loki in voller Länge ausrichteten und diese Loci von den höchsten bis zu den niedrigsten abgebildeten Transkriptionslesungen (Supplemental) (Supplemental ) Abbildung 1). Es wurde willkürlich festgestellt, dass L1s mit 400 Lesungen die volle Deckungsmappbarkeit hatten. Die Anzahl der reads, die in der Lage sind, auf einen L1-Locus in HeLa genomischer Sequenzierprobe abzubilden, wurde im Vergleich zu 400 Leseproben skaliert, und diese skalierte Zahl wurde dann mit der Anzahl der Lesezeichen multipliziert, die auf jeden authentisch ausgedrückten L1-Loki in DU145 (Supplemental Table 2) abgebildet wurden. . Erwartungsgemäß stammten die L1-Elemente, die größere Korrekturwerte für die Machbarkeit hatten, von jüngeren Unterfamilien wie L1PA2 (Ergänzende Tabelle 2). Sobald die Lesewerte für die Mappabilitätswerte in jedem Ort angepasst wurden, erhöhte sich die Quantitation für den Ausdruck für die meisten Loci (Abbildung6). Die Anzahl der reads, die in einzigartiger Weise bis authentisch zum Ausdruck gebracht wurden, bestimmte L1-Loki mit Mappabilitätskorrekturen in DU145 reichten von 612 bis 4 Lesungen und es gab eine Neuordnung von höchster auf die niedrigste Ausdruckloci (Abbildung6).

Figure 1
Abbildung 1: Workflow schematisch.
Grafisch beschrieben sind die Schritte zur Identifizierung der ausgesprochenen L1s in einer menschlichen Probe. Beachten Sie, dass die Schritte 1 und 2 nicht wiederholt werden müssen, wenn die entsprechenden Dateien bereits verfügbar sind. Diese entsprechenden Dateien können von Supplement File 1a-b und Supplement File 2heruntergeladen werden. Die Boxen in rot zeigen die Schritte an, in denen das Coverage-Programm für bedtools verwendet wird, um die Anzahl der Lesezeichen, die in der gleichen Sinnesrichtung auf L1 abgebildet sind, zu zählen. Diese Loci mit sinnorientierten Mappinglesungen sind die L1s, die manuell kuratiert werden sollten. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.

Figure 2
Abbildung 2: Beispiele für kuratierte L1 Loci in DU145.
In IGV eingeladen sind das Referenzgenom, die Volllänge der L1 gff-Annotationsdatei, die der Referenzgenomversion entspricht (Supplement File 1), die DU145 bam-Datei und schließlich die genomische Heal-Bam-Datei zur Beurteilung der Mappability, die alle auf Autor verfügbar sind. bitte. Es wurden Pfeile hinzugefügt, die bei der Visualisierung der Richtung des kommentierten L1 helfen. Pfeile und Lesungen in rot sind in der Reihenfolge von rechts nach links ausgerichtet. Pfeile und Lesungen in Blau sind in der Reihenfolge von links nach rechts ausgerichtet. A) In IGV scheint dieser L1-Locus von seinem eigenen Promoter ausgedrückt zu werden, da es keine Lesungen vor der L1 in der Sinnesorientierung für über 5 kb gibt. Diese L1 hat eine geringe Mappbarkeit, sie befindet sich nicht in einem Gen und hat Hinweise auf eine erwartete Antisense-Promoter-Aktivität26. B) In IGV scheint dieser L1-Locus von seinem eigenen Promoter ausgedrückt zu werden, da es keine Lesungen vorwärts der L1 in der Sinnesorientierung für über 5 kb gibt. Diese L1 hat eine geringe Mappbarkeit und befindet sich in einem Gen der entgegengesetzten Richtung. C) In IGV wurde dieser L1-Locus als ausgedrückter L1 abgelehnt, da es vorgelagerte Lesezeichen in der gleichen Ausrichtung innerhalb von 5 kb gibt. Diese L1 befindet sich in einem Gen der gleichen Richtung, so dass die Abschrift liest, die höchstwahrscheinlich vom Promoter des ausgedrückten Gens stammen. d) In IGV wurde dieser L1-Locus als ausgedrückter L1 abgelehnt, da es vorgelagerte Lesungen in der gleichen Ausrichtung innerhalb von 5 kb gibt. Diese L1 ist stromabwärts eines stark ausgedrückten Gens in die gleiche Richtung, so dass die Abschrift liest, die höchstwahrscheinlich vom Promoter des ausgedrückten Gens stammt und über den normalen Gen-Terminator hinausgeht. E) In IGV wurde dieser L1-Locus als ausgedrückter L1 abgelehnt, da es vorgelagerte Lesezeichen in der gleichen Ausrichtung innerhalb von 5 kb gibt. Diese L1 befindet sich nicht innerhalb oder in der Nähe eines kommentierten Gens im Referenzgen, so dass der Ursprung dieser Transkripte innerhalb und vor dem L1-Element auf einen nicht kommentierten Promoter hindeutet. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.

Figure 3
Abbildung 3: Hintergrundgeräusche entstehen auch von abgeschnittenen L1s.
Unsere L1-Anmerkung enthält keine abgeschnittenen L1s, da sie eine wichtige Quelle für Hintergrundgeräusche sind. Es wurden Pfeile hinzugefügt, die bei der Visualisierung der Richtung des kommentierten L1 helfen. Pfeile und Lesungen in Blau sind in der Reihenfolge von links nach rechts ausgerichtet. A) Demonstriert wird ein Beispiel für eine abgeschnittene L1 in der L1MB5-SuFamilie, die 2706 bps beträgt. In der IGV zeigt sich, dass die Lesungen aus der nachgelagerten Verlängerung eines ausgedrückten Gens stammen. B) Schein ist ein weiteres Beispiel für eine abgeschnittene L1. Dieser L1 ist ein L1PA11, der 4767 bps lang ist. In der IGV zeigt sich, dass die Lesezeichen, die auf die L1 einmalig sind, aus dem ausdrücklichen Exon stammen, in dem sich die L1 befindet. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.

Figure 4
Abbildung 4: Die Transkription liest, dass die Karte in einzigartiger Weise auf alle in voller Länge intakten L1s im menschlichen Genom, die in der DU145 Prostatatumorzelllinie ausgedrückt wird, ist.
In Schwarz sind die spezifischen Loci, die nach der manuellen Kuration als authentisch ausgedrückt identifiziert werden sollen, und in Rot sind die spezifischen Loci, die nach der manuellen Kuration als authentisch ausgedrückt werden sollen. In grau sind loci mit weniger als zehn Lesezeichen, die zu jedem abgebildet werden. Da diese Loci einen kleinen Bruchteil der Transkriptionslesungen repräsentieren, wurden sie nicht manuell kuratiert. Die x-Achsen-Zeckenmarkierungen bezeichnen alle 100 volllangen, intakten L1s. Etwa 4.500 Loci werden nicht grafisch dargestellt, da sie null abgebildete Lesezeichen hatten. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.

Figure 5
Abbildung 5: Das Transkript liest, dass die Karte in der DU145-Prostata-Tumorzelllinie einzigartig bis authentisch ausgedrückt wird.
Gezeigt werden die Zahlen der Transkriptionslesungen, die nach der manuellen Curation zu bestimmten Loci in DU145-Zellen führen. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.

Figure 6
Abbildung 6: Liest Mapping to authentily ausdrückte L1, wenn sie durch die Mappability angepasst wird.
Gezeigt werden die Zahlen der Transkriptionslesungen, die durch die Anzahl der loci-spezifischen Mappability-Werte angepasst wurden, die in den DU145-Zellen auf manuell kuratierte L1-Lci abbilden. Bitte klicken Sie hier, um eine größere Version dieser Figur zu sehen.

Ergänzende Datei 1: Anmerkungen für die volle Länge, intakte menschliche L1s nach Orientierung.a) FL-L1-BLAST _ RM _ minus.gff. B) FL-L1-BLAST _ RM _ plus.gff. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Datei 2: Supercomputer-Skripte, die zur Automatisierung der Bioinformatik-Pipeline verwendet werden, die in Abschnitt 4 beschrieben ist. Bitte klicken Sie hier, um diese Datei herunterzuladen.

Ergänzende Abbildung 1: Genomische DNA-Probe, die zur Bestimmung der L1-Mappability verwendet wird.
Gezeigt werden die Anzahl der genomischen Transkriptrie-Lesungen aus der HeLa-Zell-Linien-Probe, die eindeutig auf alle 5.000 L1-Losi im Genom abbilden. Es wurde angegeben, dass eine L1 die volle Deckungsmappbarkeit hat, wenn 400 Karte auf die L1 liest. Bitte klicken Sie hier, um diese Zahl herunterzuladen.

Ergänzende Tabelle 1: Manuelle Auskuration von L1s in DU145. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.

Ergänzende Tabelle 2: Kuratierte L1s in DU145 mit der Anpassung der Mappfähigkeit. Bitte klicken Sie hier, um diese Tabelle herunterzuladen.

Discussion

Es hat sich gezeigt, dass die Aktivität von L1 genetische Schäden und Instabilität verursacht, die zu Krankheit27,28,29beitragen. Von den rund 5.000 volllangen L1-Kopien machen nur wenige Dutzend evolutionär junge L1-Exemplare den Großteil der Retrotransposition 2 aus. Es gibt jedoch Hinweise darauf, dass auch einige ältere, retrovertranspositionell-unüberzeugte L1snochin der Lage sind, DNA-schädigende Proteine 30 zu produzieren. Um die Rolle der L1s bei der genomischen Instabilität und Krankheit vollständig zu verstehen, muss der L1-Ausdruck auf der lokalen Ebene verstanden werden. Der hohe Hintergrund von L1-bezogenen Sequenzen, die in anderen RNAs enthalten sind, die nichts mit L1-RetrometverUmsetzung zu tun haben, stellt jedoch eine große Herausforderung bei der Interpretation authentischer L1-Ausdruck dar. Eine weitere Herausforderung bei der Identifizierung und damit dem Verständnis von Ausdrucksmustern einzelner L1-Loki tritt auf ihre sich wiederholende Natur, die nicht zulässt, dass viele kurze Lesesequenzen zu einem einzigen einzigartigen Ort abbilden. Um diese Herausforderungen zu meistern, haben wir den oben beschriebenen Ansatz entwickelt, um den Ausdruck einzelner L1-Lok-Daten anhand von RNA-Seq-Daten zu identifizieren.

Unser Ansatz filtert das hohe Niveau (über 99%) Von transkriptionalem Rauschen, das aus L1-Sequenzen erzeugt wird, die mit der RetroUmsetzung von L1 durch eine Reihe von Schritten nichts zu tun haben. Der erste Schritt ist die Vorbereitung von zytoplasmatischen RNA. Durch die Auswahl für zytoplasmatische RNA werden L1-bezogene Lesungen, die in der ausdrücklichen intronischen mRNA im Kern gefunden werden, deutlich erschöpft. Ein weiterer Schritt, um das Transkriptionsgeräusch, das nichts mit L1s zu tun hat, zu reduzieren, ist die Auswahl von polyadenylierten Transkripten. Dadurch wird L1-bezogenes Transkriptionslärm entfernt, das in nicht-mRNA-Arten gefunden wird. Ein weiterer Schritt beinhaltet eine strand-spezifische Sequenzierung, um Antisense L1-bezogene Transkripte zu identifizieren und zu eliminieren. Die Verwendung einer Anmerkung für L1s in voller Länge mit funktionalen Promoter-Regionen bei der Identifizierung der Anzahl der RNA-Seq-Transkripte, die auf L1s abbilden, beseitigt auch Hintergrundgeräusche, die sonst aus abgeschnittenen L1s stammen. Schließlich ist der letzte kritische Schritt zur Beseitigung von transkriptionalen Rauschen von L1-Sequenzen, die nichts mit L1-Retrostumtransposition zu tun haben, die manuelle Kuration von L1s, die identifiziert wurden, um RNA-Seq-Transkripte abzubilden. Die manuelle Kuration beinhaltet die Visualisierung jedes bioinformatisch identifizierbaren L1-Locus im Kontext seiner umgebenden genomischen Umgebung, um zu bestätigen, dass der Ausdruck vom L1-Promoter stammt. Dieser Ansatz wurde bei DU145, einer Prostata-Tumorzelllinie, angewandt. Selbst bei allen vorbereitungsbezogenen Maßnahmen zur Reduzierung des Hintergrundgeräusches wurden etwa 50% der in DU145 identifizierten L1-Loken als L1-Hintergrundgeräusche aus anderen Transkriptionsquellen abgelehnt (Abbildung4), Die Strenge betonen, die erforderlich ist, um zuverlässige Ergebnisse zu erzielen. Dieser Ansatz mit manueller Kuration ist arbeitsintensiv, aber bei der Entwicklung dieser Pipeline notwendig, um die genomische Umgebung rund um eine volle L1 zu bewerten und zu verstehen. Die nächsten Schritte beinhalten die Reduzierung der Menge der notwendigen manuellen Kuration durch die Automatisierung einiger der Kurationsregeln, obwohl aufgrund der noch nicht ganz bekannten Natur des genomischen Ausdrucks, unkommentierte Ausdrucksquellen im Referenzgenom, Regionen von niedrigem Die Ableitungsfähigkeit und sogar die Komplikationsfaktoren, die mit der Konstruktion eines Referenzgenoms verbunden sind, ist es zu diesem Zeitpunkt nicht möglich, die L1-Curation vollständig zu automatisieren.

Die zweite Herausforderung bei der Identifizierung des Ausdrucks einzelner L1-Lci mit Sequenzierung betrifft die Kartierung von wiederholten L1-Transkripten. In dieser Ausrichtungsstrategie ist es erforderlich, dass sich ein Transkript eindeutig und mitreiflich an das Referenzgenom ausrichten muss, um abgebildet zu werden. Durch die Auswahl für gepolsterte Sequenzen, die konkordant abbilden, steigt die Anzahl der Transkripte, die sich eindeutig an L1-Loki des Referenzgenoms angleichen. Diese uniquésie-mapping-Strategie gibt Vertrauen in die Anrufung von Lesekarten speziell an einen einzigen L1-Locus, obwohl sie möglicherweise die Ausdrucksmenge jedes identifizierten, authentisch zum Ausdruck gebrachten, wiederholten L1 unterschätzt. Um diese Unterschätzung annähernd zu korrigieren, wurde für jeden L1-Locus eine "Mappability"-Score entwickelt und auf die Anzahl der eindeutig kartografierten Transkriptionslesungen angewendet (Abbildung 6). Es ist zu beachten, dass im Idealfall die Mappability auf die volle Abdeckung der L1 nach dem passenden WGS-Muster gepunktet werden sollte. Hier verwenden wir WGS von HeLa-Zellen, um die Mappabilitätswerte jedes L1-Lokis zu bestimmen, um die Mapping-Ergebnisse in den DU145-Prostatatumorzelllinien zu entblößen oder zu deflate. Diese Mappabilitätsberechnung ist eine grobe Korrekturpunktzahl, aber die gewählte "vollständige Deckungsmappbarkeit" von 400 Lesezeichen wurde unter Berücksichtigung der Dynamik der Tumorzelllinien ermittelt. In der ergänzenden Abbildung 1ist zu beobachten, dass es ein paar L1-Loki mit HeLa WGS mit extrem hoher Anzahl von gemappten Lesevorgängen gibt. Diese stammen wahrscheinlich von duplizierten Chromosomensequenzen innerhalb von HeLa, die sich nicht innerhalb des Referenzgenoms befinden, weshalb diese Loci nicht ausgewählt wurden, um die vollständige Mappabilitätsabdeckung zu repräsentieren. Stattdessen wurde festgestellt, dass der Durchschnitt der 100-prozentigen Leselaabdeckung nach der ergänzenden Abbildung 1 rund 400 Lesezahlen ergibt und dann davon ausgegangen wurde, dass dieser Durchschnitt auch für die Tumorprostata-Linie DU145 gilt.

Diese Ausrichtungsstrategie mit 100-200 bp liest aus der RNA-Seq-Technologie auch bevorzugt für evolutionär ältere L1s innerhalb des Referenzgenoms, da ältere L1s im Laufe der Zeit einzigartige Mutationen angehäuft haben, die sie mehr mappbar machen. Dieser Ansatz hat daher eine begrenzte Empfindlichkeit, wenn es darum geht, die jüngste der L1s zu identifizieren, sowie nicht-referenzierende, polymorphe L1s. Um die jüngste von L1s zu identifizieren, schlagen wir vor, 5 ' RACE-Auswahl an L1-Transkripten und Sequenzierungstechnologie wie PacBio zu verwenden, die von längeren Lesezeichen 21 Gebrauch machen. Dies ermöglicht eine einmaligere Kartierung und damit eine sichere Identifizierung der ausgedrückten, jungen L1s. Durch die gemeinsame Nutzung von RNA-Seq und PacBio-Ansätzen kann dies zu einer umfassenderen Liste authentischer Ausgedrücker L1s führen. Um authentisch ausgesprochene polymorphe L1s zu identifizieren, sind die ersten nächsten Schritte die Konstruktion und das Einfügen polymorphischer Sequenzen in das Referenzgenom.

Die biologischen und technischen Herausforderungen bei der Untersuchung von Wiederholungssequenzen sind groß, obwohl wir mit dem oben genannten rigorosen Verfahren zur Beseitigung von Transkriptionsgeräuschen von L1-Sequenzen, die nicht mit der Retrotransposition in Verbindung stehen, mit der RFA-Sequenzierungstechnologie beginnen, durchzusickern. Die großen Ebenen des transkriptionalen Hintergrundrauschen und das Zumaß an selbstbewusstem und strenger Identifizierung von L1-Expressionsmustern und-Quantität auf der individuellen Locus Ebene.

Disclosures

Die Autoren haben nichts zu offenbaren.

Acknowledgments

Wir danken Dr. Yan Dong für die DU145 Prostata-Tumorzellen. Wir danken Dr. Nathan Ungerleider für seine Beratung und Beratung bei der Erstellung von Supercomputer-Skripten. Ein Teil dieser Arbeit wurde durch NIH-Zuschüsse R01 GM121812 an PD, R01 AG057597 an VPB und 5TL1TR001418 an TK finanziert. Wir möchten auch die Unterstützung der Cancer Crusaders und des Tulane Cancer Center Bioinformatics Core anerkennen.

Materials

Name Company Catalog Number Comments
1 M HEPES Affymetrix AAJ16924AE
5 M NaCl Invitrogen AM9760G
Agilent bioanalyzer 2100 Agilent technologies
Agilent RNA 6000 Nano Kit Agilent technologies 5067-1511
bedtools.26.0 https://bedtools.readthedocs.io/en/latest/content/installation.html
bowtie-0.12.8 https://sourceforge.net/projects/bowtie-bio/files/bowtie/0.12.8/
Cell scraper Olympus plastics 25-270
Chloroform Fisher C298-500
Digitonin Research Products International Corp 50-488-644
Ethanol Fisher A4094
Gibco (Phosphate Buffered Saline) Invitrogen 10-010-049
Homogenizer Thomas Scientific BBI-8541906
IGV 2.4 https://software.broadinstitute.org/software/igv/download
Isopropanol Fisher A416-500
mac2unix https://sourceforge.net/projects/cs-cmdtools/files/mac2unix/
Q-tips Fisher 23-400-122
RNAse later solution Invitrogen AM7022
RNaseZap RNase Decontamination Solution Invitrogen AM9780
samtools-1.3 https://sourceforge.net/projects/samtools/files/
sratoolkit.2.9.2 https://github.com/ncbi/sra-tools/wiki/Downloads
SUPERase·In RNase Inhibitor Invitrogen AM2694
Trizol Invitrogen 15-596-018
Water (DNASE, RNASE free) Fisher BP2484100

DOWNLOAD MATERIALS LIST

References

  1. International Human Genome Sequencing. Initial sequencing and analysis of the human genome. Nature. 409, 860 (2001).
  2. Brouha, B., et al. Hot L1s account for the bulk of retrotransposition in the human population. Proceedings of the National Academy of Sciences of the United States of America. 100, (9), 5280-5285 (2003).
  3. Dombroski, B. A., Mathias, S. L., Nanthakumar, E., Scott, A. F., Kazazian, H. H. Isolation of an active human transposable element. Science. 254, (5039), 1805 (1991).
  4. Swergold, G. D. Identification, characterization, and cell specificity of a human LINE-1 promoter. Molecular and Cellular Biology. 10, (12), 6718-6729 (1990).
  5. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular and Cellular Biology. 21, (6), 1973-1985 (2001).
  6. Deininger, L., Batzer, M. A., Hutchison, C. A., Edgell, M. H. Master genes in mammalian repetitive DNA amplification. Trends in Genetics. 8, (9), 307-311 (1992).
  7. Boissinot, S., Chevret, P., Furano, A. L1 (LINE-1) Retrotransposon Evolution and Amplification in Recent Human History. Molecular Biology and Evolution. 17, (6), 915-918 (2000).
  8. Khazina, E., Weichenrieder, O. Non-LTR retrotransposons encode noncanonical RRM domains in their first open reading frame. Proceedings of the National Academy of Sciences of the United States of America. 106, (3), 731-736 (2009).
  9. Martin, S. L., Bushman, F. D. Nucleic acid chaperone activity of the ORF1 protein from the mouse LINE-1 retrotransposon. Molecular and Cellular Biology. 21, (2), 467-475 (2001).
  10. Feng, Q., Moran, M. H., Kazazian, H. H., Boeke, J. D. Human L1 Retrotransposon Encodes a Conserved Endonuclease Required for Retrotransposition. Cell. 87, (5), 905-916 (1996).
  11. Mathias, S. L., Scott, A. F., Kazazian, H. H., Boeke, J. D., Gabriel, A. Reverse transcriptase encoded by a human transposable element. Science. 254, (5039), 1808 (1991).
  12. Luan, D. D., Korman, M. H., Jakubczak, J. L., Eickbush, T. H. Reverse transcription of R2Bm RNA is primed by a nick at the chromosomal target site: A mechanism for non-LTR retrotransposition. Cell. 72, (4), 595-605 (1993).
  13. van den Hurk, J. A. J. M., et al. Novel types of mutation in the choroideremia (CHM) gene: a full-length L1 insertion and an intronic mutation activating a cryptic exon. Human Genetics. 113, (3), 268-275 (2003).
  14. Miné, M., et al. A large genomic deletion in the PDHX gene caused by the retrotranspositional insertion of a full-length LINE-1 element. Human Mutation. 28, (2), 137-142 (2007).
  15. Solyom, S., et al. Pathogenic orphan transduction created by a nonreference LINE-1 retrotransposon. Human Mutation. 33, (2), 369-371 (2012).
  16. Hancks, D. C., Kazazian, H. H. Roles for retrotransposon insertions in human disease. Mobile DNA. Mobile DNA. 7, 9-9 (2016).
  17. Tubio, J. M. C., et al. Mobile DNA in cancer. Extensive transduction of nonrepetitive DNA mediated by L1 retrotransposition in cancer genomes. Science. 345, (6196), 1251343-1251343 (2014).
  18. Ewing, A. D., et al. Widespread somatic L1 retrotransposition occurs early during gastrointestinal cancer evolution. Genome Research. 25, (10), 1536-1545 (2015).
  19. Beck, C. R., Garcia-Perez, J. L., Badge, R. M., Moran, J. V. LINE-1 elements in structural variation and disease. Annual Review of Genomics and Human Genetics. 12, 187-215 (2011).
  20. Philippe, C., et al. Activation of individual L1 retrotransposon instances is restricted to cell-type dependent permissive loci. eLife. 5, e13926 (2016).
  21. Deininger, P., et al. A comprehensive approach to expression of L1 loci. Nucleic Acids Research. 45, (5), e31-e31 (2017).
  22. Jin, Y., Tam, O. H., Paniagua, E., Hammell, M. TEtranscripts: a package for including transposable elements in differential expression analysis of RNA-seq datasets. Bioinformatics. 31, (22), 3593-3599 (2015).
  23. Agilent RNA 6000 Nano Kit Guide. Agilent. (2017).
  24. Mueller, O. L., Schroeder, A. RNA Integrity Number (RIN) –Standardization of RNA Quality Control. Agilent Technologies. (2016).
  25. Robinson, J. T., et al. Integrative genomics viewer. Nature Biotechnology. 29, 24 (2011).
  26. Speek, M. Antisense promoter of human L1 retrotransposon drives transcription of adjacent cellular genes. Molecular Cellular Biology. 21, (6), 1973-1985 (2001).
  27. Belancio, V. P., Deininger, L., Roy-Engel, A. M. LINE dancing in the human genome: transposable elements and disease. Genome Medicine. 1, (10), 97-97 (2009).
  28. Iskow, R. C., et al. Natural Mutagenesis of Human Genomes by Endogenous Retrotransposons. Cell. 141, (7), 1253-1261 (2010).
  29. Scott, E. C., et al. A hot L1 retrotransposon evades somatic repression and initiates human colorectal cancer. Genome Research. 26, (6), 745-755 (2016).
  30. Kines, K. J., Sokolowski, M., deHaro, D. L., Christian, C. M., Belancio, V. P. Potential for genomic instability associated with retrotranspositionally-incompetent L1 loci. Nucleic Acids Research. 42, (16), 10488-10502 (2014).

Comments

0 Comments


    Post a Question / Comment / Request

    You must be signed in to post a comment. Please or create an account.

    Usage Statistics