Biology

IR-TEx: een open source data-integratie tool voor Big Data transcriptomics ontworpen voor de malaria vector Anopheles gambiae

Published: January 15, 2020 doi: 10.3791/60721

Victoria A. Ingham¹, Andrew Bennett², Duo Peng³, Simon C. Wagstaff², Hilary Ranson¹

¹Vector Biology, Liverpool School of Tropical Medicine, ²Research Computing Unit, Liverpool School of Tropical Medicine, ³Department of Immunology and Infectious Diseases, Harvard T.H. Chan School of Public Health

Summary

IR-TEx verkent transcriptionele profielen van insecticide-resistentie in de soort Anopheles gambiae. Hier vindt u volledige instructies voor het gebruik van de toepassing, wijzigingen voor het verkennen van meerdere Transcriptomic-gegevenssets en het gebruik van het framework om een interactieve database te bouwen voor verzamelingen transcriptomische gegevens van elk organisme, gegenereerd in elk platform.

Abstract

IR-TEx is een applicatie geschreven in glanzend (een R-pakket) die het mogelijk maakt verkenning van de uitdrukking van (evenals het toewijzen van functies aan) transcripten waarvan de uitdrukking wordt geassocieerd met insecticide resistentie fenotypes in Anopheles gambiae muggen. De applicatie kan online worden gebruikt of gedownload en lokaal door iedereen worden gebruikt. De lokale toepassing kan worden aangepast om nieuwe insecticide-resistentie gegevenssets toe te voegen die zijn gegenereerd op platformen met meerdere omics. Deze handleiding laat zien hoe u nieuwe gegevenssets toevoegt en ontbrekende gegevens verwerkt. Bovendien kan IR-TEx volledig en gemakkelijk worden heroverd naar gebruik-omics datasets uit elke experimentele data, waardoor het een waardevolle bron is voor veel onderzoekers. Het protocol illustreert het nut van IR-TEx bij het identificeren van nieuwe insecticide resistentie kandidaten met behulp van de microsomale glutathion transferase, GSTMS1, als voorbeeld. Dit transcript is upregulated in meerdere pyrethroïde resistente populaties uit Ivoorkust en Burkina Faso. De identificatie van co-gecorreleerde transcripten geeft verder inzicht in de putatieve rollen van dit gen.

Introduction

De mogelijkheid om de expressie van grote aantallen transcripten tegelijkertijd te meten via microarray-platforms en RNAseq-technologie heeft geresulteerd in het genereren van enorme gegevenssets die transcript expressie associëren met een bepaald fenotype in zowel model-als niet-model organismen. Deze datasets zijn een zeer rijke bron voor onderzoekers, waarvan de kracht kan worden verhoogd door het combineren van relevante sets in een Big data-integratie aanpak. Deze methodologie is echter beperkt tot die met bepaalde bioinformatica vaardigheden. Hier beschreven is een programma, IR-TEx (eerder gepubliceerd door Ingham et al.¹) dat is geschreven in een R-pakket genaamd Shiny² en stelt gebruikers met weinig bioinformatica training in staat om deze datasets met relatief gemak te integreren en te ondervragen.

IR-TEx, gevonden op http://www.lstmed.ac.uk/projects/IR-TEx, werd geschreven om transcripten geassocieerd met insecticide resistentie te verkennen in Anopheles gambiae, de grote Afrikaanse malaria vector¹. Malaria is een parasitaire ziekte veroorzaakt door Plasmodium soorten, overgedragen tussen mensen door de beten van vrouwelijke Anopheles muggen. Het doel van de muggen vector met insecticiden is gebleken dat het de meest effectieve manier is om malaria-gerelateerde morbiditeit en sterfte in Afrika te voorkomen. De opschaling van gereedschappen (d.w.z. langdurige insecticide netten) is ook van cruciaal belang geweest bij de dramatische reducties in malariagevallen sinds 2000³. Met een zeer beperkt aantal beschikbare insecticiden, er is sterke evolutionaire druk op de muggen, en weerstand is nu wijdverbreid in Afrikaanse malaria vectoren⁴.

Bovendien, doelsite mutaties⁵ en metabole klaring van insecticiden⁶^,⁷ blijven de primaire bestudeerde mechanismen van resistentie, maar andere krachtige resistente mechanismen zijn nu in opkomst¹. Veel van deze nieuwe mechanismen zijn nog niet eerder geassocieerd met insecticide resistentie, maar zijn ontdekt door het zoeken naar gemeenschappelijke patronen van genexpressie over meerdere resistente populaties met behulp van de IR-TEx app en vervolgens functioneel gevalideerd door Genomics benaderingen¹.

Hier beschreven is een stapsgewijze benadering voor het gebruik van IR-TEx, zowel op het web als lokaal geïnstalleerd. Het protocol beschrijft hoe nieuwe insecticide-resistentie gegevenssets kunnen worden geïntegreerd in het bestaande pakket en legt uit hoe u met ontbrekende gegevens werken. Ten slotte wordt beschreven hoe u deze software gebruikt met andere omics-gegevenssets die geen verband hebben met insecticide-resistentie, waardoor gegevens uit verschillende omics-benaderingen worden gecombineerd, terwijl ze ook werken met ontbrekende waarden en normalisatie, zodat gegevens vergelijkbaar zijn.

Protocol

1. de IR-TEx-webtoepassing gebruiken

De toepassing uitvoeren in een webbrowser
1. Open de IR-TEx-webtoepassing door de link onderaan de pagina te volgen die te vinden is op http://www.lstmed.ac.uk/projects/IR-TEx.
2. Zodra de webpagina is geïnitialiseerd, klikt u op de knop toepassing boven aan de pagina, waarin de toepassing en de bijbehorende uitvoer wordt weergegeven.
3. Lees elke uitvoer met betrekking tot de standaardvermelding van AGAP008212-Ra (CYP6M2) in de transcript id vak met de volgende voorwaarden: an. coluzzii gegevenssets die (i) zijn blootgesteld aan pyrethroïde insecticiden of (II) niet zijn blootgesteld aan een insecticide-klasse, en bijbehorende transcripten met een correlatie van | r | > 0,98.
De expressie van een transcript van belang verkennen
1. Om te selecteren van een transcript van belang, voer de transcriptie-id in de transcript id vak, herinneren dat transcripten eindigen in -RX afhankelijk van isovorm van belang.
2. Selecteer de gegevenssets die u wilt ondervragen door de relevante vakjes aan te vinken voor (i) landen; II) de blootstellings status, (III) soorten van belang; en (IV) insecticide-klasse van belang, terwijl ervoor wordt gezorgd dat deze criteria resulteren in > 1 opgenomen gegevensset (Zie aanvullende tabel 1 in Ingham et al.¹).
  Opmerking: (III) verwijst naar het lid van het an. gambiae -soort complex dat de gebruiker heeft geïnteresseerd. Momenteel zijn gegevens beschikbaar voor een. coluzzii en een. arabiensis.
3. Klik op weergave bijwerken onder aan het menu selectie of druk op return, waarbij de absolute correlatie waarde (voorlopig) wordt genegeerd.
4. Geef de toepassingstijd om bij te werken.
5. Lees de eerste grafiek als: Log₂ vouw verandering tussen een resistente populatie en Lab-vatbaar Mosquito populatie van de transcriptie van belang zijn voor elke gegevensset die voldoet aan de criteria die zijn geselecteerd in stap 1,2 (afbeelding 1). De details van alle datasets zijn te vinden in Ingham et al.¹.
6. Lees de informatie onder de grafiek als: de vouw verandert tussen de resistente en gevoelige muggen voor elke relevante gegevensset, naast de gecorrigeerde p-waarden (Q). Elke rij vertegenwoordigt afzonderlijke tests op de Microarray. De methodologie voor grafische weergave is eerder gerapporteerd¹.
7. Lees de aanvullende tabel hieronder als het aantal experimenten waarin de transcriptie van belang is belangrijk, evenals het totale aantal experimenten die overeenkomen met de criteria die zijn geselecteerd in stap 1,2.
8. Als u de gegevens in een door tabs gescheiden indeling wilt downloaden, klikt u op de knop downloaden onder de twee tabellen. Hierdoor kan de gebruiker gegevens op een eenvoudigere manier verkennen met behulp van een programma zoals Excel.
9. Interpreteer de kaart als volgt: elk punt vertegenwoordigt de geschatte verzameling sites van resistente muggen in elke gegevensset waarin de transcriptie van belang wordt uitgedrukt. De kleuren volgen een verkeersliksysteem dat wordt uitgelegd in de app (Figuur 2).
10. Voor de stappen 1.2.5 en 1.2.8 slaat u de grafische uitvoer op door met de rechtermuisknop te klikken, op afbeelding opslaan als... te klikken en een geschikte map te kiezen.
  Opmerking: in het geval van een uitvoer fout door de toepassing, is het waarschijnlijk dat er geen gegevenssets overeenkomen met de ingevoerde criteria. Controleer de supplementaire tabel 1 in Ingham et al.¹ als dit gebeurt.
Identificeren van putatieve functies/trajecten van transcriptie van belang
1. Correlaties (minimale r² -waarde ingevoerd) van de expressie patronen van transcripten in meerdere gegevenssets kunnen worden gebruikt om de transcript functie te voorspellen en mogelijk verhelderingsgecorrelleerde transcripten van hetzelfde traject. Met behulp van het voorbeeld van Ingham et al.¹ (AGAP001076-Ra; CYP4G16), volg stappen 1.2.1 – 1.2.2 in het bovenstaande gedeelte en selecteer alle gegevenssets voor maximaal vermogen.
2. Voordat u op weergave bijwerkenklikt, verplaatst u de schuifregelaar absolute correlatie waarde naar 0,85 en klikt u op weergave bijwerken of drukt u op return.
3. Bekijk de correlatietabel (onderste tabel) om de meerdere transcripten te vinden die nu worden weergegeven en die gecorreleerd zijn (| r | = 0,85) met de ingevoerde transcriptie.
4. Manipuleer de absolute correlatie waarde Slider en observeer eventuele veranderingen in de onderste grafiek en tabel; de uitgangen van stap 1.3.2 blijft ongewijzigd. Zoals weergegeven in Figuur 3 (| r | > 0,9, | r | > 0,8), zal het verlagen van de striktheid van de correlatie waarde meer transcripten tonen, maar meer ruis introduceren.
5. Lees de tabel onder de grafische uitvoer, die (naast de parameters beschreven in stap 1.2.6) bevat de correlatie waarde voor elk transcript.
6. Als u de gegevens in een door tabs gescheiden indeling wilt downloaden, klikt u op de knop downloaden .
7. Functionele verrijking analyse kan worden uitgevoerd op de gedownloade transcript ID lijst met behulp van DAVID Analysis⁸. Eenmaal op de website van DAVID (te vinden op https://David.ncifcrf.gov/), selecteer functionele analyse. Plak de volledige genlijst met behulp van Genid's [Identifier zonder de-RX, die in Excel kan worden gedaan door een kolom rechts van de systematische ID in te voegen en te typen = Left (x1, 10), waarbij x1 de systematische id-cel is]. Selecteer de id als VectorBase_ID en genlijst en klik op lijst verzenden.
8. Klik op de functionele aantekening clustering knop voor een overzicht van de enrichments gevonden in dit correlatie netwerk, waardoor een potentiële functie kan worden toegewezen aan het transcript. Verken diepgaande enrichments door de verschillende categorieën te bekijken en op de knop + te klikken voor elk en vervolgens op grafiekte klikken.

2. IR-TEx lokaal downloaden en implementeren

IR-TEx downloaden en uitvoeren
1. Ga naar de link gevonden op http://github.com/LSTMScientificComputing/IR-TEx; en klik op klonen of downloaden | Download zip. Rechtstreeks naar een gewenste map en pak het bestand uit in die map.
2. Download de nieuwste versie van de R-software voor het juiste besturingssysteem via de link die te vinden is op http://cran.r-project.org/mirrors.html. Installeer het programma.
3. Download en installeer de nieuwste R Studio-software, opnieuw voor het juiste besturingssysteem via de link die te vinden is op http://www.rstudio.com/products/rstudio/Download/.
4. Eenmaal geïnstalleerd, open R Studio | Aanvullend Codeer bestand 1 en voer elke regel uit om het systeem voor IR-TEx in te stellen.
5. Zodra alle pakketten met succes zijn geïnstalleerd en bijgewerkt zoals vereist, gaat u naar bestand | Open, lokaliseer IR-TEx. R, Markeer en open. Dit moet nu zichtbaar zijn in het bovenste venster van R Studio.
6. Om de app uit te voeren, druk op de Run app knop in de rechterbovenhoek van het venster, en een tweede venster zal verschijnen waarin de app zal laden. Als het laden is voltooid, klikt u voor volledige functionaliteit op openen in browser in de rechterbovenhoek van het geladen venster.
Weerstands gegevenssets toevoegen aan IR-TEx (gegenereerd met behulp van Anopheles gambiae 15K Agilent array)
1. Als u een nieuwe geanalyseerde gegevensset op hetzelfde Microarray-platform (A-MEXP-2196) wilt toevoegen aan de beschikbare gegevensset, downloadt u de app en zoekt u de uitgepakt map die is gedownload in sectie 2,1.
2. Open extra bestand 1, dat een uitvoer vertegenwoordigt van een limma-analyse op a-mexp-2196 ¹. Gebruik Excel in kolom H1, schrijf Fold_Changeen in H2, write = 2 ^ B2, waarbij B2 de wijzigingspatfold is. Breng dit in de hele kolom H om RAW fold veranderingen te produceren.
3. Extra bestand 1 rangschikken, zodat kolom A de id is, kolom B de vouw van kolom h is (kolom h kopiëren, kolom b markeren, vervolgens met de rechtermuisknop klikken en waarden plakken) en kolom C de aangepaste p-waarde is. Verwijder alle andere kolommen en sla deze op als een door tabs gescheiden bestand.
4. Open aanvullend Codeer bestand 2 en voer met behulp van het door tabs gescheiden blad dat in stap 2.2.3 is geproduceerd.
  NEWFILE_FC = c ("land", "BLOOTSTELLINGS STATUS", "soort", "INSECTICIDE")
  NEWFILE_Q = c ("land", "BLOOTSTELLINGS STATUS", "soort", "INSECTICIDE")
  Opmerking: velden binnen enkele aanhalingstekens moeten worden gewijzigd om de gegevens van de nieuwe gegevensset weer te geven. De blootstellings status heeft betrekking op de vraag of monsters werden verzameld na blootstelling aan insecticide (blootgesteld/onbelicht). Insecticide: als ' onbelicht ', gebruik dan ' none '. Zie Fold_Changes. txt. voor metagegevens uit andere voorbeelden. Zorg ervoor dat de spelling consistent is.
5. Open Geography. txt, scrol naar de laatste bezette rij en selecteer hieronder. Typ de naam van de gegevensset, gevolgd door Q en NEWFILE_Q in kolom 1, de breedtegraad van de site met de voorbeeld verzameling in kolom 2 en de lengtegraad in kolom 3. Sla de wijzigingen op.
6. Als er nieuwe posten worden gebruikt (d.w.z. Gambia), die niet beschikbaar zijn voor selectie in de gegevensset (Zie de aanvullende tabel 1¹), dan moeten deze worden toegevoegd aan de code. Om dit te doen, open IR-TEx. R in RStudio en lokaliseren lijn 26 zoals aangegeven door RStudio, op welk punt het volgende moet beginnen:
  'Sidebarpanel (.... '.
  Opmerking: elk van de procedure rijen heeft betrekking op een item van metagegevens ingevoerd in de rijen onder de naam van de gegevensset in Fold_Changes. txt in stap 2.2.5.
7. Als u de nieuwe metagegevens wilt toevoegen, scrolt u naar het einde van de regel met de metagegevens van de keuze en zoekt u de term ' selected = '. Onmiddellijk na dit moet een komma en gesloten beugel; Klik op dit punt op de cursor binnen de gesloten beugel. Typ na de laatste apostrof een komma, gevolgd door een apostrof, gevolgd door de nieuwe metagegevens (bijvoorbeeld ' Gambia ') en sla de wijzigingen op. Zie hieronder voor een voorbeeld.
  checkboxGroupInput (' CountryInput ', ' Selecteer relevante landen ', c (' Burkina Faso ', ' Cote D'Ivoire ', Kameroen "," Equatoriaal Guinee "," Zambia "," Tanzania "," Soedan "," Oeganda "," Togo ", " Gambia"), geselecteerd = c (" Burkina Faso "," Ivoorkust "," Kameroen "," Equatoriaal Guinee "," Zambia "," Tanzania "," Soedan "," Oeganda "," Togo "))
8. Voer de app uit. Het nieuwe metagegevensitem moet worden weergegeven als een niet-geselecteerd vinkje onder de betreffende kop. Als de gebruiker wil dat deze wordt geselecteerd, moet deze worden toegevoegd na de geselecteerde = c (..., zoals hieronder weergegeven:
  checkboxGroupInput (' CountryInput ', ' Selecteer relevante landen ', c (' Burkina Faso ', ' Ivoorkust ', ' Kameroen ', Equatoriaal Guinee "," Zambia "," Tanzania "," Soedan "," Oeganda "," Togo ", " Gambia"), geselecteerd = c (" Burkina Faso "," Ivoorkust "," Kameroen "," Equatoriaal Guinee "," Zambia "," Tanzania "," Soedan "," Oeganda "," Togo ", " Gambia"))
9. Voor het toevoegen van weerstands gegevenssets die niet zijn uitgevoerd op A-MEXP-2196, zie sectie 3.

3. IR-TEx wijzigen voor gebruik met verschillende gegevenssets

Gebruik op meerdere omics-platformen en doorgaan met ontbrekende gegevens
1. Om door te gaan met ' 0 ' in gegevenssets: Raadpleeg de bron van de gegevensset voor de specifieke betekenis van ' 0 '. Het wordt aanbevolen dat "0" (conservatief) wordt vervangen door "NA". Zoals bij RAW fold Changes (B/A), "0" duidt op een niet-gedetecteerd signaal in experimentele toestand B. In het geval dat experimentele toestand A een substantiële uitdrukking vertoont, kan de gebruiker een kleine fold-Change-waarde toepassen.
2. Open extra bestand 2. txt, een RNAseq-bestand dat is aangepast van Uyhelji et al.⁹. Dit bestand vertegenwoordigt de sjabloon waarin nieuwe gegevens moeten worden gebaseerd: kolom A = Identifier, kolom B = onbewerkte vouw wijziging en kolom C = aangepaste p-waarde. Gebruik dit bestand om de onderstaande stappen uit te voeren.
3. Voer de R-code uit om id's te koppelen aan één door tabs gescheiden bestand op verschillende platformen, en Organiseer en Normaliseer de gegevens (aanvullend Codeer bestand 2). Instructies zijn opgenomen in het bestand. Elk FILEPATH wordt gescheiden door "/" voor MacOS of "//" voor Windows (Verander deze van "\", zoals ze zullen verschijnen).
4. Uitvoer het bestand geproduceerd aan het einde van aanvullende codering bestand 2 naar een locatie van keuze voor gebruik in stap 3.1.5. Aanvullend Codeer bestand 2 zal een nieuw Fold_Changes. txt -bestand uitvoeren. Back-up van het oorspronkelijke bestand.
5. Voer de code uit die is opgenomen in het aanvullende coderingsbestand 3. Zoek het uitvoerbestand met de naam FC_distribPlot. png in de map die is opgegeven als filepath. Controleer de distributies van Log₂ fold wijzigen om te controleren of de logboek₂ vouw wijzigen distributies zijn vrijwel identiek voor gegevenssets.
6. Volg de instructies van stap 2.2.6 om extra bestanden te bewerken en de compatibiliteit van het nieuwe Fold_Changes. txtte waarborgen.
IR-TEx wijzigen voor gebruik met volledig nieuwe gegevenssets
1. Open IR-TEx. R in rstudio en zoek de lijnen (23 – 34) beginnend met:
  'tabpanel ('
  en eindigend op:
  submitButton ("weergave bijwerken", pictogram ("vernieuwen"))
  ),
2. Wijzig de AGAP008212-Ra gevonden in de onderstaande regels naar een transcript van belang in de nieuwe gegevens.
  textInput ("textInput", "transcript ID", value = ' AGAP008212-RA '),
3. Zoek de vier opties die beginnen met:
  checkboxGroupInput (
  Deze opties kunnen worden gewijzigd om belangrijke metagegevens weer te geven waarop de gebruiker de nieuwe gegevens wil filteren. In elk geval moet de gebruiker de geselecteerde relevante landenwijzigen; Selecteer belichtings status; Selecteer relevante soorten; en Selecteer insecticide-klasse om representatief te zijn voor de gegevens (D.w.z. Selecteer weefsel type; Selecteer geslacht; Selecteer leeftijdstranche; Selecteer ziekte status).
4. Identificeer de metagegevens die zijn gekoppeld aan de gegevensset en invoer ter vervanging van de bestaande opties onmiddellijk na de eerste c ('. In elk geval worden de opties opgenomen in de spraak markeringen en gescheiden van de volgende selectie door een komma. Na de laatste selectie moet de beugel worden gesloten. Een voorbeeld voor een bepaalde ziekte status is:
  c (' geïnfecteerd ', ' niet-geïnfecteerd ', ' onbekend ')
5. Kies welke van deze metagegevens wordt geselecteerd bij het openen van de app. Deze kunnen worden gewijzigd door de opties te wijzigen na geselecteerd = c ('. Een voorbeeld voor een bepaalde ziekte status is:
  selected = c (' geïnfecteerd ', ' niet geïnfecteerd ')
  Dit zal de app instrueren om alleen gegevenssets te selecteren die overeenkomen met deze criteria bij het eerste laden.
6. Als u een nieuwe gegevenstabel wilt maken, volgt u de indeling die is gevonden in Fold_Changes. txt en de instructies in sectie 2. Wijzig de metagegevens in elke respectieve wijziging die wordt beschreven in stap 3.2.4, precies zoals geschreven in de code (R is hoofdlettergevoelig). In de ontgifting kolom, input gennamen, en in de transcriptie type kolom, input genbeschrijvingen voor elk transcript. Volg paragraaf 3,2 bij het toevoegen van nieuwe gegevenssets.
7. Als de toewijzing niet relevant is voor de experimentele vereisten, zoekt u de volgende coderegels en plaatst u ' # ' vooraan:
  Lijnen 49 – 51:
  BR (), BR (),
  withSpinner (plotOutput ("geografie")),
  textOutput (' Geography_legend '),
  Lijnen 493 vanaf:
  uitvoer $ geografie <-renderPlot ({
  Naar lijn 602 eindigend op:
  uitvoer $ Geography_legend <-renderText ({
  plakken (' alleen belangrijke transcripten (p ', als. Expression ("< ="), "0.05): FC > 5 = Red, FC > 1 = Amber, FC < 1 = groen", sep = "")
  })

Representative Results

Met behulp van het bestand Fold_Changes. txt dat is meegeleverd met IR-TEx, hebben we transcripten vergeleken die significant werden uitgedrukt in resistente Anopheles coluzzii en Anopheles gambiae datasets voor vatbare controles uit Ivoorkust en Burkina Faso. Dit leverde 18 transcripten van belang (tabel 1; deze zoekopdracht kan worden uitgevoerd met Excel, R of andere Programma's). Twee daarvan, een ATPase (AGAP006879) en α-crystallin (AGAP007160), zijn eerder gerapporteerd, waarbij de eerstgenoemde een significant effect heeft op de pyrethroïde resistentie¹. Naast deze twee transcripties waren er twee transcripten van ontgifting, GSTMS1 (FC_μ = 1,95 en 1,85) en UGT306A2 (FC_μ = 2,29 en 2,28) aanwezig.

qPCR validatie van twee van deze transcripten (GSTMS1, een transcriptie van de ontgifting; en AGAP009110-RA, een onbekende, Mosquito-specifieke transcriptie met een β-1, 3-glucan binding domein) werden uitgevoerd zoals eerder beschreven¹. De analyse werd uitgevoerd met behulp van primer sets zoals beschreven in aanvullend bestand 3 en toonde aan dat deze transcripten significant upregulated in een multiresistente populatie uit Ivoorkust (Tiassalé) en een ander uit Burkina Faso (Banfora), vergeleken met de Lab-gevoelige N'Gousso (Figuur 4a).

Aangezien beide transcripties significante opregulatie toonden in elk van de resistente populaties, werd RNAi-geïnduceerde knockdown uitgevoerd op muggen uit de lstm Laboratory tiassalé Colony. Deze kolonie is afkomstig uit Ivoorkust en is resistent tegen alle belangrijke klassen van insecticide die in de volksgezondheid worden gebruikt, zoals eerder beschreven op¹^,¹⁰. Verzwakking van de expressie van GSTMS1 resulteerde in een significante toename (p = 0,021) in mortaliteit na blootstelling aan deltamethrin in vergelijking met GFP-geïnjecteerde controles, waarbij het belang van dit transcript in de pyrethroïde resistentie werd aangetoond (Figuur 4B). Omgekeerd resulteerde AGAP009110-RA knockdown in geen significant (p = 0,082) verandering in sterfte na blootstelling (Figuur 4B).

GSTMS1 is een microsomale gst en is een van de drie gevonden in a. gambiae muggen¹¹. Hoewel leden van de Epsilon en Delta klassen van gsts eerder betrokken zijn geweest bij de ontgifting van insecticide¹²^,¹³^,¹⁴, is dit het eerste bewijs voor onze kennis voor een rol van microsomale gsts in de pyrethroïde resistentie¹⁵. Om de putatieve functie van dit transcript in Anopheles gambiae SL muggen te verkennen, werden de expressie en correlatie in IR-TEx geïdentificeerd. GSTMS1 werd aanzienlijk overgedruct in 20 van de 21 datasets die beschikbaar zijn voor deze soorten, met uitzondering van het eiland Bioko. In elke locatie was de overexpressie minder dan vijf maal in vergelijking met de vatbare populaties (Figuur 5).

Aangezien microsomale GSTs grotendeels zijn genegeerd als mogelijke insecticide-detoxifiers, is er weinig bekend over hun rol in de insecticide resistentie¹⁵. Door het verkennen van de co-correlatie van andere transcripten kunnen putatieve functies worden opgehelderd door de aanname van coregulatie of betrokkenheid bij dezelfde trajecten. Om de stroom in het correlatie netwerk te maximaliseren, zijn alle microarray-gegevenssets in IR-TEx geselecteerd en is een | r | van > 0,75 werd geselecteerd. Tabel 2 toont de uitvoer van IR-TEx.

Deze transcripten zijn verrijkt met oxioreductase activiteit en glucose/koolhydraatmetabolisme in DAVID'S functionele aantekening tool⁸. Zowel glucose-6-fosfaat dehydrogenase en cytathion gamma-lyase handhaven het niveau van glutathion in zoogdiercellen¹⁶^,¹⁷ en dus direct koppelen aan GSTMS1, een glutathion-S-transferase. Catalase is een snelwerkende oxidatieve stress-responder die cellen beschermt tegen reactieve zuurstof soorten schade, een bijproduct van pyrethroïde blootstelling. Valacyclovir hydrolase is een hydrolase die een rol kan spelen bij de ontgifting in zoogdiercellen¹⁸. CYP4H17 is ook aanwezig in het correlatie netwerk. Cytochroom p450s zijn directe metaboliseerders van pyrethroïde insecticiden, en deze afbraakproducten kunnen verder worden gemetaboliseerd door GSTs. Ten slotte is CYP4H17 betrokken bij de pyrethroïde resistentie in A. funestus¹⁹. Tezamen, deze gegevens ondersteunen sterk een rol voor GSTMS1 in xenobiotische detoxificatie.

Figuur 1: Log₂ vouw verandering van AGAP002865-RA in alle datasets. De x-as geeft details van de verschillende gegevenssets, waarvan de informatie in aanvullende tabel 1 in een vorige publicatie¹kan worden gevonden, en de y-as toont de verandering in Log₂ in het transcript van belang. De lichtgrijze stippellijnen geven geschatte drempels aan voor significantie, hier genomen om een vouw verandering te zijn van < 0.8 of fold verandering van > 1.2. De gestippelde zwarte lijn duidt op een vouw verandering van 1 (d.w.z. geen verschil in expressie tussen de resistente en vatbare populaties). Klik hier om een grotere versie van dit cijfer te bekijken.

Figuur 2: distributie van micro arrays die significante differentiële expressie van AGAP002865-RA in resistente populaties vertonen. Vouw wijzigingen worden weergegeven in een verkeersliksysteem: groene vouw verandering van < 1, oranje vouw verandering van > 1, en rode vouw verandering van > 5. Alleen gegevenssets met significante (p ≤ 0,05) differentiële expressie worden weergegeven. Klik hier om een grotere versie van dit cijfer te bekijken.

Figuur 3: correlatie netwerken van AGAP001076-RA (CYP4G16). Pairwise correlaties worden berekend over alle transcripten over de 31 Microarray-gegevenssets, waarbij een door de gebruiker gedefinieerde cut-off wordt toegepast. Hier weergegeven is (a) | r | > 0,9 en (B) | r | > 0,8. Alle transcripten die op de grafiek worden weergegeven, voldoen aan dit criterium en volgen de expressie wijzigingen van AGAP001076-RA. Klik hier om een grotere versie van dit cijfer te bekijken.

Figuur 4: mRNA-expressie en fenotype bij verzwakking van GSTMS1 en AGAP009110-Ra. A) mRNA-uitdrukking van GSTMS1 en AGAP009110-RA in twee multiresistente an. coluzzii populaties uit respectievelijk Ivoorkust en Burkina Faso. Niveaus werden vergeleken met de Lab-vatbaar an. coluzzii n'gousso. Significantie niveaus berekend door ANOVA met een post-hoc Dunnett-test. B) door RNAi veroorzaakte verzwakking van beide transcripten vergeleken met GFP-geïnjecteerde controles. GSTMS1 demping vertoont een significante toename van de sterfte na blootstelling aan deltamethrin (berekend door ANOVA met een Posthoc Tukey test; * p ≤ 0,05, * * p ≤ 0,01). Klik hier om een grotere versie van dit cijfer te bekijken.

Figuur 5: uitdrukking van GSTMS1 in Anopheles gambiae en Anopheles coluzzii populaties. Kaart met de significant differentiële uitdrukking van GSTMS1 in beschikbare Microarray-datasets. GSTMS1 bleek significant differentieel te zijn in 20 van de 21 Microarray datasets. Klik hier om een grotere versie van dit cijfer te bekijken.

Transcript-ID	Beschrijving	Burkina Faso	Ivoorkust
AGAP006879-RA	De	27,94	43,05
AGAP007160-RB	a-crystallin	11,49	10,58
AGAP007160-RC	a-crystallin	11,14	10,38
AGAP007160-RA	a-crystallin	9,78	9,84
AGAP009110-RA	Onbekende	9,26	5,96
AGAP007780-RA	NADH dehydrogenase	10,49	3,77
AGAP006383-RA	oligosaccharyltransferase complexe subeenheid bèta	3,69	5,57
AGAP007249-RB	Flightin	4,61	3,86
AGAP003357-RA	RAG1-activerende proteïne 1-achtige eiwitten	4,31	4,05
AGAP007249-RA	Flightin	4,48	3,46
AGAP001998-RA	mRpS10	3,46	2,85
AGAP007589-RA	UGT306A2	2,29	2,28
AGAP000165-RA	GSTMS1	1,95	1,85
AGAP002101-RA	isoleucyl-tRNA stikstofoxidesynthetase	0,57	0,59
AGAP002969-RA	asparaginyl-tRNA stikstofoxidesynthetase	0,45	0,45
AGAP004199-RA	opgeloste stof Carrier familie 5 (natrium-gekoppelde monocarboxylaat Transporter), lid 8	0,35	0,48
AGAP004684-RA	rRNA-processing proteïne CGR1	0,36	0,22
AGAP006414-RA	Cht8	0,024	0,36

Tabel 1: transcripten significant differentieel in dezelfde vouw richting in Burkina Faso en Ivoorkust populaties. Transcriptie-ID, genbeschrijving en gemiddelde vouw wijziging voor elke gegevensset uit de twee landen die een. coluzzii -en een. gambiae -populatie vertegenwoordigen.

Correlatie	Systematische naam	Type transcript
1	AGAP000165-RA	GSTMS1
0,82	AGAP004904-RA	Katalase
0,76	AGAP007243-RA	26S protease regulatoire subeenheid 8
0,79	AGAP008358-RA	CYP4H17
0,76	AGAP009436-RA	Valacyclovir hydrolase
0,75	AGAP010739-RA	Glucose-6-fosfaat 1-dehydrogenase
0,85	AGAP011172-RA	cystathionine gamma-lyase
0,76	AGAP012678-RA	Glucose-6-fosfaat 1-dehydrogenase

Tabel 2: transcripten co-gecorreleerd met GSTMS1. De tabel toont de uitvoer van het correlatie netwerk voor GSTMS1 op IR-TEx met | r | van > 0,75. De tabel toont de correlatie van de Spearman, de transcriptie-ID en de genbeschrijving voor elke co-gecorreleerde transcriptie.

Extra bestand 1: uitvoerbestand van A-MEXP-2196 array geanalyseerd op limma. Het bestand is afkomstig van een met knockdown in vergelijking met een GFP -besturingselement array, in meer detail beschreven in ArrayExpress (E-mtab-4043) en een andere vorige publicatie¹. Kolommen vertegenwoordigen AGAP-id (SystematicName), log fold verandering (logFC), log expressie waarden (AveExpr), t-statistiek (t), niet-gecorrigeerde p-waarde (P. waarde), aangepaste p-waarde (adj. P. val), en B statistiek (B)²⁰. Voor de doeleinden van dit dossier zijn de muggen Anopheles Coluzzi uit Ivoorkust en zijn zij niet blootgesteld aan insecticiden, met een collectie breedtegraad en lengtegraad van-5,4 en 6,0, respectievelijk. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Extra bestand 2: uitvoerbestand van RNAseq experiment. RNAseq analyse genomen van Uyhelji et al.⁹ beschrijven veranderingen in de transcriptome van Anopheles muggen bij blootstelling aan 50% zoutgehalte. Dit bestand is aangepast uit tabel S2 van de publicatie en omvat AGAP-identificatie (SystematicID), RAW fold Change (Fold_Change) en aangepaste p-waarde (q_value). Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Extra bestand 3: primer lijst voor representatieve resultaten. AGAP Identifier, gennaam, dsRNA Forward, dsRNA reverse, qPCR forward en qPCR reverse primer sets voor elk transcript. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Aanvullend Codeer bestand 1. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Aanvullend Codeer bestand 2. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Aanvullend Codeer bestand 3. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Discussion

Big Data transcriptomics produceert lijsten met duizenden transcripties die voor elke experimentele aandoening differentieel worden uitgedrukt. Veel van deze experimenten worden uitgevoerd op verwante organismen en fenotypes en worden bijna uitsluitend geanalyseerd als onafhankelijke experimenten. Het gebruik van deze rijke gegevensbronnen door de gegevens holistisch te onderzoeken en zonder theoretische veronderstellingen zal 1) leiden tot de identificatie van nieuwe kandidaattranscripten en 2) voorkomen dat waardevolle gegevens worden teruggooi, simpelweg omdat er te veel informatie is om te valideren in vivo¹.

IR-TEx biedt gebruikers een beperkte bioinformatica achtergrond met de mogelijkheid om eenvoudig meerdere datasets te onderzoeken, veranderingen in de datasets te visualiseren en de bijbehorende informatie¹te downloaden. Hoewel IR-TEx geen ondersteuning biedt voor het zoeken naar meer dan één transcript in elke zoekopdracht, kunnen gebruikers de bijbehorende Fold_Changes. txt-bestanden eenvoudig bekijken met behulp van Excel, R of andere geschikte Programma's. Verder nut van IR-TEx vloeit voort uit het gebruik van correlatie netwerken om transcript functie te voorspellen, input van hypothetische eiwitten of transcripten met onbekende functies en het gebruik van downstreamsoftware om te zoeken naar enrichments¹.

In het voorbeeld dat in dit protocol wordt gedemonstreerd, wordt IR-TEx gebruikt volgens de oorspronkelijke functie. Hier, het maakt verkenning van transcripten geassocieerd met insecticide weerstand en visualisatie van de verdeling van de over-en onderexpressie door middel van mapping graphics. Transcripten van belang worden in vivo gevalideerd om te bepalen of de over-of onderexpressie van bepaalde transcripten bijdraagt aan een waargenomen fenotype¹ (bv. insecticide resistentie). Hier werd aangetoond, zoals eerder gemeld¹, dat een gegevensset kan worden gebruikt in een hypothese-gestuurde benadering om te identificeren transcripten van belang op een landspecifieke basis. IR-TEx kan vervolgens worden gebruikt om 1) Ontdek de uitdrukking van het transcript en 2) contextualiseer de functie van het transcript door het toepassen van een Pairwise correlatie-netwerk voor alle transcripten in elke gegevensset-omics. Hier, GSTMS1 werd aangetoond dat co-gecorreleerd met een aantal andere transcripten betrokken bij detoxificatie. Deze gegevens (samen met de knockdown van de transcriptie die resulteerde in een significante toename van het sterftecijfer na de blootstelling aan insecticide) tonen het belang aan van dit transcript in de xenobiotische klaring.

IR-TEx vertegenwoordigt een waardevolle bron voor het verkennen van insecticide resistentie-gerelateerde transcripten op het web of het gebruik van lokale toepassingen. Dit protocol laat zien hoe IR-TEx voor verschillende platforms en volledig nieuwe gegevens te wijzigen. De gids laat zien hoe IR-TEx te gebruiken om gegevens te integreren van multiple-omics platforms en datasets met ontbrekende gegevens, evenals hoe u IR-TEx eenvoudig recoderen, dus het is handig voor iedereen die Transcriptomic-datasets onderzoekt.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk werd gefinancierd door een MRC Skills Development Fellowship aan V.I. (MR/R024839/1) en Royal Society Challenge Grant (CH160059) aan de uitspraak van de

Materials

Name	Company	Catalog Number	Comments
Laptop with browser	Any	-	-
R Program	The R Project for Statistical Computing	-	https://www.r-project.org/
R Studio	R Studio	-	https://www.rstudio.com/