Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Databases voor het efficiënt beheren van middelgrote, lage snelheid, multidimensionale data in weefsel engineering

Published: November 22, 2019 doi: 10.3791/60038

Summary

Veel onderzoekers genereren "middelgrote", lage-snelheid, en multidimensionale gegevens, die efficiënter kunnen worden beheerd met databases in plaats van spreadsheets. Hier bieden we een conceptueel overzicht van databases, waaronder het visualiseren van multidimensionale gegevens, het koppelen van tabellen in relationele database structuren, het in kaart brengen van semi-geautomatiseerde gegevens pijpleidingen en het gebruik van de database om gegevens betekenis te verhelderiseren.

Abstract

De wetenschap vertrouwt op steeds complexere gegevenssets voor de voortgang, maar veelgebruikte methoden voor gegevensbeheer, zoals spreadsheet Programma's, zijn ontoereikend voor de groeiende schaal en complexiteit van deze informatie. Hoewel databasebeheersystemen het potentieel hebben om deze problemen op te lossen, worden ze niet vaak gebruikt buiten bedrijfs-en informatica velden. Toch, veel onderzoek labs al genereren "medium sized", lage snelheid, multidimensionale gegevens die veel baat kunnen hebben bij het implementeren van soortgelijke systemen. In dit artikel geven we een conceptueel overzicht waarin wordt uitgelegd hoe databases functioneren en de voordelen die ze bieden in weefsel engineering toepassingen. Structurele fibroblast-gegevens van personen met een Lamin-A/C-mutatie werden gebruikt om voorbeelden te illustreren binnen een specifieke experimentele context. Voorbeelden zijn het visualiseren van multidimensionale gegevens, het koppelen van tabellen in een relationele databasestructuur, het toewijzen van een semi-geautomatiseerde gegevenspijplijn om onbewerkte gegevens om te zetten in gestructureerde indelingen en de onderliggende syntaxis van een query uit te leggen. Uitkomsten van het analyseren van de gegevens werden gebruikt voor het maken van plots van verschillende regelingen en betekenis werd aangetoond in cel organisatie in uitgelijnde omgevingen tussen de positieve controle van Hutchinson-Gilford Progeria, een bekende laminopathie, en alle andere experimentele groepen. In vergelijking met spreadsheets waren database-methoden enorm tijd efficiënt, eenvoudig te gebruiken na het instellen, toegestaan voor onmiddellijke toegang tot originele bestandslocaties en verhoogde data-rigor. In reactie op de National Institutes of Health (NIH) nadruk op experimentele rigor, is het waarschijnlijk dat veel wetenschappelijke velden uiteindelijk zullen databases als gebruikelijk gebruiken als gevolg van hun sterke vermogen om effectief te organiseren complexe gegevens.

Introduction

In een tijdperk waar wetenschappelijke vooruitgang sterk wordt gedreven door technologie, is het hanteren van grote hoeveelheden gegevens een integraal facet geworden van onderzoek in alle disciplines. De opkomst van nieuwe gebieden zoals computationele biologie en genomics onderstrepen hoe kritisch het proactieve gebruik van technologie is geworden. Deze trends zijn zeker door te gaan door de wet van Moore en gestage vooruitgang opgedaan bij technologische vooruitgang1,2. Een gevolg hiervan is echter de stijgende hoeveelheden gegenereerde gegevens die de capaciteiten van eerder levensvatbare organisatie methoden overtreffen. Hoewel de meeste academische laboratoria voldoende rekenkundige middelen hebben om complexe datasets te verwerken, missen veel groepen de technische expertise die nodig is om aangepaste systemen te bouwen die geschikt zijn voor het ontwikkelen van behoeften3. Het hebben van de vaardigheden om dergelijke gegevenssets te beheren en bij te werken blijft cruciaal voor een efficiënte workflow en uitvoer. Het overbruggen van de kloof tussen gegevens en expertise is belangrijk voor het efficiënt verwerken, opnieuw bijwerken en analyseren van een breed spectrum van veelzijdige gegevens.

Schaalbaarheid is een essentiële overweging bij het verwerken van grote gegevenssets. Big Data, bijvoorbeeld, is een bloeiende onderzoeksruimte waarbij nieuwe inzichten worden onthuld uit de verwerking van gegevens die worden gekenmerkt door enorme volumes, grote heterogeniteit en hoge generatie snelheden, zoals audio en video4,5. Met behulp van geautomatiseerde methoden van organisatie en analyse is verplicht voor dit veld voor het afhandelen van torrents van gegevens op de juiste manier. Veel technische termen die in Big data worden gebruikt, zijn echter niet duidelijk gedefinieerd en kunnen verwarrend zijn; bijvoorbeeld, "hoge snelheid" gegevens wordt vaak geassocieerd met miljoenen nieuwe inzendingen per dag, terwijl "lage snelheid" gegevens kunnen slechts honderden inzendingen per dag, zoals in een academische Lab-instelling. Hoewel er nog veel spannende bevindingen te ontdekken zijn met behulp van Big Data, vereisen de meeste academische laboratoria niet de reikwijdte, kracht en complexiteit van dergelijke methoden om hun eigen wetenschappelijke vragen5aan te pakken. Hoewel het onbetwisbaar is dat wetenschappelijke gegevens steeds complexer worden naarmate tijd6, veel wetenschappers blijven gebruiken methoden van organisatie die niet meer voldoen aan hun groeiende gegevensbehoeften. Handige spreadsheet Programma's worden bijvoorbeeld vaak gebruikt om wetenschappelijke gegevens te ordenen, maar ten koste van onschaalbaar, foutgevoelig en tijd inefficiënt op de lange termijn7,8. Omgekeerd zijn databases een effectieve oplossing voor het probleem omdat ze schaalbaar, relatief goedkoop en gemakkelijk te gebruiken zijn bij het hanteren van gevarieerde datasets van lopende projecten.

Directe problemen die zich voordoen bij het overwegen van schema's van de gegevens organisatie zijn kosten, toegankelijkheid en tijd investeringen voor training en gebruik. Vaak gebruikt in zakelijke instellingen, database-Programma's zijn zuiniger, hetzij relatief goedkoop of gratis, dan de financiering die nodig is om het gebruik van Big data-systemen te ondersteunen. In feite bestaat er een verscheidenheid aan zowel commercieel verkrijgbare als open source software voor het maken en onderhouden van databases, zoals Oracle database, MySQL en Microsoft (MS) Access9. Veel onderzoekers zouden ook worden aangemoedigd om te leren dat verschillende MS Office Academic-pakketten worden geleverd met MS Access inbegrepen, waardoor kostenoverwegingen verder worden geminimaliseerd. Bovendien, bijna alle ontwikkel ontwikkelaars bieden uitgebreide documentatie online en er is een overvloed aan gratis online bronnen zoals Codecademy, W3Schools, en SQLBolt om onderzoekers te helpen begrijpen en gebruik maken van gestructureerde query language (SQL)10,11,12. Net als elke programmeertaal, het leren gebruiken van databases en code met behulp van SQL kost tijd om te beheersen, maar met de ruime beschikbare middelen is het proces eenvoudig en zeker de moeite waard de inspanning geïnvesteerd.

Databases kunnen krachtige tools zijn voor het vergroten van de toegankelijkheid van gegevens en het gemak van aggregatie, maar het is belangrijk om te onderscheiden welke gegevens het meest baat hebben bij een grotere controle van de organisatie. Multi-dimensionaliteit verwijst naar het aantal voorwaarden waaraan een meting kan worden gegroepeerd, en databases zijn het meest krachtig bij het beheren van veel verschillende omstandigheden13. Omgekeerd is informatie met een lage dimensionaliteit het eenvoudigst te hanteren met een spreadsheetprogramma; een gegevensset met jaren en een waarde voor elk jaar heeft bijvoorbeeld slechts één mogelijke groepering (metingen tegen jaren). Hoge dimensionale gegevens zoals van klinische instellingen zou een grote mate van handmatige organisatie nodig om effectief te handhaven, een vervelend en foutgevoelig proces buiten het bestek van spreadsheet Programma's13. Niet-relationele (NoSQL)-databases voldoen ook aan verschillende rollen, voornamelijk in toepassingen waar gegevens niet goed worden geordend in rijen en kolommen14. Deze organisatorische schema's zijn niet alleen vaak open source, maar ook grafische associaties, time series-gegevens of op documenten gebaseerde gegevens. NoSQL blinkt uit in schaalbaarheid beter dan SQL, maar kan geen complexe query's maken, dus relationele databases zijn beter in situaties waarin consistentie, standaardisatie en onregelmatige grootschalige gegevenswijzigingen zijn vereist15. Databases kunnen het best effectief groeperen en opnieuw bijwerken van gegevens in de grote reeks conformaties die vaak nodig zijn in wetenschappelijke instellingen13,16.

De belangrijkste bedoeling van dit werk is daarom de wetenschappelijke gemeenschap te informeren over het potentieel van databases als schaalbare gegevensbeheersystemen voor "middelgrote", lage snelheidsgegevens en om een algemene template aan te bieden met behulp van specifieke voorbeelden van door patiënten geproduceerde cellijn experimenten. Andere soortgelijke toepassingen zijn georuimtelijke gegevens van rivier bedden, vragenlijsten uit longitudinale klinische studies en microbiële groeiomstandigheden in groeimedia17,18,19. Dit werk benadrukt veelvoorkomende overwegingen voor en het nut van het samenstellen van een database in combinatie met een gegevenspijplijn nodig om onbewerkte gegevens te converteren naar gestructureerde indelingen. De basisprincipes van database-interfaces en codering voor databases in SQL worden geleverd en geïllustreerd met voorbeelden zodat anderen de kennis kunnen verkrijgen die van toepassing is op het bouwen van basis raamwerken. Tot slot demonstreert een experimentele gegevensset van een sample hoe gemakkelijk en effectief databases kunnen worden ontworpen om veelzijdige gegevens op verschillende manieren te aggregeren. Deze informatie biedt context, commentaar en sjablonen voor het assisteren van collega-wetenschappers op het pad naar het implementeren van databases voor hun eigen experimentele behoeften.

Voor het maken van een schaalbare database in een onderzoek laboratorium setting, gegevens van experimenten met behulp van menselijke fibroblast cellen werd verzameld in de afgelopen drie jaar. De primaire focus van dit protocol is het rapporteren over de organisatie van computer software om de gebruiker in staat te stellen gegevens te aggregeren, bij te werken en te beheren op de meest kosten-en tijd efficiënte manier, maar de relevante experimentele methoden zijn ook beschikbaar voor Context.

Experimentele Setup
Het experimentele protocol voor het voorbereiden van monsters is eerder20,21beschreven en wordt hier kort gepresenteerd. Constructies werden bereid door spin-coating rechthoekige glazen dekstroken met een 10:1 mengsel van Polydimethylsiloxaan (PDMS) en Uithardings middel, vervolgens toepassen 0,05 mg/mL fibronectin, in ongeorganiseerde (isotrope) of 20 μm lijnen met 5 μm gap micro patroon regelingen (lijnen). Fibroblast cellen werden gesest bij passage 7 (of passage 16 voor positieve controles) op de dekstroken bij optimale dichtheden en links om te groeien voor 48 h met media die na 24 uur worden veranderd. De cellen werden vervolgens vastgesteld met 4% Paraformaldehyde (PFA) oplossing en 0,0005% nonionische oppervlakteactieve stof, gevolgd door de dekstroken worden immunogekleurd voor celkernen (4 ', 6 '-diaminodino-2-fenylinodole [DAPI]), actine (Alexa Fluor 488 phalloidin), en fibronectin (polycloncal konijn anti-menselijke fibronectin). Een secundaire vlek voor fibronectin met behulp van geit anti-konijn IgG antilichamen (Alexa Fluor 750 geit anti-konijn) werd toegepast en conserveringsmiddel werd gemonteerd op alle dekstroken om fluorescerende vervaging te voorkomen. Nagellak werd gebruikt voor het afdichten van dekglaasjes op Microscoop dia's dan links te drogen voor 24 h.

Fluorescentie beelden werden verkregen zoals hierboven beschreven20 met behulp van een 40x olie onderdompeling doel in combinatie met een digitale charge gekoppeld apparaat (CCD) camera gemonteerd op een omgekeerde gemotoriseerde Microscoop. Tien willekeurig geselecteerde weergavevelden werden voor elke afdek op 40x vergroting afgebeeld, wat overeenkomt met een resolutie van 6,22 pixels/μm. Op maat gemaakte codes werden gebruikt om verschillende variabelen te kwantificeren uit de afbeeldingen die de kernen beschrijven, actine filamenten en fibronectine; corresponderende waarden, evenals organisatie-en geometrie parameters, werden automatisch opgeslagen in gegevensbestanden.

Cellijnen
Uitgebreidere documentatie over alle Sample Data cellijnen kan gevonden worden in eerdere publicaties20. Om kort te beschrijven, werd het verzamelen van gegevens goedgekeurd en werd geïnformeerde toestemming gegeven in overeenstemming met UC Irvine institutioneel Review Board (IRB # 2014-1253). Menselijke fibroblast cellen werden verzameld uit drie families van verschillende variaties van de Lamin A/C (lmna) genmutatie: heterozygoot lmna Splice-site Mutatie (C. 357-2a > G)22 (familie A); Lmna -nonsense-Mutatie (c. 736 c > T, pQ246X) in Exon 423 (Family B); en Lmna missense Mutatie (c. 1003c > T, pR335W) in Exon 624 (familie c). Fibroblast cellen werden ook verzameld van andere individuen in elk gezin als verwante mutatie-negatieve controles, aangeduid als "controles", en anderen werden gekocht als niet-gerelateerde mutatie-negatieve controles, aangeduid als "donoren". Als positieve controle werden fibroblast cellen van een individu met Hutchinson-Gliford Progeria (HGPS) aangekocht en gekweekt uit een huid biopsie van een 8-jarige vrouwelijke patiënt met HGPS die een Lmna G608G Point mutatie25bezit. In totaal werden fibroblasten van 22 individuen getest en gebruikt als gegevens in dit werk.

Gegevenstypen
Fibroblast-gegevens vielen in een van de twee categorieën: cellulaire kernen-variabelen (d.w.z. percentage van dysmorfe kernen, gebied van kernen, kernen-excentricatie)20 of structurele variabelen die voortvloeien uit de oriënterende-orde parameter (OOP)21,26,27 (d.w.z. actine OOP, fibronectin OOP, kernen OOP). Deze parameter is gelijk aan de maximale eigenwaarde van de gemiddelde orde tensor van alle oriëntatie vectoren, en wordt gedetailleerd gedefinieerd in eerdere publicaties26,28. Deze waarden worden samengevoegd in een verscheidenheid van mogelijke conformaties, zoals waarden tegen leeftijd, geslacht, ziektestatus, aanwezigheid van bepaalde symptomen, enz. Voorbeelden van hoe deze variabelen worden gebruikt, vindt u in de sectie resultaten.

Voorbeeldcodes en-bestanden
De voorbeeldcodes en andere bestanden op basis van de bovenstaande gegevens kunnen worden gedownload met dit papier en hun namen en typen worden samengevat in tabel 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

Opmerking: Zie de tabel met materialen voor de softwareversies die in dit protocol worden gebruikt.

1. Evalueer of de gegevens baat zouden hebben bij een database-organisatieschema

  1. Download de voorbeeldcodes en databases (Zie aanvullende coderings bestanden, die worden samengevat in tabel 1).
  2. Gebruik Figuur 1 om te evalueren of de gegevensset van belang is "multidimensionaal".
    Opmerking: afbeelding 1 is een grafische weergave van een multidimensionale database die is opgegeven voor de voorbeeld gegevensset.
  3. Als de gegevens kunnen worden gevisualiseerd in een "multidimensionale" vorm zoals het voorbeeld en als de mogelijkheid om een specifiek experimenteel resultaat te relateren aan een van de dimensies (d.w.z. voorwaarden) een groter wetenschappelijk inzicht in de beschikbare gegevens mogelijk zou maken, ga dan naar een relationele database bouwen.

2. Organiseer de database structuur

Opmerking: relationele databases slaan informatie op in de vorm van tabellen. Tabellen zijn geordend in schema van rijen en kolommen, vergelijkbaar met werkbladen, en kunnen worden gebruikt om identificerende informatie in de database te koppelen.

  1. Organiseer de gegevensbestanden, dus ze hebben goed doordachte unieke namen. Goede praktijken met naamgevingsconventies voor bestanden en structuren voor mapsubmappen, wanneer dit goed is gedaan, zorgen voor een brede database schaalbaarheid zonder de leesbaarheid van het handmatig openen van bestanden in gevaar te brengen. Datum bestanden toevoegen in een consistente indeling, zoals "20XX-YY-ZZ", en de naam van submappen volgens metagegevens is een voorbeeld van een dergelijke.
  2. Als de database-structuur is ontworpen, tekent u relaties tussen de velden in verschillende tabellen. Multi-dimensionaliteit wordt dus afgehandeld door verschillende velden (dat wil zeggen kolommen in de tabellen) in afzonderlijke tabellen met elkaar te koppelen.
  3. Maak leesmij-documentatie met een beschrijving van de database en relaties die zijn gemaakt in stap 2,2. Zodra een vermelding tussen verschillende tabellen is gekoppeld, is alle bijbehorende informatie gerelateerd aan die vermelding en kan worden gebruikt om complexe query's aan te roepen om te filteren op de gewenste informatie.
    Opmerking: Leesmij-documenten zijn een veelgebruikte oplossing voor het verstrekken van aanvullende informatie en database structurele informatie over een project zonder niet-uniforme gegevens toe te voegen aan de structuur.
  4. De volgende stappen 2.1 − 2.3 maken het eindresultaat vergelijkbaar met dit voorbeeld wanneer de verschillende kenmerken van individuen (Figuur 2A) verband houden met de bijbehorende experimentele gegevens van deze personen (Figuur 2B). Hetzelfde gebeurde door de bijbehorende kolommen met patroon typen (Figuur 2C) en gegevenstypen (afbeelding 2D) te vergelijken met overeenkomende vermeldingen in de tabel met belangrijkste gegevenswaarden om verschillende verkorte notaties uit te leggen (Figuur 2B).
  5. Bepaal alle essentiële en alleen nuttige gegevenspunten die moeten worden opgenomen voor gegevensverzameling op lange afstand.
    Opmerking: een belangrijk voordeel van het gebruik van databases via spreadsheet Programma's, zoals eerder vermeld, is schaalbaarheid: extra gegevenspunten kunnen op elk punt triviaal worden toegevoegd en berekeningen, zoals gemiddelden, worden onmiddellijk bijgewerkt om nieuw toegevoegde gegevenspunten weer te geven.
    1. Identificeer de benodigde informatie voor het maken van afzonderlijke gegevenspunten vóór het begin. Onbewerkte gegevens ongewijzigd laten, in plaats van te wijzigen of op te slaan, zodat Heranalyse mogelijk en toegankelijk is.
      Opmerking: voor het gegeven voorbeeld (afbeelding 2) waren de "Designator" die overeenkomt met een individu, "patroon type", "coverslip #" en "variabel type" alle vitale velden voor de onderscheidbaarheid van de geassocieerde waarde.
    2. Voeg desgewenst andere nuttige, niet-vitale informatie toe, zoals de "totale aantal Dekstroken" om aan te geven hoeveel herhalingen er zijn uitgevoerd en om te bepalen of er gegevenspunten ontbreken in dit voorbeeld.

3. de pijplijn instellen en ordenen

  1. Identificeer alle verschillende experimenten en gegevensanalyse methoden die kunnen leiden tot het verzamelen van gegevens, samen met de normale gegevensopslag praktijken voor elk gegevenstype. Werken met open source versiebeheersoftware zoals GitHub om te zorgen voor de benodigde consistentie en versiebeheer terwijl de gebruikers last wordt geminimaliseerd.
  2. Maak indien mogelijk een procedure voor het consistent benoemen en opslaan van gegevens om een geautomatiseerde pijplijn toe te staan.
    Opmerking: in het voorbeeld zijn de uitvoer alle consistent benoemd, waardoor een gegevenspijplijn wordt opgericht die naar specifieke kenmerken zocht, was eenvoudig nadat de bestanden waren geselecteerd. Als consistente naamgeving niet mogelijk is, moeten de tabellen in de database handmatig worden ingevuld, wat niet wordt aanbevolen.
  3. Gebruik elke handige programmeertaal om nieuwe gegevens vermeldingen voor de database te genereren.
    1. Maak kleine "helper"-tabellen (bestanden #8 − #10 in tabel 1) in afzonderlijke bestanden die geautomatiseerde selectie van gegevens kunnen begeleiden. Deze bestanden dienen als een sjabloon van mogelijkheden voor de pijpleiding om te werken onder en zijn gemakkelijk te bewerken.
    2. Als u nieuwe gegevens vermeldingen wilt genereren voor de gegevenspijplijn (afbeelding 3D), moet u de code (locationpointer. m, bestands #1 in tabel 1) programmeren om de helpertabellen te gebruiken als invoer die door de gebruiker moet worden geselecteerd (bestanden #8 − #10 in tabel 1).
    3. Stel hier een nieuwe spreadsheet met bestandslocaties samen door de nieuwe items te combineren met de vorige items (afbeelding 3E). Maak een code voor het automatiseren van deze stap zoals wordt weergegeven in LocationPointerCompile. m (bestand #2 in tabel 1).
    4. Controleer vervolgens dit samengevoegde werkblad op duplicaten, die automatisch moeten worden verwijderd. Maak een code om deze stap te automatiseren, zoals wordt weergegeven in LocationPointer_Remove_Duplicates. m (bestands #3 in tabel 1).
    5. Controleer ook de spreadsheet op fouten en Informeer de gebruiker over de reden en de locatie (afbeelding 3F). Maak een code voor het automatiseren van deze stap zoals weergegeven in BadPointerCheck. m (bestand #4 in tabel 1). U ook een code schrijven waarmee de gecompileerde database wordt gecontroleerd en duplicaten in één stap worden geïdentificeerd, zoals wordt weergegeven in LocationPointer_Check. m (bestands #5 in tabel 1).
    6. Maak een code om de gebruiker handmatig slechte punten te laten verwijderen zonder de integriteit van de database te verliezen, zoals weergegeven in Manual_Pointer_Removal. m (bestand #6 in tabel 1).
    7. Gebruik vervolgens de bestandslocaties om een Data Value-spreadsheet te genereren (afbeelding 3G, bestands #12 in tabel 1) en om een meest bijgewerkte lijst met items te maken die toegankelijk zijn voor het identificeren van bestandslocaties of samengevoegd met toekomstige vermeldingen (afbeelding 3H). Maak een code om deze stap te automatiseren, zoals wordt weergegeven in Database_Generate. m (bestands #7 in tabel 1).
  4. Controleer of de pijplijn wordt toegevoegd aan de experimentele strengheid door te controleren op de opname van strenge naamgevingsconventies, automatische bestands assemblage codes en automatische foutcontroles zoals eerder beschreven.

4. de database en query's maken

Opmerking: als tabellen gegevens in databases opslaan, zijn query's aanvragen naar de database voor informatie met specifieke criteria. Er zijn twee methoden om de database te maken: vanaf een leeg document of vanaf de bestaande bestanden. In Figuur 4 wordt een voorbeeldquery weergegeven met SQL-syntaxis die is ontworpen om te worden uitgevoerd met de database relaties die worden weergegeven in afbeelding 2.

  1. Methode 1: vanaf nul beginnen bij het maken van de database en query's
    1. Maak een leeg database document.
    2. Laad de helpertabellen (bestanden #8 − #10 in tabel 1) door externe gegevens te selecteren | Tekstbestand importeren | Kies bestand (bestanden #8 − #10) | Gescheiden | Eerste rij bevat kopteksten, komma | standaard verlaten | Kies mijn eigen primaire sleutel (Designator for Cell Lines file #8, variabelenaam voor gegevenstypen bestands #9, Pat-naam voor patroon Type bestand #10) | standaard verlaten | Finish.
    3. Laad de tabel met gegevenswaarde (bestands #12 in tabel 1) door externe gegevens te selecteren | Tekstbestand importeren | Kies bestand (bestand #12) | Gescheiden | Eerste rij bevat kopteksten, komma | standaard verlaten | Toegang tot primaire sleutel toevoegen | Importeren in tabel: data values | Finish.
    4. Maak de relaties door database tools te selecteren | Relaties | Alle tabellen naar het bord slepen | Relaties bewerken | Nieuw maken | Overeenkomen met de Data Value velden met Helpertabellen Designators | Gewricht type 3.
    5. Selecteer maken | Query ontwerp.
    6. Selecteer of sleep alle relevante tabellen naar het bovenste venster. In dit voorbeeld ' cellijnen ', ' gegevenswaarden ', ' gegevenstypen ' en ' patroon type '. De relaties moeten automatisch worden ingesteld op basis van het vorige relatie ontwerp.
    7. Vul de query kolommen voor de gewenste resultaten, bijvoorbeeld:
      1. Klik op show | Totalen.
      2. Vul de eerste kolom in (tabel: data waarden, veld: DataVar, totaal: GroupBy, criteria: "Act_OOP"), de tweede kolom (tabel: data waarden, veld: PatVar, totaal: GroupBy, criteria: "regels") en de derde kolom (tabel: Cell_Lines, veld: Designator, totaal: GroupBy, sorteren: oplopend).
      3. Vul de vierde kolom (tabel: data values, veld: parameter, totaal: Ave), de vijfde kolom (tabel: data values, veld: parameter, totaal: StDev) en de zesde kolom (tabel: data values, veld: parameter, totaal: Count).
    8. Voer de query uit.
  2. U ook de opgegeven voorbeelddatabase gebruiken als basis voor voorbeelden. Open het databasebestand Database_Queries. ACCDB (bestand #13 in tabel 1) die eerder is gedownload. Gebruik het als een sjabloon door bestaande tabellen te vervangen door de gegevens van belang.

5. Verplaats de uitvoer tabellen naar een statistische software voor significantie analyse

  1. Gebruik voor dit voorbeeld experimentele gegevens de eenrichtings analyse van variantie (ANOVA) met behulp van de test van Tukey voor gemiddelde vergelijkingen tussen verschillende omstandigheden.
    Opmerking: de waarden van p < 0,05 werden statistisch significant geacht.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Multi dimensionaliteit van de gegevens
In de context van de hier gepresenteerde voorbeeldgegevens worden de onderwerpen, beschreven in de sectie methoden, werden onderverdeeld in groepen van individuen uit de drie families met de hartziekte-veroorzakende Lmna -Mutatie ("patiënten"), verwante niet-mutatie negatieve controles ("controles"), niet-gerelateerde niet-mutatie negatieve controles ("donoren") en een individu met Hutchinson-Gilford Progeria syndroom (hgps) als een positieve controle20 De resultaten van controles en donoren zouden verder gegroepeerd kunnen worden als een algehele negatieve controlegroep (N.C.), gezien hun collectieve gebrek aan Lmna -mutaties. De cellijn van elke proefpersoon had een "mutatie status", gebaseerd op zijn conditiegroep (Figuur 1 – donker blauwe as). Voor elk experiment, fibroblast cellen van de proefpersonen werden gekweekt op regelingen van ongeorganiseerd (isotrope) of micro patroon (lijnen) fibronectin, het creëren van de toestand van "patroon type" (Figuur 1 – oranje as). Nadat de cellen vast waren, immunogekleurd en imaged, werd de "Coverslip #" getranscribeerd, omdat meerdere experimenten (d.w.z. technische replicaten) zouden plaatsvinden met behulp van de cellen van dezelfde persoon (Figuur 1 -licht groene as). Aangepaste MATLAB codes20,21 werden vervolgens gebruikt om verschillende aspecten van celkernen of weefsel organisatie variabelen te kwantificeren als "variabel type" (Figuur 1 – Teal groene as). De drie factoren werden geassocieerd met de menselijke bron van de cellen en bijgevolg gekoppeld aan de "familie" (Figuur 1 – donkerroze as) en "leeftijd op tijd van biopsie" (Figuur 1 – donker groene as) naast "mutatie status". Andere afmetingen die niet in Figuur 1 zijn opgenomen, waren de "leeftijd van presentatie", "symptomen", "aanduiding" en "geslacht" van de betrokken persoon. Het voorbeeld dat hier wordt gegeven, resulteert in ten minste tien mogelijke dimensies voor gegevens aggregatie. Deze voorbeeldgegevens is dus een uitstekende kandidaat voor de organisatie door relationele databases.

Figure 1
Afbeelding 1: een visualisatie van multidimensionale gegevens uit de lmna -mutatie gegevensset. Een enkele kubus wordt gedefinieerd door de drie dimensies van "type variabele", "patroon type" en "Coverslip #." Verdere afmetingen worden weergegeven als de assen van "mutatie status", "leeftijd van biopsie" (yrs) en "familie". Gekleurde labels komen overeen met de verschillende assen die worden weergegeven, zoals de leeftijd van de biopsie (groene getallen) voor de kubus van elke persoon. Hier worden zes van de tien mogelijke dimensies gebruikt om de multi dimensionaliteit van experimentele gegevenspunten te illustreren. Klik hier om een grotere versie van dit cijfer te bekijken.

De pijplijn ordenen
Tot een geschatte 95% van alle digitale gegevens is ongestructureerd4, maar gestructureerde indelingen zijn vereist voor databases. Nog steeds is het maken van een goede geautomatiseerde methode voor de gegevenspijplijn sterk afhankelijk van de context.

Figure 2
Figuur 2: tabel-en ontwerpweergave relaties binnen de lmna -mutatie gegevensset. Relationele databases hebben het voordeel van het koppelen van velden in een tabel met informatie in een andere tabel, waardoor de aggregatie direct kan worden uitgewisseld. Het voorbeeld hier toont visueel aan hoe verschillende informatie kan worden gekoppeld. Klik hier om een grotere versie van dit cijfer te bekijken.

In dit voorbeeld zijn de afbeeldingen die zijn verzameld van elk experiment opgeslagen in mappen met de naam datum en initieel van het lab-lid dat verantwoordelijk is, met submappen die het onderwerp en het dekslip nummer vermelden. Pipeline-bestanden worden geleverd in de aanvullende coderings bestanden, evenals samengevat in een stroomdiagram afbeelding (afbeelding 3). Verschillende meetwaarden van verschillende experimentele omstandigheden over een verscheidenheid aan onderwerpen werden van deze fluorescerende afbeeldingen (Figuur 3a) gekwantificeerd met behulp van aangepaste codes (Figuur 3B)20,21. Bijvoorbeeld, actine oriënterende volgorde parameter21 werd geëxtraheerd uit weefsels gekleurd met phalloidin (Figuur 3A) en gebruikt om de organisatie van fibroblasten van verschillende individuen te vergelijken. De code-uitgangen zijn opgeslagen in dezelfde map als de bronafbeeldingen (afbeelding 3C).

Figure 3
Afbeelding 3: een voorbeeld van gemeenschappelijke gegevenspijplijn behoeften in een algemene context. Nieuwe vermeldingen zijn gemaakt met behulp van gebruikersinvoer en automatische codes, het opmaken van belangrijke informatie in een werkbladindeling. Deze vermeldingen werden gecombineerd met de meest recente set bestandslocatie-items, gecontroleerd op fouten en vervolgens opgeslagen als een spreadsheet met bestandslocaties en een spreadsheet met gegevenswaarden. Schaalbalk = 20 μm. Klik hier om een grotere versie van dit cijfer te bekijken.

Een nieuwe relatie in de Lmna -mutatie gegevensset identificeren
Wanneer een veelheid van mogelijke conformaties, kan het moeilijk zijn om te bepalen waar nieuwe relaties bestaan met behulp van handmatige gegevens aggregatie methoden. In deze specifieke context waren we geïnteresseerd in het vergelijken van de organisatie van subcellulaire actine filamenten over meerdere omstandigheden, gemeten met behulp van de OOP27.

Figure 4
Afbeelding 4: een voorbeeld van een query met behulp van SQL-syntaxis. SELECT-en FROM-instructies zijn vereisten voor het genereren van een query, maar extra opdrachten en criteria zijn vaak opgenomen. GROUP BY geeft uitleg over hoe aggregeren de gegevens, met of waar de instructies de uitvoer beperken tot gegevens die aan specifieke criteria voldoen, en ORDER BY geeft aan op welke volgorde de uitvoer moet worden gerangschikt. Klik hier om een grotere versie van dit cijfer te bekijken.

OOP is een wiskundige constructie die de graad van orde kwantificeert in anisotropische omgevingen, genormaliseerd tot nul overeenkomend met volledig isotropisch weefsel en één overeenkomend met volledig uitgelijnd weefsel. De gegevensset werd voor het eerst opgesplitst op patroon type als lijnen (Figuur 5A) en isotrope (Figuur 5B) voorwaarden, die naar verwachting veel verschillende Oeps hebben, omdat fibronectin-micropatterning sterk van invloed is op de weefsel organisatie. Er waren geen significante verschillen tussen de voorwaarden bij het vergelijken van isotrope weefsels (Figuur 5B). Omgekeerd waren de patroon weefsels statistisch minder georganiseerd in de positieve controle cellijn (HGPS) (Figuur 5A), en deze relatie hield zelfs wanneer de gegevens werden samengevoegd in verschillende groepen (Figuur 5C). Actin OOP werd bovendien uitgezet tegen de leeftijd van individuen op het moment van biopsie (Figuur 5D), gescheiden door mutatie status en familie, om aggregatie te illustreren tegen een klinische variabele. In tegenstelling tot nucleaire defecten20is er geen correlatie tussen de actine-organisatie en de leeftijd van een individu (Figuur 5D). Uiteindelijk illustreren de in Figuur 5 getoonde plots hoe dezelfde gegevens kunnen worden geanalyseerd in verschillende combinaties en hoe gemakkelijk de normaal moeilijke taak van het aggregeren van gegevens die onder meerdere klassen vallen, kan worden bereikt met behulp van databases.

Voor dit artikel werden gegevens van door de patiënt geproduceerde fibroblasten vergeleken tussen voorwaarden om mutatie gevolgen te bepalen. Hoewel zowel hgps als de drie families in deze studie lmna-gebonden ziekten hebben die de nucleaire enveloppe mogelijk verstoren, vertonen de patiënten symptomen die voornamelijk verband houden met hartdysfunctie, terwijl hgps-individuen meerdere orgaansystemen hebben beïnvloed22,23,24. Inderdaad, ondanks de micro-patroon omgevings cellen afkomstig van een HGPS patiënt had een statistisch lagere actine OOP waarde dan een van de andere cellijnen beschouwd (Figuur 5a,C). Dit sluit aan bij patiënten met HGPS die de enigen zijn in de studie met eventuele huidafwijkingen veroorzaakt door de mutatie. Het bekijken van dezelfde gegevens in verschillende conformaties is ook nuttig voor het verstrekken van extra inzicht en mogelijkheden in wetenschappelijk onderzoek in een gevarieerde gegevensset (Figuur 5).

Figure 5
Figuur 5: vergelijkingen tussen de voorwaarden voor de actine OOP-variabele. A,B) groeperingen corresponderen met de vier primaire voorwaarden: niet-gerelateerde negatieve controle donoren, gerelateerde negatieve controle controles, lmna -mutatie patiënten uit drie families en positieve controle hgps. (C) alle negatieve controles (N.C.) werden gecombineerd en patiënten werden in plaats daarvan gescheiden door familie (PA, PB, PC). (D) een potentiële grafiek van isotrope ACTINe OOP tegen de leeftijd op het moment van biopsie verzameld voor deze studie, gescheiden door voorwaarde en familie. Deelvensters A, C en D worden uitgezet voor de weefsels micro patroon met een lijnen patroon, terwijl panel B wordt uitgezet voor isotrope weefsels. Statistische significantie van p < 0,05 (*) werd aangetroffen in de deelvensters A, C en D. Er is geen betekenis tussen een paar gevonden in panel B. Alle foutbalken vertegenwoordigen standaarddeviaties die in de database worden berekend. Klik hier om een grotere versie van dit cijfer te bekijken.

Aanvullende Codeer bestanden. Klik hier om dit bestand te bekijken (Klik met de rechtermuisknop om te downloaden).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Technische bespreking van het Protocol
De eerste stap bij het overwegen van het gebruik van databases is om te evalueren als de gegevens zouden profiteren van een dergelijke organisatie.

De volgende essentiële stap is het maken van een automatische code die de minimale invoer van de gebruiker wordt gevraagd en de structuur van de tabelgegevens genereren. In het voorbeeld heeft de gebruiker de categorie van het gegevenstype (celkernen of structurele metingen), de onderwerpaanduiding van de cellijnen en het aantal geselecteerde bestanden ingevoerd. De relevante bestanden zijn vervolgens geselecteerd door de gebruiker (tabel 2, kolom 1), waarbij de rij-items automatisch worden gemaakt en gevuld met alle variabelen in het bestand (tabel 2, kolom 2). Bovendien is het belangrijk dat de code flexibel is, zodat als een andere experimentele vermelding moet worden toegevoegd, de gebruiker kan selecteren om de lus voort te zetten; zo niet, dan worden de bestanden opgeslagen en eindigt de lus. De basisfuncties voor het toevoegen van nieuwe vermeldingen, het controleren op fouten en het assembleren van het werkblad vanaf bestandslocaties die in deze stap worden beschreven, zijn essentieel voor een efficiënte installatie van gegevens pijpleidingsinstellingen.

Het is noodzakelijk om op te merken dat het gebruik van bestandslocaties bij het maken van de data-pipeline verhoogt experimentele rigor. Met name, met een overeenkomstige spreadsheet met een lijst van alle bestandslocaties voor de gegevenswaarden kan een gebruiker Backtrack elk gegevenspunt terug naar de Lab notebook van de onderzoeker die de ruwe gegevens verzameld. Bij het omgaan met honderden tot tienduizenden datapunten is meer transparantie en toegankelijkheid van onschatbare waarde gedurende de levensduur van een project. Het is raadzaam dat gebruikers rekening houden met bestandslocaties eerst opslaan en later waarden voor gegevens compileren in plaats van alleen de gegevenswaarden op te slaan.

Zodra de database is gemaakt, is de eenvoudigste manier om aan de slag te gaan door de query's te programmeren via de ontwerpweergave. De gebruiker zal het nuttig vinden om de meegeleverde sjabloon (bestand #13 in tabel 1) als uitgangspunt te downloaden. Deze kunnen ook rechtstreeks via de SQL-taal worden geprogrammeerd (Figuur 4).

Wetenschappelijke discussie
Het doel van dit artikel was het verspreiden van methoden met betrekking tot een Data-pipeline en database die gegevensset schaalbaarheid en transparantie opgehelderd. Deze methoden worden niet veel gebruikt buiten informatica en Business, maar hebben een enorm potentieel voor degenen die in biologische contexten werken. Naarmate de wetenschap steeds meer op computers blijft vertrouwen, stijgt ook het belang van effectieve beheerssystemen op6,29. Databases worden vaak gebruikt voor hoge volumes en/of hoge snelheid toepassingen en zijn goed geciteerd in de literatuur, vooral met betrekking tot hun gebruik voor klinische patiëntenpopulaties8,30,31. Verschillende zijn al gebouwd voor specifieke gebieden zoals de rat genoome database curatie tools of Redcap voor klinisch en translationeel onderzoek32,33. Zo, het gebruik van databases is goedgekeurd in de klinische domein8 of grote genomische databases32, maar is niet gebruikelijk geworden in andere wetenschappelijke disciplines zoals weefsel engineering.

De problemen van het omgaan met steeds complexere gegevens met spreadsheet Programma's zijn al lang erkend binnen de wetenschappelijke gemeenschap34. Een studie meldde dat ongeveer 20% van genomische Journal papers met aanvullende bestanden had gennamen die ten onrechte werden geconverteerd naar Data35. Deze fouten stegen met gemiddeld 15% per jaar van 2010 tot 2015, wat de jaarlijkse stijging van de Genomics papers met 4% per jaar ver overtreft. Het is vaak bijna onmogelijk om individuele fouten binnen een grote hoeveelheid gegevens te identificeren, omdat de werkblad Programma's van nature ongeschikt zijn voor eenvoudige validatie van resultaten of formuleberekeningen. Gepubliceerde artikelen bestaan zelfs voor het opleiden van wetenschappers over betere spreadsheet praktijken in een poging om de frequentie van fouten te verminderen7. Een van de sterkste voordelen van databases is de vermindering van de fout door geautomatiseerde methoden en de mogelijkheid om mogelijk twijfelachtige gegevens te valideren (Figuur 3).

Een significant resultaat van deze methodologie is de toegenomen strenger van data-analyse. Het belang van het verhogen van de reproduceerbaarheid van gegevens is benadrukt door de NIH en door andere wetenschappers en instellingen36,37. Door het hebben van een spreadsheet met bestandslocaties die overeenkomt met elke database, is het gemakkelijk om een gegevenspunt terug te traceren naar de Lab-notebook van het experiment in kwestie (Figuur 3). Afzonderlijke gegevenspunten kunnen ook snel worden geïdentificeerd en elektronisch worden gevonden met behulp van de bijbehorende bestandslocaties, die soms van onschatbare waarde zijn, zelfs in combinatie met automatische foutcontrole tijdens het gegevenspijpleidingsproces. Zelfs als de gegevensset in de loop van de tijd wordt gewijzigd, houdt best practice in dat alle eerdere bestanden in geval van problemen optreden of dat oudere versies moeten worden gecontroleerd. Niet-destructief werken en oude versies in de gegevenspijplijn houden zorgt voor beveiliging door middel van redundantie en zorgt voor betere probleemoplossing.

Er zijn talloze relationele databasebeheersystemen in combinatie van programmeertalen die kunnen worden gebruikt voor dezelfde gegevenspijplijn behoeften. De meest geschikte keuzes zijn sterk afhankelijk van de gebruikte gegevens en context; Sommige toepassingen Excel het beste in schaalbaarheid, flexibiliteit, betrouwbaarheid en andere prioriteiten9. Hoewel databases nog steeds technisch eindig in omvang zijn, blijft het bereiken van geheugenlimieten buiten het bereik van de meeste wetenschappelijke laboratoria. Een MS Access-database heeft bijvoorbeeld een geheugen limiet van 2 GB, wat een gegevensset zou zijn in de volgorde van honderdduizenden tot miljoenen items, afhankelijk van de gegevens en het aantal velden. De meeste Labs zullen nooit experimentele behoeften van deze omvang hebben, maar als ze dat deden, zou spreadsheet software toch veel verder gaan dan hun effectieve limieten. In vergelijking met relationele databasebeheersystemen op bedrijfsniveau kunnen gegevenssets met grotere magnitudes worden verwerkt terwijl miljoenen transacties tegelijkertijd worden verwerkt29. Een deel van de reden databases worden niet vaak gebruikt in wetenschappelijke laboratoria is dat eerdere experimenten zelden Crest behoeften van dergelijke gegevens magnitudes, dus eenvoudig te gebruiken spreadsheet software werd wijdverbreid in plaats daarvan. Een belangrijke investering die nodig is om deze methoden te laten functioneren, is echter de tijd die nodig is om de gegevenspijplijn te plannen en SQL te leren voor het gebruik van databases (Figuur 3 en Figuur 4). Hoewel codeerervaring het proces sterk versnelt, moet de meeste SQL vanaf het begin leren. Een schat aan documentatie is online beschikbaar via uitgebreide documentatie door ontwikkel ontwikkelaars, evenals gratis SQL-zelfstudies zoals Codecademy, W3Schools en SQLBolt10,11,12. Sommige alternatieven die vereisen abonnementen bestaan, echter, zoals het programma onderwijswebsite Lynda38; meer informatie over de basisprincipes van de database vindt u online. In een academische setting kunnen goede Lab buy-in en robuuste systemen hun makers overtreffen en vele jaren aan projecten voor meerdere studenten helpen faciliteren. Dit kan worden bereikt door het maken van richtlijnen en implementatie stappen tijdens de installatie. Inderdaad, er is een hoge waarde voor alle onderzoekers in het hebben van een goed functionerende gezamenlijke data-pipeline en database-systeem.

Andere voordelen van deze methodologie zijn de mogelijkheid om geautomatiseerde methoden te gebruiken voor het converteren van onbewerkte gegevens naar gestructureerde indelingen, gebruiksgemak eenmaal opgeslagen in de database en het constant opnieuw bijwerken en opnieuw samenvoegen van gegevenssets (Figuur 3). Het is ook mogelijk om te trekken van meerdere variabelen ' waarde van informatie uit een enkel gegevensbestand en Automatiseer de data-pipeline om dit te doen wanneer u hierom wordt gevraagd. In de getoonde context werd algemeen beschikbare en economische software gebruikt om resultaten te behalen die aantonen dat dure en niche softwarepakketten niet verplicht zijn bij het bereiken van een functionele database. Gezien het beperkte bereik van de onderzoeksfondsen van de meeste laboratoria is de mogelijkheid om de efficiëntie van het databasebeheer te verhogen een onschatbare waarde.

Concluderend, naarmate wetenschappelijke gegevensverzamelingen complexer worden, worden databanken steeds belangrijker voor de wetenschappelijke gemeenschap en hebben ze een groot potentieel om zo gangbaar te zijn als en nog effectiever dan het huidige grootschalige gebruik van spreadsheets voor data Opslag. Problemen met gegevens transparantie en replicabiliteit in de wetenschap blijven in de toekomst alleen maar toenemen naarmate datasets in omvang en complexiteit blijven groeien, waarbij het belang wordt benadrukt van een ruimere acceptatie van databases en geautomatiseerde gegevenspijplijn methoden voor algemene wetenschappelijke behoeften nu en in de toekomst.

Referentienummer Bestandsnaam Type
1 LocationPointer. m Pipe-line code
2 LocationPointerCompile. m Pipe-line code
3 LocationPointer_Remove_Duplicates. m Pipe-line code
4 BadPointerCheck. m Pipe-line code
5 LocationPointer_Check. m Pipe-line code
6 Manual_Pointer_Removal. m Pipe-line code
7 Database_Generate. m Pipe-line code
8 Cell_Lines. CSV Helpertafel
9 Data_Types. CSV Helpertafel
10 Pattern_Types. CSV Helpertafel
11 DataLocation_Comp_2018_6_26_10_01. CSV Voorbeeld van gegevenslocatie bestand
12 DataValues_2018_6_26_10_02. CSV Voorbeeld van gegevenswaarden bestand
13 Database_Queries. ACCDB Voorbeeld database

Tabel 1: lijst met alle voorbeeldbestanden die kunnen worden geüpload om het protocol uit te voeren.

Bestand dat is geselecteerd Variabele
Summary. mat Deel van de defecte kernen
Alle kernen gebied gemiddelde (μm2)
Gemiddeld gebied met defect kernen (μm2)
Normaal nuclei gebied gemiddeld (μm2)
Alle nuclei Excentricte gemiddelde
Defect nuclei Excentriceen gemiddelde
Normaal nuclei Excentriceen gemiddelde
Alle nuclei MNC gemiddelde
Defect nuclei MNC gemiddelde
Normaal nuclei MNC gemiddelde
Act_OOP. mat Actin OOP
Actin OOP directeur hoek
Fibro_OOP. mat Fibronectin OOP
Fibronectin OOP directeur hoek
Nuc_OOP. mat Nuclei OOP
Nuclei OOP Director hoek

Tabel 2: vermeld Selecteer bestanden die corresponderen met verschillende variabelen van celkernen of fibroblast Structural (OOP) gegevens.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

De auteurs hebben niets te onthullen.

Acknowledgments

Dit werk wordt ondersteund door de National Heart, Lung, en Blood Institute bij de National Institutes of Health, subsidie nummer R01 HL129008. De auteurs bedanken vooral de familieleden van de Lmna -genmutatie voor hun deelname aan de studie. Ook willen we Linda McCarthy bedanken voor haar hulp bij celcultuur en het onderhouden van de Lab Spaces, nasam chokr voor haar deelname aan celbeeldvorming en de kernen data-analyse, en Michael A. grosberg voor zijn pertinente advies bij het opzetten van onze initiële Microsoft Access-database en het beantwoorden van andere technische vragen.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

Bioengineering uitgave 153 middelgrote Data databanken LMNA data organisatie multidimensionale Data weefsel engineering
Databases voor het efficiënt beheren van middelgrote, lage snelheid, multidimensionale data in weefsel engineering
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter