November 22nd, 2019
Veel onderzoekers genereren "middelgrote", lage-snelheid, en multidimensionale gegevens, die efficiënter kunnen worden beheerd met databases in plaats van spreadsheets. Hier bieden we een conceptueel overzicht van databases, waaronder het visualiseren van multidimensionale gegevens, het koppelen van tabellen in relationele database structuren, het in kaart brengen van semi-geautomatiseerde gegevens pijpleidingen en het gebruik van de database om gegevens betekenis te verhelderiseren.
Wetenschappelijke gegevens zijn de afgelopen decennia steeds complexer en rijker geworden, maar wetenschappers blijven organisaties gebruiken die niet meer voldoen aan hun groeiende databehoeften. Het belangrijkste voordeel van een techniek beschreven in deze video is dat het mogelijk maakt voor een database die een rigoureuze datapijplijn en opslag geeft met behoud van flexibiliteit voor gegevensanalyse. Download de voorbeeldcodes en databases in deze tabel om te beginnen met de evaluatie van de interesseset.
Gebruik vervolgens deze grafische weergave van een multidimensionale database om te beoordelen of de gegevensset van belang inderdaad multidimensionaal is. De gegevens moeten aan twee voorwaarden voldoen om te kunnen profiteren van de databaseorganisatie. Ten eerste moeten de gegevens in multidimensionale vorm kunnen worden gevisualiseerd.
En ten tweede moet het meer wetenschappelijk inzicht krijgen door een specifiek experimenteel resultaat te kunnen relateren aan een van de dimensies. Relationele databases slaan informatie op in de vorm van tabellen die zijn georganiseerd in rijen en kolommen en kunnen worden gebruikt om identificerende informatie in de database te koppelen. Multidimensionaliteit wordt behandeld door verschillende velden, zoals de kolommen van de tabel en afzonderlijke tabellen, met elkaar te relateren.
Ten eerste, organiseren van de gegevensbestanden, zodat ze goed doordacht, unieke namen. Goede praktijken met conventies voor het benoemen van bestanden en map/submapstructuren zorgen voor een brede schaalbaarheid van de database zonder afbreuk te doen aan de leesbaarheid van handmatig toegang tot bestanden. Voeg gedateerde bestanden toe in een consistent formaat en naamsubmappen op basis van metagegevens.
Als de databasestructuur is ontworpen, maakt u relaties tussen de velden in verschillende tabellen. Maak LEESME-documentatie die de database en relaties beschrijft die zijn gemaakt. Het kan zowel grafisch als deze figuur of tekst-gebaseerd.
Zodra een vermelding tussen verschillende tabellen is gekoppeld, is alle bijbehorende informatie gerelateerd aan die vermelding en kan worden gebruikt om complexe query's aan te roepen om te filteren op de gewenste informatie. Maak het eindresultaat vergelijkbaar met dit voorbeeld waar de verschillende kenmerken van individuen zijn gerelateerd aan de bijbehorende experimentele gegevens van deze personen. Hetzelfde werd gedaan door het relateren van kolommen van patroontypen en gegevenstypen aan overeenkomende vermeldingen in de belangrijkste tabel DataWaarden om verschillende stenonotaties uit te leggen.
Identificeer alle verschillende experimenten en gegevensanalysemethoden die kunnen leiden tot het verzamelen van gegevens, samen met de normale gegevensopslagpraktijken voor elk gegevenstype. Werk met open source versiebeheersoftware zoals GitHub om de nodige consistentie en versiebeheer te garanderen en tegelijkertijd de gebruikerslast te minimaliseren. Zorg ervoor dat u een procedure maakt voor consistente naamgeving en opslag van gegevens om een geautomatiseerde pijplijn mogelijk te maken.
Gebruik een handige programmeertaal om nieuwe gegevensvermeldingen voor de database te genereren. Maak kleine helpertabellen in afzonderlijke bestanden die de automatische selectie van gegevens kunnen begeleiden. Deze bestanden dienen als een sjabloon van de mogelijkheden voor de pijplijn te werken onder en zijn gemakkelijk te bewerken.
Als u nieuwe gegevensvermeldingen voor de gegevenspijplijn wilt genereren, programmeert u de code op een vergelijkbare manier als het hier weergegeven voorbeeld dat in de aanvullende bestanden met dit artikel wordt weergegeven. Hierdoor kan men de helpertabellen gebruiken als ingangen die door de gebruiker moeten worden geselecteerd. Stel hier een nieuwe spreadsheet met bestandslocaties samen door de nieuwe items te combineren met de vorige vermeldingen.
De hier getoonde code en in de aanvullende bestanden kan worden gebruikt om dit proces te automatiseren. Controleer daarna de samengevoegde spreadsheet op duplicaten met behulp van de hier weergegeven code om deze stap te automatiseren. Controleer bovendien de spreadsheet op fouten met behulp van een geautomatiseerde methode en stel de gebruiker op de hoogte van de reden en locatie.
Bovendien u een code schrijven die de gecompileerde database controleert en ontbrekende slechte gegevenspunten identificeert. Verwijder handmatig slechte punten zonder de integriteit van de database te verliezen met code die vergelijkbaar is met wat hier wordt weergegeven. Herhaal deze stappen om meer gegevenspunten toe te voegen.
Gebruik vervolgens de bestandslocaties om een spreadsheet met gegevenswaarde te genereren. Maak ook een bijgewerkte lijst met vermeldingen die kunnen worden geopend om bestandslocaties te identificeren of te fuseren met toekomstige vermeldingen. Als u wilt beginnen met het maken van databases, maakt u eerst een leeg databasedocument om de helpertabel voor de cellijnen, gegevenstypen en patroontypen te laden.
Ga naar het menu Externe gegevens, selecteer Tekstbestand importeren, klik op Bladeren en selecteer vervolgens het gewenste bestand. Selecteer in de wizard Importeren de optie Afgebakend en druk op Volgende. Selecteer Eerste rij Bevat veldnamen en komma voor het scheidingstype.
Nadat u op Volgende hebt geklikt, selecteert u de standaardveldopties en selecteert u Geen primaire sleutel. Klik op Volgende en vervolgens Voltooien. Laad vervolgens de gegevens- en patroontypen door dezelfde stappen te herhalen.
Laad vervolgens de tabel met gegevenswaarde. Ga naar het menu Externe gegevens, selecteer Tekstbestand importeren, klik op Bladeren en selecteer vervolgens het gewenste bestand. Selecteer in de wizard Importeren de optie Afgebakend en druk op Volgende.
Selecteer Eerste rij Bevat veldnamen en komma voor het scheidingstype. Nadat u op Volgende hebt geklikt, selecteert u de standaardveldopties en selecteert u Access laten toevoegen primaire sleutel. Klik op Volgende en vervolgens Voltooien.
Maak nu de relaties door de databasehulpprogramma's te selecteren, naar Relaties te gaan en alle tabellen naar het bord te slepen. Ga vervolgens naar Relaties bewerken en selecteer Nieuw maken. Selecteer de tabel- en kolomnamen en klik vervolgens op het type Join dat de helpertabellen aan wijst.
Nadat elke gewenste relatie is ingesteld, gaat u naar Queryontwerp maken en selecteren en alle relevante tabellen in het bovenste venster selecteren of slepen. In dit voorbeeld worden cellijnen, gegevenswaarden, gegevenstypen en patroontype weergegeven. De relaties moeten automatisch worden ingesteld op basis van het vorige relatieontwerp.
Vul nu de querykolommen in voor de gewenste resultaten. Ga voor deze gegevensset naar Het weergeven en selecteren van Totalen. Vul de eerste kolom, de tweede kolom en de derde kolom in, zoals hier wordt weergegeven.
Vul ook de vierde kolom, de vijfde kolom en de zesde kolom in. Wanneer u klaar bent met het invullen van de kolommen, slaat u de query op en voert u deze uit. Gebruik voor deze experimentele gegevens van het monster de eenrichtingsanalyse van variantie met behulp van de test van Tukey voor gemiddelde vergelijkingen tussen verschillende omstandigheden.
Wanneer u een veelheid van mogelijke bevestigingen krijgt, kan het moeilijk zijn om te bepalen waar nieuwe relaties bestaan met behulp van handmatige gegevensaggregatiemethoden. Hier werd de organisatie van subcellulaire actinfilamenten over meerdere omstandigheden gemeten aan de hand van de mate van oriëntatievolgorde door de database in verschillende bevestigingen op te vragen. De anisotropische en isotropische datasets tonen enorm verschillende OOPs, wat werd verwacht sinds fibronectin micropatterning zwaar beïnvloedt weefsel organisatie.
Er waren echter geen significante verschillen tussen de conditie van de mutatiestatus bij het vergelijken van isotropische weefsels. Omgekeerd waren de patroonweefsels statistisch minder georganiseerd in de positieve controlecellijn. Deze relatie hield zelfs wanneer de gegevens werden samengevoegd door verschillende families versus positieve en negatieve controle.
Indien nodig kunnen de gegevens verder worden ontleed. Als voorbeeld, hier actin OOP werd uitgezet tegen de leeftijd van het individu op het moment van biopsie, gescheiden door mutatie status en familie om aggregatie te illustreren tegen een klinische variabele. Met deze dataset is er geen correlatie tussen actin organisatie en de leeftijd van een individu.
Dit laat zien hoe dezelfde gegevens kunnen worden geanalyseerd in verschillende combinaties en hoe gemakkelijk de normaal moeilijke taak van het aggregeren van gegevens die valt onder meerdere klassen kan worden bereikt met behulp van databases. Dit protocol om een data-organisatorische pijplijn te maken en een database te genereren, biedt wetenschappelijke strengheid die absoluut essentieel is in dit tijdperk van het verzamelen van grote hoeveelheden.
View the full transcript and gain access to thousands of scientific videos
Dit artikel bespreekt de uitdagingen waarmee onderzoekers worden geconfronteerd bij het beheren van complexe wetenschappelijke gegevens en presenteert een oplossing door het gebruik van databases. Het benadrukt de voordelen van een gestructureerde databasebenadering voor het visualiseren en analyseren van multidimensionele gegevens.