Bioengineering

Datenbanken zur effizienten Verwaltung von mittelgroßen, niedrigen Geschwindigkeiten und multidimensionalen Daten im Tissue Engineering

Published: November 22, 2019 doi: 10.3791/60038

Alexander R. Ochs^1,2, Mehrsa Mehrabi^1,2, Danielle Becker^1,2, Mira N. Asad^1,2, Jing Zhao^1,2, Michael V. Zaragoza^3,4, Anna Grosberg^1,2,5,6,7

¹Department of Biomedical Engineering, University of California, Irvine, ²The Edwards Lifesciences Center for Advanced Cardiovascular Technology, University of California, Irvine, ³Pediatrics-Genetics & Genomics Division-School of Medicine, University of California, Irvine, ⁴Biological Chemistry-School of Medicine, University of California, Irvine, ⁵Department of Chemical and Biomolecular Engineering, University of California, Irvine, ⁶Center for Complex Biological Systems, University of California, Irvine, ⁷The NSF-Simons Center for Multiscale Cell Fate Research (CMCF), University of California, Irvine

Summary

Viele Forscher generieren "mittelgroße", datenarme und mehrdimensionale Daten, die mit Datenbanken und nicht mit Tabellenkalkulationen effizienter verwaltet werden können. Hier bieten wir einen konzeptionellen Überblick über Datenbanken, einschließlich der Visualisierung mehrdimensionaler Daten, verknüpfen von Tabellen in relationalen Datenbankstrukturen, Der Zuordnung halbautomatischer Datenpipelines und der Verwendung der Datenbank zur Klärung der Bedeutung von Daten.

Abstract

Die Wissenschaft stützt sich auf immer komplexere Datensätze für den Fortschritt, aber gängige Datenverwaltungsmethoden wie Tabellenkalkulationsprogramme sind für den wachsenden Umfang und die Komplexität dieser Informationen unzureichend. Datenbankverwaltungssysteme haben zwar das Potenzial, diese Probleme zu beheben, werden aber außerhalb von Geschäfts- und Informatikbereichen nicht häufig genutzt. Dennoch generieren viele Forschungslabore bereits "mittlere, niedrige Geschwindigkeiten, mehrdimensionale Daten, die von der Implementierung ähnlicher Systeme sehr profitieren könnten. In diesem Artikel bieten wir einen konzeptionellen Überblick über die Funktionsweise von Datenbanken und deren Vorteile bei Tissue Engineering-Anwendungen. Strukturelle Fibroblastendaten von Personen mit einer laminazur A/C-Mutation wurden verwendet, um Beispiele in einem spezifischen experimentellen Kontext zu veranschaulichen. Beispiele hierfür sind das Visualisieren multidimensionaler Daten, das Verknüpfen von Tabellen in einer relationalen Datenbankstruktur, das Zuordnen einer halbautomatischen Datenpipeline zum Konvertieren von Rohdaten in strukturierte Formate und das Erläutern der zugrunde liegenden Syntax einer Abfrage. Die Ergebnisse der Analyse der Daten wurden verwendet, um Diagramme mit verschiedenen Anordnungen zu erstellen, und die Bedeutung wurde in der Zellorganisation in ausgerichteten Umgebungen zwischen der positiven Kontrolle der Hutchinson-Gilford-Progerie, einer bekannten Laminopathie, und allen anderen experimentellen Gruppen demonstriert. Im Vergleich zu Tabellenkalkulationen waren Datenbankmethoden enorm zeitsparend, nach der Einrichtung einfach zu bedienen, ermöglichten den sofortigen Zugriff auf originale Dateispeicherorte und erhöhten Datenstrenge. Als Reaktion auf die Betonung der experimentellen Strenge durch die National Institutes of Health (NIH) ist es wahrscheinlich, dass viele wissenschaftliche Bereiche aufgrund ihrer starken Fähigkeit, komplexe Daten effektiv zu organisieren, schließlich Datenbanken als gängige Praxis übernehmen werden.

Introduction

In einer Zeit, in der der wissenschaftliche Fortschritt stark von der Technologie getrieben wird, ist der Umgang mit großen Datenmengen zu einem integralen Facetten der Forschung in allen Disziplinen geworden. Die Entstehung neuer Bereiche wie Computerbiologie und Genomik unterstreicht, wie kritisch die proaktive Nutzung der Technologie geworden ist. Diese Trends werden sich aufgrund von Moores Gesetz und stetigen Fortschritten aus dem technologischen Fortschritt sicher fortsetzen¹^,². Eine Folge davon sind jedoch die steigenden Mengen generierter Daten, die die Fähigkeiten bisher tragfähiger Organisationsmethoden übersteigen. Obwohl die meisten akademischen Laboratorien über ausreichende Rechenressourcen für die Verarbeitung komplexer Datensätze verfügen, fehlt vielen Gruppen das technische Know-how, das für den Aufbau kundenspezifischer Systeme erforderlich ist, die für die Entwicklung von Anforderungen geeignet sind³. Die Fähigkeit, solche Datensätze zu verwalten und zu aktualisieren, bleibt für einen effizienten Workflow und eine effiziente Ausgabe von entscheidender Bedeutung. Die Überbrückung der Lücke zwischen Daten und Fachwissen ist wichtig für die effiziente Handhabung, Neuaktualisierung und Analyse eines breiten Spektrums vielfältiger Daten.

Skalierbarkeit ist ein wesentlicher Aspekt bei der Handhabung großer Datensätze. Big Data zum Beispiel ist ein florierendes Forschungsgebiet, das neue Erkenntnisse aus der Verarbeitung von Daten enthüllt, die durch riesige Mengen, große Heterogenität und hohe Erzeugungsraten wie Audio und Video⁴^,⁵gekennzeichnet sind. Die Verwendung automatisierter Organisations- und Analysemethoden ist für dieses Feld obligatorisch, um Torrents von Daten angemessen zu verarbeiten. Viele Fachbegriffe, die in Big Data verwendet werden, sind jedoch nicht klar definiert und können verwirrend sein; Beispielsweise werden "Hochgeschwindigkeitsdaten" häufig mit Millionen neuer Einträge pro Tag in Verbindung gebracht, während "Low Velocity"-Daten möglicherweise nur Hunderte von Einträgen pro Tag sind, z. B. in einer akademischen Laborumgebung. Obwohl es viele spannende Erkenntnisse gibt, die mit Big Data noch entdeckt werden müssen, benötigen die meisten akademischen Labore nicht den Umfang, die Leistungsfähigkeit und die Komplexität solcher Methoden, um ihre eigenen wissenschaftlichen Fragen zu beantworten⁵. Obwohl es unbestritten ist, dass wissenschaftliche Daten mit Zeit⁶immer komplexer werden, verwenden viele Wissenschaftler weiterhin Organisationsmethoden, die ihren wachsenden Datenanforderungen nicht mehr gerecht werden. Beispielsweise werden praktische Tabellenkalkulationsprogramme häufig verwendet, um wissenschaftliche Daten zu organisieren, aber auf Kosten der Nichtskalierbarkeit, Fehleranfälligkeit und Zeitineffizienz auf lange Sicht⁷^,⁸. Umgekehrt sind Datenbanken eine effektive Lösung für das Problem, da sie skalierbar, relativ günstig und einfach zu bedienen sind, um unterschiedliche Datensätze laufender Projekte zu verarbeiten.

Unmittelbare Bedenken, die bei der Prüfung von Schemas der Datenorganisation auftreten, sind Kosten, Zugänglichkeit und Zeitinvestitionen für Schulungen und Nutzung. Datenbankprogramme, die häufig in Geschäftsumgebungen verwendet werden, sind wirtschaftlicher und entweder relativ kostengünstig oder kostenlos als die Finanzierung, die zur Unterstützung der Nutzung von Big-Data-Systemen erforderlich ist. Tatsächlich gibt es eine Vielzahl von kommerziell erhältlichen und Open-Source-Software zum Erstellen und Verwalten von Datenbanken, z. B. Oracle Database, MySQL und Microsoft (MS) Access⁹. Viele Forscher würden auch ermutigt zu erfahren, dass mehrere MS Office akademische Pakete mit MS Access enthalten kommen, weitere Minimierung der Kosten Überlegungen. Darüber hinaus stellen fast alle Entwickler umfangreiche Dokumentation online zur Verfügung und es gibt eine Fülle von kostenlosen Online-Ressourcen wie Codecademy, W3Schools und SQLBolt, um Forschern zu helfen, strukturierte Abfragesprache (SQL) zu verstehen und zu nutzen¹⁰^,¹¹^,¹². Wie jede Programmiersprache braucht das Erlernen der Verwendung von Datenbanken und Code mit SQL Zeit, aber mit den reichlich verfügbaren Ressourcen ist der Prozess einfach und lohnt sich der investierte Aufwand.

Datenbanken können leistungsstarke Tools zur Verbesserung der Datenzugänglichkeit und der einfachen Aggregation sein, aber es ist wichtig zu erkennen, welche Daten am meisten von einer stärkeren Kontrolle der Organisation profitieren würden. Multidimensionalität bezieht sich auf die Anzahl der Bedingungen, mit denen eine Messung gruppiert werden kann, und Datenbanken sind am leistungsfähigsten, wenn viele verschiedene Bedingungen verwaltet werden¹³. Umgekehrt sind Informationen mit geringer Dimensionalität am einfachsten mit einem Tabellenkalkulationsprogramm zu handhaben. Beispielsweise hat ein Datensatz, der Jahre und einen Wert für jedes Jahr enthält, nur eine mögliche Gruppierung (Messungen mit Jahren). Hochdimensionale Daten, z. B. aus klinischen Einstellungen, würden ein hohes Maß an manueller Organisation erfordern, um einen mühsamen und fehleranfälligen Prozess über den Rahmen von Tabellenkalkulationsprogrammen hinaus effektiv zu warten¹³. Nicht relationale Datenbanken (NoSQL) erfüllen auch eine Vielzahl von Rollen, vor allem in Anwendungen, in denen Daten nicht gut in Zeilen und Spalten¹⁴angeordnet sind. Diese Organisationsschemata sind nicht nur häufig Open Source, sondern umfassen auch grafische Zuordnungen, Zeitreihendaten oder dokumentbasierte Daten. NoSQL zeichnet sich durch eine bessere Skalierbarkeit aus als SQL, kann jedoch keine komplexen Abfragen erstellen, sodass relationale Datenbanken in Situationen, die Konsistenz, Standardisierung und seltene umfangreiche Datenänderungen erfordern, besser sind¹⁵. Datenbanken eignen sich am besten dazu, Daten effektiv in das große Spektrum von Konformationen zu gruppieren und erneut zu aktualisieren, die häufig in wissenschaftlichen Einstellungen benötigt werden¹³^,¹⁶.

Die Hauptabsicht dieser Arbeit ist es daher, die wissenschaftliche Gemeinschaft über das Potenzial von Datenbanken als skalierbare Datenmanagementsysteme für "mittlere, niedrige Geschwindigkeitsdaten" zu informieren und eine allgemeine Vorlage anhand spezifischer Beispiele von zelllinienbasierten Experimenten von Patienten bereitzustellen. Andere ähnliche Anwendungen sind Geodaten von Flussbetten, Fragebögen aus längsbezogenen klinischen Studien und mikrobielle Wachstumsbedingungen in Wachstumsmedien¹⁷^,¹⁸^,¹⁹. In dieser Arbeit werden allgemeine Überlegungen und Nützlichkeit beim Erstellen einer Datenbank in Verbindung mit einer Datenpipeline hervorgehoben, die zum Konvertieren von Rohdaten in strukturierte Formate erforderlich ist. Die Grundlagen von Datenbankschnittstellen und Codierung für Datenbanken in SQL werden bereitgestellt und mit Beispielen veranschaulicht, die es anderen ermöglichen, das Wissen zu erlangen, das für das Erstellen grundlegender Frameworks gilt. Schließlich zeigt ein experimenteller Beispieldatensatz, wie einfach und effektiv Datenbanken so gestaltet werden können, dass facettenreiche Daten auf verschiedene Arten aggregiert werden. Diese Informationen bieten Kontext, Kommentare und Vorlagen, um Wissenschaftlerkollegen auf dem Weg zur Implementierung von Datenbanken für ihre eigenen experimentellen Bedürfnisse zu unterstützen.

Für die Erstellung einer skalierbaren Datenbank in einem Forschungslabor wurden in den letzten drei Jahren Daten aus Experimenten mit menschlichen Fibroblastengesammelten gesammelt. Der Hauptfokus dieses Protokolls liegt auf der Beurkundung der Organisation von Computersoftware, damit der Benutzer Daten kosten- und zeiteffizient aggregieren, aktualisieren und verwalten kann, aber auch die entsprechenden experimentellen Methoden werden für Kontext.

Experimentelle Einrichtung
Das Versuchsprotokoll zur Probenvorbereitung wurde bereits²⁰^,²¹beschrieben und wird hier kurz vorgestellt. Die Konstrukte wurden durch Spin-Coating rechteckige Glasabdeckungen mit einem 10:1-Gemisch aus Polydimethylsiloxan (PDMS) und Härtungsmittel hergestellt, um dann 0,05 mg/ml Fibronectin anzuwenden, entweder in unorganisierten (isotropen) oder 20 m-Linien mit 5 m Abstand mikromusterweise (Linien). Fibroblastenzellen wurden in Durchgang 7 (oder Durchgang 16 für positive Kontrollen) bei optimaler Dichte auf die Abdeckungen gesetzt und 48 h lang wachsen lassen, wobei die Medien nach 24 h verändert wurden. Die Zellen wurden dann mit 4% Paraformaldehyd (PFA) Lösung und 0,0005% nichtionisches Tensid fixiert, gefolgt von den Abdeckungen, die für Zellkerne immunstainiert werden (4',6'-Diaminodino-2-Phenylinodol [DAPI]), Actin (Alexa Fluor 488 phalloidin) und Fibronectin (Polycloncal Rabbit anti-human fibronin). Ein sekundärer Fleck für Fibronectin mit Ziegenanti-Kaninchen-IgG-Antikörpern (Alexa Fluor 750 Ziege Anti-Kaninchen) wurde angewendet und Konservierungsmittel wurde auf alle Abdeckungen montiert, um ein fluoreszierendes Ausbleichen zu verhindern. Nagellack wurde verwendet, um Abdeckungen auf Mikroskop-Dias zu versiegeln, dann für 24 h trocknen gelassen.

Fluoreszenzbilder wurden wie zuvor²⁰ mit einem 40-fachen Öl-Eintauchobjektiv in Verbindung mit einer CCD-Kamera (Digital Charge Coupled Device) aufgenommen, die auf einem invertierten motorisierten Mikroskop montiert war. Für jeden Deckzettel wurden zehn zufällig ausgewählte Sichtfelder mit einer 40-fachen Vergrößerung abgebildet, was einer Auflösung von 6,22 Pixeln/m entspricht. Benutzerdefinierte Codes wurden verwendet, um verschiedene Variablen aus den Bildern zu quantifizieren, die die Kerne, Actin-Filamente und Fibronectin beschreiben; entsprechende Werte sowie Organisations- und Geometrieparameter wurden automatisch in Datendateien gespeichert.

Zelllinien
Ausführlichere Dokumentationen zu allen Beispieldatenzellzeilen finden Sie in früheren Publikationen²⁰. Um kurz zu beschreiben, wurde die Datenerhebung genehmigt und die Einwilligung in Kenntnis der Sachlage wurde in Übereinstimmung mit dem UC Irvine Institutional Review Board (IRB 2014-1253) durchgeführt. Menschliche Fibroblastenzellen wurden aus drei Familien verschiedener Variationen der Lamin-A/C- (LMNA)Genmutation gesammelt: heterozygote LMNA-Spleiß-Site-Mutation (ca.357-2A>G)²² (Familie A); LMNA-Unsinnmutation (ca.736 C>T, pQ246X) in exon 4²³ (Familie B); und LMNA-Missense-Mutation (c.1003C>T, pR335W) in Exon 6²⁴ (Familie C). Fibroblastenzellen wurden auch von anderen Individuen in jeder Familie als verwandte Mutations-negative Kontrollen, die als "Kontrollen" bezeichnet werden, und andere wurden als nicht verwandte Mutation-negative Kontrollen gekauft, die als "Spender" bezeichnet werden. Als positivzu erhalten, wurden Fibroblastenzellen von einem Individuum mit Hutchinson-Gliford-Progerie (HGPS) gekauft und aus einer Hautbiopsie von einer 8-jährigen Patientin mit HGPS mit einer LMNA G608G Punktmutation²⁵angebaut. Insgesamt wurden Fibroblasten von 22 Personen getestet und als Daten in dieser Arbeit verwendet.

Datentypen
Fibroblastendaten fielen in eine von zwei Kategorien: zelluläre Kernevariablen (d. h. Prozentsatz der dysmorphen Kerne, Kernbereich, Kernexzentrizität)²⁰ oder strukturelle Variablen, die sich aus dem Parameter der Orientierungsreihenfolge (OOP)²¹^,²⁶^,²⁷ (d. h. Actin OOP, Fibronectin OOP, Kerne OOP) ergeben. Dieser Parameter entspricht dem maximalen Eigenwert des mittleren Ordertensors aller Orientierungsvektoren und wird in früheren Publikationen²⁶^,²⁸detailliert definiert. Diese Werte werden in einer Vielzahl möglicher Übereinstimmungen aggregiert, wie Z. B. Werte gegen Alter, Geschlecht, Krankheitsstatus, Vorhandensein bestimmter Symptome usw. Beispiele für die Verwendung dieser Variablen finden Sie im Ergebnisabschnitt.

Beispielcodes und Dateien
Die Beispielcodes und andere Dateien, die auf den obigen Daten basieren, können mit diesem Papier heruntergeladen werden, und ihre Namen und Typen sind in Tabelle 1zusammengefasst.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

HINWEIS: Siehe Tabelle der Materialien für die in diesem Protokoll verwendeten Softwareversionen.

1. Bewerten, ob die Daten von einem Datenbankorganisationsschema profitieren würden

Laden Sie die Beispielcodes und Datenbanken herunter (siehe Ergänzende Codierungsdateien, die in Tabelle 1zusammengefasst sind).
Verwenden Sie Abbildung 1, um auszuwerten, ob der Interessendatensatz "mehrdimensional" ist.
HINWEIS: Abbildung 1 ist eine grafische Darstellung einer mehrdimensionalen Datenbank, die für den Beispieldatensatz bereitgestellt wird.
Wenn die Daten in einer "mehrdimensionalen" Form wie dem Beispiel visualisiert werden können und wenn die Fähigkeit, ein bestimmtes experimentelles Ergebnis mit einer der Dimensionen (d. h. Bedingungen) in Beziehung zu setzen, eine größere wissenschaftliche Einsicht in die verfügbaren Daten ermöglichen würde, eine relationale Datenbank erstellen.

2. Organisieren sie die Datenbankstruktur

HINWEIS: Relationale Datenbanken speichern Informationen in Form von Tabellen. Tabellen sind im Schema von Zeilen und Spalten organisiert, ähnlich wie Tabellenkalkulationen, und können verwendet werden, um identifizierende Informationen innerhalb der Datenbank zu verknüpfen.

Organisieren Sie die Datendateien, so dass sie gut durchdachte eindeutige Namen haben. Bewährte Verfahren bei Dateibenennungskonventionen und Ordner-Unterordnerstrukturen ermöglichen, wenn sie gut gemacht werden, eine breite Datenbankskalierbarkeit, ohne die Lesbarkeit des manuellen Zugriffs auf Dateien zu beeinträchtigen. Fügen Sie Datumsdateien in einem konsistenten Format hinzu, z. B. "20XX-YY-ZZ", und Namensunterordner nach Metadaten sind ein solches Beispiel.
Zeichnen Sie beim Entwerfen der Datenbankstruktur Beziehungen zwischen den Feldern in verschiedenen Tabellen. So wird Multidimensionalität gehandhabt, indem verschiedene Felder (d. h. Spalten in den Tabellen) in einzelnen Tabellen miteinander verknüpft werden.
Erstellen Sie eine Readme-Dokumentation, die die Datenbank und die Beziehungen beschreibt, die in Schritt 2.2 erstellt wurden. Sobald ein Eintrag zwischen verschiedenen Tabellen verknüpft ist, beziehen sich alle zugeordneten Informationen auf diesen Eintrag und können zum Aufrufen komplexer Abfragen verwendet werden, um nach den gewünschten Informationen zu filtern.
HINWEIS: Readme-Dokumente sind eine gängige Lösung für die Bereitstellung zusätzlicher Informationen und Datenbankstrukturinformationen zu einem Projekt, ohne der Struktur uneinheitliche Daten hinzuzufügen.
In den folgenden Schritten 2.1-2.3 wird das Endergebnis diesem Beispiel ähnlich, in dem die unterschiedlichen Merkmale von Individuen (Abbildung 2A) mit den zugehörigen experimentellen Daten dieser Personen zusammenhängen (Abbildung 2B). Dasselbe geschah durch die Beziehung zu Spalten von Mustertypen (Abbildung 2C) und Datentypen (Abbildung 2D) mit übereinstimmenden Einträgen in der Hauptdatenwertetabelle, um verschiedene Kurzschriftnotationen zu erklären (Abbildung 2B).
Bestimmen Sie alle wesentlichen und nur hilfreichen Datenpunkte, die für die Erfassung von Daten mit großer Reichweite aufgezeichnet werden müssen.
HINWEIS: Ein wesentlicher Vorteil der Verwendung von Datenbanken gegenüber Tabellenkalkulationsprogrammen ist, wie bereits erwähnt, die Skalierbarkeit: Zusätzliche Datenpunkte können an jedem Punkt trivial hinzugefügt werden, und Berechnungen, wie Durchschnittswerte, werden sofort aktualisiert, um neu hinzugefügte Datenpunkte widerzuspiegeln.
1. Identifizieren Sie die erforderlichen Informationen zum Erstellen unterschiedlicher Datenpunkte vor Beginn. Lassen Sie Rohdaten unberührt, anstatt sie zu ändern oder zu speichern, sodass eine erneute Analyse möglich und zugänglich ist.
  HINWEIS: Für das gegebene Beispiel (Abbildung 2) waren der "Beschreiber", der einer Person entspricht, "Pattern type", "Coverslip" und "Variable type" wichtige Felder für die Unterscheidbarkeit des zugeordneten Werts.
2. Fügen Sie bei Bedarf weitere hilfreiche, nicht wichtige Informationen hinzu, z. B. die "Gesamtanzahl der Coverslips", um die Anzahl der durchgeführten Wiederholungen anzugeben und festzustellen, ob in diesem Beispiel Datenpunkte fehlen.

3. Einrichten und Organisieren der Pipeline

Identifizieren Sie alle verschiedenen Experimente und Datenanalysemethoden, die zur Datenerfassung führen können, zusammen mit den normalen Datenspeicherpraktiken für jeden Datentyp. Arbeiten Sie mit Open-Source-Versionskontrollsoftware wie GitHub, um die erforderliche Konsistenz und Versionskontrolle zu gewährleisten und gleichzeitig den Benutzeraufwand zu minimieren.
Erstellen Sie nach Möglichkeit verfahren für die konsistente Benennung und Speicherung von Daten, um eine automatisierte Pipeline zu ermöglichen.
ANMERKUNG: Im Beispiel wurden die Ausgaben alle konsistent benannt, wodurch eine Datenpipeline erstellt wurde, die nach bestimmten Attributen suchte, sobald die Dateien ausgewählt wurden. Wenn eine konsistente Benennung nicht möglich ist, müssen die Tabellen in der Datenbank manuell aufgefüllt werden, was nicht empfohlen wird.
Verwenden Sie eine beliebige Programmiersprache, um neue Dateneinträge für die Datenbank zu generieren.
1. Erstellen Sie kleine "Helfer"-Tabellen (Dateien #8-#10 in Tabelle 1) in separaten Dateien, die die automatisierte Auswahl von Daten steuern können. Diese Dateien dienen als Vorlage für Möglichkeiten für die Pipeline zu arbeiten und sind einfach zu bearbeiten.
2. Um neue Dateneinträge für die Datenpipeline zu generieren (Abbildung 3D), programmieren Sie den Code (LocationPointer.m, Datei #1 in Tabelle 1), um die Hilfstabellen als vom Benutzer auszuwählende Eingaben zu verwenden (Dateien #8 #10 in Tabelle 1).
3. Von hier aus erstellen Sie eine neue Tabelle mit Dateispeicherorten, indem Sie die neuen Einträge mit den vorherigen Einträgen kombinieren (Abbildung 3E). Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in LocationPointerCompile.m (Datei #2 in Tabelle 1) gezeigt.
4. Überprüfen Sie anschließend diese zusammengeführte Kalkulationstabelle auf Duplikate, die automatisch entfernt werden sollten. Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in LocationPointer_Remove_Duplicates.m gezeigt (Datei #3 in Tabelle 1).
5. Überprüfen Sie außerdem die Kalkulationstabelle auf Fehler, und benachrichtigen Sie den Benutzer über ihren Grund und Standort(Abbildung 3F). Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in BadPointerCheck.m (Datei #4 in Tabelle 1) gezeigt. Alternativ können Sie einen Code schreiben, der die kompilierte Datenbank überprüft und Duplikate in einem Schritt identifiziert, wie in LocationPointer_Check dargestellt (Datei #5 in Tabelle 1).
6. Erstellen Sie einen Code, mit dem der Benutzer fehlerhafte Punkte manuell entfernen kann, ohne die Integrität der Datenbank zu verlieren, wie in Manual_Pointer_Removal.m gezeigt (Datei #6 in Tabelle 1).
7. Verwenden Sie dann die Dateispeicherorte, um eine Datenwerttabelle zu generieren (Abbildung 3G, Datei #12 in Tabelle 1) sowie eine aktualisierte Liste von Einträgen zu erstellen, auf die zugegriffen werden kann, um Dateispeicherorte zu identifizieren oder mit zukünftigen Einträgen zusammenzuführen (Abbildung 3H). Erstellen Sie einen Code, um diesen Schritt zu automatisieren, wie in Database_Generate dargestellt (Datei #7 in Tabelle 1).
Überprüfen Sie, ob die Pipeline die experimentelle Strenge erhöht, indem Sie strenge Namenskonventionen, automatisierte Dateiassemblycodes und automatisierte Fehlerprüfungen wie zuvor beschrieben überprüfen.

4. Erstellen der Datenbank und Abfragen

HINWEIS: Wenn Tabellen Informationen in Datenbanken speichern, sind Abfragen Anforderungen an die Datenbank nach bestimmten Kriterien. Es gibt zwei Methoden zum Erstellen der Datenbank: beginnend mit einem leeren Dokument oder beginnend mit den vorhandenen Dateien. Abbildung 4 zeigt eine Beispielabfrage mit SQL-Syntax, die mit den in Abbildung 2dargestellten Datenbankbeziehungen ausgeführt werden soll.

Methode 1: Beginnen Sie bei der Erstellung der Datenbank und der Abfragen von Grund auf
1. Erstellen Sie ein leeres Datenbankdokument.
2. Laden Sie die Hilfstabellen (Dateien #8-#10 in Tabelle 1), indem Sie Externe Daten | Textdateiimport | Wählen Sie Datei (Dateien #8-#10) | Abgegrenzt | Erste Zeile Enthält Kopfzeilen, Komma | Standard verlassen | Wählen Sie Meinen eigenen Primärschlüssel (Beschrifterer für Zelllinien-Datei #8, Variablenname für Datentypen Datei #9, Pat-Name für Mustertypdatei #10) | Standard verlassen | Finish.
3. Laden Sie die Datenwerttabelle (Datei #12 in Tabelle 1), indem Sie Externe Daten | Textdateiimport | Datei auswählen (Datei #12) | Abgegrenzt | Erste Zeile Enthält Kopfzeilen, Komma | Standard verlassen | Zulassen, dass Access Primärschlüssel hinzufügen | Importieren in die Tabelle: DataValues | Finish.
4. Erstellen Sie die Beziehungen, indem Sie Datenbanktools auswählen | Beziehungen | Ziehen Sie alle Tabellen auf die Tafel | Beziehungen bearbeiten | Neue | erstellen Die DataValue-Felder mit Denertabellen-Bedesignern abgleichen | Gelenk Typ 3.
5. Wählen Sie Erstellen | Abfrageentwurf.
6. Wählen Sie alle relevanten Tabellen aus oder ziehen Sie sie in das obere Fenster. In diesem Beispiel 'Zellzeilen', 'Datenwerte', 'Datentypen' und 'Pattern Type'. Die Beziehungen sollten automatisch basierend auf dem vorherigen Beziehungsentwurf eingerichtet werden.
7. Füllen Sie die Abfragespalten für die gewünschten Ergebnisse aus, z. B.:
  1. Klicken Sie auf Anzeigen | Summen.
  2. Füllen Sie die erste Spalte (Tabelle: DataValues, Feld: DataVar, Total: GroupBy, Kriterien: "Act_OOP"), die zweite Spalte (Tabelle: DataValues, Feld: PatVar, Gesamt: GroupBy, Kriterien: "Linien") und die dritte Spalte (Tabelle: Cell_Lines, Feld: Beweigerer, Summe: GroupBy, Sortieren: Aufsteigend).
  3. Füllen Sie die vierte Spalte (Tabelle: DataValues, Feld: Parameter, Summe: Ave), die fünfte Spalte (Tabelle: DataValues, Feld: Parameter, Total: StDev) und die sechste Spalte (Tabelle: DataValues, Feld: Parameter, Summe: Anzahl).
8. Führen Sie die Abfrage aus.
Alternativ können Sie die bereitgestellte Beispieldatenbank als Grundlage für Beispiele verwenden. Öffnen Sie die Datenbankdatei Database_Queries.accdb (Datei #13 in Tabelle 1), die zuvor heruntergeladen wurde. Verwenden Sie es als Vorlage, indem Sie vorhandene Tabellen durch die Daten von Interesse ersetzen.

5. Verschieben der Ausgabetabellen in eine statistische Software zur Signifikanzanalyse

Verwenden Sie für diese experimentellen Stichprobendaten die einwegige Varianzanalyse (ANOVA) mithilfe des Tukey-Tests für mittlere Vergleiche zwischen verschiedenen Bedingungen.
ANMERKUNG: Werte von p < 0,05 wurden als statistisch signifikant betrachtet.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Multidimensionalität der Daten
Im Rahmen des hier vorgestellten Beispieldatensatzes wurden die im Abschnitt Methoden beschriebenen Probanden in Gruppen von Individuen aus den drei Familien mit der herzkrankheitserregenden LMNA-Mutation ("Patienten"), verwandten nicht-mutationsnegativen Kontrollen ("Kontrollen"), nicht-mutationsbezogenen negativen Kontrollen ("Spender") und einer Person mit Hutchinson-Gilford-Progeria-Syndrom (HGPS) als positiv kontrollierbare²⁰. Die Ergebnisse von Controls und Donors könnten angesichts ihres kollektiven Mangels an LMNA-Mutationen weiter als eine allgemeine Negative Control (N.C.)-Gruppe zusammengefasst werden. Die Zelllinie jedes Subjekts hatte einen "Mutationsstatus" zugeordnet, basierend auf ihrer Bedingungsgruppe(Abbildung 1 – dunkelblaue Achse). Für jedes Experiment wurden Fibroblastenzellen aus den Probanden nach Anordnungen von unorganisiertem (isotropem) oder mikromusterweisem (Linien) Fibronectin kultiviert, wodurch die Bedingung "Pattern Type"(Abbildung 1 – orange Achse) entsteht. Nachdem die Zellen fixiert, immungefärbt und abgebildet wurden, wurde der "Coverslip" transkribiert, da mehrere Experimente (d. h. technische Replikationen) mit den Zellen desselben Individuums(Abbildung 1 – hellgrüne Achse) durchgeführt wurden. Benutzerdefinierte MATLAB-Codes²⁰^,²¹ wurden dann verwendet, um verschiedene Aspekte von Zellkernen oder Gewebeorganisationsvariablen als "Variabler Typ" zu quantifizieren(Abbildung 1 – grün grüne Achse). Die drei Faktoren waren mit der menschlichen Quelle der Zellen verbunden und damit mit der "Familie"(Abbildung 1 – dunkelrosa Achse) und "Alter zum Zeitpunkt der Biopsie"(Abbildung 1 – dunkelgrüne Achse) zusätzlich zu "Mutationsstatus". Weitere Dimensionen, die in Abbildung 1 nicht enthalten waren, waren das "Alter der Präsentation", "Symptome", "Bedesigner" und "Geschlecht" der betreffenden Person. Das hier dargestellte Beispiel ergibt mindestens zehn mögliche Dimensionen für die Datenaggregation. Daher sind diese Beispieldaten ein erstklassiger Kandidat für die Organisation durch relationale Datenbanken.

Abbildung 1: Visualisierung mehrdimensionaler Daten aus dem LMNA-Mutationsdatensatz. Ein einzelner Cube wird durch die drei Dimensionen "Variable type", "Pattern type" und "Coverslip" definiert. Weitere Dimensionen werden als Achsen von "Mutationsstatus", "Alter der Biopsie" (Jahre) und "Familie" dargestellt. Farbige Beschriftungen entsprechen den verschiedenen angezeigten Achsen, z. B. dem Alter der Biopsie (grüne Zahlen) für den einzelnen Würfel. Hier werden sechs der zehn möglichen Dimensionen verwendet, um die Multidimensionalität experimenteller Datenpunkte zu veranschaulichen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Organisieren der Pipeline
Bis zu 95 % aller digitalen Daten sind unstrukturiert⁴, aber strukturierte Formate sind für Datenbanken erforderlich. Dennoch ist das Erstellen einer guten automatisierten Methode für die Datenpipeline stark kontextabhängig.

Abbildung 2: Tabellen- und Entwurfsansichtsbeziehungen innerhalb des LMNA-Mutationsdatensatzes. Relationale Datenbanken haben den Vorteil, dass Felder in einer Tabelle mit Informationen in einer anderen Tabelle verknüpft werden, was eine sofortige Austauschbarkeit der Aggregation ermöglicht. Das Beispiel zeigt hier visuell, wie unterschiedliche Informationen verknüpft werden können. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

In diesem Beispiel wurden die aus jedem Experiment gesammelten Bilder in Ordnern gespeichert, die nach Datum und Anfang des zuständigen Lab-Mitglieds benannt sind, wobei Unterordner das Thema und die Deckzettelnummer auflisten. Pipelinedateien werden in den ergänzenden Codierungsdateienbereitgestellt und in einer Flussdiagramm-Illustration zusammengefasst (Abbildung 3). Unterschiedliche Metriken aus verschiedenen Versuchsbedingungen für eine Vielzahl von Probanden wurden aus diesen fluoreszierenden Bildern quantifiziert (Abbildung 3A) mit benutzerdefinierten Codes (Abbildung 3B)²⁰^,²¹. Beispielsweise wurde der Actin-Orientierungsreihenfolgeparameter²¹ aus mit Phalloidin gefärbten Geweben extrahiert (Abbildung 3A) und verwendet, um die Organisation von Fibroblasten verschiedener Individuen zu vergleichen. Die Codeausgänge wurden im selben Ordner wie die Quellbilder gespeichert (Abbildung 3C).

Abbildung 3: Ein Beispiel für allgemeine Datenpipelineanforderungen in einem allgemeinen Kontext. Neue Einträge wurden mit Benutzereingaben und automatisierten Codes erstellt, wodurch wichtige Informationen in ein Tabellenformat formatiert wurden. Diese Einträge wurden mit den neuesten Datensätzen von Dateispeicherorteinträgen kombiniert, auf Fehler überprüft und dann sowohl als Tabellenkalkulation mit Dateispeicherorten als auch als Tabellenkalkulation mit Datenwerten gespeichert. Maßstabsleiste = 20 m. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Identifizieren einer neuartigen Beziehung im LMNA-Mutationsdatensatz
Bei einer Vielzahl möglicher Übereinstimmungen kann es schwierig sein, anhand manueller Datenaggregationsmethoden zu erkennen, wo neue Beziehungen bestehen. In diesem spezifischen Kontext waren wir daran interessiert, die Organisation subzellulärer Actin-Filamente über mehrere Bedingungen hinweg zu vergleichen, gemessen mit dem OOP²⁷.

Abbildung 4: Eine Beispielabfrage mit SQL-Syntax. SELECT- und FROM-Anweisungen sind Anforderungen zum Generieren einer Abfrage, aber es werden häufig zusätzliche Befehle und Kriterien eingeschlossen. GROUP BY stellt klar, wie die Daten aggregiert werden, HAVING oder WHERE-Anweisungen die Ausgabe auf Daten beschränken, die bestimmten Kriterien entsprechen, und ORDER BY gibt die Reihenfolge an, nach der die Ausgaben geordnet werden sollen. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

OOP ist ein mathematisches Konstrukt, das den Grad der Ordnung in anisotropen Umgebungen quantifiziert, normalisiert auf Null, entsprechend dem vollständig isotropen Gewebe und einem, das vollständig ausgerichtetem Gewebe entspricht. Der Datensatz wurde zunächst nach Mustertypen aufgeteilt (Abbildung 5A) und isotrope (Abbildung 5B) Bedingungen, von denen erwartet wurde, dass sie seit der Fibronectin-Mikromusterung sehr unterschiedliche OPS aufweisen, was die Gewebeorganisation stark beeinflusst. Beim Vergleich isotroper Gewebe gab es keine signifikanten Unterschiede zwischen den Bedingungen (Abbildung 5B). Umgekehrt waren die gemusterten Gewebe statistisch weniger in der positiven Kontrollzelllinie (HGPS)(Abbildung 5A) organisiert, und diese Beziehung hielt auch dann, wenn die Daten in verschiedene Gruppen aggregiert wurden (Abbildung 5C). Actin OOP wurde zusätzlich gegen das Alter von Individuen zum Zeitpunkt der Biopsie(Abbildung 5D), getrennt durch Mutationsstatus und Familie, zur Veranschaulichung der Aggregation mit einer klinischen Variable dargestellt. Anders als bei nuklearen Defekten²⁰besteht kein Zusammenhang zwischen der Organisation der Aktinität und dem Alter eines Individuums (Abbildung 5D). Letztendlich veranschaulichen die in Abbildung 5 gezeigten Diagramme, wie dieselben Daten in verschiedenen Kombinationen analysiert werden können und wie leicht die normalerweise schwierige Aufgabe, Daten zu aggregieren, die unter mehrere Klassen fallen, mithilfe von Datenbanken durchgeführt werden kann.

Für diesen Artikel wurden Daten von patientenbeschafften Fibroblasten zwischen den Bedingungen verglichen, um Die Mutationsfolgen zu bestimmen. Obwohl sowohl HGPS als auch die drei Familien in dieser Studie LMNA-verknüpfteKrankheiten haben, die potenziell die nukleare Hülle stören, zeigen die Patienten Symptome, die hauptsächlich mit Herzfunktionsstörungen verbunden sind, während HGPS-Personen mehrere Organsysteme^{haben, die betroffen}sind 22^,²³^,²⁴. Trotz der mikrogemusterten Umgebung hatten Zellen, die von einem HGPS-Patienten stammten, einen statistisch niedrigeren Actin-OOP-Wert als alle anderen betrachteten Zelllinien(Abbildung 5A,C). Dies verzahnt sich mit HGPS-Patienten, die die einzigen in der Studie mit Hautanomalien sind, die durch die Mutation verursacht werden. Das Anzeigen derselben Daten in verschiedenen Übereinstimmungen ist auch hilfreich, um zusätzliche Einblicke und Möglichkeiten für wissenschaftliche Untersuchungen in einem abwechslungsreichen Datensatz zu liefern (Abbildung 5).

Abbildung 5: Vergleiche zwischen bedingungen für die Actin OOP-Variable. (A,B) Gruppierungen entsprechen den vier primären Bedingungen: nicht verwandte Negativkontrollspender, damit verbundene Negativkontrollen, LMNA-Mutation Patienten aus drei Familien und positive Kontrolle HGPS. (C) alle Negativkontrollen (N.C.) wurden kombiniert und die Patienten wurden nach Familie (PA, PB, PC) getrennt. (D) Ein potentieller Graph des isotropen Actin OOP gegen das Alter zum Zeitpunkt der Biopsie, die für diese Studie gesammelt wurde, getrennt nach Zustand und Familie. Die Panels A, C und D werden für die Gewebe mit einem Linienmuster gemustert, während Panel B für isotrope Gewebe geplottet wird. Die statistische Signifikanz von p < 0,05 (*) wurde in den Panels A, C und D gefunden. In Panel B wurde keine Signifikanz zwischen Paaren gefunden. Alle Fehlerbalken stellen Standardabweichungen dar, die in der Datenbank berechnet werden. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.

Ergänzende Codierungsdateien. Bitte klicken Sie hier, um diese Datei anzuzeigen (Rechtsklick zum Herunterladen).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Technische Diskussion des Protokolls
Der erste Schritt bei der Prüfung der Verwendung von Datenbanken besteht darin, zu prüfen, ob die Daten von einer solchen Organisation profitieren würden.

Der nächste wichtige Schritt besteht darin, einen automatisierten Code zu erstellen, der die minimale Eingabe des Benutzers anfordert und die Tabellendatenstruktur generiert. Im Beispiel hat der Benutzer die Kategorie des Datentyps (Zellkerne oder Strukturmessungen), den Betreffbetreffbesorder der Zellenlinien und die Anzahl der ausgewählten Dateien eingegeben. Die relevanten Dateien wurden dann vom Benutzer ausgewählt (Tabelle 2, Spalte 1), wobei die Zeileneinträge automatisch erstellt und mit allen in der Datei enthaltenen Variablen aufgefüllt werden (Tabelle 2, Spalte 2). Darüber hinaus ist es wichtig, dass der Code flexibel ist, so dass der Benutzer, wenn ein weiterer experimenteller Eintrag hinzugefügt werden muss, die Schleife fortsetzen kann. Wenn nicht, werden die Dateien gespeichert und die Schleife endet. Die grundlegenden Funktionen zum Hinzufügen neuer Einträge, zum Überprüfen auf Fehler und zum Zusammenstellen der Kalkulationstabelle aus Dateispeicherorten, die in diesem Schritt beschrieben werden, sind für eine effiziente Einrichtung der Datenpipeline von entscheidender Bedeutung.

Es ist unbedingt zu beachten, dass die Verwendung von Dateispeicherorten beim Erstellen der Datenpipeline die experimentelle Strenge erhöht. Insbesondere mit einer entsprechenden Kalkulationstabelle, die alle Dateispeicherorte für die Datenwerte auflistet, kann ein Benutzer jeden Datenpunkt zurück zum Labornotizbuch des Forschers zurückverfolgen, der die Rohdaten gesammelt hat. Bei der Bearbeitung von Hunderten bis Zehntausenden von Datenpunkten ist mehr Transparenz und Zugänglichkeit über die gesamte Lebensdauer eines Projekts von unschätzbarem Wert. Es wird dringend empfohlen, dass Benutzer zuerst Dateispeicherorte und spätere Kompilierungswerte für Daten speichern sollten, anstatt nur die Datenwerte zu speichern.

Sobald die Datenbank erstellt wurde, ist der einfachste Weg, um loszulegen, indem Sie die Abfragen über die Entwurfsansicht programmieren. Der Benutzer wird es nützlich finden, die bereitgestellte Vorlage (Datei #13 in Tabelle 1) als Ausgangspunkt herunterzuladen. Alternativ können diese direkt über die SQL-Sprache (Abbildung 4) programmieren.

Wissenschaftliche Diskussion
Der Zweck dieses Artikels war die Verbreitung von Methoden mit einer Datenpipeline und einer Datenbank, die die Skalierbarkeit und Transparenz von Datensätzen aufklärten. Diese Methoden sind außerhalb der Informatik und der Wirtschaft nicht weit verbreitet, haben aber ein enormes Potenzial für diejenigen, die in biologischen Kontexten arbeiten. Da die Wissenschaft nach wie vor stärker auf Computer angewiesen ist, nimmt die Bedeutung effektiver Managementsysteme ebenfalls^{zu 6}^,²⁹. Datenbanken werden häufig für Anwendungen mit hohem Volumen und/oder hoher Geschwindigkeit verwendet und werden in der Literatur gut zitiert, insbesondere in Bezug auf deren Verwendung für klinische Patientenpopulationen⁸^,³⁰^,³¹. Einige wurden bereits für bestimmte Bereiche wie die Rat Genome Database Kurationswerkzeuge oder REDCap für klinische und translationale Forschung³²^,³³erstellt. So wurde die Verwendung von Datenbanken im klinischen Bereich⁸ oder großen genomischen Datenbanken^{übernommen 32}, ist aber in anderen wissenschaftlichen Disziplinen wie der Gewebetechnik nicht üblich geworden.

Die Probleme des Umgangs mit immer komplexeren Daten mit Tabellenkalkulationsprogrammen sind in der wissenschaftlichen Gemeinschaft seit langem anerkannt³⁴. Eine Studie berichtete, dass etwa 20% der genomischen Zeitschriftenpapiere mit ergänzenden Dateien Gennamen hatten, die fälschlicherweise in Datteln³⁵konvertiert wurden. Diese Fehler nahmen von 2010 bis 2015 um durchschnittlich 15 % pro Jahr zu und überstiegen damit den jährlichen Anstieg der Genompapiere mit 4 % pro Jahr bei weitem. Es ist oft fast unmöglich, einzelne Fehler innerhalb einer großen Datenmenge zu identifizieren, da Tabellenkalkulationsprogramme von Natur aus für eine einfache Validierung von Ergebnissen oder Formelberechnungen ungeeignet sind. Veröffentlichte Artikel existieren sogar für die Aufklärung von Wissenschaftlern über bessere Tabellenkalkulationspraktiken in dem Versuch, die Häufigkeit von Fehlern zu reduzieren⁷. Einer der größten Vorteile von Datenbanken ist die Verringerung von Fehlern durch automatisierte Methoden und die Fähigkeit, potenziell fragwürdige Daten zu validieren (Abbildung 3).

Ein wesentliches Ergebnis dieser Methodik ist die erhöhte Strenge der Datenanalyse. Wie wichtig es ist, die Reproduzierbarkeit von Daten zu erhöhen, wurde vom NIH sowie von anderen Wissenschaftlern und Institutionen hervorgehoben³⁶^,³⁷. Durch eine Tabelle mit Dateispeicherorten, die jeder Datenbank entsprechen, ist es einfach, einen Datenpunkt zurück zum Labornotizbuch des betreffenden Experiments zu verfolgen (Abbildung 3). Einzelne Datenpunkte können auch mit den entsprechenden Dateispeicherorten schnell identifiziert und elektronisch gefunden werden, was manchmal von unschätzbarem Wert ist, auch wenn sie mit der automatischen Fehlererkennung während des Datenpipeline-Prozesses gekoppelt sind. Auch wenn der Datensatz im Laufe der Zeit geändert wird, umfasst die bewährte Methode, alle vergangenen Dateien zu behalten, falls Probleme auftreten oder ältere Versionen überprüft werden müssen. Das zerstörungsfreie Arbeiten und das Halten alter Versionen innerhalb der Datenpipeline schafft Sicherheit durch Redundanz und ermöglicht eine bessere Fehlerbehebung.

Es gibt unzählige relationale Datenbankverwaltungssysteme in Kombination von Codierungssprachen, die für dieselben Datenpipelineanforderungen verwendet werden können. Die am besten geeigneten Entscheidungen hängen in hohem Maße von den verwendeten Daten und Kontexten ab. Einige Anwendungen zeichnen sich am besten durch Skalierbarkeit, Flexibilität, Zuverlässigkeit und andere Prioritäten aus⁹. Obwohl Datenbanken technisch noch begrenzt sind, liegt das Erreichen von Speichergrenzen nach wie vor außerhalb des Rahmens der meisten wissenschaftlichen Labors. Beispielsweise verfügt eine MS Access-Datenbank über eine Speichergrößenbeschränkung von 2 GB, d. h. ein Datensatz in der Größenordnung von Hunderttausenden bis Millionen von Einträgen, abhängig von den Daten und der Anzahl der Felder. Die meisten Labore werden nie experimentelle Bedürfnisse dieser Größenordnung haben, aber wenn sie es täten, dann würde Tabellenkalkulationssoftware sowieso weit über ihre effektiven Grenzen hinausgehen. Im Vergleich dazu können relationale Datenbankverwaltungssysteme auf Geschäftsebene Datensätze größerer Größenordnungen verarbeiten und gleichzeitig Millionen von Transaktionen verarbeiten²⁹. Ein Teil der Gründe, warum Datenbanken nicht häufig in wissenschaftlichen Laboratorien verwendet werden, ist, dass vergangene Experimente selten den Bedarf solcher Datengrößen decken, so dass einfach zu bedienende Tabellenkalkulationssoftware stattdessen weit verbreitet wurde. Eine erhebliche Investition, die erforderlich ist, um diese Methoden funktionsfähig zu machen, ist jedoch die Zeit, die benötigt wird, um die Datenpipeline zu planen und SQL für die Verwendung von Datenbanken zu lernen (Abbildung 3 und Abbildung 4). Obwohl die Codierung den Prozess erheblich beschleunigt, müssen die meisten SQL von Grund auf neu lernen. Eine Fülle von Dokumentationen ist online durch umfangreiche Dokumentation von Entwicklern sowie kostenlose SQL-Tutorials wie codecademy, W3Schools und SQLBolt¹⁰^,¹¹^,¹²verfügbar. Einige Alternativen, die Abonnements erfordern, existieren jedoch, wie die Programmlehr-Website Lynda³⁸; weitere Informationen zu Datenbankgrundlagen finden Sie online. In einem akademischen Umfeld können gute Labor-Buy-In- und robuste Systeme ihre Schöpfer überdauern und dazu beitragen, viele Jahre von Projekten über mehrere Studenten hinweg zu erleichtern. Dies kann durch die Erstellung von Richtlinien und Implementierungsschritten während der Einrichtung erreicht werden. In der Tat hat es für alle Forscher einen hohen Wert, ein gut funktionierendes gemeinsames Daten-Pipeline- und Datenbanksystem zu haben.

Weitere Vorteile dieser Methode sind die Möglichkeit, automatisierte Methoden zum Konvertieren von Rohdaten in strukturierte Formate zu verwenden, die Benutzerfreundlichkeit, sobald sie in der Datenbank gespeichert wurde, sowie die ständige Neuaktualisierung und Neuaggregation von Datasets(Abbildung 3). Es ist auch möglich, Informationen im Wert mehrerer Variablen aus einer einzelnen Datendatei zu ziehen und die Datenpipeline zu automatisieren, um dies zu tun, wenn Sie dazu aufgefordert werden. In dem gezeigten Kontext wurde allgemein verfügbare und wirtschaftliche Software verwendet, um Ergebnisse zu erzielen, die belegen, dass teure und Nischensoftwarepakete nicht obligatorisch sind, um eine funktionale Datenbank zu erhalten. Angesichts der begrenzten Reichweite der Forschungsmittel der meisten Laboratorien ist die Fähigkeit, die Effizienz des Datenbankmanagements zu steigern, ein unschätzbares Gut.

Mit zunehmender Komplexität wissenschaftlicher Datensätze werden Datenbanken für die wissenschaftliche Gemeinschaft immer wichtiger und haben ein großes Potenzial, so alltäglich wie und sogar effektiver zu sein als die derzeit weit verbreitete Datenquellennutzung für Daten. Speicher. Probleme mit Datentransparenz und Reproduzierzahl in der Wissenschaft werden in Zukunft nur weiter zunehmen, da die Datensätze immer größer und komplexer werden, was die Bedeutung einer breiteren Einführung von Datenbanken und automatisierten Datenpipeline-Methoden für allgemeinen wissenschaftlichen Bedarf heute und in zukunftherhin.

Referenznummer	Dateiname	Typ
1	LocationPointer.m	Rohrleitungscode
2	LocationPointerCompile.m	Rohrleitungscode
3	LocationPointer_Remove_Duplicates.m	Rohrleitungscode
4	BadPointerCheck.m	Rohrleitungscode
5	LocationPointer_Check.m	Rohrleitungscode
6	Manual_Pointer_Removal.m	Rohrleitungscode
7	Database_Generate.m	Rohrleitungscode
8	Cell_Lines.csv	Hilfstabelle
9	Data_Types.csv	Hilfstabelle
10	Pattern_Types.csv	Hilfstabelle
11	DataLocation_Comp_2018_6_26_10_01.csv	Beispiel Datenspeicherortdatei
12	DataValues_2018_6_26_10_02.csv	Beispiel Datenwerte-Datei
13	Database_Queries.accdb	Beispieldatenbank

Tabelle 1: Liste aller Beispieldateien, die zum Ausführen des Protokolls hochgeladen werden können.

Ausgewählte Datei	Variable
Zusammenfassung.mat	Anteil defekter Kerne
	Alle Kerne Flächendurchschnitt (m2)
	Defekte Kernbereichsdurchschnitt (m2)
	Normaler Nuclei-Flächendurchschnitt (m2)
	All Nuclei Exzentrizität Durchschnitt
	Defekte Kernexzentrizität Durchschnitt
	Normal Erkundizitätsdurchschnitt der Nuklei
	Alle Kerne MNC Durchschnitt
	Defekte Kerne MNC Durchschnitt
	Normaler Nuclei MNC Durchschnitt
Act_OOP.mat	Actin OOP
Act_OOP.mat	Actin OOP Director Angle
Fibro_OOP.mat	Fibronectin OOP
Fibro_OOP.mat	Fibronectin OOP Director Winkel
Nuc_OOP.mat	Kern oOP
Nuc_OOP.mat	Nuclei OOP Director Angle

Tabelle 2: Aufgelistete Auswahldateien, die unterschiedlichen Variablen von Zellkernmessungen oder OOP-Daten (Fibroblastenstruktur) entsprechen.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Die Autoren haben nichts zu verraten.

Acknowledgments

Diese Arbeit wird vom National Heart, Lung, and Blood Institute der National Institutes of Health, Fördernummer R01 HL129008, unterstützt. Die Autoren danken insbesondere den Mitgliedern der LMNA-Genmutation für ihre Teilnahme an der Studie. Wir danken auch Linda McCarthy für ihre Unterstützung bei der Zellkultur und der Pflege der Laborräume, Nasam Chokr für ihre Teilnahme an der Zellbildgebung und der Analyse von Kernen und Michael A. Grosberg für seine sachdienliche Beratung beim Einrichten unserer ersten Microsoft Access-Datenbank sowie bei der Beantwortung weiterer technischer Fragen.

Materials

Name	Company	Catalog Number	Comments
4',6'-diaminodino-2-phenylinodole (DAPI)	Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin	Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit	Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B	Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin	Corning, Corning, NY
IX-83 inverted motorized microscope	Olympus America, Center Valley, PA
Matlab R2018b	Mathworks, Natick, MA
MS Access	Microsoft, Redmond, WA
paraformaldehyde (PFA)	Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin	Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS)	Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade	Life Technologies, Carlsbad, CA
rectangular glass coverslips	Fisher Scientific Company, Hanover Park, IL
Triton-X	Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Bioengineering

Datenbanken zur effizienten Verwaltung von mittelgroßen, niedrigen Geschwindigkeiten und multidimensionalen Daten im Tissue Engineering

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.