Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Database per gestire in modo efficiente dati di medie dimensioni, a bassa velocità e multidimensionali nell'ingegneria dei tessuti

Published: November 22, 2019 doi: 10.3791/60038

Summary

Molti ricercatori generano dati "di medie dimensioni", a bassa velocità e multidimensionali, che possono essere gestiti in modo più efficiente con i database anziché con i fogli di calcolo. In questo argomento viene fornita una panoramica concettuale dei database, inclusa la visualizzazione di dati multidimensionali, il collegamento di tabelle in strutture di database relazionali, il mapping di pipeline di dati semiautomatizzate e l'utilizzo del database per chiarire il significato dei dati.

Abstract

La scienza si basa su set di dati sempre più complessi per il progresso, ma i metodi comuni di gestione dei dati come i programmi per fogli di calcolo sono inadeguati alla crescente portata e alla complessità di queste informazioni. Mentre i sistemi di gestione di database hanno il potenziale per risolvere questi problemi, non sono comunemente utilizzati al di fuori dei campi aziendali e informatici. Tuttavia, molti laboratori di ricerca generano già dati multidimensionali "di medie dimensioni", a bassa velocità, che potrebbero trarre grande beneficio dall'implementazione di sistemi simili. In questo articolo viene fornita una panoramica concettuale che spiega il funzionamento dei database e i vantaggi che offrono nelle applicazioni di ingegneria tissutale. I dati strutturali del fibroblasto proveniente da individui con mutazione Lamin A/C sono stati utilizzati per illustrare esempi all'interno di un contesto sperimentale specifico. Gli esempi includono la visualizzazione di dati multidimensionali, il collegamento di tabelle in una struttura di database relazionale, il mapping di una pipeline di dati semiautomatizzati per convertire i dati non elaborati in formati strutturati e l'spiegazione della sintassi sottostante di una query. I risultati derivanti dall'analisi dei dati sono stati utilizzati per creare grafici di vari arrangiamenti e il significato è stato dimostrato nell'organizzazione cellulare in ambienti allineati tra il controllo positivo della progeria di Hutchinson-Gilford, una noto laminopatia e tutti gli altri gruppi sperimentali. Rispetto ai fogli di calcolo, i metodi di database erano estremamente efficienti in termini di tempo, semplici da usare una volta impostati, consentito l'accesso immediato alle posizioni dei file originali e un maggiore rigore dei dati. In risposta all'enfasi del National Institutes of Health (NIH) sul rigore sperimentale, è probabile che molti campi scientifici alla fine adotteranno banche dati come pratica comune a causa della loro forte capacità di organizzare efficacemente dati complessi.

Introduction

In un'epoca in cui il progresso scientifico è fortemente guidato dalla tecnologia, la gestione di grandi quantità di dati è diventata un aspetto integrale della ricerca in tutte le discipline. L'emergere di nuovi campi come la biologia computazionale e la genomica sottolinea quanto sia diventato critico l'utilizzo proattivo della tecnologia. Queste tendenze sono sicuramente per continuare a causa della legge di Moore e progressi costanti ottenuti dai progressi tecnologici1,2. Una conseguenza, tuttavia, è l'aumento delle quantità di dati generati che superano le capacità dei metodi di organizzazione precedentemente vitali. Sebbene la maggior parte dei laboratori accademici disponga di risorse computazionali sufficienti per la gestione di insiemi di dati complessi, molti gruppi non dispongono delle competenze tecniche necessarie per costruire sistemi personalizzati adatti allo sviluppo delle esigenze3. Avere le competenze per gestire e aggiornare tali set di dati rimane fondamentale per un flusso di lavoro e un output efficienti. Colmare il divario tra dati e competenze è importante per gestire, aggiornare nuovamente e analizzare in modo efficiente un ampio spettro di dati sfaccettati.

La scalabilità è una considerazione essenziale quando si gestiscono grandi set di dati. I Big Data, ad esempio, sono un'area fiorente di ricerca che comporta la rivelazione di nuove intuizioni dall'elaborazione di dati caratterizzati da enormi volumi, grandi eterogeneità e alti tassi di generazione, come audio e video4,5. L'utilizzo di metodi automatizzati di organizzazione e analisi è obbligatorio per questo campo per gestire in modo appropriato i torrenti di dati. Molti termini tecnici utilizzati nei Big Data, tuttavia, non sono chiaramente definiti e possono creare confusione; ad esempio, i dati "ad alta velocità" sono spesso associati a milioni di nuove voci al giorno, mentre i dati "a bassa velocità" potrebbero essere solo centinaia di voci al giorno, ad esempio in un ambiente di laboratorio accademico. Anche se ci sono molte scoperte interessanti ancora da scoprire utilizzando i big data, la maggior parte dei laboratori accademici non richiedono l'ambito, il potere e la complessità di tali metodi per affrontare le proprie domande scientifiche5. Mentre è indubbio che i dati scientifici diventano sempre più complessi con il tempo6, molti scienziati continuano a utilizzare metodi di organizzazione che non soddisfano più le loro esigenze di dati in espansione. Ad esempio, comodi programmi di fogli di calcolo vengono spesso utilizzati per organizzare dati scientifici, ma a costo di essere non riscalabili, soggetti a errori e tempo inefficiente a lungo termine7,8. Al contrario, i database sono una soluzione efficace al problema in quanto sono scalabili, relativamente economici e facili da usare nella gestione di diversi set di dati di progetti in corso.

Le preoccupazioni immediate che sorgono quando si considerano gli schemi dell'organizzazione dei dati sono investimenti in termini di costi, accessibilità e tempo per la formazione e l'utilizzo. Utilizzati di frequente nelle impostazioni aziendali, i programmi di database sono più economici, essendo relativamente economici o gratuiti, rispetto ai finanziamenti necessari per supportare l'uso dei sistemi di Big Data. Infatti, esiste una varietà di software sia disponibile in commercio che open source per la creazione e la manutenzione di database, come Oracle Database, MySQL e Microsoft (MS) Access9. Molti ricercatori sarebbero anche incoraggiati a imparare che diversi pacchetti accademici MS Office sono dotati di MS Access incluso, riducendo ulteriormente le considerazioni sui costi. Inoltre, quasi tutti gli sviluppatori forniscono un'ampia documentazione online e c'è una pletora di risorse online gratuite come Codecademy, W3Schools e SQLBolt per aiutare i ricercatori a comprendere e utilizzare il linguaggio di query strutturato (SQL)10,11,12. Come qualsiasi linguaggio di programmazione, imparare a usare database e codice con SQL richiede tempo per padroneggiare, ma con le ampie risorse disponibili il processo è semplice e vale la pena investire.

I database possono essere potenti strumenti per aumentare l'accessibilità e la facilità di aggregazione dei dati, ma è importante individuare quali dati trarrebbero maggiori vantaggi da un maggiore controllo dell'organizzazione. La multidimensionalità si riferisce al numero di condizioni in base alle quali una misurazione può essere raggruppata e i database sono più potenti quando si gestiscono molte condizioni diverse13. Al contrario, le informazioni con bassa dimensionalità sono più semplici da gestire utilizzando un foglio di calcolo; ad esempio, un set di dati contenente anni e un valore per ogni anno ha un solo raggruppamento possibile (misurazioni su anni). I dati dimensionali come le impostazioni cliniche richiederebbero un grande grado di organizzazione manuale al fine di mantenere in modo efficace, un processo noioso e soggetto a errori al di là dell'ambito dei programmi di fogli di calcolo13. Anche i database non relazionali (NoSQL) svolgono una varietà di ruoli, principalmente nelle applicazioni in cui i dati non si organizzano bene in righe e colonne14. Oltre ad essere spesso open source, questi schemi organizzativi includono associazioni grafiche, dati di serie temporali o dati basati su documenti. NoSQL eccelle al livello di scalabilità migliore di SQL, ma non è in grado di creare query complesse, pertanto i database relazionali sono migliori in situazioni che richiedono coerenza, standardizzazione e modifiche ai dati su larga scala poco frequenti15. I database sono i migliori per raggruppare e riaggiornare i dati nella vasta gamma di conformazioni spesso necessarie nelle impostazioni scientifiche13,16.

L'intento principale di questo lavoro, quindi, è quello di informare la comunità scientifica circa il potenziale dei database come sistemi di gestione dei dati scalabili per "dati di medie dimensioni", a bassa velocità, nonché di fornire un modello generale utilizzando esempi specifici di esperimenti di riga cellulare di provenienza del paziente. Altre applicazioni simili includono dati geospaziali di letti fluviali, questionari da studi clinici longitudinali e condizioni di crescita microbica nei media di crescita17,18,19. Questa operazione evidenzia considerazioni comuni e utilità per la costruzione di un database accoppiato con una pipeline di dati necessaria per convertire i dati non elaborati in formati strutturati. Le nozioni di base delle interfacce di database e della codifica per i database in SQL vengono fornite e illustrate con esempi per consentire ad altri utenti di acquisire le informazioni applicabili alla creazione di framework di base. Infine, un set di dati sperimentale di esempio dimostra come i database possano essere progettati in modo semplice ed efficace per aggregare i dati sfaccettati in diversi modi. Queste informazioni forniscono contesto, commenti e modelli per assistere altri scienziati nel percorso verso l'implementazione dei database per le proprie esigenze sperimentali.

Ai fini della creazione di un database scalabile in un ambiente di laboratorio di ricerca, sono stati raccolti i dati degli esperimenti che utilizzano cellule fibroblaste umane negli ultimi tre anni. L'obiettivo principale di questo protocollo è quello di creare report sull'organizzazione di software per computer per consentire all'utente di aggregare, aggiornare e gestire i dati nel modo più efficiente in termini di costi e tempo possibile, ma vengono forniti anche i relativi metodi sperimentali per Contesto.

Configurazione sperimentale
Il protocollo sperimentale per la preparazione dei campioni è stato descritto in precedenza20,21, ed è presentato brevemente qui. I costrutti sono stati preparati da coperture rettangolari in vetro con una miscela di polidimeilsiloxane (PDMS) e agente di polimerità, applicando quindi fibronectin da 0,05 mg/mL, in linee non organizzate (isotropiche) o da 20 m con disposizioni micromodellate di 5 m di divario (linee). Le cellule fibroblaste sono state seminate al passaggio 7 (o passaggio 16 per i controlli positivi) sui coperchi dei copricopertine a densità ottimali e lasciate crescere per 48 h con i media che sono stati cambiati dopo 24 h. Le cellule sono state poi fissate utilizzando una soluzione di paraformaldeide (PFA) del 4% e 0,0005% di surfactant nonionico, seguiti dai coprilabbra immunostainsi per nuclei cellulari (4',6'-diaminodino-2-fenylinodole [DAPI]), actina (Alexa Fluor 488 phalloidin) e fibronetina (fibroneta anti-uomo del coniglio clonano È stata applicata una macchia secondaria per la fibronectina che utilizza anticorpi IgG di capra anti-coniglio (Alexa Fluor 750 capra anti-coniglio) ed agente di conservazione è stato montato su tutte le coverlips per prevenire la dissolvenza fluorescente. Lo smalto per unghie è stato utilizzato per sigillare i copricapi sui vetrini al microscopio, poi lasciati asciugare per 24 h.

Le immagini di fluorescenza sono state ottenute come descritto in precedenza20 utilizzando un obiettivo di immersione dell'olio 40x accoppiato con una telecamera a dispositivo accoppiato a carica digitale (CCD) montata su un microscopio motorizzato invertito. Dieci campi di visualizzazione selezionati casualmente sono stati immagini per ogni coverslip con un ingrandimento di 40x, corrispondente a una risoluzione di 6,22 pixel/m. Codici scritti su misura sono stati utilizzati per quantificare diverse variabili dalle immagini che descrivono i nuclei, filamenti di actina e fibronectin; i valori corrispondenti, così come i parametri organizzativi e geometrici, sono stati salvati automaticamente nei file di dati.

Linee cellulari
Una documentazione più ampia su tutte le righe di celle di dati di esempio è disponibile nelle pubblicazioni precedenti20. Per descrivere brevemente, la raccolta dei dati è stata approvata e il consenso informato è stato effettuato in conformità con UC Irvine Institutional Review Board (IRB - 2014-1253). Le cellule fibroblaste umane sono state raccolte da tre famiglie con diverse variazioni della mutazione genica lamin A/C (LMNA):mutazione eterozigomana del sito di LMNA (c.357-2A>G)22 (famiglia A); Mutazione non sense LMNA (c.736 C>T, pQ246X) nell'exon 423 (famiglia B); e Mutazione missense LMNA (c.1003C>T, pR335W) in exon 624 (famiglia C). Le cellule fibroblaste sono state raccolte anche da altri individui in ogni famiglia come controlli negativi della mutazione correlati, indicati come "controlli", mentre altri sono stati acquistati come controlli mutazioni-negativi non correlati, indicati come "donatori". Come controllo positivo, le cellule fibroblaste di un individuo con progeria di Hutchinson-Gliford (HGPS) sono state acquistate e coltivate da una biopsia cutanea presa da una paziente di 8 anni con HGPS in possesso di una mutazione del punto LMNA G608G25. In totale, i fibroblasti di 22 individui sono stati testati e utilizzati come dati in questo lavoro.

Tipi di dati
I dati del fibroblasto rientravano in una delle due categorie: variabili nuclei cellulari (cioè, percentuale di nuclei dismorfici, area di nuclei, eccentricità dei nuclei)20 o variabili strutturali derivanti dal parametro di ordine di orientamento (OOP)21,26,27 (cioè, actin OOP, fibronectinO, nuclei OOP). Questo parametro è uguale all'eigenvalue massimo del tensore medio di tutti i vettori di orientamento ed è definito in dettaglio nelle pubblicazioni precedenti26,28. Questi valori sono aggregati in una varietà di possibili conformazioni, come i valori contro l'età, il sesso, lo stato della malattia, la presenza di alcuni sintomi, ecc. Esempi di utilizzo di queste variabili sono disponibili nella sezione dei risultati.

Codici e file di esempio
I codici di esempio e gli altri file basati sui dati precedenti possono essere scaricati con questo documento e i relativi nomi e tipi sono riepilogati nella tabella 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: vedere Tabella dei materiali per le versioni software utilizzate in questo protocollo.

1. Valutare se i dati trarrebbero vantaggio da uno schema di organizzazione del database

  1. Scaricare i codici e i database di esempio (vedere File di codifica supplementari, riepilogati nella tabella 1).
  2. Utilizzare Figura 1 per valutare se il set di dati di interesse è "multidimensionale".
    NOTA: Figura 1 è una rappresentazione grafica di un database multidimensionale fornito per il set di dati di esempio.
  3. Se i dati possono essere visualizzati in una forma "multidimensionale" come nell'esempio e se la capacità di correlare un risultato sperimentale specifico a una qualsiasi delle dimensioni (cioè le condizioni) consentirebbe una maggiore comprensione scientifica dei dati disponibili, procedere a costruire un database relazionale.

2. Organizzare la struttura del database

NOTA: i database relazionali archiviano le informazioni sotto forma di tabelle. Le tabelle sono organizzate in schema di righe e colonne, in modo simile ai fogli di calcolo, e possono essere utilizzate per collegare le informazioni di identificazione all'interno del database.

  1. Organizzare i file di dati, in modo che abbiano ben pensato nomi univoci. La procedura consigliata con le convenzioni di denominazione dei file e le strutture delle sottocartelle delle cartelle, se eseguita in modo positivo, consente un'ampia scalabilità del database senza compromettere la leggibilità dell'accesso manuale ai file. È esempio l'aggiunta di file di data in un formato coerente, ad esempio "20XX-YY-z" e denominare le sottocartelle in base ai metadati.
  2. Durante la progettazione della struttura di base dei dati, disegnare relazioni tra i campi in tabelle diverse. Pertanto, la multidimensionalità viene gestita mettendo in relazione campi diversi (ovvero colonne nelle tabelle) nelle singole tabelle tra loro.
  3. Creare la documentazione Leggio che descrive il database e le relazioni create nel passaggio 2.2. Una volta collegata una voce tra tabelle diverse, tutte le informazioni associate sono correlate a tale voce e possono essere utilizzate per chiamare query complesse per filtrare le informazioni desiderate.
    NOTA: i documenti Leggimi sono una soluzione comune per fornire informazioni supplementari e informazioni strutturali di database su un progetto senza aggiungere dati non uniformi alla struttura.
  4. Dopo i passaggi 2.1-2.3, rendere il risultato finale simile a questo esempio in cui le diverse caratteristiche degli individui (Figura 2A) sono correlate ai dati sperimentali associati di tali individui (Figura 2B). Lo stesso è stato fatto attraverso le colonne relative di tipi di pattern (Figura 2C) e i tipi di dati (Figura 2D) alle voci corrispondenti nella tabella dei valori dei dati principale per spiegare varie notazioni a sintassiabbreviata( Figura 2B).
  5. Determinare tutti i punti dati essenziali e semplicemente utili che devono essere registrati per la raccolta di dati a lungo raggio.
    NOTA: Un vantaggio chiave dell'utilizzo dei database rispetto ai programmi per fogli di calcolo, come accennato in precedenza, è la scalabilità: i punti dati aggiuntivi possono essere aggiunti in modo banale in qualsiasi momento e i calcoli, come le medie, vengono immediatamente aggiornati per riflettere i punti dati appena aggiunti.
    1. Identificare le informazioni necessarie per la creazione di punti dati distinti prima di iniziare. Lasciare i dati grezzi intatti, invece di modificarli o salvarlo sopra, in modo che la rianalisi sia possibile e accessibile.
      NOTA: per l'esempio specificato (Figura 2), il "Designatore" corrispondente a un individuo, "Tipo di modello", "Coverslip " e "Tipo di variabile" erano tutti i campi vitali per la distinzione del valore associato.
    2. Se lo si desidera, aggiungere altre informazioni utili e non vitali, ad esempio il "Totale numero di Coverslips" per indicare il numero di ripetizioni eseguite e determinare se in questo esempio mancano punti dati.

3. Impostare e organizzare la pipeline

  1. Identificare tutti i vari esperimenti e metodi di analisi dei dati che potrebbero portare alla raccolta dei dati insieme alle normali procedure di archiviazione dei dati per ogni tipo di dati. Lavora con software di controllo della versione open source come GitHub per garantire la coerenza necessaria e il controllo della versione, riducendo al minimo il carico degli utenti.
  2. Se possibile, creare una procedura per una denominazione e un'archiviazione coerenti dei dati per consentire una pipeline automatizzata.
    NOTA: nell'esempio, gli output sono stati tutti denominati in modo coerente, creando così una pipeline di dati che cercava attributi specifici era semplice dopo aver selezionato i file. Se non è possibile una denominazione coerente, le tabelle nel database dovranno essere popolate manualmente, operazione sconsigliata.
  3. Utilizzare qualsiasi linguaggio di programmazione pratico per generare nuove voci di dati per il database.
    1. Creare piccole tabelle "helper" (file #8, #10 nella tabella 1) in file separati in grado di guidare la selezione automatica dei dati. Questi file servono come un modello di possibilità per la pipeline di operare sotto e sono facili da modificare.
    2. Per generare nuove voci di dati per la pipeline di dati (Figura 3D), programmare il codice (LocationPointer.m, file #1 nella tabella 1) per utilizzare le tabelle helper come input da selezionare dall'utente (file #8 #10 nella tabella 1).
    3. Da qui, assemblare un nuovo foglio di calcolo delle posizioni dei file combinando le nuove voci con le voci precedenti (Figura 3E). Creare un codice per automatizzare questo passaggio, come illustrato in LocationPointerCompile.m (file #2 nella tabella 1).
    4. Successivamente, controlla questo foglio di calcolo unito per i duplicati, che dovrebbero essere rimossi automaticamente. Creare un codice per automatizzare questo passaggio, come illustrato in LocationPointer_Remove_Duplicates.m (#3 del file nella tabella 1).
    5. Inoltre, controllare il foglio di calcolo per gli errori e notificare all'utente il motivo e la posizione (Figura 3F). Creare un codice per automatizzare questo passaggio, come illustrato in BadPointerCheck.m (file #4 nella tabella 1). In alternativa, scrivere un codice che controllerà il database compilato e identificherà i duplicati in un unico passaggio, come illustrato in LocationPointer_Check.m (#5 dei file nella tabella 1).
    6. Creare un codice per consentire all'utente di rimuovere manualmente i punti non valida senza perdere l'integrità del database, come illustrato in Manual_Pointer_Removal.m (file #6 nella tabella 1).
    7. Utilizzare quindi i percorsi dei file per generare un foglio di calcolo del valore dei dati (Figura 3G, file #12 nella tabella 1) e per creare un elenco più aggiornato di voci a cui è possibile accedere per identificare le posizioni dei file o unite a voci future (Figura 3H). Creare un codice per automatizzare questo passaggio, come illustrato in Database_Generate.m (file #7 nella tabella 1).
  4. Verificare che la pipeline si aggiunga al rigore sperimentale controllando l'inclusione di convenzioni di denominazione rigorose, codici di assemblaggio file automatizzati e controlli automatici degli errori come descritto in precedenza.

4. Creare il database e le query

NOTA: se le tabelle archiviano informazioni nei database, le query sono richieste al database per informazioni in base a criteri specifici. Esistono due metodi per creare il database: a partire da un documento vuoto o a partire dai file esistenti. Figura 4 viene illustrata una query di esempio utilizzando la sintassi SQL progettata per l'esecuzione utilizzando le relazioni di database illustrate nella Figura 2.

  1. Metodo 1: A partire da zero nella creazione del database e delle query
    1. Creare un documento di database vuoto.
    2. Caricare le tabelle helper (file #8 #10 nella tabella 1) selezionando Dati esterni . Importazione di file di testo Scegliere File (file #8-#10) Proprietà Delimited . La prima riga contiene intestazioni, virgola lasciare l'impostazione predefinita Scegliere la chiave primaria personale (Designator per le righe di cella file #8, nome variabile per i tipi di dati #9 del file, nome pat per tipo di modello file #10) lasciare l'impostazione predefinita Fine .
    3. Caricare la tabella dei valori dei dati (file #12 nella tabella 1) selezionando Dati esterni Importazione di file di testo Scegliere File (#12 di file) Proprietà Delimited . La prima riga contiene intestazioni, virgola lasciare l'impostazione predefinita Consentire all'accesso di aggiungere la chiave primaria. Importa nella tabella: DataValues Fine .
    4. Creare le relazioni selezionando Strumenti di database. Proprietà Relationships (Relazioni) Trascinare tutte le tabelle sulla bacheca Modifica delle relazioni Creazione di nuovo . Corrispondenza dei campi DataValue con i designatori delle tabelle helper . Tipo di giunto 3.
    5. Selezionare Crea . Struttura query.
    6. Selezionare o trascinare tutte le tabelle pertinenti nella finestra superiore. In questo esempio 'Cell Lines', 'Data Values', 'Data Types' e 'Pattern Type'. Le relazioni devono essere impostate automaticamente in base alla progettazione della relazione precedente.
    7. Compilare le colonne della query per i risultati desiderati, ad esempio:
      1. Fare clic su Mostra . Totali.
      2. Compilare la prima colonna (Tabella: DataValues, Campo: DataVar, Totale: GroupBy, Criteri: "Act_OOP"), la seconda colonna (Tabella: DataValues, Campo: PatVar, Totale: GroupBy, Criteri: "Linee") e la terza colonna (Tabella: Cell_Lines, Campo: Designatore, Totale: GroupBy, Sort: Crescente).
      3. Compilare la quarta colonna (Tabella: DataValues, Campo: Parametro, Totale: Ave), la quinta colonna (Tabella: DataValues, Campo: Parametro, Totale: Dev) e la sesta colonna (Tabella: DataValues, Campo: Parametro, Totale: Conteggio).
    8. Eseguire la query.
  2. In alternativa, utilizzare il database di esempio fornito come base per esempi. Aprire il file di database Database_Queries.accdb (file #13 nella tabella 1) scaricato in precedenza. Utilizzarlo come modello sostituendo le tabelle esistenti con i dati di interesse.

5. Spostare le tabelle di output in un software statistico per l'analisi della significatività

  1. Per questo esempio di dati sperimentali, utilizzare l'analisi unidirezionale della varianza (ANOVA) utilizzando il test di Tukey per confronti medi tra varie condizioni.
    NOTA: i valori di p < 0,05 sono stati considerati statisticamente significativi.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Multidimensionalità dei dati
Nel contesto del set di dati di esempio qui presentato, i soggetti, descritti nella sezione Metodi, sono stati divisi in gruppi di individui delle tre famiglie con la mutazione LMNA che causa la malattia cardiaca ("Pazienti"), i relativi controlli negativi non mutazione ("Controlli"), controlli negativi non mutazionali non correlati ("donatori") e un individuo con sindrome di Hutchinson-Gilford progeria (HGPS) come controllo positivo20. I risultati dei controlli e dei donatori potrebbero essere ulteriormente raggruppati come gruppo generale di controllo negativo (N.C.), data la loro mancanza collettiva di mutazioni LMNA. Alla linea cellulare di ogni soggetto era associato uno "Stato mutazione", in base al loro gruppo di condizioni(Figura 1 – asse blu scuro). Per ogni esperimento, le cellule fibroblaste dei soggetti sono state coltivate su disposizioni di fibronectina non organizzata (isotropica) o micromodellata (linee), creando la condizione di "Tipo di modello" (Figura 1 – asse arancione). Dopo che le cellule sono state fissate, immunostainse e immagini, è stata trascritta la "Coverslip n." dal momento che più esperimenti (cioè repliche tecniche) si sarebbero verificati utilizzando le cellule dello stesso individuo (Figura 1 – asse verde chiaro). I codici MATLAB personalizzati20,21 sono stati poi utilizzati per quantificare diversi aspetti dei nuclei cellulari o delle variabili dell'organizzazione dei tessuti come "Tipo variabile"(Figura 1 – Asse verde acqua). I tre fattori sono stati associati alla fonte umana delle cellule e di conseguenza legati alla "Famiglia" (Figura 1 – asse rosa scuro) e "Età al momento della biopsia" (Figura 1 – asse verde scuro) oltre a "Stato mutazione". Altre dimensioni non incluse nella Figura 1 sono state l'"Età della presentazione", "Sintomi", "Designatore" e "Genere" dell'individuo in questione. L'esempio fornito qui restituisce almeno dieci dimensioni possibili per l'aggregazione dei dati. Pertanto, questi dati di esempio sono un candidato principale per l'organizzazione da parte di database relazionali.

Figure 1
Figura 1: visualizzazione di dati multidimensionali dal set di dati di mutazione LMNA. Un singolo cubo è definito dalle tre dimensioni di "Tipo variabile", "Tipo di modello" e "Coverslip . Altre dimensioni sono mostrate come gli assi di "Stato mutazione", "Età della biopsia" (anni) e "Famiglia". Le etichette colorate corrispondono ai diversi assi mostrati, come l'età della biopsia (numeri verdi) per il cubo di ogni individuo. Qui, sei delle dieci dimensioni possibili vengono utilizzate per illustrare la multidimensionalità dei punti dati sperimentali. Fare clic qui per visualizzare una versione più grande di questa figura.

Organizzazione della pipeline
Si stima che fino a una stima il 95% di tutti i dati digitali non sia strutturato4, ma i formati strutturati sono necessari per i database. Tuttavia, la creazione di un buon metodo automatizzato per la pipeline di dati dipende fortemente dal contesto.

Figure 2
Figura 2: relazioni tra tabelle e viste di progettazione all'interno del set di dati di mutazione LMNA. I database relazionali hanno il vantaggio di collegare i campi in una tabella con le informazioni in un'altra tabella, che consente l'intercambiabilità immediata dell'aggregazione. L'esempio qui dimostra visivamente come diverse informazioni possono essere collegate. Fare clic qui per visualizzare una versione più grande di questa figura.

Per questo esempio, le immagini raccolte da ogni esperimento sono state archiviate in cartelle denominate per data e iniziale del membro del laboratorio responsabile, con sottocartelle che elencano l'oggetto e il numero coverslip. I file di pipeline vengono forniti in File di codifica supplementari, nonché riepilogati in un grafico di flusso (Figura 3). Diverse metriche da varie condizioni sperimentali in una varietà di soggetti sono state quantificate da queste immagini fluorescenti (Figura 3A) utilizzando codici personalizzati (Figura 3B)20,21. Ad esempio, il parametro actin orientational orderparameter 21 è stato estratto dai tessuti macchiati di faglioidina (Figura 3A) e utilizzato per confrontare l'organizzazione di fibroblasti di individui diversi. Gli output del codice sono stati salvati nella stessa cartella delle immagini di origine (Figura 3C).

Figure 3
Figura 3: Esempio di esigenze comuni di pipeline di dati in un contesto generalizzato. Nuove voci sono state create utilizzando input utente e codici automatici, la formattazione di informazioni importanti in un formato di foglio di calcolo. Queste voci sono state combinate con il set più recente di voci di posizione dei file, controllate per individuare eventuali errori, quindi archiviate sia come foglio di calcolo di posizioni di file che come foglio di calcolo dei valori dei dati. Barra di scala 20 m. Fare clic qui per visualizzare una versione più grande di questa figura.

Identificazione di una nuova relazione nel set di dati di mutazione LMNA
Quando viene data una moltitudine di possibili conformazioni, può essere difficile identificare dove esistono nuove relazioni utilizzando metodi di aggregazione manuale dei dati. In questo contesto specifico, eravamo interessati a confrontare l'organizzazione di filamenti di actina subcellulare in più condizioni, misurate utilizzando l'OOP27.

Figure 4
Figura 4: Una query di esempio che utilizza la sintassi SQL. Le istruzioni SELECT e FROM sono requisiti per generare una query, ma vengono spesso inclusi comandi e criteri aggiuntivi. GROUP BY fornisce chiarimenti sull'aggregazione dei dati, le istruzioni HAVING o WHERE limitano l'output ai dati che soddisfano criteri specifici e ORDER BY indica l'ordine in base al quale devono essere disposti gli output. Fare clic qui per visualizzare una versione più grande di questa figura.

OOP è un costrutto matematico che quantifica il grado di ordine in ambienti anisotropici, normalizzato a zero corrispondente al tessuto completamente isotropico e uno corrispondente al tessuto completamente allineato. Il set di dati è stato prima suddiviso per tipo di modello come linee (Figura 5A) e condizioni isotropiche (Figura 5B), che si prevedevano avere OOP molto diverse dal micropatterning fibronectina influenza pesantemente l'organizzazione dei tessuti. Non c'erano differenze significative tra le condizioni durante il confronto dei tessuti isotropici (Figura 5B). Al contrario, i tessuti con motivi erano statisticamente meno organizzati nella linea di cella di controllo positivo (HGPS)(Figura 5A) e questa relazione era contenuta anche quando i dati venivano aggregati in gruppi diversi (Figura 5C). Actin OOP è stato inoltre tracciato contro l'età degli individui al momento della biopsia ( Figura 5D), separati dallo stato dimutazionee dalla famiglia, per illustrare l'aggregazione rispetto a una variabile clinica. A differenza dei difetti nucleari20, non esiste alcuna correlazione tra l'organizzazione actin e l'età di un individuo (Figura 5D). In definitiva, i grafici illustrati nella Figura 5 illustrano come gli stessi dati possono essere analizzati in combinazioni diverse e quanto facilmente l'attività normalmente difficile di aggregazione dei dati che rientra in più classi può essere eseguita utilizzando database.

Per questo articolo, i dati provenienti dai fibroblasti di provenienza del paziente sono stati confrontati tra le condizioni per determinare le conseguenze della mutazione. Anche se sia l'HGPS che le tre famiglie in questo studio hanno malattie legate a LMNAche potenzialmente disturbano l'involucro nucleare, i pazienti presentano sintomi principalmente associati alla disfunzione cardiaca, mentre gli individui HGPS hanno più sistemi di organi affetti22,23,24. Infatti, nonostante le cellule ambientali micromodellate provenienti da un paziente HGPS avessero un valore OOP actin statisticamente inferiore rispetto a qualsiasi altra linea cellulare considerata (Figura 5A,C). Questo combina con i pazienti HGPS essendo gli unici nello studio con eventuali anomalie cutanee causate dalla mutazione. La visualizzazione degli stessi dati in diverse conformazioni è utile anche per fornire ulteriori approfondimenti e vie di ricerca scientifica in un set di dati vario (Figura 5).

Figure 5
Figura 5: Confronti tra le condizioni per la variabile actin OOP. I raggruppamenti di (A,B) corrispondono alle quattro condizioni primarie: donatori di controllo negativo non correlati, relativi controlli negativi, mutazione LMNA Pazienti di tre famiglie e HGPS di controllo positivo. (C) tutti i controlli negativi (N.C.) sono stati combinati e i pazienti sono stati separati da famiglia (PA, PB, PC) invece. (D) Un potenziale grafico dell'atto isotropico in OOP contro l'età al momento della biopsia raccolta per questo studio, separato per condizione e famiglia. I pannelli A, C e D sono tracciati per i tessuti micropatterned con un modello Lines, mentre il pannello B viene tracciato per i tessuti isotropici. La rilevanza statistica di p < 0,05 (-), è stata trovata nei pannelli A, C e D. Nel pannello B non è stato trovato alcun significato tra le coppie. Tutte le barre di errore rappresentano le deviazioni standard calcolate all'interno del database. Fare clic qui per visualizzare una versione più grande di questa figura.

File di codifica supplementari. Fare clic qui per visualizzare questo file (fare clic con il pulsante destro del mouse per scaricare).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Discussione tecnica del protocollo
Il primo passaggio quando si considera l'utilizzo dei database consiste nel valutare se i dati trarrebbero vantaggio da tale organizzazione.

Il passaggio essenziale successivo consiste nel creare un codice automatizzato che richiederà l'input minimo all'utente e genererà la struttura dei dati della tabella. Nell'esempio, l'utente ha immesso la categoria del tipo di dati (nuclei cellulari o misure strutturali), il designatore del soggetto delle linee cellulari e il numero di file selezionati. I file pertinenti sono stati quindi selezionati dall'utente (Tabella 2, colonna 1), con le voci di riga create e popolate automaticamente con tutte le variabili contenute nel file (Tabella 2, colonna 2). Inoltre, è importante che il codice sia flessibile in modo che se è necessario aggiungere un'altra voce sperimentale, l'utente può scegliere di continuare il ciclo; in caso contrario, i file vengono salvati e il ciclo termina. Le funzioni di base per l'aggiunta di nuove voci, il controllo degli errori e l'assemblaggio del foglio di calcolo da posizioni di file descritte in questo passaggio sono tutte fondamentali per un'efficiente configurazione della pipeline dei dati.

È imperativo notare che l'utilizzo di percorsi di file durante la creazione della pipeline di dati aumenta il rigore sperimentale. In particolare, la presenza di un foglio di calcolo corrispondente che elenca tutte le posizioni dei file per i valori dei dati consente all'utente di eseguire il backtracking di qualsiasi punto di dati al blocco appunti del ricercatore che ha raccolto i dati non elaborati. Quando si tratta di centinaia di decine di migliaia di punti dati, una maggiore trasparenza e accessibilità è inestimabile per tutta la durata di un progetto. È consigliabile che gli utenti considerino la possibilità di salvare prima i percorsi dei file e successivamente compilare i valori per i dati anziché archiviare solo i valori dei dati.

Una volta creato il database, il modo più semplice per iniziare consiste nel programmare le query tramite la visualizzazione di progettazione. L'utente troverà utile scaricare il modello fornito (file #13 nella tabella 1) come punto di partenza. In alternativa, questi possono essere programmati direttamente tramite il linguaggio SQL (Figura 4).

Discussione scientifica
Lo scopo di questo articolo era quello di diffondere i metodi che coinvolgono una pipeline di dati e un database che chiarivano la scalabilità e la trasparenza del set di dati. Questi metodi non sono ampiamente utilizzati al di fuori dell'informatica e del business, ma hanno un enorme potenziale per coloro che lavorano in contesti biologici. Poiché la scienza continua a fare affidamento sui computer in modo più pesante, anche l'importanza di sistemi di gestione efficaci aumentadi 6,29. I database sono spesso utilizzati per applicazioni ad alto volume e/o ad alta velocità e sono ben citati nella letteratura, in particolare per quanto riguarda il loro utilizzo per le popolazioni di pazienti clinici8,30,31. Diversi sono già stati costruiti per settori specifici come gli strumenti di cura del Database del genoma del ratto o REDCap per la ricerca clinica e traslazionale32,33. Pertanto, l'uso di basi di dati è stato adottato nel dominio clinico8 o grandi database genomici32, ma non è diventato comune in altre discipline scientifiche come l'ingegneria tissutale.

I problemi di gestione di dati sempre più complessi utilizzando programmi di fogli di calcolo sono stati a lungo riconosciuti all'interno della comunità scientifica34. Uno studio ha riferito che circa il 20% degli articoli genomici della rivista con file supplementari aveva nomi genici che sono stati erroneamente convertiti in date35. Questi errori sono aumentati in media del 15% all'anno dal 2010 al 2015, superando di gran lunga l'aumento annuale dei documenti genomici del 4% all'anno. Spesso è quasi impossibile identificare singoli errori all'interno di un grande volume di dati, poiché per natura i programmi di fogli di calcolo non sono adatti per una facile convalida dei risultati o dei calcoli delle formule. Esistono anche articoli pubblicati per educare gli scienziati a migliori pratiche di fogli di calcolo nel tentativo di ridurre la frequenza degli errori7. Uno dei vantaggi più importanti dei database è la riduzione degli errori attraverso metodi automatizzati e la capacità di convalidare dati potenzialmente discutibili (Figura 3).

Un risultato significativo di questa metodologia è l'accresciuto rigore dell'analisi dei dati. L'importanza di aumentare la riproducibilità dei dati è stata evidenziata dal NIH e da altri scienziati e istituzioni36,37. Avendo un foglio di calcolo di posizioni di file corrispondenti a ogni database, è facile tracciare un punto dati al blocco appunti lab dell'esperimento in questione (Figura 3). I singoli punti dati possono anche essere rapidamente identificati e trovati elettronicamente utilizzando le posizioni dei file corrispondenti, il che è a volte inestimabile, anche se accoppiato con lo screening automatico degli errori durante il processo di pipeline dei dati. Anche se il set di dati viene modificato nel tempo, le procedure consigliate implicano la conservazione di tutti i file precedenti nel caso in cui si verifichino problemi o che le versioni precedenti debbano essere controllate. Lavorare in modo non distruttivo e mantenere le versioni precedenti all'interno della pipeline dei dati crea sicurezza attraverso la ridondanza e consente una migliore risoluzione dei problemi.

Esistono una miriade di sistemi di gestione di database relazionali in combinazione di linguaggi di codifica che possono essere utilizzati per le stesse esigenze di pipeline di dati. Le scelte più appropriate dipendono fortemente dai dati e dal contesto utilizzati; alcune applicazioni eccellono al meglio in scalabilità, flessibilità, affidabilità e altre priorità9. Anche se i database sono ancora tecnicamente finiti in scala, il raggiungimento dei limiti di memoria rimane oltre l'ambito della maggior parte dei laboratori scientifici. Ad esempio, un database MS Access ha un limite di dimensione della memoria di 2 GB, che sarebbe un set di dati nell'ordine di centinaia di migliaia a milioni di voci a seconda dei dati e del numero di campi. La maggior parte dei laboratori non avrà mai esigenze sperimentali di questa portata, ma se lo facessero allora il software di foglio di calcolo sarebbe comunque ben oltre i loro limiti di efficacità. In confronto, i sistemi di gestione di database relazionali di livello aziendale possono gestire set di dati di grandi dimensioni durante l'elaborazione di milioni di transazioni contemporaneamente29. Parte del motivo per cui i database non sono comunemente utilizzati nei laboratori scientifici è che gli esperimenti passati raramente si stemmano esigenze di tali dimensioni dei dati, così facile da usare software foglio di calcolo è diventato diffuso invece. Un investimento significativo necessario per far funzionare questi metodi, tuttavia, è il tempo necessario per pianificare la pipeline dati e imparare SQL per l'utilizzo di database (Figura 3 e Figura 4). Anche se l'esperienza di codifica accelera notevolmente il processo, la maggior parte dovrà imparare SQL da zero. Una vasta documentazione è disponibile online attraverso una vasta documentazione da parte degli sviluppatori, così come esercitazioni SQL gratuite come Codecademy, W3Schools, e SQLBolt10,11,12. Esistono alcune alternative che richiedono abbonamenti, tuttavia, come il sito di insegnamento del programma Lynda38; ulteriori letture sulle nozioni di base del database sono disponibili online. In un ambiente accademico, un buon buy-in di laboratorio e sistemi robusti possono sopravvivere ai loro creatori e contribuire a facilitare molti anni di progetti tra più studenti. Questa operazione può essere eseguita attraverso la creazione di linee guida e passaggi di implementazione durante l'installazione. In effetti, per tutti i ricercatori vi è un valore elevato nell'avere un sistema di database e pipeline di dati congiunti ben funzionante.

Altri vantaggi di questa metodologia includono la possibilità di utilizzare metodi automatizzati per convertire i dati non elaborati in formati strutturati, la facilità d'uso una volta archiviati all'interno del database e il costante aggiornamento e riaggregazione dei set di dati (Figura 3). È anche possibile estrarre le informazioni del valore di più variabili da un singolo file di dati e automatizzare la pipeline dei dati per farlo quando richiesto. Nel contesto mostrato, software comunemente disponibile ed economico è stato utilizzato per ottenere risultati dimostrando che i pacchetti software costosi e di nicchia non sono obbligatori nel raggiungimento di un database funzionale. Data la portata limitata dei fondi di ricerca della maggior parte dei laboratori, la capacità di aumentare l'efficienza della gestione dei database è una merce inestimabile.

In conclusione, man mano che i set di dati scientifici diventano più complessi, le banche dati diventano sempre più importanti per la comunità scientifica e hanno un grande potenziale per essere tanto comuni quanto e ancora più efficaci dell'attuale diffuso utilizzo di fogli di calcolo per i dati Archiviazione. I problemi relativi alla trasparenza dei dati e alla replicabilità della scienza continueranno ad espandersi solo in futuro, poiché i set di dati continueranno a crescere in termini di dimensioni e complessità, evidenziando l'importanza di un'adozione più diffusa di database e di metodi automatizzati di pipeline di dati per esigenze scientifiche generali ora e in futuro.

Numero di riferimento Nome file digitare
1 LocationPointer.m Codice della riga della tubazione
2 LocationPointerCompile.m Codice della riga della tubazione
3 LocationPointer_Remove_Duplicates.m Codice della riga della tubazione
4 BadPointerCheck.m Codice della riga della tubazione
5 LocationPointer_Check.m Codice della riga della tubazione
6 Manual_Pointer_Removal.m Codice della riga della tubazione
7 Database_Generate.m Codice della riga della tubazione
8 Cell_Lines.csv Tabella helper
9 Data_Types.csv Tabella helper
10 Pattern_Types.csv Tabella helper
11 DataLocation_Comp_2018_6_26_10_01.csv File di percorso dei dati di esempioExample Data Location File
12 DataValues_2018_6_26_10_02.csv File dei valori di dati di esempioExample Data Values File
13 Database_Queries.accdb Database di esempio

Tabella 1: elenco di tutti i file di esempio che possono essere caricati per eseguire il protocollo.

File selezionato Variabile
Summary.mat Proporzione di nuclei difettosi
Media di tutti i Nuclei (M2)
Media dell'area nuclei difettosa (m2)
Media dell'area dei nuclei normali (M2)
Media Eccentricità Tutti I Nuclei
Difettoso Nuclei Eccentricità Media
Media di eccentricità dei nuclei normali
Tutti i nuclei MNC Media
Nuclei difettosi MNC Media
Nuclei normali MNC Media
Act_OOP.mat Actin OOP
Actin OOP Direttore Angle
Fibro_OOP.mat FibronectinO OOP
Fibronectin OOP Direttore Angle
Nuc_OOP.mat Nuclei OOP
Angolo del direttore di Nuclei OOP

Tabella 2: Elencati i file di selezione che corrispondono a diverse variabili delle misurazioni dei nuclei cellulari o dei dati strutturali del fibroblasto (OOP).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Gli autori non hanno nulla da rivelare.

Acknowledgments

Questo lavoro è supportato dal National Heart, Lung, and Blood Institute presso i National Institutes of Health, numero di sovvenzione R01 HL129008. Gli autori ringraziano in particolare i membri della famiglia della mutazione genica LMNA per la loro partecipazione allo studio. Vorremmo anche ringraziare Linda McCarthy per la sua assistenza nella coltura cellulare e il mantenimento degli spazi di laboratorio, Nasam Chokr per la sua partecipazione all'imaging cellulare e all'analisi dei dati nuclei, e Michael A. Grosberg per i suoi consigli pertinenti con la creazione del nostro database iniziale di Microsoft Access e la risposta ad altre domande tecniche.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

Bioingegneria Numero 153 dati di medie dimensioni banche dati LMNA organizzazione di dati dati multidimensionali ingegneria tissutale
Database per gestire in modo efficiente dati di medie dimensioni, a bassa velocità e multidimensionali nell'ingegneria dei tessuti
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter