Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Bioengineering

Bases de datos para gestionar eficientemente datos de tamaño medio, baja velocidad y multidimensionales en ingeniería de tejidos

Published: November 22, 2019 doi: 10.3791/60038

Summary

Muchos investigadores generan datos "de tamaño medio", de baja velocidad y multidimensionales, que se pueden gestionar de forma más eficiente con bases de datos en lugar de hojas de cálculo. Aquí proporcionamos una visión general conceptual de las bases de datos, incluida la visualización de datos multidimensionales, la vinculación de tablas en estructuras de bases de datos relacionales, la asignación de canalizaciones de datos semiautomáticas y el uso de la base de datos para dilucidar el significado de los datos.

Abstract

La ciencia se basa en conjuntos de datos cada vez más complejos para el progreso, pero los métodos comunes de administración de datos, como los programas de hojas de cálculo, son inadecuados para la creciente escala y complejidad de esta información. Si bien los sistemas de gestión de bases de datos tienen el potencial de corregir estos problemas, no se utilizan comúnmente fuera de los campos de negocio e informática. Sin embargo, muchos laboratorios de investigación ya generan datos multidimensionales de "tamaño medio", baja velocidad que podrían beneficiarse en gran medida de la implementación de sistemas similares. En este artículo, proporcionamos una visión general conceptual que explica cómo funcionan las bases de datos y las ventajas que proporcionan en las aplicaciones de ingeniería de tejidos. Los datos estructurales de fibroblastos de individuos con una mutación de A/C lamin se utilizaron para ilustrar ejemplos dentro de un contexto experimental específico. Entre los ejemplos se incluyen la visualización de datos multidimensionales, la vinculación de tablas en una estructura de base de datos relacional, la asignación de una canalización de datos semiautomatizada para convertir datos sin procesar en formatos estructurados y la explicación de la sintaxis subyacente de una consulta. Los resultados del análisis de los datos se utilizaron para crear parcelas de diversos arreglos y significado se demostraron en la organización celular en entornos alineados entre el control positivo de hutchinson-Gilford progeria, una laminronopatía bien conocida y todos los demás grupos experimentales. En comparación con las hojas de cálculo, los métodos de base de datos eran enormemente eficientes en el tiempo, fáciles de usar una vez configurados, permitían el acceso inmediato a las ubicaciones de archivos originales y aumentaban el rigor de los datos. En respuesta al énfasis de los Institutos Nacionales de Salud (NIH) en el rigor experimental, es probable que muchos campos científicos finalmente adopten bases de datos como práctica común debido a su fuerte capacidad para organizar eficazmente datos complejos.

Introduction

En una época en la que el progreso científico está fuertemente impulsado por la tecnología, el manejo de grandes cantidades de datos se ha convertido en una faceta integral de la investigación en todas las disciplinas. La aparición de nuevos campos como la biología computacional y la genómica subraya lo crítica que se ha vuelto la utilización proactiva de la tecnología. Estas tendencias seguramente continuarán debido a la ley de Moore y al progreso constante obtenido de los avances tecnológicos1,2. Una consecuencia, sin embargo, es el aumento de las cantidades de datos generados que exceden las capacidades de los métodos de organización previamente viables. Aunque la mayoría de los laboratorios académicos tienen suficientes recursos computacionales para manejar conjuntos de datos complejos, muchos grupos carecen de la experiencia técnica necesaria para construir sistemas personalizados adecuados para el desarrollo de necesidades3. Tener las habilidades para administrar y actualizar estos conjuntos de datos sigue siendo fundamental para un flujo de trabajo y una salida eficientes. Reducir la brecha entre los datos y la experiencia es importante para gestionar, actualizar y analizar de manera eficiente un amplio espectro de datos multifacéticos.

La escalabilidad es una consideración esencial al controlar grandes conjuntos de datos. El Big Data, por ejemplo, es un área floreciente de investigación que implica revelar nuevos conocimientos de datos de procesamiento caracterizados por grandes volúmenes, gran heterogeneidad y altas tasas de generación, como audio y video4,5. El uso de métodos automatizados de organización y análisis es obligatorio para que este campo maneje adecuadamente torrents de datos. Sin embargo, muchos términos técnicos utilizados en big data no están claramente definidos y pueden ser confusos; por ejemplo, los datos de "alta velocidad" a menudo se asocian con millones de entradas nuevas por día, mientras que los datos de "baja velocidad" solo pueden ser cientos de entradas por día, como en un entorno de laboratorio académico. Aunque hay muchos hallazgos emocionantes aún por descubrir utilizando big data, la mayoría de los laboratorios académicos no requieren el alcance, el poder y la complejidad de estos métodos para abordar sus propias preguntas científicas5. Si bien es indudable que los datos científicos se vuelvan cada vez más complejos con el tiempo6,muchos científicos siguen utilizando métodos de organización que ya no satisfacen sus necesidades de datos en expansión. Por ejemplo, los programas de hoja de cálculo convenientes se utilizan con frecuencia para organizar los datos científicos, pero a costa de ser inescalable, propenso a errores y el tiempo ineficiente a largo plazo7,8. Por el contrario, las bases de datos son una solución eficaz para el problema, ya que son escalables, relativamente baratas y fáciles de usar en el manejo de diversos conjuntos de datos de proyectos en curso.

Las preocupaciones inmediatas que surgen al considerar esquemas de organización de datos son el costo, la accesibilidad y la inversión en tiempo para la formación y el uso. Utilizados con frecuencia en entornos empresariales, los programas de bases de datos son más económicos, ya sean relativamente baratos o gratuitos, que los fondos necesarios para apoyar el uso de sistemas de big data. De hecho, existe una variedad de software de código abierto y disponible comercialmente para crear y mantener bases de datos, como Oracle Database, MySQL y Microsoft (MS) Access9. También se alentaría a muchos investigadores a aprender que varios paquetes académicos de MS Office vienen con MS Access incluido, minimizando aún más las consideraciones de costos. Además, casi todos los desarrolladores proporcionan una amplia documentación en línea y hay una gran cantidad de recursos en línea gratuitos como Codecademy, W3Schools y SQLBolt para ayudar a los investigadores a entender y utilizar el lenguaje de consulta estructurado (SQL)10,11,12. Al igual que cualquier lenguaje de programación, aprender a usar bases de datos y código con SQL lleva tiempo dominar, pero con los amplios recursos disponibles el proceso es sencillo y bien vale la pena el esfuerzo invertido.

Las bases de datos pueden ser herramientas eficaces para aumentar la accesibilidad a los datos y la facilidad de agregación, pero es importante discernir qué datos se beneficiarían más de un mayor control de la organización. La multidimensionalidad se refiere al número de condiciones con las que se puede agrupar una medición, y las bases de datos son más eficaces al administrar muchas condiciones diferentes13. Por el contrario, la información con baja dimensionalidad es más sencilla de manejar utilizando un programa de hoja de cálculo; por ejemplo, un conjunto de datos que contiene años y un valor para cada año solo tiene una agrupación posible (medidas con respecto a años). Los datos de alta dimensión, como los de los entornos clínicos, requerirían un gran grado de organización manual para mantener eficazmente un proceso tedioso y propenso a errores más allá del alcance de los programas de hoja de cálculo13. Las bases de datos no relacionales (NoSQL) también cumplen una variedad de roles, principalmente en aplicaciones donde los datos no se organizan bien en filas y columnas14. Además de ser de código abierto con frecuencia, estos esquemas organizativos incluyen asociaciones gráficas, datos de series temporales o datos basados en documentos. NoSQL sobresale en escalabilidad mejor que SQL, pero no puede crear consultas complejas, por lo que las bases de datos relacionales son mejores en situaciones que requieren coherencia, estandarización y cambios de datos a gran escala poco frecuentes15. Las bases de datos son las mejores para agrupar y reactualizar datos de manera efectiva en la gran variedad de conformaciones que a menudo se necesitan en los entornos científicos13,16.

La intención principal de este trabajo, por lo tanto, es informar a la comunidad científica sobre el potencial de las bases de datos como sistemas de gestión de datos escalables para datos de "tamaño medio", datos de baja velocidad, así como proporcionar una plantilla general utilizando ejemplos específicos de experimentos de línea celular procedentes del paciente. Otras aplicaciones similares incluyen datos geoespaciales de lechos fluviales, cuestionarios de estudios clínicos longitudinales y condiciones de crecimiento microbiano en medios de crecimiento17,18,19. Este trabajo destaca las consideraciones comunes y la utilidad de construir una base de datos junto con una canalización de datos necesaria para convertir datos sin procesar en formatos estructurados. Los conceptos básicos de las interfaces de base de datos y la codificación para bases de datos en SQL se proporcionan e ilustran con ejemplos para permitir que otros obtengan los conocimientos aplicables a la creación de marcos básicos. Por último, un conjunto de datos experimental esejemplo de muestra la facilidad y eficacia con que se pueden diseñar bases de datos para agregar datos multifacéticos de diversas maneras. Esta información proporciona contexto, comentarios y plantillas para ayudar a otros científicos en el camino hacia la implementación de bases de datos para sus propias necesidades experimentales.

Con el fin de crear una base de datos escalable en un entorno de laboratorio de investigación, los datos de experimentos con células de fibroblastos humanos se recopilaron en los últimos tres años. El objetivo principal de este protocolo es informar sobre la organización del software informático para permitir al usuario agregar, actualizar y administrar datos de la manera más rentable y eficiente en el tiempo posible, pero también se proporcionan los métodos experimentales pertinentes para Contexto.

Configuración experimental
El protocolo experimental para la preparación de muestras se ha descrito anteriormente20,21, y se presenta brevemente aquí. Las construcciones fueron preparadas por revestimientos rectangulares de vidrio con una mezcla de 10:1 de polidimetilsiloxano (PDMS) y agente de curado, luego aplicando 0,05 mg/ml de fibronectina, ya sea en líneas no organizadas (isotrópicas) o de 20 m con arreglos micropatrones de brecha de 5 m (líneas). Las células fibroblastas fueron sembradas en el pasaje 7 (o el pasaje 16 para controles positivos) sobre los cubreobjetos en densidades óptimas y se dejaron crecer durante 48 horas con medios que se cambiaron después de 24 h. Las células se fijaron entonces usando una solución de paraformaldehído (PFA) al 4% y un tensioactivo no iónico al 0,0005%, seguido de que los cubretapas se inmunotintaban para los núcleos celulares (4',6'-diaminodino-2-fenilinodolo [DAPI]), la actina (Alexa Fluor 488 phalloidin) y la fibronectina (policlíneina). Se aplicó una mancha secundaria para la fibronectina utilizando anticuerpos IgG anticonejo de cabra (Anticonejo de cabra Alexa Fluor 750) y se montó un agente de conservación en todos los labios de cubierta para evitar el desvanecimiento fluorescente. El esmalte de uñas se utilizó para sellar los cubreobjetos en las diapositivas del microscopio y luego se dejó secar durante 24 horas.

Las imágenes de fluorescencia se obtuvieron como se describió anteriormente20 utilizando un objetivo de inmersión en aceite de 40x junto con una cámara de dispositivo acoplado de carga digital (CCD) montada en un microscopio motorizado invertido. Se crearon diez campos de visión seleccionados aleatoriamente para cada punzón con un aumento de 40x, correspondiente a una resolución de 6,22 píxeles/m. Se utilizaron códigos escritos a medida para cuantificar diferentes variables de las imágenes que describen los núcleos, los filamentos de actina y la fibronectina; los valores correspondientes, así como los parámetros de organización y geometría, se guardaron automáticamente en archivos de datos.

Líneas celulares
Puede encontrar documentación más extensa sobre todas las líneas de células de datos de muestra en publicaciones anteriores20. Para describir brevemente, se aprobó la recopilación de datos y se realizó el consentimiento informado de conformidad con la Junta de Revisión Institucional de UC Irvine (IRB n.o 2014-1253). Las células fibroblásticas humanas se recogieron de tres familias de diferentes variaciones de la mutación genética de lamina A/C(LMNA):mutación heterocigota del sitio LMNA (c.357-2A>G)22 (familia A); Mutación sin sentido LMNA (c.736 C>T, pQ246X) en el exón 423 (familia B); y mutación del missense LMNA (c.1003C>T, pR335W) en el exón 624 (familia C). Las células fibroblastas también se recogieron de otros individuos de cada familia como controles negativos de mutación relacionados, denominados "Controles", y otras fueron compradas como controles negativos de mutación no relacionados, denominados "Donantes". Como control positivo, las células fibroblastas de un individuo con Hutchinson-Gliford progeria (HGPS) fueron compradas y cultivadas a partir de una biopsia de piel tomada de una paciente de 8 años con HGPS que poseía una mutación de punto LMNA G608G25. En total, los fibroblastos de 22 individuos fueron probados y utilizados como datos en este trabajo.

Tipos de datos
Los datos de fibroblastos se dividió en una de dos categorías: variables de núcleos celulares (es decir, porcentaje de núcleos dismórficos, área de núcleos, excentricidad de núcleos)20 o variables estructurales derivadas del parámetro de orden orientativo (OOP)21,26,27 (es decir, actina OOP, fibronecina OOP, nuclei OOP). Este parámetro es igual al valor máximo del tensor de orden medio de todos los vectores de orientación, y se define en detalle en las publicaciones anteriores26,28. Estos valores se agregan en una variedad de posibles conformaciones, tales como valores contra la edad, género, estado de la enfermedad, presencia de ciertos síntomas, etc. En la sección de resultados se pueden encontrar ejemplos de cómo se utilizan estas variables.

Códigos y archivos de ejemplo
Los códigos de ejemplo y otros archivos basados en los datos anteriores se pueden descargar con este documento, y sus nombres y tipos se resumen en la Tabla 1.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

NOTA: Consulte la Tabla de materiales para ver las versiones de software utilizadas en este protocolo.

1. Evaluar si los datos se beneficiarían de un esquema de organización de bases de datos

  1. Descargue los códigos de ejemplo y las bases de datos (consulte Archivos de codificación suplementarios, que se resumen en la Tabla 1).
  2. Utilice la Figura 1 para evaluar si el conjunto de datos de interés es "multidimensional".
    NOTA: La Figura 1 es una representación gráfica de una base de datos multidimensional proporcionada para el conjunto de datos de ejemplo.
  3. Si los datos se pueden visualizar en una forma "multidimensional" como el ejemplo y si la capacidad de relacionar un resultado experimental específico con cualquiera de las dimensiones (es decir, las condiciones) permitiría una mayor comprensión científica de los datos disponibles, construir una base de datos relacional.

2. Organizar la estructura de la base de datos

NOTA: Las bases de datos relacionales almacenan información en forma de tablas. Las tablas se organizan en el esquema de filas y columnas, similar a las hojas de cálculo, y se pueden usar para vincular la información de identificación dentro de la base de datos.

  1. Organice los archivos de datos, para que tengan nombres únicos bien pensados. Las buenas prácticas con las convenciones de nomenclatura de archivos y las estructuras de subcarpetas de carpetas, cuando se hace bien, permiten una amplia escalabilidad de la base de datos sin comprometer la legibilidad de acceder a los archivos manualmente. Agregar archivos de fecha en un formato coherente, como "20XX-YY-ZZ", y las subcarpetas de nombre según los metadatos es uno de estos ejemplos.
  2. A medida que se diseña la estructura de base de datos, dibuje relaciones entre los campos de tablas diferentes. Por lo tanto, la multidimensionalidad se maneja relacionando diferentes campos (es decir, columnas en las tablas) en tablas individuales entre sí.
  3. Cree documentación léame que describa la base de datos y las relaciones que se crearon en el paso 2.2. Una vez que se vincula una entrada entre diferentes tablas, toda la información asociada está relacionada con esa entrada y se puede utilizar para llamar a consultas complejas para filtrar hasta la información deseada.
    NOTA: Los documentos Léame son una solución común para proporcionar información complementaria e información estructural de la base de datos sobre un proyecto sin agregar datos no uniformes a la estructura.
  4. Siguiendo los pasos 2.1-2.3, haga que el resultado final sea similar a este ejemplo donde las diferentes características de los individuos(Figura 2A)están relacionadas con los datos experimentales asociados de esos individuos(Figura 2B). Lo mismo se hizo relacionando columnas de tipos de patrón (Figura 2C) y tipos de datos (Figura 2D) con entradas coincidentes en la tabla de valores de datos principales para explicar varias notaciones abreviadas (Figura 2B).
  5. Determine todos los puntos de datos esenciales y meramente útiles que deben registrarse para la recopilación de datos de largo alcance.
    NOTA: Una ventaja clave de usar bases de datos sobre programas de hoja de cálculo, como se mencionó anteriormente, es la escalabilidad: los puntos de datos adicionales se pueden agregar trivialmente en cualquier punto y los cálculos, como los promedios, se actualizan instantáneamente para reflejar los puntos de datos recién agregados.
    1. Identifique la información necesaria para crear puntos de datos distintos antes del comienzo. Deje los datos sin procesar intactos, en lugar de modificarlos o guardarlos, de modo que el reanálisis sea posible y accesible.
      NOTA: Para el ejemplo dado(Figura 2), el "Designador" correspondiente a un individuo, "Tipo de patrón", "Coverslip" y "Tipo variable" eran todos campos vitales para la distinción del valor asociado.
    2. Si lo desea, agregue otra información útil y no vital, como el "Total de Coverslips" para indicar el número de repeticiones realizadas y ayudar a determinar si faltan puntos de datos en este ejemplo.

3. Configurar y organizar el gasoducto

  1. Identifique todos los diversos experimentos y métodos de análisis de datos que podrían conducir a la recopilación de datos junto con las prácticas de almacenamiento de datos normales para cada tipo de datos. Trabaje con software de control de versiones de código abierto como GitHub para garantizar la coherencia y el control de versiones necesarios, a la vez que minimiza la carga del usuario.
  2. Si es posible, cree un procedimiento para la nomenclatura y el almacenamiento coherentes de datos para permitir una canalización automatizada.
    NOTA: En el ejemplo, todas las salidas se denominaron de forma coherente, creando así una canalización de datos que buscaba atributos específicos era sencillo una vez que se seleccionaban los archivos. Si no es posible la nomenclatura coherente, las tablas de la base de datos deberán rellenarse manualmente, lo que no se recomienda.
  3. Utilice cualquier lenguaje de programación conveniente para generar nuevas entradas de datos para la base de datos.
    1. Cree pequeñas tablas "ayudante" (archivos #8 #10 en la Tabla 1) en archivos independientes que puedan guiar la selección automatizada de datos. Estos archivos sirven como una plantilla de posibilidades para que la canalización funcione y son fáciles de editar.
    2. Para generar nuevas entradas de datos para la canalización de datos(figura 3D), programe el código (LocationPointer.m, #1 de archivos en la tabla 1) para utilizar las tablas auxiliares como entradas que el usuario debe seleccionar (archivos #8 #10 en la tabla 1).
    3. Desde aquí, ensamble una nueva hoja de cálculo de ubicaciones de archivos combinando las nuevas entradas con las entradas anteriores(Figura 3E). Cree un código para automatizar este paso como se muestra en LocationPointerCompile.m (archivo #2 en la Tabla 1).
    4. Después, comprueba esta hoja de cálculo combinada en busca de duplicados, que deben eliminarse automáticamente. Cree un código para automatizar este paso como se muestra en LocationPointer_Remove_Duplicates.m (#3 de archivos en la Tabla 1).
    5. Además, compruebe si hay errores en la hoja de cálculo y notifique al usuario su motivo y ubicación(Figura 3F). Cree un código para automatizar este paso como se muestra en BadPointerCheck.m (#4 de archivos en la Tabla 1). Como alternativa, escriba un código que compruebe la base de datos compilada e identifique los duplicados en un paso como se muestra en LocationPointer_Check.m (#5 de archivo en la Tabla 1).
    6. Cree un código para permitir que el usuario elimine manualmente los puntos defectuosos sin perder la integridad de la base de datos como se muestra en Manual_Pointer_Removal.m (#6 de archivo en la Tabla 1).
    7. A continuación, utilice las ubicaciones de archivo para generar una hoja de cálculo de valor de datos(Figura 3G, #12 de archivo en la Tabla 1), así como para crear una lista más actualizada de entradas a las que se puede acceder para identificar ubicaciones de archivos o combinarse con entradas futuras(Figura 3H). Cree un código para automatizar este paso como se muestra en Database_Generate.m (#7 de archivos en la Tabla 1).
  4. Compruebe que la canalización se suma al rigor experimental comprobando la inclusión de convenciones de nomenclatura rigurosas, códigos de ensamblado de archivos automatizados y comprobaciones de errores automatizadas como se describió anteriormente.

4. Crear la base de datos y consultas

NOTA: Si las tablas almacenan información en bases de datos, las consultas son solicitudes a la base de datos para obtener información sobre criterios específicos. Hay dos métodos para crear la base de datos: a partir de un documento en blanco o a partir de los archivos existentes. En la figura 4 se muestra una consulta de ejemplo con sintaxis SQL diseñada para ejecutarse mediante las relaciones de base de datos que se muestran en la figura 2.

  1. Método 1: A partir de cero en la creación de la base de datos y consultas
    1. Cree un documento de base de datos en blanco.
    2. Cargar las tablas auxiliares (archivos #8-#10 en la Tabla 1) seleccionando Datos externos ( External Data ) Importación de archivos de texto ? Elija Archivo (archivos #8-#10) Delimitados Primera fila contiene encabezados, coma ? dejar por defecto ? Elija Mi propia clave principal (Designator for Cell Lines File #8, Variable Name for Data Types File #9, Pat Name for Pattern Type File #10) dejar por defecto ? Finalizar.
    3. Cargar la tabla de valores de datos (#12 de archivo en la Tabla 1) seleccionando Datos externos ( Datos externos ) Importación de archivos de texto ? Elija Archivo (#12 de archivo) Delimitados Primera fila contiene encabezados, coma ? dejar por defecto ? Deje que el acceso agregue la clave principal ? Importar a la tabla: DataValues ? Finalizar.
    4. Cree las relaciones seleccionando Herramientas de base de datos ( Database Tools) Relaciones ? Arrastre todas las tablas al tablero . Editar relaciones ? Crear nuevo ? Haga coincidir los campos DataValue con los designadores de tablas auxiliares . Tipo de junta 3.
    5. Seleccione Crear (Crear) Diseño de consultas.
    6. Seleccione o arrastre todas las tablas relevantes a la ventana superior. En este ejemplo, 'Líneas de celda', 'Valores de datos', 'Tipos de datos' y 'Tipo de patrón'. Las relaciones deben configurarse automáticamente en función del diseño de relación anterior.
    7. Rellene las columnas de consulta para obtener los resultados deseados, por ejemplo:
      1. Haga clic en Mostrar ? Totales.
      2. Rellene la primera columna (Tabla: DataValues, Field: DataVar, Total: GroupBy, Criteria: "Act_OOP"), la segunda columna (Tabla: DataValues, Field: PatVar, Total: GroupBy, Criteria: "Lines"), y la tercera columna (Tabla: Cell_Lines, Campo: Designador, Total: GroupBy, Sort: Ascending).
      3. Rellene la cuarta columna (Tabla: DataValues, Field: Parameter, Total: Ave), la quinta columna (Tabla: DataValues, Field: Parameter, Total: StDev) y la sexta columna (Tabla: DataValues, Field: Parameter, Total: Count).
    8. Ejecute la consulta.
  2. Como alternativa, utilice la base de datos de ejemplo proporcionada como base para ejemplos. Abra el archivo de base de datos Database_Queries.accdb (#13 de archivo en la tabla 1) que se descargó anteriormente. Utilícelo como plantilla reemplazando las tablas existentes por los datos de interés.

5. Mueva las tablas de salida a un software estadístico para el análisis de significancias

  1. Para este ejemplo de datos experimentales, utilice el análisis unidireccional de la varianza (ANOVA) utilizando la prueba de Tukey para comparaciones medias entre diversas condiciones.
    NOTA: Los valores de p < 0.05 se consideraron estadísticamente significativos.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Multidimensionalidad de los datos
En el contexto del ejemplo de conjunto de datos presentado aquí, los sujetos, descritos en la sección Métodos, se dividieron en grupos de individuos de las tres familias con la mutación LMNA causante de enfermedades cardíacas ("Pacientes"), controles negativos no mutaciones relacionados ("Controles"), controles negativos no mutaciones no relacionados ("Donantes"), y un individuo con síndrome de Hutchinson-Gilford progeria (HGPS) como control positivo20. Los resultados de Controls y Donors podrían agruparse como un grupo general de Control Negativo (N.C.), dada su falta colectiva de mutaciones de LMNA. La línea celular de cada sujeto tenía un "Estado de mutación" asociado a él, basado en su grupo de condición(Figura 1 – eje azul oscuro). Para cada experimento, las células fibroblastas de los sujetos se cultivaron en arreglos de fibronectina no organizada (isotrópica) o micropatrón (líneas), creando la condición de "tipo de patrón"(Figura 1 – eje naranja). Después de que las células fueron fijas, inmunomanchadas e fotocadas, se transcribió el "Coverslip" , ya que se realizarían múltiples experimentos (es decir, réplicas técnicas) utilizando las células del mismo individuo(Figura 1 – eje verde claro). Los códigos personalizados de MATLAB20,21 se utilizaron entonces para cuantificar diferentes aspectos de los núcleos celulares o variables de organización de tejidos como "Tipo variable"(Figura 1 – eje verde azulado). Los tres factores se asociaron con la fuente humana de las células y, en consecuencia, se vincularon a la "familia"(Figura 1 – eje rosa oscuro) y "Edad en el momento de la biopsia"(Figura 1 – eje verde oscuro) además de "Estado de la mutación". Otras dimensiones no incluidas en la Figura 1 fueron la "Edad de presentación", "Síntomas", "Designador" y "Género" de la persona en cuestión. El ejemplo proporcionado aquí da como resultado al menos diez dimensiones posibles para la agregación de datos. Por lo tanto, estos datos de ejemplo son un candidato principal para la organización mediante bases de datos relacionales.

Figure 1
Figura 1: Visualización de datos multidimensionales del conjunto de datos de mutación LMNA. Un solo cubo se define por las tres dimensiones de "Tipo variable", "Tipo de patrón" y "Coverslip". Otras dimensiones se muestran como los ejes de "Estado de la mutación", "Edad de la biopsia" (años) y "Familia". Las etiquetas de color corresponden a los diferentes ejes mostrados, como la edad de la biopsia (números verdes) para el cubo de cada individuo. Aquí, seis de las diez dimensiones posibles se utilizan para ilustrar la multidimensionalidad de los puntos de datos experimentales. Haga clic aquí para ver una versión más grande de esta figura.

Organización del gasoducto
Hasta un 95% de todos los datos digitales no están estructurados4,pero se requieren formatos estructurados para las bases de datos. Sin embargo, la creación de un buen método automatizado para la canalización de datos depende en gran medida del contexto.

Figure 2
Figura 2: Relaciones de vista de tabla y diseño dentro del conjunto de datos de mutación LMNA. Las bases de datos relacionales tienen la ventaja de vincular campos de una tabla con información de otra tabla, lo que permite la intercambiabilidad inmediata de la agregación. El ejemplo aquí muestra visualmente cómo se puede vincular información diferente. Haga clic aquí para ver una versión más grande de esta figura.

En este ejemplo, las imágenes recopiladas de cada experimento se almacenaron en carpetas nombradas por fecha e inicial del miembro del laboratorio responsable, con subcarpetas que enumeran el asunto y el número de portada. Los archivos de canalización se proporcionan en los archivos de codificación suplementarios,así como se resumen en una ilustración de diagrama de flujo(figura 3). Diferentes métricas de diversas condiciones experimentales en una variedad de sujetos se cuantificaron a partir de estas imágenes fluorescentes(Figura 3A) utilizando códigos personalizados (Figura 3B)20,21. Por ejemplo, el parámetro21 del orden de orientación actin se extrajo de tejidos manchados de faloiderina(Figura 3A)y se utilizó para comparar la organización de fibroblastos de diferentes individuos. Las salidas de código se guardaron en la misma carpeta que las imágenes de origen (Figura 3C).

Figure 3
Figura 3: Un ejemplo de las necesidades comunes de la canalización de datos en un contexto generalizado. Se crearon nuevas entradas utilizando entradas de usuario y códigos automatizados, formateando información importante en un formato de hoja de cálculo. Estas entradas se combinaron con el conjunto más reciente de entradas de ubicación de archivo, se comprobaron si hay errores y, a continuación, se almacenaron como una hoja de cálculo de ubicaciones de archivo y una hoja de cálculo de valores de datos. Barra de escala a 20 m. Por favor, haga clic aquí para ver una versión más grande de esta figura.

Identificación de una relación novedosa en el conjunto de datos de mutación LMNA
Cuando se le dan multitud de posibles conformaciones, puede ser difícil identificar dónde existen relaciones novedosas mediante métodos de agregación de datos manuales. En este contexto específico, nos interesaba comparar la organización de filamentos de actina subcelular en múltiples condiciones, medida utilizando el OOP27.

Figure 4
Figura 4: Una consulta de ejemplo con sintaxis SQL. Las instrucciones SELECT y FROM son requisitos para generar una consulta, pero a menudo se incluyen comandos y criterios adicionales. GROUP BY proporciona una aclaración sobre cómo los datos agregados, las instrucciones HAVING o WHERE limitan la salida a los datos que cumplen criterios específicos, y ORDER BY indica el orden por el que se deben organizar las salidas. Haga clic aquí para ver una versión más grande de esta figura.

OOP es una construcción matemática que cuantifica el grado de orden en ambientes anisotrópicos, normalizado a cero correspondiente a tejido completamente isotrópico y uno correspondiente al tejido completamente alineado. El conjunto de datos se dividió por primera vez por tipo de patrón como líneas(Figura 5A)e condiciones isotrópicas(Figura 5B),que se esperaba que tuvieran OOP muy diferentes, ya que la micropatrón de fibronectina influye fuertemente en la organización del tejido. No hubo diferencias significativas entre las condiciones al comparar tejidos isotrópicos(Figura 5B). Por el contrario, los tejidos patrones estaban estadísticamente menos organizados en la línea celular de control positivo (HGPS)(Figura 5A),y esta relación se mantuvo incluso cuando los datos se agregaron en diferentes grupos(Figura 5C). Actin OOP se comisó adicionalmente contra la edad de las personas en el momento de la biopsia(Figura 5D),separada por el estado de la mutación y la familia, para ilustrar la agregación contra una variable clínica. A diferencia de los defectos nucleares20, no hay correlación entre la organización de actina y la edad de un individuo(Figura 5D). En última instancia, las gráficas que se muestran en la Figura 5 ilustran cómo se pueden analizar los mismos datos en diferentes combinaciones y la facilidad con la que se puede realizar la tarea normalmente difícil de agregar datos que se incluyen en varias clases mediante bases de datos.

Para este artículo, se compararon los datos de los fibroblastos procedentes del paciente entre las condiciones para determinar las consecuencias de la mutación. Aunque tanto el HGPS como las tres familias de este estudio tienen enfermedades relacionadas con LMNAque potencialmente interrumpen la envolvente nuclear, los pacientes presentan síntomas asociados principalmente con disfunción cardíaca, mientras que los individuos con HGPS tienen múltiples sistemas de órganos afectados22,23,24. De hecho, a pesar de que las células ambientales micropatrónadas originarias de un paciente con HGPS tenían un valor de OOP de actina estadísticamente menor que cualquiera de las otras líneas celulares consideradas(Figura 5A,C). Esta cola de milano con los pacientes con HGPS siendo los únicos en el estudio con cualquier anomalía de la piel causada por la mutación. Ver los mismos datos en diferentes conformaciones también es útil para proporcionar información adicional y vías para la investigación científica en un conjunto de datos variado(Figura 5).

Figure 5
Figura 5: Comparaciones entre las condiciones de la variable DeOp de actina. (A,B) agrupaciones corresponden a las cuatro condiciones principales: donantes de control negativo no relacionados, controles de control negativos relacionados, mutación LMNA Pacientes de tres familias, y control positivo HGPS. (C) todos los controles negativos (N.C.) se combinaron y los pacientes fueron separados por familia (PA, PB, PC) en su lugar. (D) Un gráfico potencial de la OOP de actina isotrópica contra la edad en el momento de la biopsia recogida para este estudio, separados por condición y familia. Los paneles A, C y D se trazan para los tejidos micropatrones con un patrón de líneas, mientras que el panel B se traza para los tejidos isotrópicos. La significancia estadística de p < 0.05 (*) se encontró en los paneles A, C y D. No se encontró ningún significado entre los pares en el panel B. Todas las barras de error representan desviaciones estándar calculadas dentro de la base de datos. Haga clic aquí para ver una versión más grande de esta figura.

Archivos de codificación suplementarios. Haga clic aquí para ver este archivo (haga clic con el botón derecho para descargar).

Subscription Required. Please recommend JoVE to your librarian.

Discussion

Discusión técnica del protocolo
El primer paso al considerar el uso de bases de datos es evaluar si los datos se beneficiarían de una organización de este tipo.

El siguiente paso esencial es crear un código automatizado que pedirá la entrada mínima del usuario y genere la estructura de datos de la tabla. En el ejemplo, el usuario ha introducido la categoría de tipo de datos (núcleos de células o medidas estructurales), el designador de asunto de las líneas de celda y el número de archivos que se están seleccionando. A continuación, el usuario seleccionó los archivos relevantes(Tabla 2, columna 1), con las entradas de fila que se crean automáticamente y se rellenan con todas las variables contenidas en el archivo(Tabla 2, columna 2). Además, es importante que el código sea flexible para que si es necesario agregar otra entrada experimental, el usuario pueda seleccionar continuar el bucle; si no, los archivos se guardan y el bucle termina. Las funciones básicas de agregar nuevas entradas, comprobar si hay errores y ensamblar la hoja de cálculo desde las ubicaciones de archivo descritas en este paso son fundamentales para una configuración eficaz de la canalización de datos.

Es imprescindible tener en cuenta que el uso de ubicaciones de archivos al crear la canalización de datos aumenta el rigor experimental. Específicamente, tener una hoja de cálculo correspondiente que enumera todas las ubicaciones de archivo para los valores de datos permite a un usuario retroceder cualquier punto de datos de nuevo al cuaderno de laboratorio del investigador que recopiló los datos sin procesar. Cuando se trata de cientos a decenas de miles de puntos de datos, una mayor transparencia y accesibilidad es invaluable a lo largo de la vida útil de un proyecto. Se recomienda encarecidamente que los usuarios consideren guardar las ubicaciones de archivos primero y posteriores compilando valores para los datos en lugar de almacenar solo los valores de datos.

Una vez creada la base de datos, la forma más sencilla de empezar es programando las consultas a través de la vista de diseño. Al usuario le resultará útil descargar la plantilla proporcionada (#13 de archivos en la Tabla 1)como punto de partida. Alternativamente, estos se pueden programar directamente a través del lenguaje SQL(Figura 4).

Discusión científica
El propósito de este artículo era difundir métodos que implicaban una canalización de datos y una base de datos que dilucidaban la escalabilidad y la transparencia del conjunto de datos. Estos métodos no se utilizan ampliamente fuera de la informática y los negocios, pero tienen un enorme potencial para aquellos que trabajan en contextos biológicos. A medida que la ciencia sigue dependiendo más de las computadoras, la importancia de sistemas de gestión eficaces también aumenta6,29. Las bases de datos se utilizan con frecuencia para aplicaciones de alto volumen y/o alta velocidad y están bien citadas en la literatura, especialmente en lo que respecta a su uso para las poblaciones de pacientes clínicos8,30,31. Ya se han construido varios para campos específicos como las herramientas de curación de Rat Genome Database o REDCap para investigación clínica y traslacional32,33. Así, el uso de bases de datos se ha adoptado en el dominio clínico8 o grandes bases de datos genómicas32, pero no se ha vuelto común en otras disciplinas científicas como la ingeniería de tejidos.

Los problemas del manejo de datos cada vez más complejos utilizando programas de hojas de cálculo han sido reconocidos durante mucho tiempo dentro de la comunidad científica34. Un estudio informó que alrededor del 20% de los artículos de revistas genómicas con archivos suplementarios tenían nombres genéticos que se convirtieron erróneamente en las fechas35. Estos errores aumentaron a un promedio del 15% anual de 2010 a 2015, superando con mucho en el aumento anual de los documentos de genómica al 4% anual. A menudo es casi imposible identificar errores individuales dentro de un gran volumen de datos, ya que por naturaleza los programas de hojas de cálculo no son adecuados para la validación fácil de resultados o cálculos de fórmula. Incluso existen artículos publicados para educar a los científicos sobre mejores prácticas de hojas de cálculo en un intento de reducir la frecuencia de errores7. Uno de los beneficios más fuertes de las bases de datos es la reducción del error a través de métodos automatizados y la capacidad de validar datos potencialmente cuestionables(Figura 3).

Un resultado significativo de esta metodología es el mayor rigor del análisis de datos. La importancia de aumentar la reproducibilidad de los datos ha sido destacada por los NIH, así como por otros científicos e instituciones36,37. Al tener una hoja de cálculo de ubicaciones de archivos correspondientes a cada base de datos, es fácil rastrear un punto de datos hasta el cuaderno de laboratorio del experimento en cuestión(Figura 3). Los puntos de datos individuales también se pueden identificar y encontrar rápidamente electrónicamente utilizando las ubicaciones de archivo correspondientes, lo que es invaluable a veces, incluso cuando se combina con el control automático de errores durante el proceso de canalización de datos. Incluso cuando el conjunto de datos se modifica con el tiempo, la práctica recomendada implica mantener todos los archivos anteriores en caso de que se produzcan problemas o se deba comprobar las versiones anteriores. Trabajar de forma no destructiva y mantener versiones antiguas dentro de la canalización de datos crea seguridad a través de la redundancia y permite una mejor solución de problemas.

Hay innumerables sistemas de administración de bases de datos relacionales en combinación de lenguajes de codificación que se pueden utilizar para las mismas necesidades de canalización de datos. Las opciones más adecuadas dependen en gran medida de los datos y el contexto que se utilizan; algunas aplicaciones sobresalen mejor en escalabilidad, flexibilidad, confiabilidad y otras prioridades9. Aunque las bases de datos siguen siendo técnicamente finitas en escala, alcanzar los límites de memoria sigue estando fuera del alcance de la mayoría de los laboratorios científicos. Por ejemplo, una base de datos de MS Access tiene un límite de tamaño de memoria de 2 GB, que sería un conjunto de datos en el orden de cientos de miles a millones de entradas dependiendo de los datos y el número de campos. La mayoría de los laboratorios nunca tendrán necesidades experimentales de esta magnitud, pero si lo hicieran, el software de hoja de cálculo estaría mucho más allá de sus límites efectivos de todos modos. En comparación, los sistemas de gestión de bases de datos relacionales de nivel empresarial pueden gestionar conjuntos de datos de magnitudes mayores mientras procesan millones de transacciones simultáneamente29. Parte de la razón por la que las bases de datos no se utilizan comúnmente en laboratorios científicos es que experimentos pasados rara vez critican las necesidades de tales magnitudes de datos, por lo que el software de hoja de cálculo fácil de usar se generalizó en su lugar. Una inversión significativa necesaria para que estos métodos funcionen, sin embargo, es el tiempo necesario para planificar la canalización de datos y aprender SQL para el uso de bases de datos(Figura 3 y Figura 4). Aunque la experiencia de codificación acelera enormemente el proceso, la mayoría tendrá que aprender SQL desde cero. Una gran cantidad de documentación está disponible en línea a través de una amplia documentación por parte de los desarrolladores, así como tutoriales SQL gratuitos como en Codecademy, W3Schools, y SQLBolt10,11,12. Algunas alternativas que requieren suscripciones existen, sin embargo, como el programa de enseñanza del sitio web Lynda38; más información sobre los conceptos básicos de la base de datos se puede encontrar en línea. En un entorno académico, una buena entrada de laboratorio y sistemas robustos pueden durar más que sus creadores y ayudar a facilitar muchos años de proyectos en varios estudiantes. Esto se puede lograr mediante la creación de directrices y pasos de implementación durante la instalación. De hecho, hay un alto valor para todos los investigadores en tener un sistema conjunto de tuberías y bases de datos que funcione bien.

Otros beneficios de esta metodología incluyen la capacidad de emplear métodos automatizados para convertir datos sin procesar en formatos estructurados, facilidad de uso una vez almacenados dentro de la base de datos y reactualización y reagregación constante de conjuntos de datos(Figura 3). También es posible extraer la información de varias variables de un único archivo de datos y automatizar la canalización de datos para hacerlo cuando se le solicite. En el contexto mostrado, se utilizó software comúnmente disponible y económico para lograr resultados que demostraban que los paquetes de software caros y de nicho no son obligatorios para lograr una base de datos funcional. Dado el alcance limitado de los fondos de investigación de la mayoría de los laboratorios, la capacidad de aumentar la eficiencia de la gestión de bases de datos es un producto inestimable.

En conclusión, a medida que los conjuntos de datos científicos se vuelven más complejos, las bases de datos se vuelven cada vez más importantes para la comunidad científica y tienen un gran potencial para ser tan comunes como e incluso más eficaces que el uso generalizado actual de hojas de cálculo para los datos Almacenamiento. Los problemas relacionados con la transparencia de los datos y la replicabilidad en la ciencia sólo continuarán expandiéndose en el futuro a medida que los conjuntos de datos sigan creciendo en tamaño y complejidad, destacando la importancia de la adopción más generalizada de bases de datos y métodos automatizados de canalización de datos para necesidades científicas generales ahora y en el futuro.

Número de referencia Nombre de archivo Tipo
1 LocationPointer.m Código de tubería
2 LocationPointerCompile.m Código de tubería
3 LocationPointer_Remove_Duplicates.m. Código de tubería
4 BadPointerCheck.m Código de tubería
5 LocationPointer_Check.m. Código de tubería
6 Manual_Pointer_Removal.m. Código de tubería
7 Database_Generate.m. Código de tubería
8 Cell_Lines.csv Mesa auxiliar
9 Data_Types.csv Mesa auxiliar
10 Pattern_Types.csv Mesa auxiliar
11 DataLocation_Comp_2018_6_26_10_01.csv Ejemplo de archivo de ubicación de datos
12 DataValues_2018_6_26_10_02.csv Ejemplo de archivo de valores de datos
13 Database_Queries.accdb Ejemplo de base de datos

Tabla 1: Lista de todos los archivos de ejemplo que se pueden cargar para ejecutar el protocolo.

Archivo seleccionado Variable
Summary.mat Proporción de núcleos defectuosos
Promedio de área de nuclei (m2)
Promedio de área de nuclei defectuoso (m2)
Promedio normal de área de Nuclei (m2)
Promedio de excentricidad de Todos los Núcleos
Promedio de excentricidad de Nuclei defectuoso
Promedio normal de excentricidad de Nuclei
Todos los Núcleos MNC Promedio
Promedio defectuoso de Nuclei MNC
Nuclei Normal Promedio MNC
Act_OOP.mat Actin OOP
Angulo director de la OOP de Actin
Fibro_OOP.mat Fibronectina OOP
Angulo del Director de la OOP de Fibronectina
Nuc_OOP.mat Nuclei OOP
Nuclei OOP Director Angle

Tabla 2: Se enumeran los archivos de selección que corresponden a diferentes variables de mediciones de núcleos celulares o datos estructurales de fibroblastos (OOP).

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Este trabajo es apoyado por el Instituto Nacional del Corazón, los Pulmones y la Sangre de los Institutos Nacionales de Salud, número de concesión R01 HL129008. Los autores agradecen especialmente a los miembros de la familia de mutaciones del gen LMNA por su participación en el estudio. También nos gustaría agradecer a Linda McCarthy por su ayuda con el cultivo celular y el mantenimiento de los espacios de laboratorio, Nasam Chokr por su participación en imágenes celulares y el análisis de datos de núcleos, y Michael A. Grosberg por su consejo pertinente con la creación de nuestra base de datos inicial de Microsoft Access, así como la respuesta a otras preguntas técnicas.

Materials

Name Company Catalog Number Comments
4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

DOWNLOAD MATERIALS LIST

References

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore's law. Proceedings of the IEEE. 100, Special Centennial Issue 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. Learn SQL - Codeacademy. , Available from: https://www.codecademy.com/learn/learn-sql (2018).
  11. SQL Tutorial - w3schools.com. , Available from: https://www.w3schools.com/sql (2018).
  12. Introduction to SQL - SQLBolt. , Available from: https://sqlbolt.com (2018).
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren's and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , John Wiley & Sons. Hoboken, NJ. (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. Berman, F., Fox, G., Hey, A. J. G. , John Wiley & Sons. Hoboken, NJ. Ch. 36 (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)--a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH. , Available from: https://grants.nih.gov/reproducibility/index.htm (2018).
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. SQL Training and Tutorials - Lynda.com. , Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018).

Tags

Bioingeniería Número 153 datos de tamaño medio bases de datos LMNA organización de datos datos multidimensionales ingeniería de tejidos
Bases de datos para gestionar eficientemente datos de tamaño medio, baja velocidad y multidimensionales en ingeniería de tejidos
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Ochs, A. R., Mehrabi, M., Becker,More

Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter