Summary

Bases de datos para gestionar eficientemente datos de tamaño medio, baja velocidad y multidimensionales en ingeniería de tejidos

Published: November 22, 2019
doi:

Summary

Muchos investigadores generan datos “de tamaño medio”, de baja velocidad y multidimensionales, que se pueden gestionar de forma más eficiente con bases de datos en lugar de hojas de cálculo. Aquí proporcionamos una visión general conceptual de las bases de datos, incluida la visualización de datos multidimensionales, la vinculación de tablas en estructuras de bases de datos relacionales, la asignación de canalizaciones de datos semiautomáticas y el uso de la base de datos para dilucidar el significado de los datos.

Abstract

La ciencia se basa en conjuntos de datos cada vez más complejos para el progreso, pero los métodos comunes de administración de datos, como los programas de hojas de cálculo, son inadecuados para la creciente escala y complejidad de esta información. Si bien los sistemas de gestión de bases de datos tienen el potencial de corregir estos problemas, no se utilizan comúnmente fuera de los campos de negocio e informática. Sin embargo, muchos laboratorios de investigación ya generan datos multidimensionales de “tamaño medio”, baja velocidad que podrían beneficiarse en gran medida de la implementación de sistemas similares. En este artículo, proporcionamos una visión general conceptual que explica cómo funcionan las bases de datos y las ventajas que proporcionan en las aplicaciones de ingeniería de tejidos. Los datos estructurales de fibroblastos de individuos con una mutación de A/C lamin se utilizaron para ilustrar ejemplos dentro de un contexto experimental específico. Entre los ejemplos se incluyen la visualización de datos multidimensionales, la vinculación de tablas en una estructura de base de datos relacional, la asignación de una canalización de datos semiautomatizada para convertir datos sin procesar en formatos estructurados y la explicación de la sintaxis subyacente de una consulta. Los resultados del análisis de los datos se utilizaron para crear parcelas de diversos arreglos y significado se demostraron en la organización celular en entornos alineados entre el control positivo de hutchinson-Gilford progeria, una laminronopatía bien conocida y todos los demás grupos experimentales. En comparación con las hojas de cálculo, los métodos de base de datos eran enormemente eficientes en el tiempo, fáciles de usar una vez configurados, permitían el acceso inmediato a las ubicaciones de archivos originales y aumentaban el rigor de los datos. En respuesta al énfasis de los Institutos Nacionales de Salud (NIH) en el rigor experimental, es probable que muchos campos científicos finalmente adopten bases de datos como práctica común debido a su fuerte capacidad para organizar eficazmente datos complejos.

Introduction

En una época en la que el progreso científico está fuertemente impulsado por la tecnología, el manejo de grandes cantidades de datos se ha convertido en una faceta integral de la investigación en todas las disciplinas. La aparición de nuevos campos como la biología computacional y la genómica subraya lo crítica que se ha vuelto la utilización proactiva de la tecnología. Estas tendencias seguramente continuarán debido a la ley de Moore y al progreso constante obtenido de los avances tecnológicos1,2. Una consecuencia, sin embargo, es el aumento de las cantidades de datos generados que exceden las capacidades de los métodos de organización previamente viables. Aunque la mayoría de los laboratorios académicos tienen suficientes recursos computacionales para manejar conjuntos de datos complejos, muchos grupos carecen de la experiencia técnica necesaria para construir sistemas personalizados adecuados para el desarrollo de necesidades3. Tener las habilidades para administrar y actualizar estos conjuntos de datos sigue siendo fundamental para un flujo de trabajo y una salida eficientes. Reducir la brecha entre los datos y la experiencia es importante para gestionar, actualizar y analizar de manera eficiente un amplio espectro de datos multifacéticos.

La escalabilidad es una consideración esencial al controlar grandes conjuntos de datos. El Big Data, por ejemplo, es un área floreciente de investigación que implica revelar nuevos conocimientos de datos de procesamiento caracterizados por grandes volúmenes, gran heterogeneidad y altas tasas de generación, como audio y video4,5. El uso de métodos automatizados de organización y análisis es obligatorio para que este campo maneje adecuadamente torrents de datos. Sin embargo, muchos términos técnicos utilizados en big data no están claramente definidos y pueden ser confusos; por ejemplo, los datos de “alta velocidad” a menudo se asocian con millones de entradas nuevas por día, mientras que los datos de “baja velocidad” solo pueden ser cientos de entradas por día, como en un entorno de laboratorio académico. Aunque hay muchos hallazgos emocionantes aún por descubrir utilizando big data, la mayoría de los laboratorios académicos no requieren el alcance, el poder y la complejidad de estos métodos para abordar sus propias preguntas científicas5. Si bien es indudable que los datos científicos se vuelvan cada vez más complejos con el tiempo6,muchos científicos siguen utilizando métodos de organización que ya no satisfacen sus necesidades de datos en expansión. Por ejemplo, los programas de hoja de cálculo convenientes se utilizan con frecuencia para organizar los datos científicos, pero a costa de ser inescalable, propenso a errores y el tiempo ineficiente a largo plazo7,8. Por el contrario, las bases de datos son una solución eficaz para el problema, ya que son escalables, relativamente baratas y fáciles de usar en el manejo de diversos conjuntos de datos de proyectos en curso.

Las preocupaciones inmediatas que surgen al considerar esquemas de organización de datos son el costo, la accesibilidad y la inversión en tiempo para la formación y el uso. Utilizados con frecuencia en entornos empresariales, los programas de bases de datos son más económicos, ya sean relativamente baratos o gratuitos, que los fondos necesarios para apoyar el uso de sistemas de big data. De hecho, existe una variedad de software de código abierto y disponible comercialmente para crear y mantener bases de datos, como Oracle Database, MySQL y Microsoft (MS) Access9. También se alentaría a muchos investigadores a aprender que varios paquetes académicos de MS Office vienen con MS Access incluido, minimizando aún más las consideraciones de costos. Además, casi todos los desarrolladores proporcionan una amplia documentación en línea y hay una gran cantidad de recursos en línea gratuitos como Codecademy, W3Schools y SQLBolt para ayudar a los investigadores a entender y utilizar el lenguaje de consulta estructurado (SQL)10,11,12. Al igual que cualquier lenguaje de programación, aprender a usar bases de datos y código con SQL lleva tiempo dominar, pero con los amplios recursos disponibles el proceso es sencillo y bien vale la pena el esfuerzo invertido.

Las bases de datos pueden ser herramientas eficaces para aumentar la accesibilidad a los datos y la facilidad de agregación, pero es importante discernir qué datos se beneficiarían más de un mayor control de la organización. La multidimensionalidad se refiere al número de condiciones con las que se puede agrupar una medición, y las bases de datos son más eficaces al administrar muchas condiciones diferentes13. Por el contrario, la información con baja dimensionalidad es más sencilla de manejar utilizando un programa de hoja de cálculo; por ejemplo, un conjunto de datos que contiene años y un valor para cada año solo tiene una agrupación posible (medidas con respecto a años). Los datos de alta dimensión, como los de los entornos clínicos, requerirían un gran grado de organización manual para mantener eficazmente un proceso tedioso y propenso a errores más allá del alcance de los programas de hoja de cálculo13. Las bases de datos no relacionales (NoSQL) también cumplen una variedad de roles, principalmente en aplicaciones donde los datos no se organizan bien en filas y columnas14. Además de ser de código abierto con frecuencia, estos esquemas organizativos incluyen asociaciones gráficas, datos de series temporales o datos basados en documentos. NoSQL sobresale en escalabilidad mejor que SQL, pero no puede crear consultas complejas, por lo que las bases de datos relacionales son mejores en situaciones que requieren coherencia, estandarización y cambios de datos a gran escala poco frecuentes15. Las bases de datos son las mejores para agrupar y reactualizar datos de manera efectiva en la gran variedad de conformaciones que a menudo se necesitan en los entornos científicos13,16.

La intención principal de este trabajo, por lo tanto, es informar a la comunidad científica sobre el potencial de las bases de datos como sistemas de gestión de datos escalables para datos de “tamaño medio”, datos de baja velocidad, así como proporcionar una plantilla general utilizando ejemplos específicos de experimentos de línea celular procedentes del paciente. Otras aplicaciones similares incluyen datos geoespaciales de lechos fluviales, cuestionarios de estudios clínicos longitudinales y condiciones de crecimiento microbiano en medios de crecimiento17,18,19. Este trabajo destaca las consideraciones comunes y la utilidad de construir una base de datos junto con una canalización de datos necesaria para convertir datos sin procesar en formatos estructurados. Los conceptos básicos de las interfaces de base de datos y la codificación para bases de datos en SQL se proporcionan e ilustran con ejemplos para permitir que otros obtengan los conocimientos aplicables a la creación de marcos básicos. Por último, un conjunto de datos experimental esejemplo de muestra la facilidad y eficacia con que se pueden diseñar bases de datos para agregar datos multifacéticos de diversas maneras. Esta información proporciona contexto, comentarios y plantillas para ayudar a otros científicos en el camino hacia la implementación de bases de datos para sus propias necesidades experimentales.

Con el fin de crear una base de datos escalable en un entorno de laboratorio de investigación, los datos de experimentos con células de fibroblastos humanos se recopilaron en los últimos tres años. El objetivo principal de este protocolo es informar sobre la organización del software informático para permitir al usuario agregar, actualizar y administrar datos de la manera más rentable y eficiente en el tiempo posible, pero también se proporcionan los métodos experimentales pertinentes para Contexto.

Configuración experimental
El protocolo experimental para la preparación de muestras se ha descrito anteriormente20,21, y se presenta brevemente aquí. Las construcciones fueron preparadas por revestimientos rectangulares de vidrio con una mezcla de 10:1 de polidimetilsiloxano (PDMS) y agente de curado, luego aplicando 0,05 mg/ml de fibronectina, ya sea en líneas no organizadas (isotrópicas) o de 20 m con arreglos micropatrones de brecha de 5 m (líneas). Las células fibroblastas fueron sembradas en el pasaje 7 (o el pasaje 16 para controles positivos) sobre los cubreobjetos en densidades óptimas y se dejaron crecer durante 48 horas con medios que se cambiaron después de 24 h. Las células se fijaron entonces usando una solución de paraformaldehído (PFA) al 4% y un tensioactivo no iónico al 0,0005%, seguido de que los cubretapas se inmunotintaban para los núcleos celulares (4′,6′-diaminodino-2-fenilinodolo [DAPI]), la actina (Alexa Fluor 488 phalloidin) y la fibronectina (policlíneina). Se aplicó una mancha secundaria para la fibronectina utilizando anticuerpos IgG anticonejo de cabra (Anticonejo de cabra Alexa Fluor 750) y se montó un agente de conservación en todos los labios de cubierta para evitar el desvanecimiento fluorescente. El esmalte de uñas se utilizó para sellar los cubreobjetos en las diapositivas del microscopio y luego se dejó secar durante 24 horas.

Las imágenes de fluorescencia se obtuvieron como se describió anteriormente20 utilizando un objetivo de inmersión en aceite de 40x junto con una cámara de dispositivo acoplado de carga digital (CCD) montada en un microscopio motorizado invertido. Se crearon diez campos de visión seleccionados aleatoriamente para cada punzón con un aumento de 40x, correspondiente a una resolución de 6,22 píxeles/m. Se utilizaron códigos escritos a medida para cuantificar diferentes variables de las imágenes que describen los núcleos, los filamentos de actina y la fibronectina; los valores correspondientes, así como los parámetros de organización y geometría, se guardaron automáticamente en archivos de datos.

Líneas celulares
Puede encontrar documentación más extensa sobre todas las líneas de células de datos de muestra en publicaciones anteriores20. Para describir brevemente, se aprobó la recopilación de datos y se realizó el consentimiento informado de conformidad con la Junta de Revisión Institucional de UC Irvine (IRB n.o 2014-1253). Las células fibroblásticas humanas se recogieron de tres familias de diferentes variaciones de la mutación genética de lamina A/C(LMNA):mutación heterocigota del sitio LMNA (c.357-2A>G)22 (familia A); Mutación sin sentido LMNA (c.736 C>T, pQ246X) en el exón 423 (familia B); y mutación del missense LMNA (c.1003C>T, pR335W) en el exón 624 (familia C). Las células fibroblastas también se recogieron de otros individuos de cada familia como controles negativos de mutación relacionados, denominados “Controles”, y otras fueron compradas como controles negativos de mutación no relacionados, denominados “Donantes”. Como control positivo, las células fibroblastas de un individuo con Hutchinson-Gliford progeria (HGPS) fueron compradas y cultivadas a partir de una biopsia de piel tomada de una paciente de 8 años con HGPS que poseía una mutación de punto LMNA G608G25. En total, los fibroblastos de 22 individuos fueron probados y utilizados como datos en este trabajo.

Tipos de datos
Los datos de fibroblastos se dividió en una de dos categorías: variables de núcleos celulares (es decir, porcentaje de núcleos dismórficos, área de núcleos, excentricidad de núcleos)20 o variables estructurales derivadas del parámetro de orden orientativo (OOP)21,26,27 (es decir, actina OOP, fibronecina OOP, nuclei OOP). Este parámetro es igual al valor máximo del tensor de orden medio de todos los vectores de orientación, y se define en detalle en las publicaciones anteriores26,28. Estos valores se agregan en una variedad de posibles conformaciones, tales como valores contra la edad, género, estado de la enfermedad, presencia de ciertos síntomas, etc. En la sección de resultados se pueden encontrar ejemplos de cómo se utilizan estas variables.

Códigos y archivos de ejemplo
Los códigos de ejemplo y otros archivos basados en los datos anteriores se pueden descargar con este documento, y sus nombres y tipos se resumen en la Tabla 1.

Protocol

NOTA: Consulte la Tabla de materiales para ver las versiones de software utilizadas en este protocolo. 1. Evaluar si los datos se beneficiarían de un esquema de organización de bases de datos Descargue los códigos de ejemplo y las bases de datos (consulte Archivos de codificación suplementarios, que se resumen en la Tabla 1). Utilice la Figura 1 para evaluar si el conjunto de datos de inter…

Representative Results

Multidimensionalidad de los datosEn el contexto del ejemplo de conjunto de datos presentado aquí, los sujetos, descritos en la sección Métodos, se dividieron en grupos de individuos de las tres familias con la mutación LMNA causante de enfermedades cardíacas (“Pacientes”), controles negativos no mutaciones relacionados (“Controles”), controles negativos no mutaciones no relacionados (“Donantes”), y un individuo con síndrome de Hutchinson-Gilford progeria (HGPS) como control positivo<su…

Discussion

Discusión técnica del protocolo
El primer paso al considerar el uso de bases de datos es evaluar si los datos se beneficiarían de una organización de este tipo.

El siguiente paso esencial es crear un código automatizado que pedirá la entrada mínima del usuario y genere la estructura de datos de la tabla. En el ejemplo, el usuario ha introducido la categoría de tipo de datos (núcleos de células o medidas estructurales), el designador de asunto de las líneas de cel…

Offenlegungen

The authors have nothing to disclose.

Acknowledgements

Este trabajo es apoyado por el Instituto Nacional del Corazón, los Pulmones y la Sangre de los Institutos Nacionales de Salud, número de concesión R01 HL129008. Los autores agradecen especialmente a los miembros de la familia de mutaciones del gen LMNA por su participación en el estudio. También nos gustaría agradecer a Linda McCarthy por su ayuda con el cultivo celular y el mantenimiento de los espacios de laboratorio, Nasam Chokr por su participación en imágenes celulares y el análisis de datos de núcleos, y Michael A. Grosberg por su consejo pertinente con la creación de nuestra base de datos inicial de Microsoft Access, así como la respuesta a otras preguntas técnicas.

Materials

4',6'-diaminodino-2-phenylinodole (DAPI) Life Technologies, Carlsbad, CA
Alexa Fluor 488 Phalloidin Life Technologies, Carlsbad, CA
Alexa Fluor 750 goat anti-rabbit Life Technologies, Carlsbad, CA
digital CCD camera ORCAR2 C10600-10B Hamamatsu Photonics, Shizuoka Prefecture, Japan
fibronectin Corning, Corning, NY
IX-83 inverted motorized microscope Olympus America, Center Valley, PA
Matlab R2018b Mathworks, Natick, MA
MS Access Microsoft, Redmond, WA
paraformaldehyde (PFA) Fisher Scientific Company, Hanover Park, IL
polycloncal rabbit anti-human fibronectin Sigma Aldrich Inc., Saint Louis, MO
polydimethylsiloxane (PDMS) Ellsworth Adhesives, Germantown, WI
Prolong Gold Antifade Life Technologies, Carlsbad, CA
rectangular glass coverslips Fisher Scientific Company, Hanover Park, IL
Triton-X Sigma Aldrich Inc., Saint Louis, MO

Referenzen

  1. Cavin, R. K., Lugli, P., Zhirnov, V. V. Science and engineering beyond Moore’s law. Proceedings of the IEEE. 100, 1720-1749 (2012).
  2. Mast, F. D., Ratushny, A. V., Aitchison, J. D. Systems cell biology. The Journal of Cell Biology. 206 (6), 695-706 (2014).
  3. Barone, L., Williams, J., Micklos, D. Unmet needs for analyzing biological big data: A survey of 704 NSF principal investigators. PLoS Computational Biology. 13 (10), 1005755 (2017).
  4. Gandomi, A., Haider, M. Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management. 35 (2), 137-144 (2015).
  5. Siddiqa, A., et al. A survey of big data management: Taxonomy and state-of-the-art. Journal of Network and Computer Applications. 71, 151-166 (2016).
  6. Anderson, C. The End of Theory: The Data Deluge Makes the Scientific Method Obsolete. Wired Magazine. , (2008).
  7. Broman, K. W., Woo, K. H. Data Organization in Spreadsheets. The American Statistician. 72 (1), 2-10 (2018).
  8. Lee, H., et al. How I do it: a practical database management system to assist clinical research teams with data collection, organization, and reporting. Academic Radiology. 22 (4), 527-533 (2015).
  9. Bassil, Y. A comparative study on the performance of the Top DBMS systems. Journal of Computer Science & Research. 1 (1), 20-31 (2012).
  10. . Learn SQL – Codeacademy Available from: https://www.codecademy.com/learn/learn-sql (2018)
  11. . SQL Tutorial – w3schools.com Available from: https://www.w3schools.com/sql (2018)
  12. . Introduction to SQL – SQLBolt Available from: https://sqlbolt.com (2018)
  13. Pedersen, T. B., Jensen, C. S. Multidimensional database technology. Computer. 34 (12), 40-46 (2001).
  14. Győrödi, C., Gyorodi, R., Sotoc, R. A Comparative Study of Relational and Non-Relational Database Models in a Web- Based Application. International Journal of Advanced Computer Science and Applications. 6 (11), 78-83 (2015).
  15. Nayak, A., Poriya, A., Poojary, D. Type of NOSQL databases and its comparison with relational databases. International Journal of Applied Information Systems. 5 (4), 16-19 (2013).
  16. Lei, C., Feng, D., Wei, C., Ai-xin, Z., Zhen-hu, C. The application of multidimensional data analysis in the EIA database of electric industry. Procedia Environmental Sciences. 10, 1210-1215 (2011).
  17. Soranno, P. A., et al. Building a multi-scaled geospatial temporal ecology database from disparate data sources: fostering open science and data reuse. GigaScience. 4, 28 (2015).
  18. Edwards, P. Questionnaires in clinical trials: guidelines for optimal design and administration. Trials. 11, 2 (2010).
  19. Richards, M. A., et al. MediaDB: A Database of Microbial Growth Conditions in Defined Media. PLoS ONE. 9 (8), 103548 (2014).
  20. Core, J. Q., et al. Age of heart disease presentation and dysmorphic nuclei in patients with LMNA mutations. PLoS ONE. 12 (11), 0188256 (2017).
  21. Drew, N. K., Johnsen, N. E., Core, J. Q., Grosberg, A. Multiscale Characterization of Engineered Cardiac Tissue Architecture. Journal of Biomechanical Engineering. 138 (11), 111003 (2016).
  22. Zaragoza, M. V., et al. Exome Sequencing Identifies a Novel LMNA Splice-Site Mutation and Multigenic Heterozygosity of Potential Modifiers in a Family with Sick Sinus Syndrome, Dilated Cardiomyopathy, and Sudden Cardiac Death. PLoS ONE. 11 (5), 0155421 (2016).
  23. Zaragoza, M., Nguyen, C., Widyastuti, H., McCarthy, L., Grosberg, A. Dupuytren’s and Ledderhose Diseases in a Family with LMNA-Related Cardiomyopathy and a Novel Variant in the ASTE1 Gene. Cells. 6 (4), 40 (2017).
  24. Zaragoza, M. V., Hakim, S. A., Hoang, V., Elliott, A. M. Heart-hand syndrome IV: a second family with LMNA-related cardiomyopathy and brachydactyly. Clinical Genetics. 91 (3), 499-500 (2017).
  25. Eriksson, M., et al. Recurrent de novo point mutations in lamin A cause Hutchinson-Gilford progeria syndrome. Nature. 423 (6937), 293-298 (2003).
  26. Drew, N. K., Eagleson, M. A., Baldo, D. B., Parker, K. K., Grosberg, A. Metrics for Assessing Cytoskeletal Orientational Correlations and Consistency. PLoS Computational Biology. 11 (4), 1004190 (2015).
  27. Hamley, I. W. . Introduction to Soft Matter: Synthetic and Biological Self-Assembling Materials. , (2013).
  28. Grosberg, A., Alford, P. W., McCain, M. L., Parker, K. K. Ensembles of engineered cardiac tissues for physiological and pharmacological study: Heart on a chip. Lab Chip. 11 (24), 4165-4173 (2011).
  29. Hey, T., Trefethen, A., Berman, F., Fox, G., Hey, A. J. G. The Data Deluge: An e-Science Perspective. Grid Computing: Making the Global Infrastructure a Reality. , (2003).
  30. Wardle, M., Sadler, M. How to set up a clinical database. Practical Neurology. 16 (1), 70-74 (2016).
  31. Kerr, W. T., Lau, E. P., Owens, G. E., Trefler, A. The future of medical diagnostics: large digitized databases. The Yale Journal of Biology and Medicine. 85 (3), 363 (2012).
  32. Laulederkind, S. J., et al. The Rat Genome Database curation tool suite: a set of optimized software tools enabling efficient acquisition, organization, and presentation of biological data. Database. 2011, (2011).
  33. Harris, P. A., et al. Research electronic data capture (REDCap)–a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of Biomedical Informatics. 42 (2), 377-381 (2009).
  34. Panko, R. R. What we know about spreadsheet errors. Journal of Organizational and End User Computing (JOEUC). 10 (2), 15-21 (1998).
  35. Ziemann, M., Eren, Y., El-Osta, A. Gene name errors are widespread in the scientific literature. Genome Biology. 17 (1), 177 (2016).
  36. Enhancing Reproducibility through Rigor and Transparency. NIH Available from: https://grants.nih.gov/reproducibility/index.htm (2018)
  37. Hofseth, L. J. Getting rigorous with scientific rigor. Carcinogenesis. 39 (1), 21-25 (2017).
  38. . SQL Training and Tutorials – Lynda.com Available from: https://www.lynda.com/SQL-training-tutorials/446-0.html (2018)

Play Video

Diesen Artikel zitieren
Ochs, A. R., Mehrabi, M., Becker, D., Asad, M. N., Zhao, J., Zaragoza, M. V., Grosberg, A. Databases to Efficiently Manage Medium Sized, Low Velocity, Multidimensional Data in Tissue Engineering. J. Vis. Exp. (153), e60038, doi:10.3791/60038 (2019).

View Video