November 22nd, 2019
Wielu badaczy generuje dane "średniej wielkości", o niskiej prędkości i wielowymiarowe, które mogą być efektywniej zarządzane za pomocą baz danych niż arkuszy kalkulacyjnych. W tym miejscu przedstawiono koncepcyjny przegląd baz danych, w tym wizualizację danych wielowymiarowych, łączenie tabel w strukturach relacyjnych baz danych, mapowanie półautomatycznych potoków danych i używanie bazy danych do wyjaśniania znaczenia danych.
W ciągu ostatnich kilku dekad dane naukowe stawały się coraz bardziej złożone i bogate, ale naukowcy nadal używają metod organizacji, które nie spełniają już ich rosnących potrzeb w zakresie danych. Główną zaletą techniki opisanej w tym filmie jest to, że pozwala ona na stworzenie bazy danych, która zapewnia rygorystyczny potok i przechowywanie danych przy jednoczesnym zachowaniu elastyczności analizy danych. Aby rozpocząć ocenę interesującego zestawu danych, pobierz przykładowe kody i bazy danych przedstawione w tej tabeli.
Następnie użyj tej graficznej reprezentacji wielowymiarowej bazy danych, aby ocenić, czy interesujący Cię zestaw danych jest rzeczywiście wielowymiarowy. Dane muszą spełniać dwa warunki, aby można było korzystać z organizacji bazy danych. Po pierwsze, dane muszą mieć możliwość wizualizacji w formie wielowymiarowej.
Po drugie, musi uzyskać większą wiedzę naukową, będąc w stanie powiązać konkretny wynik eksperymentu z dowolnym z wymiarów. Relacyjne bazy danych przechowują informacje w postaci tabel, które są zorganizowane w wiersze i kolumny i mogą być używane do łączenia informacji identyfikujących w bazie danych. Wielowymiarowość jest obsługiwana przez powiązanie ze sobą różnych pól, takich jak kolumny tabeli i poszczególne tabele.
Po pierwsze, uporządkuj pliki danych tak, aby miały dobrze przemyślane, unikalne nazwy. Dobre praktyki dotyczące konwencji nazewnictwa plików i struktur folderów/podfolderów pozwalają na szeroką skalowalność bazy danych bez uszczerbku dla czytelności ręcznego uzyskiwania dostępu do plików. Dodawaj datowane pliki w spójnym formacie i nazywaj podfoldery zgodnie z metadanymi.
Podczas projektowania struktury bazy danych należy rysować relacje między polami w różnych tabelach. Utwórz dokumentację README, która opisuje bazę danych i relacje, które zostały utworzone. Może być zarówno graficzny, jak ten rysunek, jak i oparty na tekście.
Po połączeniu wpisu między różnymi tabelami wszystkie skojarzone informacje są powiązane z tym wpisem i mogą być używane do wywoływania złożonych zapytań w celu filtrowania żądanych informacji. Wynik końcowy powinien być podobny do tego przykładu, w którym różne cechy osób są związane z powiązanymi danymi eksperymentalnymi tych osób. To samo zostało zrobione poprzez powiązanie kolumn typów wzorców i typów danych z pasującymi wpisami w głównej tabeli DataValues w celu wyjaśnienia różnych skrótowych notacji.
Zidentyfikuj wszystkie różne eksperymenty i metody analizy danych, które mogą prowadzić do zbierania danych, wraz z normalnymi praktykami przechowywania danych dla każdego typu danych. Pracuj z oprogramowaniem do kontroli wersji typu open source, takim jak GitHub, aby zapewnić niezbędną spójność i kontrolę wersji, jednocześnie minimalizując obciążenie użytkowników. Upewnij się, że utworzyłeś procedurę spójnego nazewnictwa i przechowywania danych, aby umożliwić zautomatyzowany potok.
Użyj dowolnego wygodnego języka programowania, aby wygenerować nowe wpisy danych dla bazy danych. Twórz małe tabele pomocnicze w oddzielnych plikach, które mogą kierować automatycznym wyborem danych. Pliki te służą jako szablon możliwości, w ramach których potok może działać, i są łatwe do edycji.
Aby wygenerować nowe wpisy danych dla potoku danych, zaprogramuj kod w sposób podobny do pokazanego tutaj przykładu, który znajduje się w plikach uzupełniających z tym artykułem. Umożliwi to użycie tabel pomocniczych jako danych wejściowych do wyboru przez użytkownika. W tym miejscu utwórz nowy arkusz kalkulacyjny z lokalizacjami plików, łącząc nowe wpisy z poprzednimi wpisami.
Kod pokazany tutaj i dostarczony w plikach uzupełniających może być użyty do zautomatyzowania tego procesu. Następnie sprawdź scalony arkusz kalkulacyjny pod kątem duplikatów, używając kodu pokazanego tutaj, aby zautomatyzować ten krok. Dodatkowo sprawdź arkusz kalkulacyjny pod kątem błędów za pomocą metody automatycznej i powiadom użytkownika o ich przyczynie i lokalizacji.
Ponadto możesz napisać kod, który sprawdzi skompilowaną bazę danych i zidentyfikuje wszelkie brakujące złe punkty danych. Ręcznie usuń uszkodzone punkty bez utraty integralności bazy danych przy użyciu kodu podobnego do pokazanego tutaj. Powtórz te kroki, aby dodać więcej punktów danych.
Następnie użyj lokalizacji plików, aby wygenerować arkusz kalkulacyjny wartości danych. Utwórz również zaktualizowaną listę wpisów, do których można uzyskać dostęp w celu zidentyfikowania lokalizacji plików lub scalenia z przyszłymi wpisami. Aby rozpocząć tworzenie bazy danych, najpierw utwórz pusty dokument bazy danych, aby załadować tabelę pomocniczą dla linii komórek, typów danych i typów wzorców.
Przejdź do menu Dane zewnętrzne, wybierz Import pliku tekstowego, kliknij Przeglądaj, a następnie wybierz żądany plik. W Kreatorze importu wybierz opcję Rozdzielany i naciśnij Dalej. Wybierz pozycję Pierwszy wiersz zawiera nazwy pól i przecinek jako typ ogranicznika.
Po kliknięciu przycisku Dalej wybierz domyślne opcje pola, a następnie wybierz opcję Brak klucza podstawowego. Kliknij Dalej, a następnie Zakończ. Następnie załaduj typy danych i wzorców, powtarzając te same kroki.
Następnie załaduj tabelę wartości danych. Przejdź do menu Dane zewnętrzne, wybierz Import pliku tekstowego, kliknij Przeglądaj, a następnie wybierz żądany plik. W Kreatorze importu wybierz opcję Rozdzielany i naciśnij Dalej.
Wybierz pozycję Pierwszy wiersz zawiera nazwy pól i przecinek jako typ ogranicznika. Po kliknięciu przycisku Dalej wybierz domyślne opcje pola, a następnie wybierz opcję Pozwól programowi Access dodać klucz podstawowy. Kliknij Dalej, a następnie Zakończ.
Teraz utwórz relacje, wybierając narzędzia bazy danych, przechodząc do pozycji Relacje i przeciągając wszystkie tabele na tablicę. Następnie przejdź do pozycji Edytuj relacje i wybierz pozycję Utwórz nową. Wybierz nazwy tabel i kolumn, a następnie kliknij typ sprzężenia, który będzie wskazywał tabele pomocnicze.
Po skonfigurowaniu każdej żądanej relacji przejdź do pozycji Utwórz i wybierz pozycję Projekt kwerendy, a następnie zaznacz lub przeciągnij wszystkie odpowiednie tabele do górnego okna. W tym przykładzie pokazano linie komórkowe, wartości danych, typy danych i typ wzorca. Relacje powinny być automatycznie konfigurowane na podstawie poprzedniego projektu relacji.
Teraz wypełnij kolumny zapytania, aby uzyskać żądane wyniki. Dla tego zestawu danych przejdź do pozycji pokaż i wybierz pozycję Sumy. Wypełnij pierwszą kolumnę, drugą kolumnę i trzecią kolumnę, jak pokazano poniżej.
Wypełnij również czwartą kolumnę, piątą kolumnę i szóstą kolumnę. Po zakończeniu wypełniania kolumn zapisz i uruchom zapytanie. W przypadku tych przykładowych danych eksperymentalnych należy użyć jednokierunkowej analizy wariancji przy użyciu testu Tukeya do średnich porównań między różnymi warunkami.
Biorąc pod uwagę wiele możliwych potwierdzeń, może być trudno określić, gdzie istnieją nowe relacje przy użyciu ręcznych metod agregacji danych. W tym przypadku organizacja subkomórkowych włókien aktynowych w wielu warunkach została zmierzona przy użyciu stopnia kolejności orientacyjnej poprzez przeszukiwanie bazy danych w różnych potwierdzeniach. Zestawy danych anizotropowych i izotropowych wykazują bardzo różne OOP, czego można się było spodziewać, ponieważ mikrowzorce fibronektyny silnie wpływają na organizację tkanek.
Nie stwierdzono jednak istotnych różnic między warunkami statusu mutacji przy porównywaniu tkanek izotropowych. I odwrotnie, tkanki wzorcowe były statystycznie mniej zorganizowane w linii komórek kontroli pozytywnej. Zależność ta utrzymywała się nawet wtedy, gdy dane były agregowane przez różne rodziny w porównaniu z kontrolą pozytywną i negatywną.
W razie potrzeby dane można dalej analizować. Na przykład tutaj OOP aktyny wykreślono w stosunku do wieku osoby w momencie biopsji, oddzielonego statusem mutacji i rodziną, aby zilustrować agregację w stosunku do zmiennej klinicznej. W przypadku tego zestawu danych nie ma korelacji między organizacją aktyny a wiekiem danej osoby.
Pokazuje to, w jaki sposób te same dane mogą być analizowane w różnych kombinacjach i jak łatwo można wykonać zwykle trudne zadanie agregowania danych, które należą do wielu klas, za pomocą baz danych. Ten protokół do tworzenia potoku organizacyjnego danych i generowania bazy danych zapewnia rygor naukowy, który jest absolutnie niezbędny w dobie gromadzenia dużych ilości danych.
View the full transcript and gain access to thousands of scientific videos
Ten artykuł omawia wyzwania, przed którymi stają badacze w zarządzaniu złożonymi danymi naukowymi i przedstawia rozwiązanie poprzez użycie baz danych. Podkreśla zalety strukturalnego podejścia do baz danych w celu wizualizacji i analizy danych wielowymiarowych.