$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
1. Wprowadzenie
Analiza wzorców wielowymiarowych (MVPA) jest coraz bardziej popularną metodą analizy danych funkcjonalnego rezonansu magnetycznego (fMRI)1-4. Zazwyczaj metoda ta jest używana do identyfikacji doświadczenia percepcyjnego osoby na podstawie aktywności neuronalnej w określonych obszarach mózgu. Na przykład, została ona wykorzystana do przewidywania orientacji siatek wzrokowych, które badany postrzega na podstawie aktywności we wczesnej korzewzrokowej5 lub, analogicznie, treści mowy na podstawie aktywności we wczesnej korzesłuchowej6. W tym artykule wideo opisujemy nowatorskie zastosowanie MVPA, które dodaje dodatkowy zwrot do tego podstawowego, intramodalnego paradygmatu. W tym podejściu bodźce percepcyjne są przewidywane nie wewnątrz, ale w różnych systemach sensorycznych.
2. Analiza wzorców wielowymiarowych
Chociaż metoda MVPA jest już dobrze znana w dziedzinie neuroobrazowania, zaczniemy od zwrócenia uwagi na kluczowe różnice między MVPA a konwencjonalną, jednowymiarową analizą fMRI. W tym celu rozważmy następujący przykład, w jaki sposób te dwie metody badają aktywność neuronalną w korze wzrokowej podczas prostego zadania wzrokowego (Klip wideo 1):
- Badanemu prezentowane są dwa różne bodźce wzrokowe, na przykład obraz pomarańczy i obraz jabłka.
- Oba bodźce indukują specyficzny wzorzec aktywności neuronalnej w pierwszorzędowej korze wzrokowej, symbolizowany tutaj przez poziomy aktywacji sześciu hipotetycznych wokseli. (Oczywiście, wzorce aktywności wywołane przez pojedynczą prezentację obrazów pomarańczy lub jabłka w rzeczywistości byłyby bardzo hałaśliwe; rozważ zilustrowane wzorce jako średnie wynikające z dużej liczby prób.)
- W konwencjonalnej analizie fMRI istnieją zasadniczo dwa sposoby, w jakie te wzorce mogą być analizowane. Po pierwsze, można skupić się na średnim poziomie aktywności w całym regionie zainteresowania.
- W podanym przykładzie różnica w średnich poziomach aktywności nie jest znacząca, tak że z tego punktu widzenia nie można rozróżnić wzorców odpowiadających tym dwóm bodźcom.
- Innym sposobem analizy tych dwóch wzorców jest ustalenie kontrastu odejmowania między nimi: dla każdego woksela poziom aktywacji w stanie "jabłko" jest odejmowany od poziomu aktywacji w stanie "pomarańczowym". Uzyskaną różnicę można następnie zwizualizować dla każdego woksela na obrazie kontrastowym całego mózgu.
- Również w tym przypadku różnice te mogą być niewielkie i mogą osiągnąć wymagane kryterium statystyczne tylko dla bardzo niewielu wokseli.
- W tym miejscu pojawia się decydująca zaleta MVPA: jego ponadprzeciętna moc wynika z faktu, że w przeciwieństwie do metod analizy jednowymiarowej, bierze pod uwagę poziomy aktywacji wszystkich wokseli jednocześnie, a tym samym jest w stanie wykryć w nich wzorce. Chociaż, jak wspomniano, tylko kilka różnic w aktywacji może być znaczących, gdy rozpatruje się je oddzielnie, te dwa wzorce, gdy rozpatruje się je w całości, mogą rzeczywiście różnić się statystycznie.
Istnieje druga zasadnicza różnica między konwencjonalną analizą fMRI a MVPA (Klip wideo 2). Pierwsza metoda zazwyczaj próbuje wykazać statystyczną zależność między pewnymi bodźcami sensorycznymi a pewnymi wzorcami aktywności mózgu w "sposób do przodu"; Innymi słowy, zadaje pytanie typu: "Czy dwa różne bodźce wzrokowe, np. obraz twarzy i obraz domu, doprowadzą do różnych poziomów aktywności w określonym obszarze zainteresowania, np. wrzecionowatym obszarze twarzy?" W przeciwieństwie do tego, sukces MVPA jest zwykle wyrażany w kategoriach "odwrotnego wnioskowania" lub "dekodowania"; Typowe pytanie jest typu: "Na podstawie wzorca aktywności neuronalnej w określonym obszarze zainteresowania (np. pierwszorzędowej korze wzrokowej), można przewidzieć, czy badany odbiera bodziec A, np. pomarańczę, czy bodziec B, np. jabłko?" Należy jednak zauważyć, że kierunek, w którym odwzorowywana jest korelacja między bodźcami percepcyjnymi a aktywnością mózgu, nie ma znaczenia ze statystycznego punktu widzenia: jest to równoznaczne ze stwierdzeniem, że dwa bodźce prowadzą do różnych wzorców aktywności w danym obszarze mózgu i stwierdzeniem, że wzorzec aktywności w tym obszarze mózgu pozwala przewidzieć bodziec indukujący11. Innymi słowy, czułość MVPA jest lepsza niż analiz jednowymiarowych, ponieważ uwzględnia kilka wokseli jednocześnie, a nie dlatego, że przebiega w odwrotnym kierunku.
Poniższe kroki ilustrują, jak typowy paradygmat MVPA odpowie na pytanie, czy widzenie jabłka wywołuje inny wzorzec aktywności neuronalnej w podstawowej korze wzrokowej niż widzenie pomarańczy (Klip wideo 3):
- Dane fMRI są pozyskiwane, gdy badany widzi dużą liczbę bodźców jabłkowych i pomarańczowych.
- Pozyskane dane są dzielone na zestaw danych treningowych i zestaw danych testowych. W przeciwieństwie do poniższego przykładu, zestaw danych treningowych jest często wybierany jako większy niż zestaw danych testowych, ponieważ można oczekiwać, że wydajność klasyfikatora wzrośnie wraz z liczbą prób szkoleniowych.
- Dane ze zbioru treningowego są wprowadzane do klasyfikatora wzorców. Korzystając z jednego z kilku możliwych algorytmów matematycznych, klasyfikator próbuje wykryć cechy we wzorcach neuronowych, które odróżniają od siebie te dwa typy bodźców. Typem klasyfikatorów powszechnie stosowanych (również w naszych wcześniejszych badaniach) są tzw. maszyny wektorów nośnych; W celu uzyskania dalszych szczegółów czytelnik jest odsyłany do recenzji wymienionych we wstępie.
- Po przeszkoleniu klasyfikatora na próbach treningowych jest on dostarczany z danymi testowymi. Poszczególne badania z zestawu danych testowych są nieoznaczone; Innymi słowy, klasyfikator nie "wie", czy wzorzec pochodzi z próby "jabłkowej" czy "pomarańczowej".
- Na podstawie spójności, które udało mu się wykryć w zestawie danych treningowych, klasyfikator przypisuje najbardziej prawdopodobną etykietę do każdej z prób testowych.
- Dla każdego wzorca klasyfikator "zgadnij" może być porównany z prawidłową etykietą bodźca.
- Jeśli klasyfikator nie był w stanie wykryć żadnych spójnych różnic między wzorcami wywołanymi przez dwa bodźce, jego działanie powinno być na poziomie przypadku; dla dwukierunkowej dyskryminacji podanej w przykładzie odpowiadałoby to 50% poprawnym etykietom. Wydajność predykcyjna znacznie powyżej tej wartości wskazuje, że rzeczywiście istnieją stałe różnice między tymi dwoma rodzajami bodźców.
Zauważ, że ważne jest, aby zestawy danych treningowych i testowych były od siebie niezależne. Tylko w takim przypadku można wyciągnąć jakiekolwiek wnioski co do uogólnienia wzorców pochodzących ze zbioru treningowego. Badania MVPA często oceniają wydajność klasyfikatora przy użyciu paradygmatu walidacji krzyżowej (Klip wideo 4). Załóżmy, że eksperyment MVPA składa się z ośmiu przebiegów funkcjonalnych. W pierwszym kroku krzyżowej walidacji klasyfikator jest trenowany na danych z przebiegów od 1 do 7 i testowany na danych z przebiegu 8. W drugim kroku klasyfikator jest następnie trenowany w przebiegach od 1 do 6 oraz w przebiegu 8, a następnie testowany w przebiegu 7. Zgodnie z tym schematem przeprowadzanych jest osiem kroków krzyżowej walidacji, z których każdy służy jako przebieg testowy dokładnie raz. Ogólna wydajność klasyfikatora jest obliczana jako średnia wydajności na poszczególnych krokach krzyżowej walidacji. Chociaż procedura ta gwarantuje niezależne zestawy danych treningowych i testowych na każdym etapie, maksymalizuje również ogólną liczbę prób testowych, co może być korzystne przy ocenie istotności statystycznej działania klasyfikatora.
W Internecie dostępne są darmowe pakiety oprogramowania do wykonywania MVPA; dwa przykłady to PyMVPA12 (oparty na Pythonie; http://www.pymvpa.org) oraz zestaw narzędzi oferowanych przez Princeton Neuroscience Institute (na podstawie Matlab; http://code.google.com/p/princeton-mvpa-toolbox/).
3. Cross-modal MVPA i ramy stref konwergencji i dywergencji
Jak wspomniano we wstępie, eksperymentalne paradygmaty, takie jak ten właśnie opisany, były z powodzeniem wykorzystywane do przewidywania bodźców percepcyjnych na podstawie aktywności neuronalnej w odpowiednich korach czuciowych, innymi słowy, bodźców wzrokowych opartych na aktywności w korze wzrokowej i bodźców słuchowych opartych na aktywności w korze słuchowej. Tutaj przedstawiamy rozszerzenie tej podstawowej koncepcji. W szczególności postawiliśmy hipotezę, że powinno być możliwe przewidywanie bodźców percepcyjnych nie tylko w obrębie modalności, ale także w różnych modalnościach. Percepcja zmysłowa jest ściśle związana z przywoływaniem wspomnień; Na przykład, bodziec wzrokowy, który ma silne implikacje słuchowe, taki jak widok szklanego wazonu rozbijającego się o ziemię, automatycznie uruchomi w naszym "uchu umysłu" obrazy, które są podobne do obrazów słuchowych, których doświadczyliśmy podczas poprzednich spotkań z tłuczonym szkłem. Zgodnie z ramami wprowadzonymi przez Damasio ponad dwie dekady temu9,10, związek pamięciowy między widokiem wazonu a odpowiadającymi mu obrazami dźwiękowymi jest przechowywany w tak zwanych strefach konwergencji-dywergencji (CDZ; Klip wideo 5). CDZ to zespoły neuronów w korze asocjacyjnej, które otrzymują zbieżne projekcje oddolne z różnych wczesnych obszarów kory mózgowej (za pośrednictwem kilku poziomów hierarchicznych) i które z kolei wysyłają rozbieżne projekcje odgórne do tych samych miejsc korowych. Ze względu na zbieżne projekcje oddolne, CDZ mogą być aktywowane przez reprezentacje percepcyjne w wielu modalnościach - na przykład zarówno przez widok, jak i dźwięk tłuczonego wazonu; Ze względu na rozbieżne projekcje odgórne, mogą one następnie promować rekonstrukcję powiązanych obrazów, sygnalizując z powrotem do wczesnej kory mózgowej dodatkowe modalności. Damasio podkreślił tę ostatnią kwestię: aktywacja CDZ w korze asocjacyjnej nie byłaby wystarczająca do świadomego przywołania obrazu z pamięci; tylko wtedy, gdy CDZ zrekonstruują wyraźne reprezentacje neuronalne we wczesnej korze czuciowej, obraz będzie świadomie doświadczany. W ten sposób framework przewiduje określoną sekwencję przetwarzania neuronalnego w odpowiedzi na (czysto) wizualny bodziec, który implikuje dźwięk (Klip wideo 6):
- Bodziec najpierw indukuje określony wzorzec aktywności neuronalnej (czerwone prostokąty) we wczesnej korze wzrokowej.
- Poprzez zbieżne projekcje oddolne, neurony we wczesnej korze wzrokowej rzutują do przodu do pierwszego poziomu CDZ (CDZ1s). Zbieżny wzorzec połączeń pozwala CDZ1s wykrywać pewne wzorce aktywności we wczesnej korze wzrokowej. W zależności od dokładnego wzorca, CDZ może, ale nie musi zostać aktywowany. CDZ działają zatem jako ekstraktory cech. W tym przykładzie dwa CDZ1zostają aktywowane (jak wskazuje kolor czerwony), podczas gdy trzeci nie jest wyzwalany przez określony wzorzec aktywności w odpowiednim sektorze wczesnej kory wzrokowej.
- CDZ1s wysyłają zbieżne projekcje od dołu do góry do CDZ2s; dlatego, tak jak CDZ1s wykrył pewne wzorce aktywności we wczesnej korze wzrokowej, CDZ2s są w stanie wykryć wzorce aktywności wśród CDZ1s. Kilka CDZ2s może zostać aktywowanych przez określoną konfigurację aktywowanych CDZ1s; Dla uproszczenia przedstawiono tu tylko jeden CDZ2. W tym przykładzie wzorzec aktywności wśród CDZ1s jest wystarczający do aktywacji tego CDZ2.
- Warto zauważyć, że CDZ1s nie tylko rzutują do przodu na CDZ2s, ale także z powrotem do wczesnych kory mózgowej (niebieskie strzałki). Te odgórne sygnały mogą uzupełniać (prawdopodobnie hałaśliwy) wzorzec aktywności początkowo wywołany przez bodziec (niebieski prostokąt). Ogólnie rzecz biorąc, kolor czerwony oznacza aktywacje oddolne, podczas gdy kolor niebieski reprezentuje aktywacje odgórne.
- Poprzez kilka dodatkowych poziomów CDZ, CDZ2s rzutuje do przodu do CDZns w korze asocjacyjnej wyższego rzędu (przerywana strzałka). Jeden lub kilka CDZn smoże reagować na określony bodziec wzrokowy, o którym mowa (tylko jeden z nich jest przedstawiony).
- Ponownie należy zauważyć, że CDZ2s również sygnalizują wstecz do CDZ1s, co z kolei może dalej modyfikować wzorzec pierwotnie indukowany we wczesnej korze wzrokowej.
- CDZns sygnał z powrotem do CDZ2s wszystkich modalności. W korze wzrokowej może to prowadzić do zakończenia wzorców aktywności w CDZ niższego poziomu. W korze słuchowej zostanie skonstruowany wzorzec neuronalny - najpierw na poziomie CDZ2s i CDZ1s, ostatecznie we wczesnych korach słuchowych - który pozwala na świadome doświadczanie obrazu słuchowego związanego z bodźcem wizualnie prezentowanym. Należy zauważyć, że istnieje również sygnalizacja odgórna dla modalności somatosensorycznej, choć w mniejszym stopniu niż dla modalności słuchowej. Odzwierciedla to fakt, że prawie każdy bodziec wzrokowy ma z nim pewne skojarzenia dotykowe. Ponieważ jednak zakłada się, że bodziec wzrokowy w obecnym przykładzie wyraźnie sugeruje dźwięk, sygnalizacja odgórna do kory słuchowej jest bardziej rozległa.
Na podstawie proponowanej sekwencji przetwarzania neuronalnego, framework dokonuje specyficznego przewidywania: bodźce wzrokowe zawierające obiekty i zdarzenia, które silnie sugerują dźwięk, powinny wywoływać aktywność neuronalną we wczesnej korze słuchowej. Co więcej, wzorce aktywności słuchowej powinny być specyficzne dla bodźca; Innymi słowy, klip wideo z tłukącym się wazonem powinien wywołać inny wzór niż klip z wyjącym psem. Gdyby to przewidywanie było poprawne, to rzeczywiście powinniśmy być w stanie wykonać MVPA intermodalnie: na przykład powinniśmy być w stanie przewidzieć, wyłącznie na podstawie odcisku palca aktywności neuronalnej we wczesnej korze słuchowej, czy dana osoba widzi pękający wazon, czy wyjącego psa (Klip wideo 7). Oczywiście, analogiczne paradygmaty odwołujące się do przekazywania informacji między innymi modalnościami sensorycznymi również powinny odnieść sukces. Na przykład, jeśli klipy wideo pokazane badanemu sugerowały dotyk, a nie dźwięk, powinniśmy być w stanie przewidzieć te klipy na podstawie wzorców aktywności, które wywołują we wczesnej korze somatosensorycznej.
4. Bodźce
Ogólny paradygmat badania MVPA został opisany w sekcji 2. Nasze podejście różni się od poprzednich badań tym, że próbuje wykonać MVPA w różnych systemach sensorycznych, a zatem wykorzystuje bodźce, które są specjalnie zaprojektowane, aby mieć implikacje w modalności sensorycznej innej niż ta, w której są prezentowane. Na przykład w jednym z poprzednich badań zarejestrowaliśmy aktywność neuronalną z pierwotnej kory somatosensorycznej, podczas gdy badani oglądali 5-sekundowe klipy wideo przedstawiające przedmioty codziennego użytku manipulowane ludzkimi rękami8 (Klip wideo 8 i Klip wideo 9). W innym badaniu badaliśmy aktywność neuronalną we wczesnej korze słuchowej, podczas gdy badani oglądali klipy wideo, które przedstawiały obiekty i zdarzenia, które silnie sugerowały dźwięk7 (Klip wideo 10 i Klip wideo 11). Jednak zgodnie z ramami CDZ, bodźce sensoryczne wszystkich modalności mogą być potencjalnie wykorzystane w tym ogólnym paradygmacie, o ile mają implikacje w dodatkowych modalnościach.
5. Regiony zainteresowania
Generalnie, obszary zainteresowania dla badania neuroobrazowego mogą być określone zarówno funkcjonalnie, jak i anatomicznie. Uważamy, że w opisanym przez nas paradygmacie eksperymentalnym lokalizatory anatomiczne są bardziej odpowiednie z dwóch powodów. Po pierwsze, nie jest trywialne funkcjonalne zdefiniowanie pierwotnej lub wczesnej kory danej modalności sensorycznej (z możliwym wyjątkiem pierwszorzędowej kory wzrokowej), ponieważ przetwarzanie bodźców percepcyjnych prezentowanych podmiotowi w tej modalności zazwyczaj nie będzie ograniczone do tych obszarów. Na przykład, trudno byłoby zdefiniować pierwszorzędową korę somatosensoryczną poprzez przyłożenie dotyku do dłoni badanego, ponieważ aktywność wywołana tą procedurą najprawdopodobniej rozprzestrzeniłaby się również na korę somatosensoryczną. Po drugie, funkcjonalny lokalizator może nie oznaczać wszystkich wokseli, które mogą potencjalnie przyczynić się do wydajności klasyfikatora: wykazano, że obszary, które nie wykazują aktywacji netto w odpowiedzi na bodźce sensoryczne w klasycznym sensie (tj. regiony, które nie pojawiają się na obrazie kontrastowym [stymulacja vs. spoczynek]) mogą mimo to zawierać informacje o bodźcach13,14. Z tych dwóch powodów zalecamy stosowanie anatomicznie zdefiniowanych obszarów zainteresowania, gdy tylko makroskopowe punkty orientacyjne na to pozwalają; na przykład ogólna anatomia zakrętu postcentralnego stanowi rozsądne przybliżenie pierwotnej kory somatosensorycznej i wykorzystaliśmy ją do zdefiniowania obszaru zainteresowania w naszym badaniu somatosensorycznym8 (ryc. 1).
6. Tematy
Próbki badanych w badaniach MVPA są zazwyczaj mniejsze niż w konwencjonalnych badaniach fMRI, ponieważ analiza może być przeprowadzona na poziomie pojedynczego obiektu. Oczywiście nie przeszkadza to eksperymentatorowi w późniejszej analizie wyników poszczególnych osób również na poziomie grupy. Na przykład w dwóch wspomnianych wcześniej badaniach przeprowadziliśmy testy t na wynikach poszczególnych osób, aby ocenić ich znaczenie na poziomie grupy. W każdym badaniu wzięło udział osiem osób; Chociaż należy uznać, że jest to bardzo mała próba badana do celów testów parametrycznych, Trybunał stwierdził, że wiele z ocenionych przez nas dyskryminacji jest znaczących (zob. poniżej).
7. Reprezentatywne wyniki:
Jak wspomniano, w dwóch poprzednich badaniach naszym celem było przewidzenie dźwiękowych klipów wideo na podstawie aktywności neuronalnej we wczesnej korze słuchowej7 (zobacz Rysunek 2 dla maski użytej w tym badaniu) oraz klipów wideo sugerujących dotyk na podstawie aktywności w pierwotnej korze somatosensorycznej8. Ta próba zakończyła się sukcesem: w obu badaniach klasyfikator MVPA osiągnął wynik powyżej poziomu prawdopodobieństwa wynoszącego 50% dla wszystkich możliwych dwukierunkowych dyskryminacji między parami bodźców (n = 36 w badaniu słuchowym, biorąc pod uwagę, że było 9 różnych bodźców; n = 10 w badaniu somatosensorycznym, biorąc pod uwagę, że było 5 różnych bodźców). W badaniu słuchowym 26 z 36 dyskryminacji osiągnęło istotność statystyczną; W badaniu somatosensorycznym miało to miejsce w przypadku 8 z 10 dyskryminacji (dwustronne testy t, n = 8 w obu badaniach; Rysunek 3).

Rysunek 1. Zakres anatomicznie zdefiniowanej maski pierwotnej kory somatosensorycznej, użytej w Meyer i wsp., 2011. Algorytm klasyfikacyjny był w stanie przewidzieć klipy wideo sugerujące dotyk na podstawie wzorców aktywności mózgu ograniczonych do wyznaczonego obszaru. Przedruk za zgodą Oxford University Press.

Rysunek 2. Zakres anatomicznie zdefiniowanej maski wczesnej kory słuchowej, stosowany w Meyer i wsp., 2010. Algorytm klasyfikacyjny był w stanie przewidzieć (ciche) dźwiękowe klipy wideo z wzorców aktywności mózgu ograniczonych do wyznaczonego obszaru. Przedruk za zgodą Nature Publishing Group.

Rysunek 3. Podsumowanie wyników naszych poprzednich intermodalnych badań MVPA. Klasyfikator został użyty do przewidywania bodźców wzrokowych, które sugerowały dźwięk lub dotyk z aktywności odpowiednio we wczesnej korze słuchowej lub pierwotnej korze somatosensorycznej. Najważniejsze panele: w obu badaniach skuteczność predykcyjna była powyżej poziomu prawdopodobieństwa 0,5 dla wszystkich dwukierunkowych dyskryminacji między parami bodźców. Dolne panele: w badaniu słuchowym wydajność klasyfikatora osiągnęła istotność statystyczną dla 26 z 36 dyskryminacji; W badaniu somatosensorycznym miało to miejsce w przypadku 8 z 10 dyskryminacji. Przedruk za zgodą Nature Publishing Group i Oxford University Press.