$$\rightleftharpoonup{xx}$$
$$\longleftharp{xx}$$,
$$\longrightharp{xx}$$,
Aqui, fornecemos um método para a detecção confiável de estrabismo em alta resolução temporal usando o DeepLabCut. Otimizamos os parâmetros de treinamento e fornecemos uma avaliação dos pontos fortes e fracos desse método (Figura 1).
Após o treinamento de nossos modelos, verificamos que eles foram capazes de estimar corretamente os pontos superior e inferior da pálpebra (Figura 2), que servem como pontos de coordenadas para a medida da distância euclidiana. A distância euclidiana é definida como os comprimentos médios das distâncias entre os dois pontos superior e inferior do olho. Nosso modelo foi capaz de detectar casos de não estrabismo (Figura 2A) e estrabismo (Figura 2B). Os pontos azuis indicam pontos usados para determinar a distância euclidiana para cada quadro. Os pontos verdes, amarelos, laranja e roxos foram usados para ajudar o modelo a estimar corretamente a distância euclidiana e diminuir o valor de probabilidade quando a cabeça está em uma posição abaixo do ideal (ou seja, contabilizando o movimento da cabeça e as mudanças de posição entre as sessões). Em seguida, validamos a precisão do modelo usando vários métodos diferentes.
Para validar o número ideal de quadros usados para o modelo, treinamos e testamos quatro modelos de tamanhos de quadro de amostra variados (Figura 3). Primeiro, comparamos os valores de erro quadrático médio (RMSE) entre os dados de teste e treinamento para validar o quão bem os modelos poderiam prever com precisão os dados de teste nos quais não haviam sido treinados. Essa comparação mostrou que a variabilidade entre os pontos rotulados manualmente e os pontos rotulados pelo modelo se estabilizou após 300 quadros. Essa tendência se correlacionou com as médias relatadas de probabilidade que também pareceram se estabilizar após 300 quadros rotulados. Usamos esses valores de verossimilhança relatados para filtrar pontos inferiores a 0,92. Esses valores de probabilidade indicam o quão confiante o modelo está de que um determinado ponto foi rotulado corretamente com base nos dados de treinamento. Calculamos a média desses valores para os pontos que contribuem para a métrica de distância euclidiana para examinar o desempenho dos modelos em relação uns aos outros. Embora não tenha havido diferença significativa entre 300 e 400 quadros, usamos 400 quadros porque a média ficou acima do valor de probabilidade de 0,95, que está se aproximando do nosso limite para filtragem manual e se alinha com o limite utilizado em modelos semelhantes para estimativa de pose16.
Outra maneira de validar a precisão do modelo foi com uma matriz de confusão comparando quadros anotados manualmente com quadros rotulados de DLC. Dois indivíduos cegos anotaram manualmente 300 quadros do mesmo olho em oito vídeos. Usamos esses dados para construir uma matriz de confusão para avaliar verdadeiros e falsos positivos e negativos (Figura 4), onde os dados pontuados manualmente foram usados como a verdade fundamental. Para DLC, um valor positivo de estrabismo foi registrado quando a distância euclidiana foi registrada como inferior a 75 pixels (ou seja, o animal aperta os olhos), e um valor negativo foi registrado para valores maiores que 75 pixels (ou seja, o animal não aperta os olhos). Encontramos um valor preditivo positivo de 96,96%, que é a porcentagem de tempo em que o modelo prevê com precisão o estrabismo em relação a um estrabismo anotado manualmente. Encontramos um valor preditivo negativo de 99,66%, que é a porcentagem de tempo em que o modelo prevê com precisão nenhum estrabismo em relação ao estrabismo anotado manualmente. Eles mostram a proporção de valores negativos e positivos que foram rotulados corretamente. Também encontramos uma taxa de verdadeiros positivos de 98,1% e uma taxa de verdadeiros negativos de 99,46%, que representam a previsão precisa do modelo de valores positivos e negativos em relação a todos os valores positivos e negativos, respectivamente. Nosso coeficiente de correlação de Matthews, ou CCM, foi de 93,8%, indicando o coeficiente de correlação entre os valores observados e previstos.
Uma vez que estávamos confiantes de que nosso modelo rastreia o estrabismo de forma confiável, comparamos esse método DLC com um método de rastreamento de estrabismo publicado anteriormente usando um conjunto de dados pré-clínicos de enxaqueca14. Vamos nos referir a esse outro método como o "modelo de estrabismo de área (ASM)" porque foi desenvolvido usando a área de olho aberto como a variável contínua de medição de estrabismo14. O modelo de estrabismo de área utiliza software de detecção facial treinado combinado com um script MATLAB personalizado para analisar a área média de pixels do olho, excluindo quadros com uma taxa de erro de rastreamento de >15%14. Uma grande limitação é que o "ASM" não é de código aberto e, portanto, não é amplamente acessível. O DLC permite maior otimização e adaptabilidade sem exigir uma compra significativa de software e hardware.
Usamos um conjunto de dados de 10 camundongos CD1 fêmeas e 10 machos. Experimentalmente, todos os animais foram aclimatados em restrições suaves por 30 min durante um total de 3 dias antes do início das gravações. Cada animal foi registrado por 5 min de linha de base e depois 5 min para gravações de tratamento. Durante as sessões de tratamento, os animais foram tratados com PBS (veículo) ou 0,1 mg / kg CGRP (tratamento) por via intraperitoneal para induzir um estado semelhante à enxaqueca. Os dados foram coletados em uma sala bem iluminada usando câmeras equipadas com luz infravermelha para iluminar o rosto, garantindo a detecção precisa de pontos de referência. A câmera infravermelha incluía uma lente Kowa LM35JC 2/3" 35 mm F1.6 manual iris C-mount com uma distância focal de 254 mm e uma abertura apropriadamente ajustada. Após a coleta dos dados, utilizamos o ASM e o DLC para analisar os dados. Como a pontuação manual tem sido convencionalmente utilizada no campo para quantificar a careta facial, com o estrabismo sendo um componente da careta facial14, também comparamos nossos dados com os dados pontuados manualmente.
Com base em descobertas anteriores de que a injeção periférica de CGRP induz uma resposta estrábica em camundongos, esperávamos observar diferenças significativas na resposta estrabística entre o veículo e o tratamento com CGRP 6,14. Comparamos os métodos ASM, manual e DLC e descobrimos que nosso modelo detectou de forma robusta um fenótipo estrábico, assim como os métodos manual e ASM (Figura 5). É importante notar que o modelo ASM foi usado para avaliar a dor e o estrabismo induzidos por CGRP. Nesse estudo, Rea et al. compararam a resposta estrabística após CGRP com a resposta estrabismo após injeção de formalina na pata traseira como um ensaio de indução de dor "mais tradicional"14. Além disso, o CGRP está bem documentado como indutor de hipersensibilidade ao toque em camundongos através do uso de von Frey 3,17. Consistente com o campo, normalizamos o estrabismo médio durante a sessão de tratamento para uma linha de base pré-tratamento de 5 minutos para cada animal e comparamos PBS (n = 10) versus animais tratados com CGRP (n = 11). As análises estatísticas dos grupos tratados com PBS versus CGRP são as seguintes. Descobrimos que os animais tratados com CGRP exibiram diminuição da área média de pixels usando o método de rastreamento de estrabismo de área (p = 0,012, Figura 5A) e exibiram diminuição da distância euclidiana quando pontuados manualmente (p = 0,0007, Figura 5B) e usando nosso modelo DLC (p = 0,007, Figura 5C). Quando comparamos cada método ao longo do tempo em um único animal representativo, o mesmo padrão foi observado (Figura 5). Este animal mostrou um fenótipo de estrabismo muito claro em resposta ao tratamento com CGRP, mas não ao PBS. Todos os modelos foram capazes de detectar essas diferenças, mas os dados foram mais claramente representados em nosso modelo DLC (Figura 5). Métricas precisas e exatas são especialmente importantes quando os dados devem ser analisados em resoluções mais finas, onde a média não é indicativa da leitura comportamental completa (por exemplo, atividade cerebral). O método DLC de detecção de estrabismo em camundongos nos permite coletar dados em uma escala de tempo de milissegundos e bloqueá-los em medidas de atividade cerebral (por exemplo, potenciais de campo locais), que ocorrem em uma escala de tempo de milissegundos. Podemos então utilizar essa técnica para construir um perfil mais robusto de um estado cerebral indicativo de dor espontânea no contexto de enxaqueca e outros distúrbios cerebrais complexos.

Figura 1: Visão geral do procedimento para gerar uma rede treinada com DLC. Esquema geral do processo pelo qual as características oculares de um animal são rastreadas e analisadas usando aprendizado de máquina. Abreviatura: DLC = DeepLabCut. Clique aqui para ver uma versão maior desta figura.

Figura 2: Exemplo de rastreamento automatizado de estrabismo em um camundongo CD1 representativo. (A) Exemplo de um quadro mostrando DLC rastreando estrabismo (pontos coloridos) no contorno do olho durante o dia de tratamento quando o mouse não está apertando os olhos. (B) Exemplo de um quadro mostrando a detecção automatizada de estrabismo no dia do tratamento, usando nosso modelo DLC. A distância euclidiana foi medida usando a distância média entre B e C, os pontos azuis, na parte superior e inferior do olho. Os conjuntos azuis de pontos na parte superior e inferior do olho são usados ao rastrear a distância euclidiana. Os outros pontos (verde, amarelo, laranja, roxo) são pontos de referência de enquadramento usados para ajudar o modelo a estimar os pontos de distância euclidianos e filtrar o posicionamento da cabeça abaixo do ideal após a coleta de dados. Abreviatura: DLC = DeepLabCut. Clique aqui para ver uma versão maior desta figura.

Figura 3: Justificativa para o número de quadros usados para treinar o modelo. (A) A análise de erro quadrático médio indica a distância média entre os valores previstos e observados para conjuntos de dados de teste e trem. O conjunto de dados de treinamento representa os quadros amostrados ao treinar o modelo, e o conjunto de dados de teste representa os quadros não relacionados ao treinamento usados para validar o quão bem o modelo pode identificar imagens semelhantes, mas diferentes. Usamos cinco conjuntos de dados de treinamento e teste e descobrimos que os valores de RMSE se estabilizaram em torno de 300 quadros para o grupo de teste. (B) A probabilidade de um determinado ponto ser rotulado corretamente (média + SEM). Isso mostrou que 400 quadros rotulados manualmente eram ideais porque os conjuntos de dados brutos tinham uma média de probabilidade acima de 0,95, embora tivessem uma pontuação RMSE mais próxima da dos dados de treinamento. Isso significava que o modelo era capaz de aproximar os pontos em que havia sido treinado, ao mesmo tempo em que relatava a maioria dos quadros com alta probabilidade. Abreviação: RMSE = raiz quadrada média do erro. Clique aqui para ver uma versão maior desta figura.

Figura 4: Matriz de confusão para medições de estrabismo DLC. Amostramos 300 s de oito vídeos (cinco CGRP e três PBS) e comparamos esses pontos com uma pontuação binária de sim ou não rotulada manualmente para estrabismo. Quantificamos os valores previstos como aqueles identificados pelo DLC e os valores reais como aqueles pontuados manualmente por um humano. Em seguida, comparamos isso com os dados pontuados manualmente para ver com que frequência o estrabismo foi identificado corretamente em relação ao binário sim ou não pontuado manualmente do estrabismo. Abreviaturas: DLC = DeepLabCut; CGRP = peptídeo relacionado ao gene da calcitonina; PBS = solução salina tamponada com fosfato; TP = verdadeiros positivos; FP = falsos positivos; FN = falsos negativos; TN = verdadeiros negativos; VPP = valor preditivo positivo; VPN = valor preditivo negativo; TPR = taxa de verdadeiros positivos; TNR = taxa negativa verdadeira; CCM = coeficiente de correlação de Mateus. Clique aqui para ver uma versão maior desta figura.

Figura 5: Fenótipo de estrabismo em três modelos diferentes para detectar estrabismo. As duas primeiras linhas contêm o mesmo animal representativo com cada condição (PBS ou CGRP) em três modelos diferentes para detectar estrabismo. A linha inferior reflete as médias de todos os animais. (A) Houve uma diminuição na área média de pixels (área média geral de pixels / linha de base) em camundongos tratados com CGRP versus tratados com PBS (t (18) = 2,805, p = 0,012) após o processamento de todos os dados usando o modelo de estrabismo de área publicado e validado anteriormente14. (B) Houve uma resposta semelhante nos dados pontuados manualmente (t(18) = 4,064, p = 0,0007). (C) Os camundongos tratados com CGRP mostraram diminuição da distância média pálpebra a pálpebra (distância euclidiana do tratamento / distância euclidiana pré-tratamento, linha de base) do que os camundongos tratados com PBS (t (18) = 3,040, p = 0,007 ao utilizar DLC para processar todos os dados. N = 20 (10 fêmeas, 10 machos). As barras de erro indicam ± SEM médio. Clique aqui para ver uma versão maior desta figura.