January 2nd, 2011
영상 분석 (VA)는 대화식으로 데이터를 분석하는 새로운 접근 방식입니다. 이 비디오에서는, 우리는 높은 처리량 생물학 실험에 의해 가져온 데이터 과부하 문제를 논의하고, 그러한 문제에 대한 솔루션으로 VA를 만나볼 수 있습니다. 비디오 이내에 테이블오라는 VA 도구를 사용하여 면역 데이터 세트 사이의 분석을 보여줍니다.
시각적 분석 기법을 사용한 면역학적 데이터 분석 촉진. 데이터를 수집하고 저장하는 능력은 빠르게 발전했지만 데이터를 처리하고 분석하는 능력은 거의 진전을 이루지 못했습니다. 그 결과, 생물 의학 실험실에 대규모 데이터 세트가 존재하는 경우가 많으며, 이러한 데이터 세트는 효과적이지 않거나 효율적으로 분석되지 않습니다.
이로 인해 잠재적으로 풍부하고 강력한 정보가 스토리지 시스템의 심연에서 손실됩니다. 시각적 분석(VA)은 크고 복잡한 데이터 세트를 분석하는 새로운 방법으로 부상했습니다. VA 기법은 분석가가 시각적 인텔리전스를 사용하여 일반적인 추세 또는 이상치와 같은 데이터의 패턴을 발견할 수 있도록 하는 시각화를 기반으로 합니다.
이러한 빠른 시각화를 통해 데이터를 탐색하는 동안 가설을 빠르게 형성할 수 있습니다. VA 도구의 유연성을 통해 분석가는 여러 데이터 세트에 걸쳐 확대, 드릴다운 및 연결을 구축하는 동시에 관계를 탐색할 수 있습니다. 통합 데이터 소스에 VA를 적용함으로써 사용자는 새롭고 중요한 결과를 드러낼 수 있습니다.
부모 분석은 봇 도구 전문가와 도메인 전문가라고도 하는 기술 전문가가 함께 작업하여 도메인 전문가가 데이터에 대해 생물학적으로 관련된 질문을 하는 하나의 VA 접근 방식입니다. 그런 다음 봇 도구 전문가는 이 질문에 답하거나 추가 탐색으로 이어지는 패턴을 드러내는 데 도움이 될 수 있는 시각화를 만듭니다. 이 프로세스를 반복하여 통찰력을 제공하는 다양한 시각화를 구축할 수 있습니다.
우리는 대규모의 복잡한 생물 의학 데이터 세트에 대한 쌍체 분석 VA 접근 방식의 적합성을 테스트하기 시작했습니다. 예비 파일럿 실험에서 우리는 현재 문제에 대해 기존 VA 도구 중 몇 가지를 평가했습니다. 우리는 당면한 작업에 가장 적합한 도구로 Tableau 소프트웨어의 Tableau를 선택했습니다.
이러한 파일럿 실험의 선택 기준은 사용자 친화성, 전반적인 사용성과 같은 주관적인 매개변수뿐만 아니라 다양한 상호 작용 기술 및 시각화 기능과 같은 객관적인 기술적 기능을 기반으로 했습니다. 우리는 전염병 분야에서 일하는 실험실에서 일반적으로 사용하는 Microsoft Excel 스프레드시트에 데이터 세트를 가지고 있습니다. 이 세트에는 유전적 DNA 염기서열의 변이에 대한 피험자 식별자 데이터가 포함되어 있습니다.
이 경우 피험자에 대한 NF kappa BIA 단일 뉴클레오티드 다형성 또는 SNS, 뿐만 아니라 이 경우 관찰된 여러 생물학적 분자의 농도, 특정 자극으로 면역 세포를 자극한 후 피험자의 면역 세포에 의해 생성된 사이토카인. 이제 스프레드시트까지 아래로 스크롤합니다. 이 데이터 세트의 양에 대한 이해를 돕기 위해, 이 경우 NF Kappa BIA 유전자의 서로 다른 싹둑질인 유전자형과 관찰된 사이토카인 반응 사이에 일반적인 관계가 있는지 알아보는 데 관심이 있습니다.
자극 후 이제 데이터 세트를 Tableau와 연결하여 NF kappa BIA 테이블을 가져와야 합니다. 왼쪽에서 볼 수 있듯이 tableau는 올바른 테이블에 연결되어 있으며 열 변수를 Tableau가 호출하는 차원 및 측정값으로 자동으로 분리되었습니다. 차원은 단순히 데이터를 분류하고 해당 열의 정량적 값을 측정하는 열입니다.
이 시각화를 위해 이제 관찰된 사이토카인 반응 농도에 대한 자극 농도 수준을 그래프로 나타낼 것입니다. 이제 사이토카인 농도 수치의 평균을 구합니다. 농도 수준의 순서는 잘못되었지만 이것을 빠르게 사용하는 것은 매우 쉽습니다.
그런 다음 화면에 맞게 보기를 전환하고 데이터를 더 쉽게 시각화할 수 있습니다. 서로 다른 유전자형을 구별하는 방법을 조사하고 싶기 때문에 유전자형 차원을 이 색상 섹션에 드롭하기만 하면 됩니다. 시각화는 유전자형에 따라 자동으로 즉시 분리됩니다.
이제 다른 표시 형식을 시도할 수 있습니다. 예를 들어, 선 그래프는 우리가 포착하고자 하는 패턴을 더 잘 나타낼 수 있습니다. 분명히 다른 많은 옵션이 있습니다.
이 쌍체 분석의 생물학자들은 3M oh oh two라는 시약으로 자극 후 QNF 알파라고 하는 사이토카인 마커 중 하나의 생성 관계를 탐구하는 것으로 시작할 것을 제안합니다. 이렇게 하려면 마커 차원, TNF 알파 및 자극 차원 3M oh oh two를 필터링해야 합니다. 필터링 프로세스를 보다 유연하게 만들기 위해 마커 차원과 자극 차원 모두에 대해 show quick filter 옵션을 선택하여 단일 값 목록인지 확인할 수 있습니다.
이 시각화는 서로 다른 색상의 유전자형으로 구분된 3개의 MO oh 2 자극의 다른 수준 후 TNF 알파 생성과의 차이를 명확하게 보여주며, 마커와 자극 필터 값의 다른 조합을 선택할 수 있으며 그에 따라 시각화가 변경됩니다. Excel과 마찬가지로 별도의 탭에서 다양한 시각화를 구축할 수 있습니다. 프리젠테이션을 위해 여러 분석에 대한 요약 보기를 생성할 수도 있습니다.
이 경우, 우리는 서로 다른 NF Kappa BIAS 싹둑 싹둑 �� 이 데모에서는 쌍체 분석 VA 접근 방식을 사용하여 약 1분 30초 만에 일련의 강력한 시각화를 성공적으로 생성했습니다. 일반적으로 유사한 시각화 집합은 생물 의학 연구원이 Excel에서 생성하는 데 30분이 걸립니다.
이전 예는 간단한 2차원 해석이었습니다. VA의 진정한 힘은 여러 차원을 동시에 시각화할 수 있는 능력입니다. 예를 들어 Tableau는 키 값의 논리적 조인을 통해 데이터 집합 간 분석을 지원합니다.
다음은 동일한 통합 문서에 배치된 두 개의 스프레드시트입니다. 첫 번째 데이터 세트는 이전 데모 예제의 데이터이고, 다른 하나는 동일한 세포에서 여러 사이토카인을 생성하기 위해 유세포 분석이라는 기술로 분석된 세포 데이터 세트입니다. 동시에 Poly Functionality Degree 또는 PFD라는 측정값을 사용하면 가져오기 단계에서 더 쉽게 식별할 수 있도록 시트의 이름을 지정할 수 있습니다.
이렇게 하면 Tableau에서 두 스프레드시트를 연결할 수 있습니다. 다중 테이블 옵션을 선택한 후 새 테이블 추가 기능을 사용하여 두 테이블을 조인할 수 있습니다. 이 기능은 두 번째 스프레드시트를 첫 번째 스프레드시트에 추가하고 조인 문을 사용하여 세포 유형, 농도 수준 단계, 그룹 자극 및 피험자 식별자와 같은 동일한 키를 사용하여 데이터 세트를 결합합니다.
차원은 스프레드시트 이름으로 구분됩니다. 이를 통해 논리적 joint 문의 일부가 아닌 차원을 사용할 수 있습니다. 예를 들어, 폴리 기능성에 대한 정의는 하나 이상의 사이토카인을 생산하는 세포의 비율입니다.
예를 들어, 2개의 사이토카인을 2의 PFD로 만드는 세포와 3개의 사이토카인을 3의 PFD로 만드는 세포가 있습니다. 여기서는 이러한 값을 시각적 표시에 사용할 수 있는 하나의 측정값으로 결합하는 하나의 계산된 필드를 만듭니다. 이제 시각화 구축을 시작할 수 있습니다.
먼저, PFD에 대한 사이토카인 농도를 2 이상으로 그래프화하고, 마지막 데모와 마찬가지로 2보다 큰 PFD의 평균값을 취합니다. 또한 농도 라벨을 수동으로 설정하여 낮은 것부터 높은 것으로 정렬합니다. 유전자형 정보는 이 그룹의 일부만 사용할 수 있으므로 유전자형 정보가 포함되지 않은 데이터 행을 필터링해야 합니다.
이전과 마찬가지로 유전자형을 색상 라벨에 빠르게 드롭하여 서로 다른 유전자형을 구별할 수 있습니다. 그런 다음 화면에 맞게 보기를 전환하고 데이터를 더 쉽게 시각화할 수 있습니다. 막대 그래프를 2로 변경할 수도 있습니다.
예를 들어, 이를 테스트한 선 그래프는 각 유전자형에 대한 특정 패턴에 따라 CYT 반응과 PFP 반응이 어떻게 달라지는지에 대한 좋은 감각을 제공합니다. GG 유전자형을 가진 NF kappa b SNP는 다른 유전자형과 다른 반응 패턴을 가지고 있음을 즉시 알 수 있습니다. 이 패턴에 대한 다양한 자극의 영향을 조사하여 이를 더 자세히 살펴볼 수 있습니다.
자극 차원에서 LPS를 추가한 후 세 가지 주요 유전자형은 모든 농도에서 유사한 PFD 수준을 나타내지만 3M MO oh 두 자극에서만 GG 유전자형은 자극의 저농도에서 고농도로 PFD에서 급격한 PFD를 보여줍니다. 이 발견을 통해 향후 실험에서 테스트할 가설, 즉 자극의 유형이 PFD에 영향을 미친다는 가설을 생성할 수 있습니다. 지난 두 번의 시연에서는 데이터 세트 내부와 데이터 세트 사이에서 잠재적으로 의미 있는 패턴을 감지하기 위한 시각화가 빠르게 생성되는 것을 보았습니다.
시각적 분석의 힘은 대규모 데이터 세트로 빠르게 확장될 수 있으며, 애플리케이션에 따라 분석 차원을 확장하고 방대한 데이터 세트에 걸쳐 정보를 통합할 수 있습니다. 예를 들어, 코호트 연구에서 생성된 많은 데이터 사일로로 인해 VA는 범주형 및 숫자 기반 데이터 세트를 포함하여 다양한 유형의 데이터가 많은 모든 도메인에 잠재적으로 적용할 수 있는 고도로 전송 가능한 접근 방식입니다. 봇 접근 방식은 두 가지 주요 이점을 제공합니다.
하나, 유연한 가설 생성. 사용자는 현재 결과에서 파생된 데이터에 대한 가설을 즉석에서 생성하고 가설을 탐색하는 새로운 시각화를 신속하게 생성하여 두 시간을 절약할 수 있습니다. UVA 도구의 유용성과 효율성은 기존 정보 시각화 도구에 비해 주요 장점입니다.
기존 방법을 사용하여 그래프를 작성할 때 일반적으로 수반되는 작업은 Tableau와 같은 VA 플랫폼에서 2-3시간 만에 쉽게 완료할 수 있는 작업을 완료하는 데 며칠이 걸릴 수 있습니다. 분명히, 그들은 각각 특정한 장점과 단점을 가진 다른 응용 프로그램 플랫폼이며 앞으로도 그럴 것입니다. 파라 분석으로 이 작업에 접근하는 추가적인 이점은 복잡한 다차원 데이터 분석에 대한 VA 기반 접근 방식의 전반적인 이점에 분명히 추가됩니다.
View the full transcript and gain access to thousands of scientific videos
이 비디오는 대규모 면역학 데이터 세트 분석의 어려움을 논의하고 시각 분석(VA)을 솔루션으로 소개합니다. VA 기법은 시각화를 활용하여 분석가가 복잡한 데이터에서 패턴과 트렌드를 식별하는 데 도움을 줍니다.