Biology

CorrelationCalculator 및 Filigree: 대사체학 데이터의 데이터 기반 네트워크 분석을 위한 도구

Published: November 10, 2023 doi: 10.3791/65512

Gayatri Iyer¹, Marci Brandenburg^1,2, Christopher Patsalis¹, George Michailidis³, Alla Karnovsky¹

¹Department of Computational Medicine and Bioinformatics, University of Michigan, Ann Arbor, ²Taubman Health Sciences Library, University of Michigan, Ann Arbor, ³Department of Statistics, University of Florida

Summary

데이터 기반 네트워크 구축 및 대사체학 데이터 분석을 위한 두 가지 도구인 CorrelationCalculator와 Filigree를 소개합니다. CorrelationCalculator는 발현 데이터를 기반으로 대사 산물의 단일 상호 작용 네트워크 구축을 지원하는 반면, Filigree는 차등 네트워크 구축 후 네트워크 클러스터링 및 농축 분석을 수행할 수 있습니다.

Abstract

오믹스 데이터 분석의 중요한 과제는 실행 가능한 생물학적 지식을 추출하는 것입니다. 대사체학도 예외는 아닙니다. 개별 대사 산물 수준의 변화를 특정 생물학적 과정과 연관시키는 일반적인 문제는 비표적 액체 크로마토그래피-질량 분석법(LC-MS) 연구에 존재하는 많은 수의 알려지지 않은 대사 산물로 인해 더욱 복잡해집니다. 또한, 2차 대사와 지질 대사는 기존 경로 데이터베이스에서 잘 표현되지 않습니다. 이러한 한계를 극복하기 위해 우리 그룹은 데이터 기반 네트워크 구축 및 분석을 위한 몇 가지 도구를 개발했습니다. 여기에는 CorrelationCalculator 및 Filigree가 포함됩니다. 두 도구 모두 사용자가 대사 산물 수가 샘플 수를 초과할 때 실험 대사체학 데이터에서 부분 상관 기반 네트워크를 구축할 수 있도록 합니다. CorrelationCalculator는 단일 네트워크의 구축을 지원하는 반면, Filigree는 두 샘플 그룹의 데이터를 활용한 후 네트워크 클러스터링 및 농축 분석을 통해 차등 네트워크를 구축할 수 있습니다. 실제 대사체학 데이터 분석을 위한 두 도구의 유용성과 응용에 대해 설명합니다.

Introduction

지난 10년 동안 대사체학은 기체 크로마토그래피-질량분석법(GC-MS) 및 액체 크로마토그래피-질량분석법(LC-MS)과 같은 분석 기술의 발전으로 인해 오믹스 과학으로 부상했습니다. 이러한 기술을 사용하면 수백에서 수천 개의 저분자 대사 산물을 동시에 측정하여 복잡한 다차원 데이터 세트를 생성할 수 있습니다. 대사체학 실험은 표적 또는 비표적 모드에서 수행할 수 있습니다. 표적 대사체학 실험은 특정 종류의 대사 산물을 측정합니다. 일반적으로 가설 중심인 반면, 비표적 접근법은 가능한 한 많은 대사 산물을 측정하려고 시도하며 본질적으로 가설을 생성합니다. 표적 분석에는 일반적으로 내부 표준물질이 포함되므로 관심 대사 산물의 절대적인 정량화가 가능합니다. 대조적으로, 비표적 분석은 상대적 정량화가 가능하며 많은 알려지지 않은 대사 산물을 포함합니다¹.

대사체학 데이터 분석은 많은 전문 소프트웨어 도구를 활용하는 다단계 프로세스^{입니다 1}. (1) 데이터 처리 및 품질 관리, (2) 통계 분석, (3) 생물학적 데이터 해석의 세 가지 주요 단계로 나눌 수 있습니다. 여기에 설명된 도구는 분석의 후반 단계를 사용할 수 있도록 설계되었습니다.

대사체학 데이터를 해석하는 직관적이고 인기 있는 방법은 실험 측정값을 대사 경로에 매핑하는 것입니다. 이 2,3,4,5를 달성하기 위해 수많은 도구가 설계되었으며^, 그 중에는 우리 그룹⁶에서 개발한 Metscape도 있습니다. 경로 매핑은 종종 농축 분석과 결합되어 가장 중요한 경로를 식별하는 데 도움이 됩니다 ^7,8. 이러한 기술은 유전자 발현 데이터 분석에서 처음으로 두각을 나타냈으며 단백질체학 및 후성유전체학 데이터 9,10,11,12,13의 분석에 성공적으로 적용되었습니다. 그러나 대사체학 데이터 분석은 지식 기반 접근 방식에 여러 가지 과제를 제시합니다. 첫째, 내인성 대사 산물 외에도 대사체학 분석은 영양 및 기타 환경 공급원에서 유래한 화합물을 포함한 외인성 화합물을 측정합니다. 박테리아에 의해 생성되는 대사 산물 뿐만 아니라 이 화합물은 다른 진핵 생물의 인간 또는 대사 경로에 지도로 나타낼 수 없습니다. 또한, 2차 대사 및 지질 대사의 경로 커버리지는 현재 데이터의 생물학적 해석을 쉽게 지원할 수 있는 수준의 고해상도 매핑을 허용하지 않는다^14,15.

데이터 기반 네트워크 분석 기술은 이러한 문제를 극복하는 데 도움이 될 수 있습니다. 예를 들어, 상관 기반 네트워크는 알려진 대사산물과 알려지지 않은 대사산물 사이의 관계를 도출하고 미지의 대사산물¹⁶의 주석을 용이하게 하는 데 도움이 될 수 있다. Pearson의 상관 계수를 계산하는 것은 대사 산물 간의 선형 관계를 설정하는 가장 간단한 접근 방식이지만, 단점은 직접 및 간접 연관성을 모두 포착한다는 것입니다^17,18,19. 또 다른 방법은 직접 연관과 간접 연관을 구분할 수 있는 편상관 계수를 계산하는 것입니다. 가우스 그래픽 모델링(GGM)을 사용하여 편상관 네트워크를 추정할 수 있습니다. 그러나 GGM에서는 표본 크기와 특징 수가 비슷해야 합니다. 이 조건은 수천 개의 대사 특징에 대한 측정값을 포함하는 비표적 LC-MS 데이터에서 거의 충족되지 않습니다. 이러한 한계를 극복하기 위해 정규화 기술을 활용할 수 있습니다. 그래픽 올가미(Glasso) 및 노드별 회귀는 편상관 신경망(^16,20)의 정규화된 추정에 널리 사용되는 방법이다.

여기에 제시된 첫 번째 생물정보학 도구인 CorrelationCalculator¹⁶은 DSPC(Debiased Sparse Partial Correlation) 알고리즘을 기반으로 합니다. DSPC는 희소화 해제된 그래픽 올가미 모델링에 의존합니다. 알고리즘의 기본 가정은 대사 산물 간의 연결 수가 샘플 수보다 상당히 적다는 것, 즉 대사 산물의 편상관 네트워크가 희박하다는 것입니다. 이 가정을 통해 DSPC는 정규화된 회귀 기법을 활용하여 더 적은 수의 샘플을 사용하여 많은 수의 대사 산물 간의 연결성을 발견할 수 있습니다. 또한 정규화 회귀 추정치에 대한 편향 제거 단계를 사용하여 신뢰 구간을 구성하고 관심 가설(예: 단일 또는 간선 그룹의 존재/부재)을 테스트하는 데 사용할 수 있는 간선 매개변수에 대한 표본 추출 분포를 얻습니다. 따라서 편상관 네트워크에서 에지의 존재 여부는 계산된 p-값을 사용하여 공식적으로 테스트할 수 있습니다.

CorrelationCalculator는 단일 그룹 분석에 매우 유용한 것으로 입증되었다¹⁶; 그러나 많은 대사체학 실험의 목적은 두 개 이상의 조건을 차등 분석하는 것입니다. CorrelationCalculator를 각 그룹에 개별적으로 사용하여 각 조건에 대한 편상관 신경망을 생성할 수 있지만, 이 접근 방식은 신경망 생성에 사용할 수 있는 샘플 수를 제한합니다. 충분히 큰 표본 크기는 데이터 기반 분석에서 가장 큰 고려 사항 중 하나이므로 데이터에서 사용 가능한 모든 표본을 활용하여 네트워크를 구성할 수 있는 방법이 매우 바람직합니다. 이 접근 방식은 여기에 제시된 두 번째 도구인 Filigree²¹에서 구현됩니다. 선조는 이전에 발표된 DNEA(Differential Network Enrichment Analysis) 알고리즘²²에 의존합니다. 표 1 은 두 도구의 응용 분야와 작업 흐름을 보여줍니다.

실험 조건의 수(k)	케이 = 1	케이 = 2
소프트웨어 도구	상관 계산기	선조
입력 데이터	• 대사 산물 x 샘플 데이터 매트릭스	• 대사 산물 x 샘플 데이터 매트릭스 • 실험 그룹
워크플로 •전처리 • 네트워크 추정 • 네트워크 클러스터링 • 농축 분석	• 로그 변환; 자동 확장 • DSPC (주)디에스피씨 • 외부 앱을 통해 •아니요	• 로그 변환; 자동 확장 • 공동 네트워크 추정 • 합의 클러스터링 • 넷GSA
데이터 시각화	외부 앱(예: Cytoscape)을 통해	외부 앱(예: Cytoscape)을 통해
관심 결과와의 연관성에 대한 대사 모듈 테스트(선택 사항)	외부 앱을 통해	외부 앱을 통해

표 1: 적용 범위와 CorrelationCalculator 및 Filigree의 작업 흐름.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 상관 계산기

http://metscape.med.umich.edu/kora_data_240.csv 에서 실험 측정값이 포함된 대사 산물 목록이 포함된 샘플 쉼표로 구분된 입력 파일을 다운로드하십시오.
다운로드한 샘플 파일을 두 번 클릭하여 엽니다.
1. 파일에 샘플과 대사 산물 모두에 대한 레이블이 포함되어 있는지 확인합니다.
2. 샘플이 행에 있으므로 첫 번째 열이 샘플 이름이고 첫 번째 행이 대사 산물 이름인지 확인합니다.
CorrelationCalculator Java 응용 프로그램(http://metscape.med.umich.edu/calculator.html)을 다운로드합니다. 다운로드한 .jar 파일을 두 번 클릭하여 응용 프로그램을 시작합니다.
입력 탭에서 찾아보기 버튼을 클릭하여 입력 파일을 업로드합니다.
파일 형식 지정에서 드롭다운 화살표를 사용하여 적절한 입력 파일 형식을 선택합니다. Samples in Rows를 선택합니다(보충 그림 1).
창의 오른쪽 하단에 있는 다음 >> 버튼을 클릭하여 데이터 정규화 탭으로 이동합니다.
Select Method(s)(방법 선택)에서 Log2-Transform Data(Log2-Transform Data) 옆의 확인란을 선택합니다. 데이터 자동 크기 조정 옆의 확인란을 선택합니다.
데이터 정규화(Normalize Data)에서 실행(Run) 버튼을 클릭합니다.
참고: 정규화가 완료되면 데이터 정규화 아래에 있는 정규화된 데이터 보기 단추를 클릭하고 업데이트된 데이터 세트를 검토합니다(보충 그림 2).
데이터 정규화에서 저장 버튼을 클릭하고 새 데이터 파일을 저장합니다.
창의 오른쪽 하단에 있는 다음 >> 버튼을 클릭하여 데이터 분석 탭으로 이동합니다.
Calculate Pearson's Correlation(Pearson의 상관 관계 계산)에서 Run(실행)을 클릭합니다. 데이터에 대한 최상의 Pearson의 상관 범위를 결정합니다.
1. 히스토그램 보기 버튼을 클릭합니다. 기능당 최대 Pearson의 상관 점수의 빈도를 검토합니다.
2. 히트맵 보기(View Heatmap) 버튼을 클릭합니다. Pearson의 상관 행렬의 표현을 검토합니다.
Pearson의 상관 관계로 필터링에서 기본 숫자를 그대로 두고 0.00에서 1.00 사이의 범위로 필터링합니다
알림: 1에서 오른쪽 끝에 있는 작은 파란색 화살표와 0에서 왼쪽에 있는 작은 파란색 화살표를 밀어 필터를 변경합니다. 텍스트 상자에 특정 숫자를 입력하는 것도 옵션입니다.
Select Partial Correlation Method(편상관 방법 선택)에서 원하는 방법인 DSPC Method(DSPC 방법)를 선택합니다.
참고: 대사 산물의 수가 데이터 세트의 샘플 수보다 작으면 DSPC 방법만 사용할 수 있습니다.
Calculate Partial Correlations(편상관 계산)에서 Run(실행) 단추를 클릭합니다(보충 그림 3).
CSV 파일 보기를 클릭하고 결과를 확인합니다. 저장 버튼을 클릭하고 결과를 저장합니다.
View in MetScape 버튼을 클릭하여 대화형 상관 신경망을 시작합니다.
MetScape 사용에 대한 자세한 내용은 Karnovsky, A. et ^al.6 을 참조하십시오.
참고: MetScape는 상관 관계 네트워크를 생성하고 탐색할 수 있는 Cytoscape 애플리케이션입니다.

2. 선조

http://metscape.med.umich.edu/T1D_primaryMetabolites_noIS_log_scaled_sorted.csv 에서 대사산물 측정값이 포함된 쉼표로 구분된 입력 파일 샘플을 다운로드하십시오.
다운로드한 샘플 파일을 두 번 클릭하여 엽니다.
1. 파일에 열 1의 샘플 이름과 열 2의 그룹 지정이 포함되어 있는지 확인합니다. 나머지 컬럼에 대사 산물/지질이 포함되어 있는지 확인합니다.
2. 각 행이 표본을 나타내는지 확인합니다.
  참고: 대사 산물 측정은 특성 집계를 수행하지 않는 한 로그 변환 및 자동 크기 조정되어야 하며, 이 경우 측정은 로그 변환만 되어야 합니다.
Filigree Java 응용 프로그램(http://metscape.med.umich.edu/filigree.html)을 다운로드합니다.
알림: 자세한 사용 설명서는 http://metscape.ncibi.org/v0.1.2Filigree_UserManual.pdf 에서 확인할 수 있습니다.
다운로드한 .jar 파일을 두 번 클릭하여 응용 프로그램을 시작합니다.
데이터 탭에서 찾아보기 버튼을 클릭하여 입력 파일을 업로드합니다.
열/행 지정에서 샘플 ID 옆에 있는 드롭다운 화살표를 클릭하여 입력 파일에서 해당 열/행 이름을 선택합니다. 샘플을 선택합니다.
열/행 지정에서 "그룹" 옆에 있는 드롭다운 화살표를 클릭하여 입력 파일에서 해당 열/행을 선택합니다. 그룹을 선택합니다.
Specify Sample Groups(샘플 그룹 지정)에서 각 Group(그룹) 옆에 있는 드롭다운 화살표를 클릭하여 입력 파일에서 해당 그룹 열을 선택합니다. 그룹 1의 경우 당뇨병을 선택합니다. 그룹 2의 경우 Non-diabetic(당뇨병이 아닌 경우)을 선택합니다.
Feature Grouping(피처 그룹화)에서 원하는 방법인 Calculate Feature Groups(피처 그룹 계산) 옆의 체크 박스를 선택합니다.
히트맵 보기(View Heatmaps) 버튼을 클릭합니다. 히트맵을 보고 원하는 감소율을 결정합니다.
피처 감소(Feature Reduction) 슬라이더를 사용하여 원하는 피처 감소율을 선택합니다. 백분율 감소가 1.25의 특징 대 샘플 비율을 표시할 때까지 작은 원을 밉니다(보충 그림 4).
창의 오른쪽 하단에 있는 다음 >> 버튼을 클릭하여 분석 탭으로 이동합니다.
출력 디렉토리 선택에서 찾아보기 버튼을 클릭하고 생성된 출력 파일을 저장할 원하는 디렉토리 위치를 선택합니다.
창의 왼쪽 하단에 있는 분석 실행 버튼을 클릭합니다. 진행률 표시줄은 각 분석 구성 요소에 대해 업데이트됩니다(보충 그림 5). 팝업 창에서 확인(OK ) 버튼을 눌러 Analysis Completed Successfully(분석이 성공적으로 완료됨) 메시지를 표시합니다.
분석( Analysis ) 탭에서 네트워크 찾아보기(Browse Networks ) 버튼을 클릭하여 브라우저 탭에서 대화형 Filigree 서브네트워크를 엽니다.
Subnetwork Name(서브네트워크 이름) 열 아래의 Subnetwork 1(서브네트워크 1) 링크를 클릭합니다.
다양한 버튼을 사용하여 대화형 하위 네트워크를 탐색합니다. + 버튼을 클릭하고 네트워크 부분을 확대합니다. - 버튼을 클릭하고 축소합니다(보충 그림 6).
그룹 노드를 클릭하고 드래그하여 서브네트워크 내에서 위치를 변경합니다.
참고: 노드 색상은 위/아래 조절을 나타내고 색상 불투명도는 상/하 접기 변경을 나타냅니다. 가장자리 색상은 그룹 간의 차등 상태를 나타냅니다.
페이지 오른쪽 상단에 있는 기능 확장 버튼을 클릭하여 모든 그룹 노드를 확장 합니다. 그룹 노드를 구성하는 특정 화합물을 검토합니다.
페이지 오른쪽 상단에 있는 기능 축소 버튼을 클릭하여 최근에 확장된 그룹 노드를 축소 합니다.
페이지 오른쪽 상단에 있는 샘플 그룹별 버튼을 클릭하여 보기를 단일 서브네트워크에서 그룹별로 분할된 여러 서브네트워크로 변경합니다. 이 서브네트워크 보기를 사용하여 그룹을 탐색하고 비교합니다(보충 그림 7).
All Samples 버튼을 클릭하여 단일 서브네트워크 보기로 돌아갑니다.
페이지 오른쪽 상단에 있는 다음 버튼을 클릭하여 다음 서브네트워크를 봅니다.
각 하위 네트워크에 대해 2.19-2.23단계를 반복합니다.
창 상단 가운데에 있는 Differential Network Enrichment Analysis Results(미분 네트워크 강화 분석 결과 ) 링크를 클릭하여 모든 하위 네트워크를 나열하는 요약 테이블 보기로 돌아갑니다.
참고: 에지 및/또는 노드 출력 파일을 Cytoscape²³과 같은 다른 소프트웨어 도구로 가져와서 추가 네트워크 시각화를 만듭니다.

3. 추가 고려 사항

Big Sur(OSX 11.2) 이상을 실행하는 Mac 컴퓨터의 경우 Apple 메뉴 > 시스템 환경설정 > 보안 및 개인 정보 보호 > 일반 에서 도구를 승인하고 탭 하단에서 허용 을 선택합니다.
또한 왼쪽 메뉴에서 '파일 및 폴더'를 선택한 다음 오른쪽 메뉴에서 'Filigree'를 선택하여 Apple 메뉴 > 시스템 환경설정 > 보안 및 개인 정보 보호 > 개인 정보 보호에 있는 파일에 대한 Filigree의 접근을 허용합니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

CorrelationCalculator의 사용을 설명하기 위해 Krumsiek et ^al.24에 설명된 KORA 인구 연구의 대사체학 데이터의 하위 집합을 사용하여 부분 상관 네트워크를 구성했습니다. 데이터 세트에는 151개의 대사 산물과 240개의 샘플이 포함되어 있습니다. 그림 1 은 Cytoscape에서 시각화된 결과 편상관 네트워크를 보여줍니다. 네트워크에는 148개의 노드와 272개의 Edge가 포함되어 있습니다. 노드의 색상은 서로 다른 화학 클래스에 속하는 대사 산물을 나타내고, 가장자리는 편상관 계수의 조정된 p-값(조정된 p-값 < 0.05)을 나타냅니다. 특히, CorrelationCalculator는 사전 정보를 사용하지 않았음에도 불구하고 화학적으로 관련된 대사 산물을 그룹화할 수 있었습니다. 예를 들어, 포스파티딜콜린과 리소포스파티딜콜린은 네트워크에서 밀접하게 연결되어 있습니다. 이러한 유형의 네트워크에서 대사 산물의 변화를 시각화하면 가설 생성을 촉진하고 향후 실험을 계획하는 데 도움이 되며 원고 준비를 가능하게 할 수 있습니다. 부분 상관 대사 산물 네트워크를 활용하는 잠재적 워크플로우를 설명하기 위해 Ma et ^al.22에 설명된 대로 합의 네트워크 클러스터링을 수행하여 9개의 하위 네트워크 또는 대사 모듈을 식별했습니다. 이들 모듈은 화학 부류, 즉 동일한 화학 부류에 속하는 대사 산물이 동일한 대사 모듈의 일부인 경향이 있는 화학 부류와 양호한 일치를 보였다. 사용자는 클러스터링 도구 clusterNet에 https://github.com/Karnovsky-Lab/clusterNet 액세스할 수 있습니다.

그림 1: CorrelationCalculator 네트워크의 대표적인 예. 이 네트워크는 240명의 피험자에 걸쳐 151개의 대사 산물로 구성된 KORA 인구 연구 대사체학 데이터²⁴ 의 하위 집합으로 구성되었습니다. 노드는 대사 산물을 나타내며 이들을 연결하는 간선은 편상관 계수의 수정된 p-값(조정된 p-값 < 0.05)에 의해 가중치가 부여됩니다. 노드의 모양은 서로 다른 대사 클래스를 나타내고, 색상은 합의 클러스터링 방법을 사용하여 네트워크를 클러스터링하여 얻은 대사 모듈을 나타냅니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

우리는 유형 I 당뇨병(T1D)^25,26의 마우스 모델에서 데이터 세트를 분석하여 선조의 적용을 설명합니다. T1D 및 비당뇨병(NOD) 마우스의 혈장 대사 산물 측정을 사용하여 차등 부분 상관 네트워크를 생성했습니다(그림 2). 특히, 당뇨병이 없는 그룹에서 더 높은 수준의 네트워크 연결이 관찰되었습니다. 분석의 다음 단계에서는 12개의 대사 모듈을 확인했으며, 그 중 9개는 T1D와 비당뇨병 마우스 간에 유의하게 달랐습니다(FDR < 0.05). 우리는 독자에게 이 분석에서 도출할 수 있는 생물학적 결론에 대한 더 많은 통찰력을 위해 원본 출판물을 참조하도록 추천한다²¹.

그림 2: Filigree 네트워크의 대표적인 예. 차등 네트워크는 71마리의 마우스(30개의 T1D 및 41개의 non-T1D)^25,26에서 163개의 대사 산물 수준을 활용하여 구성되었습니다. T1D 그룹과 비 T1D 그룹 간의 차동 간선은 각각 분홍색과 파란색으로 표시됩니다. 노드는 접기 변경에 따라 색상이 지정됩니다. 표는 Filigree에 의해 생성된 농축 결과를 보여줍니다. 식별된 12개의 하위 네트워크 중 9개는 T1D와 비 T1D 간에 유의한 차이가 있었습니다(조정된 p-값 < 0.05). 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

보충 그림 1: CorrCalc_InputTab. 상관 관계 계산기의 입력 탭 스크린샷 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 2: CorrCalc_DataNormTab. 상관 관계 계산기의 데이터 정규화 탭 스크린샷 Log-2 데이터 변환 및 데이터 자동 크기 조정 이 선택되어 있습니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 3: CorrCalc_DataAnalTab. 상관 계산기의 데이터 분석 탭 스크린샷은 Pearson의 상관 관계 0-0.8에 대한 필터링을 보여 줍니다. 또한 DSPC 방법이 선택되었습니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 4: Filigree_DataTab. Filigree의 데이터 탭 스크린샷. 열, 행 및 그룹이 지정되었습니다. 피처 그룹 계산 방법은 피처 대 샘플 비율 1.25의 피처 축소로 선택되었습니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 5: Filigree_AnalysisTab. 다양한 분석 구성 요소의 진행 상황을 보여주는 Filigree의 분석 탭 스크린샷. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 6: Filigree_Subnetwork1. Filigree에서 생성된 하위 네트워크입니다. 노드 색상은 상향/하향 조절을 나타내고 색상 불투명도는 상위/하한 접기 변경을 나타냅니다. 가장자리 색상은 그룹 간의 차등 상태를 나타냅니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

보충 그림 7: Filigree_Subnetwork_SampleGroup. 그룹별로 구분된 서브네트워크입니다. 왼쪽 신경망은 당뇨병 표본을 나타내고 오른쪽 신경망은 당뇨병이 없는 표본을 나타냅니다. 절점 색은 그룹 평균에 비례하는 표현 수준을 나타냅니다. 이 파일을 다운로드하려면 여기를 클릭하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

CorrelationCalculator 및 Filigree에 구현된 부분 상관 기반 네트워크 분석 방법은 특히 알려지지 않은 대사 산물의 유병률이 높고 대사 경로의 범위가 제한된 데이터 세트(예: 지질체학 데이터)에 대한 지식 기반 대사 경로 분석의 일부 한계를 극복하는 데 도움이 됩니다. 이러한 도구는 광범위한 대사체학 및 지질체학 데이터를 분석하기 위해 연구 커뮤니티에서 널리 사용되어 왔습니다 14,22,27,28,29,30. 예를 들어, CorrelationCalculator는 마이크로바이옴 및 식물에서 인간 질병에 이르기까지 많은 생물학적 시스템의 데이터를 분석하는 데 사용되었습니다^31,32,33,34. 여기서는 도구로 구현되는 데이터 기반 네트워크 분석을 클러스터링 및 회귀 분석과 결합하여 관심 표현형과 관련된 대사 모듈을 정확히 찾아내는 방법을 설명합니다.

CorrelationCalculator 및 Filigree를 사용하여 생성된 편상관 신경망은 그래프 군집화 알고리즘을 사용하여 군집화하여 대사 모듈을 생성할 수 있습니다. 이러한 모듈은 화학적 또는 기능적으로 서로 관련된 대사 산물을 포함하는 경향이 있습니다. 이러한 모듈은 시각화 관점뿐만 아니라 생물학적 관련성 관점에서도 매우 유용합니다. 대사 모듈과 관심 표현형 결과(예: 생존 결과) 간의 관계를 연구하면 개별 대사 산물을 테스트하는 것보다 더 많은 통계적 검정력을 제공하고 추가적인 생물학적 통찰력을 얻을 수 있습니다.

네트워크 클러스터링 접근 방식을 통해 식별된 대사 모듈도 농축 분석에 사용할 수 있습니다. 선조는 사전 정의된 생물학적 경로 대신 합의 클러스터링을 통해 식별된 대사 모듈을 사용합니다. 부분 상관 기반 대사 모듈은 경로와 동일하지 않지만 화학적, 생화학적으로 유사한 대사 산물(예: 아미노산, 아실카르니틴, 동일한 등급의 지질 등)을 일관되게 그룹화합니다. 선조는 NetGSA 알고리즘^22,35를 사용하여 이러한 모듈의 중요성을 추가로 테스트합니다. 차등 노드 외에도 NetGSA는 네트워크 구조의 질병별 차이를 설명합니다.

'실제' 대사체학 및 지질체학 데이터를 분석하기 위해 CorrelationCalculator 및 Filigree를 사용할 때 고려해야 할 문제 중 하나는 주어진 실험에서 대사 산물 수와 샘플 수 간의 관계입니다. 수천 개의 시료를 포함하는 대규모 역학 연구가 보편화되고 있지만, 대부분의 대사체학 실험에서 시료 크기는 여전히 미미합니다. 이는 낮은 생물학적 변이가 예상되는 시스템(즉, 세포주 또는 유전적으로 균질한 동물 모델)과 관련된 기계론적 연구에 특히 해당됩니다. 두 도구에서 구현된 통계 알고리즘은 대사 산물의 수가 샘플 수를 초과하는 상황에 적용할 수 있지만 해당 비율이 증가하면 더 희소 네트워크가 생성됩니다.

여기에 설명된 도구의 응용을 위한 또 다른 중요한 고려사항은 동위원소, 화학적 부가물, 공급원내 단편 및 오염물질을 포함할 수 있는 다수의 중복 또는 퇴화 특징⁽³⁶)을 포함하는 것으로 알려진 비표적 대사체학 데이터의 분석에 관한 것이다. 많은 퇴화 특징이 동일한 대사 산물에서 유래하기 때문에 높은 수준의 상관 관계를 갖는 경향이 있습니다. 이러한 데이터의 부분 상관 기반 분석에는 신중한 주석 및 퇴화 기능 제거가 필요할 수 있습니다.

결론적으로, 여기에 제시된 도구는 대사체학 데이터 해석을 위한 지식 기반 경로 분석 도구에 대한 실행 가능한 대안을 제공합니다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 경쟁하는 재정적 이익이 없습니다.

Acknowledgments

이 연구는 NIH 1U01CA235487 보조금의 지원을 받았습니다.

Materials

Name	Company	Catalog Number	Comments
CorrelationCalculator	JAVA	http://metscape.med.umich.edu/calculator.html
clusterNet		https://github.com/Karnovsky-Lab/clusterNet
Cytoscape	Cytoscape	https://cytoscape.org/
Filigree	JAVA	http://metscape.med.umich.edu/filigree.html
MetScape	Cytoscape	https://apps.cytoscape.org/apps/metscape	Cytoscape application that allows for the creation and exploration of correlation networks.

DOWNLOAD MATERIALS LIST

References

Sas, K. M., Karnovsky, A., Michailidis, G., Pennathur, S. Metabolomics and diabetes: analytical and computational approaches. Diabetes. 64 (3), 718-732 (2015).
Cottret, L., et al. MetExplore: Collaborative edition and exploration of metabolic networks. Nucleic Acids Research. 46 (W1), W495-W502 (2018).
Garcia-Alcalde, F., Garcia-Lopez, F., Dopazo, J., Conesa, A. Paintomics: A web based tool for the joint visualization of transcriptomics and metabolomics data. Bioinformatics. 27 (1), 137-139 (2011).
Kuo, T. C., Tian, T. F., Tseng, Y. J. 3Omics: A web-based systems biology tool for analysis, integration and visualization of human transcriptomic, proteomic and metabolomic data. BMC Systems Biology. 7, 64 (2013).
Paley, S. M., Karp, P. D. The pathway tools cellular overview diagram and Omics Viewer. Nucleic Acids Research. 34 (13), 3771-3778 (2006).
Karnovsky, A., et al. Metscape 2 bioinformatics tool for the analysis and visualization of metabolomics and gene expression data. Bioinformatics. 28 (3), 373-380 (2012).
Chong, J., Xia, J. Using MetaboAnalyst 4.0 for metabolomics data analysis, interpretation, and integration with other omics data. Methods in Molecular Biology. 2104, 337-360 (2020).
Lopez-Ibanez, J., Pazos, F., Chagoyen, M. MBROLE 2.0-functional enrichment of chemical compounds. Nucleic Acids Research. 44 (W1), W201-W204 (2016).
Cavalcante, R. G., et al. Broad-Enrich: Functional interpretation of large sets of broad genomic regions. Bioinformatics. 30 (17), i393-i400 (2014).
Huang, D. W., et al. DAVID bioinformatics resources: Expanded annotation database and novel algorithms to better extract biology from large gene lists. Nucleic Acids Research. 35 (Web Server issue), W169-W175 (2007).
Lee, P. H., O'Dushlaine, C., Thomas, B., Purcell, S. M. INRICH: interval-based enrichment analysis for genome-wide association studies. Bioinformatics. 28 (13), 1797-1799 (2012).
Segre, A. V., Groop, L., Mootha, V. K., Daly, M. J., Altshuler, D. Common inherited variation in mitochondrial genes is not enriched for associations with type 2 diabetes or related glycemic traits. PLoS Genetics. 6 (8), e1001058 (2010).
Subramanian, A., et al. Gene set enrichment analysis: a knowledge-based approach for interpreting genome-wide expression profiles. Proceedings of the National Academy of Sciences of the United States of America. 102 (43), 15545-15550 (2005).
Afshinnia, F., et al. Lipidomic signature of progression of chronic kidney disease in the chronic renal insufficiency cohort. Kidney International Reports. 1 (4), 256-268 (2016).
Barupal, D. K., et al. MetaMapp: Mapping and visualizing metabolomic data by integrating information from biochemical pathways and chemical and mass spectral similarity. BMC Bioinformatics. 13, 99 (2012).
Basu, S., et al. Sparse network modeling and Metscape-based visualization methods for the analysis of large-scale metabolomics data. Bioinformatics. 33 (10), 1545-1553 (2017).
Krumsiek, J., Suhre, K., Illig, T., Adamski, J., Theis, F. J. Gaussian graphical modeling reconstructs pathway reactions from high-throughput metabolomics data. BMC Systems Biology. 5, 21 (2011).
Camacho, D., de la Fuente, A., Mendes, P. The origin of correlations in metabolomics data. Metabolomics. 1 (1), 53-63 (2005).
Steuer, R., Kurths, J., Fiehn, O., Weckwerth, W. Observing and interpreting correlations in metabolomic networks. Bioinformatics. 19 (8), 1019-1026 (2003).
Bühlmann, P., Van De Geer, S. Statistics for High-Dimensional Data: Methods, Theory and Applications. , Springer Berlin, Heidelberg. (2011).
Iyer, G. R., et al. Application of differential network enrichment analysis for deciphering metabolic alterations. Metabolites. 10 (12), 479 (2020).
Ma, J., et al. Differential network enrichment analysis reveals novel lipid pathways in chronic kidney disease. Bioinformatics. 35 (18), 3441-3452 (2019).
Shannon, P., et al. Cytoscape: a software environment for integrated models of biomolecular interaction networks. Genome Reserach. 13 (11), 2498-2504 (2003).
Krumsiek, J., et al. Mining the unknown: a systems approach to metabolite identification combining genetic and metabolic information. PLoS Genetics. 8 (10), e1003005 (2012).
Fahrmann, J., et al. Systemic alterations in the metabolome of diabetic NOD mice delineate increased oxidative stress accompanied by reduced inflammation and hypertriglyceremia. American Journal of Physiology. Endocrinology and Metabolism. 308 (11), E978-E989 (2015).
Grapov, D., et al. Diabetes associated metabolomic perturbations in NOD mice. Metabolomics. 11 (2), 425-437 (2015).
Jin, Y., Bai, S., Huang, Z., You, L., Zhang, T. Technology characteristics and flavor changes of traditional green wheat product nian zhuan in Northern China. Frontiers in Nutrition. 9, 996337 (2022).
Lin, Y. S., et al. Probing folate-responsive and stage-sensitive metabolomics and transcriptional co-expression network markers to predict prognosis of non-small cell lung cancer patients. Nutrients. 15 (1), 3 (2022).
Pan, C., et al. Metabolomics study identified bile acids as potential biomarkers for gastric cancer: A case control study. Frontiers in Endocrinology (Lausanne). 13, 1039786 (2022).
Pancoro, A., Karima, E., Apriyanto, A., Effendi, Y. (1)H NMR metabolomics analysis of oil palm stem tissue infected by Ganoderma boninense based on field severity Indices. Scientific Reports. 12 (1), 21087 (2022).
Chele, K. H., et al. A global metabolic map defines the effects of a Si-based biostimulant on tomato plants under normal and saline conditions. Metabolites. 11 (12), 820 (2021).
Hubert, J., et al. The effect of residual pesticide application on microbiomes of the storage mite Tyrophagus putrescentiae. Microbial Ecology. 85 (4), 1527-1540 (2023).
Li, K., et al. Metabolomic and exposomic biomarkers of risk of future neurodevelopmental delay in human milk. Pediatric Research. 93 (6), 1710-1720 (2023).
Marino, C., et al. The metabolomic profile in amyotrophic lateral sclerosis changes according to the progression of the disease: An exploratory study. Metabolites. 12 (9), 837 (2022).
Ma, J., Shojaie, A., Michailidis, G. Network-based pathway enrichment analysis with incomplete network information. Bioinformatics. 32 (20), 3165-3174 (2016).
Mahieu, N. G., Patti, G. J. Systems-level annotation of a metabolomics data set reduces 25000 features to fewer than 1000 unique metabolites. Analytical Chemistry. 89 (19), 10397-10406 (2017).

Biology

CorrelationCalculator 및 Filigree: 대사체학 데이터의 데이터 기반 네트워크 분석을 위한 도구

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.