Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Biochemistry

JUMPn: 프로테오믹스의 단백질 공동 발현 클러스터링 및 네트워크 분석을 위한 간소화된 응용 프로그램

Published: October 19, 2021 doi: 10.3791/62796

Summary

우리는 데이터 전처리, 공동 발현 클러스터링, 경로 농축 및 단백질 - 단백질 상호 작용 네트워크 분석을 포함한 상세한 프로토콜과 함께 정량적 단백체학 데이터에 대한 네트워크 분석을 수행하고 시각화하는 시스템 생물학 도구 JUMPn을 제시합니다.

Abstract

최근 질량 분광법 기반 프로테오믹스 기술이 발전함에 따라 수백 개의 프로테옴에 대한 심층 프로파일링이 점점 더 실현 가능해졌습니다. 그러나 이러한 귀중한 데이터 세트에서 생물학적 통찰력을 도출하는 것은 어렵습니다. 여기서 우리는 시스템 생물학 기반 소프트웨어 JUMPn 및 프로테옴을 모듈(예를 들어, 단백질 복합체)에 의해 연결된 샘플 및 단백질-단백질 상호작용(PPI) 네트워크에 걸쳐 단백질 공동발현 클러스터로 구성하기 위한 관련 프로토콜을 소개한다. R/Shiny 플랫폼을 사용하는 JUMPn 소프트웨어는 통합 데이터 시각화 및 사용자 친화적인 인터페이스를 통해 공동 발현 클러스터링, 경로 농축 및 PPI 모듈 감지 분석을 간소화합니다. 프로토콜의 주요 단계는 JUMPn 소프트웨어의 설치, 차등적으로 발현된 단백질 또는 (dys) 조절된 프로테옴의 정의, 의미있는 공동발현 클러스터 및 PPI 모듈의 결정, 및 결과 시각화를 포함한다. 프로토콜이 등압 표지-기반 프로테옴 프로파일을 사용하여 입증되는 반면, JUMPn은 일반적으로 광범위한 정량적 데이터세트(예를 들어, 무표지 프로테오믹스)에 적용가능하다. 따라서 JUMPn 소프트웨어 및 프로토콜은 정량적 프로테오믹스에서 생물학적 해석을 용이하게 하는 강력한 도구를 제공합니다.

Introduction

질량 분광법 기반 산탄 총 프로테오믹스는 복잡한 샘플1의 프로테옴 다양성을 분석하기 위한 핵심 접근법이 되었다. 질량 분광법 계측2,3, 크로마토그래피4,5, 이온 이동성 검출6, 획득 방법(데이터 독립적7 및 데이터 의존적 획득8), 정량화 접근법(다중플렉스 등압 펩티드 라벨링 방법, 예를 들어, TMT9,10 및 무라벨 정량화11,12) 및 데이터 분석 전략의 최근 발전과 함께/ 소프트웨어 개발 13,14,15,16,17,18, 전체 프로테옴 (예를 들어, 10,000개 이상의 단백질)의 정량화는 이제19,20,21 루틴이다. 그러나 이러한 심층적 인 양적 데이터 세트에서 기계론적 통찰력을 얻는 방법은 여전히22에 도전적입니다. 이러한 데이터 세트를 조사하기위한 초기 시도는 주로 데이터의 개별 요소의 주석에 의존하여 각 구성 요소 (단백질)를 독립적으로 처리했습니다. 그러나, 생물학적 시스템 및 그들의 행동은 개별 구성요소(23)를 검사함으로써 단독으로 설명될 수 없다. 따라서, 정량화된 생체분자를 상호작용 네트워크의 맥락에 배치하는 시스템 접근법은 인간 질병의 배아 발생, 면역 반응 및 병인(24)과 같은 복잡한 시스템 및 연관된 과정의 이해를 위해 필수적이다.

네트워크 기반 시스템 생물학은 대규모 정량적 프로테오믹스 데이터 25,26,27,28,29,30,31,32,33을 분석하기 위한 강력한 패러다임으로 부상했다. 개념적으로, 포유동물 세포와 같은 복잡한 시스템은 계층적 네트워크(34,35)로서 모델링될 수 있는데, 여기서 전체 시스템은 계층으로 표현된다: 먼저 다수의 큰 컴포넌트들에 의해, 각각은 더 작은 서브시스템들에 의해 반복적으로 모델링된다. 기술적으로, 프로테옴 역학의 구조는 공동-발현된 단백질 클러스터의 상호 연결된 네트워크(공동-발현된 유전자/단백질이 종종 조절(36)의 유사한 생물학적 기능 또는 메카니즘을 공유하기 때문에) 및 물리적으로 상호작용하는 PPI 모듈(37)에 의해 제시될 수 있다. 최근의 예로서25로서, 우리는 T 세포 활성화 동안 전체 프로테옴 및 포스포프로테옴의 시간적 프로파일을 생성하고, T 세포 정지 종료를 매개하는 기능적 모듈을 확인하기 위해 PPI와 함께 통합적 공동발현 네트워크를 사용하였다. 다수의 생물에너지-관련 모듈들이 강조되고 실험적으로 검증되었다(예를 들어, 미토리보솜 및 복합 IV 모듈(25), 및 단일-탄소 모듈(38)). 또 다른 예26에서, 우리는 알츠하이머 병의 발병기전을 연구하기 위해 우리의 접근법을 더욱 확장하고, 질병 진행과 관련된 단백질 모듈 및 분자를 성공적으로 우선 순위화했다. 중요하게도, 우리의 편향되지 않은 발견들 중 다수는 독립적인 환자 코호트(26,29) 및/또는 질병 마우스 모델(26)에 의해 검증되었다. 이들 예는 정량적 프로테오믹스 및 다른 오믹스 통합으로 분자 메커니즘을 해부하기 위한 시스템 생물학 접근법의 힘을 예시하였다.

여기에서는 네트워크 기반 시스템 생물학 접근법을 사용하여 정량적 프로테오믹스 데이터를 탐구하는 간소화된 소프트웨어인 JUMPn을 소개합니다. JUMPn은 확립된 JUMP 프로테오믹스 소프트웨어 제품군(13,14,39)의 하류 구성 요소로서 기능하며, 시스템 생물학 접근법을 사용하여 개별 단백질 정량화에서 생물학적으로 의미있는 경로 및 단백질 모듈로의 격차를 메우는 것을 목표로 한다. JUMPn은 차등적으로 발현된(또는 가장 가변적인) 단백질의 정량화 매트릭스를 입력으로 취함으로써, 프로테옴을 샘플과 조밀하게 연결된 PPI 모듈(예를 들어, 단백질 복합체)에 걸쳐 공동발현되는 단백질 클러스터의 계층화된 계층으로 조직하는 것을 목표로 하며, 이는 과대표현(또는 농축) 분석에 의해 공개 경로 데이터베이스와 추가로 주석이 첨부된다(도 1). JUMPn은 사용자 친화적인 인터페이스를 위해 R/Shiny 플랫폼(40)과 함께 개발되었으며 세 가지 주요 기능 모듈, 즉 공발현 클러스터링 분석, 경로 농축 분석 및 PPI 네트워크 분석을 통합합니다(그림 1). 각 분석 후 결과는 자동으로 시각화되고 R/shiny 위젯 기능을 통해 조정할 수 있으며 Microsoft Excel 형식의 게시 테이블로 쉽게 다운로드할 수 있습니다. 다음 프로토콜에서는 정량적 전체 프로테옴 데이터를 예로 들어 JUMPn 소프트웨어 설치, 차등적으로 발현된 단백질 또는 (dys) 조절된 프로테옴의 정의, 공동 발현 네트워크 분석 및 PPI 모듈 분석, 결과 시각화 및 해석, 문제 해결 등을 포함하여 JUMPn을 사용하는 주요 단계를 설명합니다. JUMPn 소프트웨어는 GitHub41에서 무료로 사용할 수 있습니다.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

참고: 이 프로토콜에서, JUMPn의 사용은 TMT 등압 라벨 시약(27)에 의해 정량화된 B 세포 분화 동안 전체 프로테옴 프로파일링의 공개된 데이터세트를 이용함으로써 예시된다.

1. JUMPn 소프트웨어 설정

참고: JUMPn 소프트웨어를 설정하기 위한 두 가지 옵션이 제공됩니다: (i) 개인적인 용도로 로컬 컴퓨터에 설치; (ii) 여러 사용자를 위해 원격 Shiny 서버에 JUMPn을 배포합니다. 로컬 설치의 경우 인터넷에 액세스할 수 있고 ≥4Gb의 RAM을 사용하는 개인용 컴퓨터는 작은 샘플 크기(n< 30)의 데이터 세트에 대해 JUMPn 분석을 실행하기에 충분합니다. 더 큰 RAM(예를 들어, 16Gb)은 큰 코호트 분석(예를 들어, n=200개의 샘플)을 위해 필요하다.

  1. 로컬 컴퓨터에 소프트웨어를 설치합니다. 설치 후 웹 브라우저가 JUMPn을 시작하고 로컬 컴퓨터에서 분석을 실행하도록 허용하십시오.
    1. 온라인 지침에 따라 아나콘다42 또는 미니콘다43 을 설치합니다.
    2. JUMPn 소스 코드41을 다운로드합니다. 다운로드한 파일의 압축을 두 번 클릭하여 압축을 풉니다JUMPn_v_1.0.0.zip; JUMPn_v_1.0.0이라는 새 폴더가 만들어집니다.
    3. 명령줄 터미널을 엽니다. Windows에서는 아나콘다 프롬프트를 사용합니다. MacOS에서는 내장 터미널 응용 프로그램을 사용합니다.
    4. JUMPn Conda 환경 만들기: JUMPn_v_1.0.0 폴더의 절대 경로(예: /path/to/JUMPn_v_1.0.0)를 가져옵니다. 빈 Conda 환경을 만들고 활성화하려면 터미널에서 다음 명령을 입력하십시오.
      conda create -p /path/to/JUMPn_v_1.0.0/JUMPn -y
      콘다 활성화 / 경로 / 에 / JUMPn_v_1.0.0 / JUMPn
    5. JUMPn 종속성 설치: R을 설치하고(터미널에 conda install -c conda-forge r=4.0.0 -y를 입력), 현재 디렉토리를 JUMPn_v_1.0.0 폴더로 변경하고(터미널에서 cd path/to/JUMPn_v_1.0.0을 입력), 종속성 패키지를 설치(터미널에 Rscript 부트스트랩을 입력합니다. R)
    6. 웹 브라우저에서 JUMPn 시작 : 현재 디렉토리를 실행 폴더 (터미널에서 cd 실행 입력)로 변경하고 JUMPn을 시작하십시오 (터미널에서 R -e "shiny::runApp()"을 입력하십시오).
    7. 위의 내용이 실행되면 터미널 화면에 http://127.0.0.1:XXXX에 수신 대기 가 표시됩니다 (여기서 XXXX는 4 개의 난수를 나타냅니다). http://127.0.0.1:XXXX 를 복사하여 JUMPn 시작 페이지가 표시되는 웹 브라우저에 붙여넣습니다(그림 2).
  2. 반짝이는 서버에 배포. Shiny Server의 예로는 상용 shinyapps.io 서버 또는 제도적으로 지원되는 Shiny 서버가 있습니다.
    1. 지침44에 따라 RStudio를 다운로드하여 설치하십시오.
    2. Shiny 서버에 대한 배포 권한을 가져옵니다. shinyapps.io 서버의 경우, 명령(45)에 따라 사용자 계정을 설정한다. 기관 Shiny 서버의 경우 서버 관리자에게 권한을 요청하십시오.
    3. JUMPn 소스 코드41을 로컬 컴퓨터에 다운로드하십시오. 설치가 필요하지 않습니다. 서버 중 하나를 엽니다. R 또는 ui. RStudio의 R 파일을 클릭하고 RStudio IDE의 오른쪽 위에 있는 서버에 게시 드롭다운 메뉴를 클릭합니다.
    4. [계정에 게시] 패널에서 서버 주소를 입력합니다. 게시 단추를 누릅니다. 성공적인 배포는 RStudio에서 애플리케이션이 배포된 RShiny 서버로 자동 리디렉션될 때 유효성이 검사됩니다.

2. 예제 데이터 세트를 사용하여 데모 실행

참고: JUMPn은 게시된 B 세포 프로테오믹스 데이터 세트를 사용하여 데모 실행을 제공합니다. 데모 실행은 차등적으로 발현된 단백질의 정량화 매트릭스를 입력으로 사용하고 공동 발현 클러스터링, 경로 농축 및 PPI 네트워크 분석을 순차적으로 수행하는 간소화된 워크플로우를 보여줍니다.

  1. JUMPn 홈 페이지(그림 2)에서 분석 시작 단추를 클릭하여 JUMPn 분석을 시작합니다.
  2. 분석 시작 페이지(그림 3)의 왼쪽 하단에서 데모 B 셀 프로테오믹 데이터 업로드 단추를 클릭합니다. 데이터 업로드의 성공을 알리는 대화 상자가 나타납니다.
  3. 페이지의 오른쪽 하단에서 JUMPn 분석 제출 버튼을 클릭하여 기본 매개 변수를 사용하여 데모 실행을 시작하십시오. 분석 과정을 나타내는 진행률 표시줄이 나타납니다. 진행률 표시 줄이 충족 될 때까지 기다리십시오 (예상 3 분).
  4. 데모 실행이 완료되면 성공 실행 메시지와 결과 폴더의 절대 경로가 포함된 대화 상자가 나타납니다. 결과로 계속 을 클릭하여 계속 합니다.
  5. 웹 페이지는 먼저 WGCNA의 공동 표현 클러스터 결과를 사용자에게 안내합니다. 대화 상자 창에서 결과 보기를 클릭하여 계속합니다.
  6. 결과 페이지 1: WGCNA 출력 페이지의 왼쪽에서 단백질 공동 발현 패턴을 찾습니다. 표현식 형식 선택 드롭다운 상자를 클릭하여 두 그림 형식 사이를 탐색합니다.
    1. 추세를 선택하여 추세 플롯을 표시하고, 각 선은 샘플 간의 개별 단백질 풍부도를 나타냅니다. 각 라인의 색상은 발현 패턴이 공동발현 클러스터 합의에 얼마나 가까운지를 나타낸다(즉, WGCNA 알고리즘에 의해 정의된 "고유유전자").
    2. Boxplot을 선택하여 각 표본에 대한 공동 표현식 패턴을 상자 플롯 형식으로 표시합니다.
  7. WGCNA 출력 페이지 오른쪽에 있는 경로/온톨로지 농축 히트맵을 봅니다. 각 클러스터에 대해 가장 고농축 경로는 히트맵에 함께 표시되며, 색상 강도는 Benjamini-Hochberg 조정 p-값을 반영합니다.
  8. 웹 페이지를 아래로 스크롤하여 개별 단백질의 발현 패턴을 봅니다.
    1. 드롭다운 상자 사용 공동 발현 클러스터를 선택하여 각 클러스터의 단백질을 봅니다(기본값은 클러스터 1임). 테이블에서 특정 단백질을 선택하면 테이블 아래의 막대 플롯이 단백질 풍부도를 반영하도록 자동으로 업데이트됩니다.
    2. 표의 오른쪽에 있는 검색 상자를 사용하여 특정 단백질에 대한 특정 단백질 이름을 검색 합니다.
  9. PPI 결과를 보려면 상단의 결과 페이지 2: PPI 출력을 클릭합니다.
  10. 공동 표현식 클러스터 선택을 클릭하여 특정 공동 표현식 클러스터 에 대한 결과를 봅니다(기본값은 클러스터 1임). 이 페이지에 있는 모든 그림 패널의 표시는 새로 선택한 클러스터에 대해 업데이트됩니다.
  11. 왼쪽 그림 패널에서 선택한 공동 표현식 클러스터에 대한 PPI 네트워크를 봅니다.
    1. 그룹별 선택 드롭다운 상자를 클릭하여 네트워크 내의 개별 PPI 모듈을 강조 표시합니다. 네트워크 레이아웃 형식 선택 드롭다운 상자를 클릭하여 네트워크 레이아웃을 변경합니다(기본값은 Fruchterman Reingold에 의해 설정됨).
    2. 마우스와 트랙패드를 사용하여 2.11.3-2.11.5단계를 수행합니다.
    3. 필요에 따라 PPI 네트워크를 확대 또는 축소합니다. 네트워크에 있는 각 노드의 유전자 이름은 충분히 확대될 때 보여질 것이다.
    4. 확대할 때 특정 단백질을 선택하고 클릭하여 해당 단백질과 네트워크 이웃을 강조 표시합니다.
    5. 네트워크 내의 특정 노드(단백질)를 드래그하여 레이아웃에서 그 위치를 변경하고; 따라서 네트워크 레이아웃은 사용자에 의해 재구성될 수 있다.
  12. PPI 결과 페이지의 오른쪽 패널에서 PPI 결과의 해석을 지원하는 공동 발현 클러스터 수준 정보를 봅니다.
    1. 기본적으로 선택한 클러스터의 공동 표현식 패턴을 상자 그림으로 봅니다.
    2. 표현식 형식 선택 드롭다운 상자를 클릭하여 자세한 내용을 확인하거나 2.12.3-2.12.5 단계에서 설명한 대로 표시합니다.
    3. 추세를 선택하여 공동 표현 패턴에 대한 추세 플롯을 표시합니다.
    4. Pathway Barplot을 선택하여 공동 발현 클러스터에 대해 상당히 풍부해진 경로를 표시합니다.
    5. 경로 원 플롯을 선택하여 공동 표현식 클러스터에 대해 상당히 풍부해진 경로를 원 플롯 형식으로 표시합니다.
  13. 결과 페이지 2: PPI 출력 웹 페이지를 아래로 스크롤하여 개별 PPI 모듈 수준에서 결과를 봅니다. 모듈 선택 드롭다운 상자를 클릭하여 표시할 특정 PPI 모듈을 선택합니다(Cluster1: 모듈 1은 기본적으로 표시됨).
  14. 왼쪽 패널에서 PPI 모듈을 봅니다. 네트워크 디스플레이를 조작하려면 2.11.2-2.11.5단계를 수행하십시오.
  15. 오른쪽 패널에서 경로/온톨로지 농축 결과를 봅니다. 경로 주석 스타일 선택 드롭다운 상자를 클릭하여 자세한 내용과 표시를 확인하십시오.
    1. Barplot을 선택하여 선택한 PPI 모듈에 대해 상당히 보강된 경로를 표시합니다.
    2. 원 플롯을 선택하여 선택한 PPI 모듈에 대해 상당히 보강된 경로를 원 플롯 형식으로 표시합니다.
    3. 히트맵을 선택하여 선택한 PPI 모듈에서 상당히 풍부한 경로와 관련 유전자 이름을 표시합니다.
    4. 표를 선택하여 경로/온톨로지 용어의 이름, 유전자 이름 및 피셔의 정확한 검사에 의한 P-값을 포함한 자세한 경로 농축 결과를 표시합니다.
  16. 스프레드시트 형식으로 발행물 테이블 보기: 절대 경로(두 결과 페이지 맨 위에 인쇄됨)를 따르고 Comprehensive SummaryTables.xlsx라는 출판 스프레드시트 테이블을 찾습니다.

3. 입력 파일 준비 및 JUMPn에 업로드

참고 : JUMPn은 차등적으로 발현 된 단백질 (감독 방법) 또는 가장 다양한 단백질 (감독되지 않은 방법)의 정량화 매트릭스를 입력으로 사용합니다. 프로젝트의 목표가 여러 조건 (예를 들어, 다른 질병 그룹 또는 생물학적 과정의 시계열 분석)에 걸쳐 변경된 단백질을 이해하는 것이라면 DE 분석을 수행하는 감독 된 방법이 바람직합니다. 그렇지 않으면, 가장 가변적인 단백질을 선택하는 감독되지 않은 접근법이 탐색적 목적을 위해 사용될 수 있다.

  1. 단백질 정량 테이블을 생성하고, 각 단백질을 행으로, 각 샘플을 열로 사용합니다. 현대 질량 분광법 기반 프로테오믹스 소프트웨어 제품군(예: JUMP 제품군13,14,39, Proteome Discoverer, Maxquant 15,46)을 통해 이를 달성하십시오.
  2. 변수 프로테옴을 정의합니다.
    1. 프로테오믹스 소프트웨어 스위트에 의해 제공된 통계적 분석 결과를 사용하여 차등적으로 발현된 (DE) 단백질을 정의한다(예를 들어, 조정된 p-값 < 0.05).
    2. 대안적으로, 사용자는 예시적인 R 코드47 을 따라 DE 또는 대부분의 가변 단백질 중 하나를 정의할 수 있다.
  3. 정의된 변수 프로테옴을 사용하여 입력 파일의 형식을 지정합니다.
    참고: 필요한 입력 파일 형식(그림 4)에는 머리글 행이 포함됩니다. 컬럼에는 단백질 수탁 (또는 임의의 고유 ID), GN (공식 유전자 기호), 단백질 설명 (또는 임의의 사용자 제공 정보), 개별 샘플의 단백질 정량화가 포함됩니다.
    1. 3.1단계에서 지정한 열의 순서를 따르지만 헤더의 열 이름은 사용자에게 유연합니다.
    2. TMT (또는 유사한) 정량화된 프로테옴의 경우, 요약된 TMT 리포터 강도를 입력 정량화 값으로 사용한다. 라벨이 없는 데이터의 경우, 정규화된 스펙트럼 카운트(예를 들어, NSAF48) 또는 강도 기반 방법(예를 들어, Maxquant46에 의해 보고된 LFQ 강도 또는 iBAQ 단백질 강도)을 사용한다.
    3. 누락된 값은 JUMPn 분석에 허용됩니다. 정량화 행렬에서 NA로 레이블을 지정하십시오. 그러나 샘플의 50 % 이상에서만 정량화 된 단백질 만 사용하는 것이 좋습니다.
    4. 결과 입력 파일을 .txt, .xlsx 또는 .csv 형식으로 저장합니다(세 가지 모두 JUMPn에서 지원됨).
  4. 입력 파일 업로드:
    1. 브라우저 단추를 클릭하고 입력 파일을 선택합니다(그림 3, 왼쪽 패널). 파일 형식(xlsx, csvtxt 지원)이 자동으로 감지됩니다.
    2. 입력 파일이 강도와 유사한 정량화 값(예를 들어, JUMP 스위트(39)에 의해 생성된 값) 또는 비율과 같은(예를 들어, 프로테옴 디스커버러로부터) 포함하는 경우, 데이터의 Log2-변환 실행 옵션에 대해 예를 선택하십시오. 그렇지 않으면 데이터가 이미 로그로 변환되었을 수 있으므로 이 옵션에 대해 아니요를 선택합니다.

4. 공동발현 클러스터링 분석

참고: 우리 그룹 25,26,27 및 기타28,29,31 WGCNA 49 정량적 프로테오믹스의 공동 발현 클러스터링 분석에 효과적인 방법임을 입증했습니다. JUMPn은 WGCNA 분석 25,50을 위한 3단계 절차를 따른다: (i) 토폴로지 중첩 매트릭스에 기초한 동적 트리 절단(51)에 의한 공동발현 유전자/단백질 클러스터의 초기 정의(TOM; 유전자/단백질 간의 정량화 유사성에 의해 결정됨); (ii) 중복성을 감소시키기 위한 유사한 클러스터의 병합 (고유유전자 유사성의 덴드로그램에 기초함); (iii) 최소 Pearson 상관 관계 컷오프를 초과하는 각 클러스터에 대한 유전자 / 단백질의 최종 할당.

  1. WGCNA 매개변수를 구성합니다(그림 3, 중간 패널). 다음 세 매개 변수는 각각 세 단계를 제어합니다.
    1. 최소 클러스터 크기를 30으로 설정합니다. 이 파라미터는 TOM 기반 하이브리드 다이나믹 트리 절단의 초기 단계 (i)에서 각 공발현 클러스터에 필요한 최소 수의 단백질을 정의한다. 값이 클수록 알고리즘에서 반환되는 클러스터 수가 줄어듭니다.
    2. 최소 클러스터 거리를 0.2로 설정합니다. 이 값을 증가시키면(예를 들어, 0.2-0.3부터) 단계(ii) 동안 더 많은 클러스터 병합이 발생할 수 있고, 따라서 더 적은 수의 클러스터가 초래될 수 있다.
    3. 최소 kME를 0.7로 설정합니다. 단백질은 단계 (ii)에서 정의된 가장 상관관계가 있는 클러스터에 할당되지만, 이 역치를 통과하는 피어슨 상관관계를 갖는 단백질만이 유지될 것이다. 이 단계에서 실패한 단백질은 어떤 클러스터에도 할당되지 않습니다(최종 보고서에서 실패한 단백질에 대한 'NA' 클러스터).
  2. 분석을 시작합니다. 공동 표현식 클러스터링 분석을 제출하는 방법에는 두 가지가 있습니다.
    1. 오른쪽 하단에 있는 JUMPn 분석 제출 버튼을 클릭하여 WGCNA의 종합 분석을 자동으로 시작한 후 PPI 네트워크 분석을 시작합니다.
    2. 또는 WGCNA 단계만 실행하도록 선택합니다(특히 매개변수 튜닝을 위해 4.2.3-4.2.4단계 참조).
    3. 분석 시작 페이지 하단의 고급 매개 변수 버튼을 클릭하십시오. 새 매개 변수 창이 나타납니다. 하단 위젯에서 분석 모드 선택, WGCNA 전용을 선택한 다음 해제를 클릭하여 계속하십시오.
    4. 분석 시작 페이지에서 JUMPn 분석 제출 단추를 클릭합니다.
    5. 위의 두 경우 모두 분석 제출 시 진행률 표시줄이 나타납니다.
      참고: 분석이 완료되면(일반적으로 WGCNA 전용 분석의 경우 < 1분, 종합 분석의 경우 <3분) 성공 실행 메시지와 결과 폴더의 절대 경로가 포함된 대화 상자가 나타납니다.
  3. 2.4-2.8단계에 표시된 대로 WGCNA 결과를 검사합니다(그림 5). 파일 co_exp_clusters_3colums.txt의 절대 경로는 결과 페이지의 맨 위에 강조 표시되어 있습니다 : WGCNA 출력 은 각 단백질의 클러스터 멤버쉽을 기록하고 PPI 전용 분석을 위한 입력으로 사용합니다.
  4. 문제 해결. 다음 세 가지 일반적인 경우에 대해 설명합니다. 아래에 설명된 대로 매개 변수가 업데이트되면 4.2.2-4.2.4단계에 따라 새 WGCNA 결과를 생성합니다.
    1. 데이터에서 하나의 중요한 공동 표현 패턴이 예상되지만 알고리즘에서 누락 된 경우 4.4.2-4.4.4 단계를 수행하십시오.
    2. 누락된 클러스터는 특히 작은 공동발현 클러스터, 즉 이러한 패턴을 나타내는 단백질의 제한된 수(예를 들어, <30)에 대해서만 가능성이 있다. 재분석 전에, 단백질 정량화 매트릭스의 입력 파일을 재검사하고 그 중요한 공동발현 패턴에 부착하는 몇몇 양성 대조군 단백질을 찾아낸다.
    3. 작은 클러스터를 구출하려면 최소 클러스터 크기를 줄이고(예: 10; 10보다 작은 클러스터 크기는 견고하지 않을 수 있으므로 권장하지 않음), 최소 클러스터 거리를 줄입니다(예: 0.1, 여기서 0으로 설정하는 것도 허용되므로 자동 클러스터 병합을 건너뜁니다).
    4. 업데이트된 파라미터로 공동발현 클러스터링 단계를 실행한 후, 먼저 클러스터가 공동발현 패턴 플롯으로부터 구출되었는지 확인한 다음, 상세한 단백질 정량화로부터 그들의 단백질 수탁을 검색하여 양성 대조군을 체크한다(검색 전에 왼쪽 드롭다운 위젯으로부터 적절한 공동발현 클러스터를 선택하도록 보장).
      참고: 구조 작업을 위해 매개 변수 조정 및 재실행을 여러 번 반복해야 할 수 있습니다.
    5. 클러스터에 할당할 수 없는 단백질이 너무 많으면 4.4.6-4.4.7단계를 수행합니다.
      참고: 일반적으로 단백질의 작은 비율(일반적으로 <10%)은 데이터 세트의 일반적인 발현 패턴을 따르지 않은 이상치 단백질일 수 있으므로 어떤 클러스터에도 할당되지 않을 수 있습니다. 그러나, 그러한 백분율이 유의하다면(예를 들어, >30%), 무시할 수 없는 추가적인 공동-발현 패턴이 존재한다는 것을 시사한다.
    6. 최소 클러스터 크기와 최소 클러스터 거리 매개 변수를 모두 줄여 '새로운' 공동 발현 클러스터를 감지하여 이러한 상황을 완화합니다.
    7. 또한, 최소 피어슨 상관관계(kME) 파라미터를 감소시켜 이들 'NA 클러스터' 단백질을 축소시킨다.
      참고: 이 매개 변수를 조정하면 새 클러스터가 생성되지 않고 더 낮은 임계값으로 이전에 실패한 단백질을 수용하여 '기존' 클러스터의 크기가 증가합니다. 그러나 이것은 또한 더 많은 시끄러운 단백질이 허용되기 때문에 각 클러스터의 이질성을 증가시킬 것입니다.
    8. 두 클러스터는 패턴의 매우 사소한 차이가 있습니다. 4.4.9-4.4.11 단계에 따라 하나의 클러스터로 병합하십시오.
    9. 최소 클러스터 거리 매개 변수를 늘려 문제를 해결합니다.
    10. 그러나 일부 상황에서는 알고리즘이 원하는 패턴을 반환하지 않을 수 있습니다. 이러한 즉시 병합할 파일 co_exp_clusters_3colums.txt(4.3단계의 파일)의 클러스터 멤버쉽을 수동으로 조정하거나 편집합니다.
    11. 편집된 후 파일을 다운스트림 PPI 네트워크 분석을 위한 입력으로 사용합니다. 수동 편집의 경우 클러스터 할당 기준을 정당화하고 수동 편집 절차를 기록하십시오.

5. 단백질-단백질 상호작용 네트워크 분석

참고: 공동 발현 클러스터를 PPI 네트워크 상에 중첩시킴으로써, 각각의 공동-발현 클러스터는 더 작은 PPI 모듈로 더욱 계층화된다. 분석은 각 공동발현 클러스터에 대해 수행되며 두 단계를 포함한다: 첫 번째 단계에서, JUMPn은 공동발현 클러스터로부터의 단백질을 PPI 네트워크로 중첩시키고 모든 연결된 성분을 찾는다(즉, 연결된 노드/단백질의 다중 클러스터; 예를 들어, 도 6A 참조); 그 후, 커뮤니티 또는 모듈들(조밀하게 연결된 노드들의)은 토폴로지 중첩 매트릭스(TOM) 방법(52)을 사용하여 반복적으로 연결된 각각의 컴포넌트에 대해 검출될 것이다.

  1. PPI 네트워크 분석을 위한 매개변수를 구성합니다(그림 3, 오른쪽 패널).
    1. 최소 PPI 모듈 크기를 2로 설정합니다. 이 매개변수는 첫 번째 단계 분석에서 연결이 끊어진 구성 요소의 최소 크기를 정의합니다. 지정된 매개변수보다 작은 모든 컴포넌트는 최종 결과에서 제거됩니다.
    2. 최대 PPI 모듈 크기를 40으로 설정합니다. 이 임계값을 통과하는 크고 연결이 끊어진 구성 요소는 두 번째 단계의 TOM 기반 분석을 거칩니다. 두 번째 단계 분석은 각 큰 구성 요소를 더 작은 모듈로 더 분할합니다 : 각 모듈에는 원래 구성 요소 전체보다 더 조밀하게 연결된 단백질이 포함될 것입니다.
  2. 분석을 시작합니다. PPI 네트워크 분석을 제출하는 방법에는 두 가지가 있습니다.
    1. JUMPn 분석 제출 버튼을 누르면 기본적으로 WGCNA 분석 후 PPI 분석이 자동으로 수행됩니다.
    2. 또는 사용자 지정된 공동 표현식 클러스터 결과를 업로드하고 5.2.3-5.2.5단계에 따라 PPI 전용 분석을 수행합니다.
    3. 파일 co_exp_clusters_3colums.txt의 형식에 따라 입력 파일을 준비합니다(4.4항 참조).
    4. 분석 시작 페이지 하단의 고급 매개 변수 버튼을 클릭하십시오. 새 매개 변수 창이 나타납니다. 상위 세션에서 'PPI 전용' 분석에 대한 공동 표현식 클러스터 결과 업로드에서 브라우저를 클릭하여 5.2.3단계에서 준비한 입력 파일을 업로드합니다.
    5. 하단 위젯에서 분석 모드 선택, PPI 만 선택한 다음 해제 를 클릭하여 계속하십시오. 분석 시작 페이지에서 JUMPn 분석 제출 단추를 클릭합니다.
  3. 분석이 완료되면 (일반적으로 <3 분) 2.10-2.15 단계에 설명 된대로 PPI 결과를 검사하십시오 (그림 6).
  4. 선택적 고급 단계) 매개 변수를 조정하여 PPI 모듈화를 조정하십시오.
    1. 최대 모듈 크기 매개 변수를 늘려 PPI 결과에 더 많은 단백질이 포함되도록 합니다. 5.4.2-5.4.3단계에 따라 문서화되지 않은 상호 작용을 다루기 위해 사용자 지정된 PPI 네트워크를 업로드합니다.
    2. 분석 시작 페이지 하단의 고급 매개 변수 버튼을 클릭하십시오. 새 매개 변수 창이 나타납니다. , C onnection 형식의 세 개의 열이 포함 된 사용자 정의 된 PPI 파일을 준비하십시오. 여기서 은 각 단백질의 공식 유전자 이름으로 제시됩니다.
    3. PPI 데이터베이스 업로드에서 찾아보기 버튼을 클릭하여 사용자 지정된 PPI 파일을 업로드합니다.

6. 경로 농축 분석

참고: 공동 발현 클러스터와 PPI 모듈 내의 JUMPn 파생 계층적 구조는 Fisher의 정확한 테스트를 사용하여 과도하게 표현된 경로로 자동으로 주석을 달게 됩니다. 사용되는 경로/토폴로지 데이터베이스에는 GO(Gene Ontology), KEGG, Hallmark 및 Reactome이 포함됩니다. 사용자는 고급 옵션을 사용하여 분석을 위해 사용자 정의 된 데이터베이스를 업로드 할 수 있습니다 (예 : 비 인간 종으로부터의 데이터를 분석하는 경우).

  1. 기본적으로 경로 농축 분석은 공동 발현 클러스터링 및 PPI 네트워크 분석을 통해 자동으로 시작됩니다.
  2. 경로 보강 결과를 봅니다.
    1. 2.7, 2.12 및 2.15단계에 따라 결과 페이지에서 다양한 형식을 시각화합니다. Comprehensive SummaryTables.xlsx 파일의 스프레드시트 게시 테이블에서 자세한 결과를 봅니다(2.16단계).
  3. (선택적 고급 단계) 경로 보강 분석을 위해 사용자 지정된 데이터베이스 업로드:
    1. 일반적으로 종의 모든 유전자의 공식 유전자 이름을 포함하는 유전자 배경 파일을 준비하십시오.
    2. 6.3.3-6.3.4단계에 따라 온톨로지 라이브러리 파일을 준비합니다.
    3. EnrichR53 및 MSigDB54를 포함한 공용 웹 사이트에서 온톨로지 라이브러리 파일을 다운로드하십시오. 예를 들어, EnrichR 웹 사이트55에서 Drosophila에서 온톨로지를 다운로드하십시오.
    4. 두 개의 열, 즉 첫 번째 열로 경로 이름을 사용하고 두 번째 열로 공식 유전자 기호 ( "/"로 구분)로 필요한 형식으로 다운로드 한 파일을 편집하십시오. 자세한 파일 형식은 JUMPn R shiny 소프트웨어의 도움말 페이지에 설명되어 있습니다.
      참고: JUMPn GitHub 사이트(56)에서 유전자 배경 및 온톨로지 라이브러리(초파리를 인스턴스로 사용)의 예제 파일을 찾습니다.
    5. 분석 시작 페이지 하단의 고급 매개 변수 버튼을 클릭하십시오. 새 매개 변수 창이 나타납니다.
    6. 경로 보강 분석을 위한 배경 파일 업로드 항목을 찾고 브라우저를 클릭하여 6.3.1단계에서 준비된 배경 파일을 업로드합니다. 그런 다음 세션에서 경로 보강 분석에 사용할 배경을 선택하고 사용자 제공 배경을 클릭하십시오.
    7. 경로 보강 분석을 위한 온톨로지 라이브러리 파일 업로드 항목을 찾아 브라우저를 클릭하여 6.3.2-6.3.4단계에서 준비된 온톨로지 라이브러리 파일을 업로드합니다. 그런 다음 세션에서 경로 보강 분석을 위한 데이터베이스 선택, .xlsx 형식의 사용자 제공 데이터베이스를 클릭합니다.
  4. 오른쪽 하단에 있는 JUMPn 분석 제출 단추를 클릭하여 사용자 지정된 데이터베이스를 사용하여 분석을 시작합니다.

7. 표본 크기가 큰 데이터 세트 분석

참고: JUMPn은 표본 크기가 큰 데이터 세트 분석(최대 200개의 샘플 테스트)을 지원합니다. 큰 표본 크기의 시각화를 용이하게 하기 위해, 샘플 그룹을 지정하는 추가 파일("메타 파일"로 명명됨)이 공동 발현 클러스터링 결과의 표시를 용이하게 하기 위해 필요하다.

  1. 메타 파일을 준비하고 업로드합니다.
    1. 단계 7.1.2-7.1.3에 따라 각 샘플에 대한 그룹 정보(예: 대조군 및 질병 그룹)를 지정하는 메타 파일을 준비합니다.
    2. 메타 파일에 적어도 두 개의 열이 포함되어 있는지 확인하십시오: 열 1에는 단백질 정량화 매트릭스 파일의 열 이름 및 순서와 동일한 샘플 이름이 포함되어야 합니다(3.3단계에서 준비됨). 열 2 이후부터는 사용자가 정의한 여러 기능에 대한 그룹 할당에 사용됩니다. 열 수는 유연합니다.
    3. 메타 파일의 첫 번째 행에 각 열의 열 이름이 포함되어 있는지 확인하십시오. 두 번째 행부터 그룹 또는 다른 특징(예: 성별, 나이, 치료 등)의 개별 샘플 정보가 나열되어야 합니다.
    4. 분석 시작 페이지 하단의 고급 매개 변수 버튼을 클릭하여 메타 파일을 업로드합니다. 새 매개 변수 창이 나타납니다. 7.1.5단계로 진행합니다.
    5. 메타 파일 항목 업로드를 찾아 브라우저를 클릭하여 배경 파일을 업로드하십시오. JUMPn에서 예기치 않은 형식이나 일치하지 않는 샘플 이름이 감지되면 메타 파일의 추가 서식을 지정하기 위한 오류 메시지가 나타납니다(단계 7.1.1-7.1.3).
  2. 공동 발현 클러스터링 분석을 위한 파라미터 조정: 최소 피어슨 상관관계를 0.2로 설정합니다. 이 매개 변수는 표본 크기가 크기 때문에 완화해야 합니다.
  3. 오른쪽 하단에 있는 JUMPn 분석 제출 버튼을 클릭하여 분석을 제출합니다.
  4. 분석 결과 보기: 공동 표현식 클러스터 패턴을 표시하는 것을 제외한 모든 데이터 출력은 동일합니다.
    1. 결과 페이지 1: WGCNA 출력 페이지에서 공동 표현식 클러스터를 사용자 정의 샘플 그룹 또는 기능에 의해 계층화된 샘플이 있는 상자 그림으로 시각화합니다. 플롯의 각 점은 WGCNA 알고리즘에 의해 계산된 고유 유전자(즉, 클러스터의 합의 패턴)를 나타낸다.
    2. 사용자가 샘플을 그룹화하기 위해 여러 기능(예: 연령, 성별, 치료 등)을 제공한 경우 표현식 형식 선택 드롭다운 상자를 클릭하여 샘플을 그룹화하기 위한 다른 기능을 선택합니다.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

우리는 JUMPn 성능을 최적화하고 평가하기 위해 게시 된 심층 단백체 데이터 세트 25,26,27,30 (그림 5 및 그림 6)과 데이터 시뮬레이션 57 (표 1)을 사용했습니다. WGCNA를 통한 공동발현 단백질 클러스터링 분석의 경우, 시료 간에 유의하게 변화된 단백질(예를 들어, 통계적 분석에 의해 검출된 차등적으로 발현된(DE) 단백질)을 입력으로 활용하는 것이 좋습니다. 분석을 위해 DE가 아닌 단백질을 포함시키는 것은 프로그램에 의해 더 많은 공동발현 클러스터가 반환될 수 있지만(더 큰 입력 크기로 인해), 우리는 시스템 레벨 분석을 위해 실제 신호(예를 들어, DE 단백질)와 배경(나머지 비-DE)을 혼합하는 것이 신호를 희석하고 기본 네트워크 구조를 마스킹할 수 있다는 가설을 세운다. 이를 시험하기 위해, 시뮬레이션 분석은 두 가지 상이한 조건 하에서 수행되었다: i) 고도로 동역학적인 프로테옴 (예를 들어, T 세포 활성화25에서 50% 변경) 및 ii) 비교적 안정한 프로테옴 (예를 들어, AD26에서 2% 프로테옴 변화). 고도로 동동적인 프로테옴의 경우, 여섯 개의 공동발현 클러스터가 우리의 공개된 결과 25의 동일한 클러스터 크기 및 발현 패턴(즉, 고유유전자)에 이어50% 프로테옴으로부터 시뮬레이션되었다. 유사하게, 비교적 안정한 프로테옴에 대해, 우리는 최근의 AD 프로테오믹스 연구26에 이어 2% 프로테옴으로부터 세 개의 클러스터를 시뮬레이션하였다. 예상한 바와 같이, 단백질의 투입 수를 증가시키면 검출된 클러스터의 수가 증가한다(표 1). 고도로 역동적인 프로테옴의 경우, 모든 단백질을 입력으로 사용하면 63%의 정밀도(반환된 8개 클러스터 중 5개는 참 양성이고, 나머지 3개의 클러스터는 가양성임)로 대부분의 진정한 클러스터(시뮬레이션된 선의의 클러스터 중 5개, 리콜 8개 중 5개는 거짓 양성)를 캡처할 수 있습니다. 그러나, 비교적 안정한 프로테옴의 경우, 비-DE 단백질로 입력 크기를 증가시키면 정밀도가 극적으로 감소한다(표 1). 예를 들어, 전체 프로테옴을 입력으로 사용하여 169개의 모듈이 검출되며, 그 중 2개만 정확합니다(정밀도 1.2%, 나머지 98.8% 검출된 모듈은 오탐). 따라서 이러한 결과는 입력으로서 변경된 프로테옴만을 선택하는 것이 특히 비교적 안정한 프로테옴에 대한 공동발현 분석의 정밀도를 증가시킬 것임을 나타낸다.

공동발현 단백질 클러스터의 검출에 이어서, 각 클러스터는 경로 농축 분석을 사용하여 JUMPn에 의해 주석을 달게 될 것이다(도 1). 현재 버전에는 Gene Ontology (GO), KEGG, Hallmark 및 Reactome을 포함하여 일반적으로 사용되는 네 가지 경로 데이터베이스가 포함되어 있습니다. 사용자는 또한 JUMPn에 업로드될 수 있는 GMT 포맷(54)으로 그들 자신의 데이터베이스를 컴파일할 수 있다. 경로 보강 분석을 위해 여러 데이터베이스를 통합하면 보다 포괄적인 뷰를 제공할 수 있습니다. 그러나 서로 다른 경로 데이터베이스의 크기는 크게 다르므로 특정 (특히 큰) 데이터베이스에 원치 않는 편향을 유도 할 수 있습니다. JUMPn 내에서 두 가지 솔루션이 제공됩니다. 먼저, 통계적 접근법을 사용하여, 공칭 p 값들은 벤자미니-호흐베르크 방법(58)에 의한 다중 가설 검정을 위해 조정(또는 벌칙화)되며, 더 큰 데이터베이스는 작은 데이터베이스로부터의 것보다 동일한 조정된 p 레벨에 도달하기 위해 더 중요한 공칭 p-값을 필요로 한다. 둘째, JUMPn은 데이터베이스에 대해 상당히 보강된 상위 경로를 개별적으로 강조 표시하므로 데이터베이스별 상위 보강 경로가 항상 표시됩니다.

경로 농축 분석과 유사하게, 복합 PPI 네트워크는 STRING59,60, BioPlex61,62 및 InWeb_IM 63개의 데이터베이스를 결합하여 컴파일되었다. BioPlex 데이터베이스는 친화성 정제와 인간 세포주의 질량 분광법을 사용하여 만든 반면, STRING과 InWeb에는 다양한 출처의 정보가 포함되어 있습니다. 따라서 STRING 및 InWeb 데이터베이스는 높은 품질을 보장하기 위해 엣지 스코어에 의해 더 필터링되었고, 컷오프는 스케일 프리 기준(24)에 가장 적합하도록 결정된다. 최종 병합된 PPI 네트워크는 ~1,100,000개의 에지를 가진 20,000개 이상의 인간 유전자를 포괄한다(표 2). 이 포괄적 인 상호 작용은 민감한 PPI 분석을 위해 JUMPn 소프트웨어와 함께 번들로 포함되어 게시됩니다.

분석이 완료되면 JUMPn은 세 개의 개별 시트로 구성된 게시 테이블 스프레드시트 파일 ComprehensiveSummaryTables.xlsx를 생성합니다. 첫 번째 시트에는 행당 하나의 단백질이 있는 단백질 클러스터의 결과가 포함되어 있습니다: 첫 번째 열은 각 입력 단백질의 클러스터 멤버쉽을 나타내고, 나머지 열은 단백질 수탁, 유전자 이름, 단백질 설명 및 개별 샘플의 정량화를 포함하는 사용자 입력 파일에서 복사됩니다. 두 번째 시트에는 경로 농축 분석 결과가 포함되어 있으며, 각 공동 발현 클러스터에서 풍부해진 유의한 경로를 표시합니다. 이 표는 먼저 서로 다른 경로 데이터베이스에 의해 정리 된 다음 공동 발현 클러스터, 기능적 경로, 경로 유전자의 총 수, 개별 클러스터의 총 유전자 수, 중첩 된 유전자 번호 및 이름, 농축 폴드, 피셔 정확한 테스트 유래 P- 값 및 Benjamini-Hochberg 거짓 발견률로 정렬됩니다. 세 번째 시트에는 행 당 하나의 PPI 모듈로 PPI 모듈 분석 결과가 포함되어 있습니다. 그의 컬럼은 모듈 이름 (예를 들어, Cluster1_Module1의 공동 발현 멤버쉽 및 모듈 ID에 의해 정의됨), 매핑된 단백질 및 숫자, 뿐만 아니라 경로 데이터베이스에 대해 모듈 단백질을 검색함으로써 정의되는 기능적 경로를 포함한다.

Figure 1
그림 1: JUMPn의 워크플로우. 차등적으로 발현된 (DE) 단백질의 최상위 변수의 정량화 매트릭스는 입력으로 취해지고, 단백질은 WGCNA 알고리즘에 의해 공동발현 클러스터로 그룹화된다. 각각의 공동발현은 경로 농축 분석에 의해 주석을 달고, 조밀하게 연결된 단백질 모듈 식별을 위해 단백질-단백질 상호작용(PPI) 네트워크에 추가로 중첩된다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 2
그림 2: JUMPn 시작 페이지. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 3
그림 3: JUMPn의 입력 페이지. 이 페이지에는 공동 표현식 클러스터링 및 PPI 네트워크 분석을 위한 입력 파일 업로드 패널과 파라미터 구성 패널이 각각 포함되어 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 4
그림 4: 정량화 행렬의 입력 파일의 예. 컬럼은 단백질 수탁 (또는 임의의 고유 ID), GN (공식 유전자 기호), 단백질 설명 (또는 임의의 사용자 제공 정보)을 포함하며, 이어서 개별 샘플의 단백질 정량화가 뒤따른다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 5
도 5: JUMPn에 의해 보고된 공동발현 클러스터 결과. 공동발현 클러스터링 패턴(A), 클러스터에 걸친 최고 농축 경로 히트맵(B), 및 각 클러스터에 대한 상세한 단백질 풍부도가 도시되어 있다(C). 사용자는 다양한 디스플레이 옵션을 선택하고 선택 상자를 통해 서로 다른 클러스터 사이를 탐색할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

Figure 6
그림 6: JUMPn에서 보고한 PPI 네트워크 분석 결과. 글로벌 모듈 간 네트워크가 (A)로 표시되고, 그 다음에 개별 모듈 (B)의 서브 네트워크와 상당히 농축 된 경로 (C)가 표시됩니다. 사용자는 다양한 디스플레이 옵션을 선택하고 선택 상자를 통해 서로 다른 클러스터와 모듈 사이를 탐색할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭하십시오.

분석을 위한 상위 단백질 % # 시뮬레이션 모듈 # 감지된 모듈 # 재캡처 모듈1 정밀도2 리콜3
고도로 동적인 프로테옴 (예를 들어, T 세포 활성화 동안): 50% 프로테옴으로부터 6개의 시뮬레이션된 모듈
2 6 2 2 1 0.33
5 6 2 2 1 0.33
10 6 3 3 1 0.5
20 6 4 4 1 0.67
50 6 6 6 1 1
100 6 8 5 0.63 0.83
비교적 안정한 프로테옴 (예를 들어, AD의 병인 동안): 2% 프로테옴으로부터 3개의 시뮬레이션된 모듈
1 3 1 1 1 0.33
2 3 3 3 1 1
5 3 8 3 0.38 1
10 3 13 3 0.23 1
20 3 19 3 0.16 1
50 3 71 2 0.03 0.67
100 3 169 2 0.01 0.67
1개 재캡처된 모듈은 고유유전자가 시뮬레이션된 고유유전자 중 하나와 높은 상관관계가 있는 검출된 모듈(Pearson R > 0.95)입니다.
2정밀도 = # 재 캡처 된 모듈 / # 감지 된 모듈 수
3리콜 = # 재캡처된 모듈 / # 시뮬레이션된 모듈 수

표 1: 공동발현 클러스터 검출의 시뮬레이션 연구.

PPI 네트워크 아니요. 노드 수 아니요. 가장자리 수
바이오플렉스 3.0 결합 (293T+HCT116) 14,551 1,67,399
InBio_Map_core_2016_09_12 17,429 6,08,166
문자열(v11.0) 18,954 5,87,482
복합 PPI 네트워크 20,485 11,52,607

표 2: 인간 단백질-단백질 상호작용(PPI) 네트워크의 통계. PPI 네트워크는 높은 품질을 보장하기 위해 에지 점수로 필터링되며, 점수 컷오프는 스케일 프리 기준에 가장 적합하여 결정됩니다.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

여기서 우리는 JUMPn 소프트웨어와 그 프로토콜을 소개했는데, 이는 심층 정량적 단백체 데이터25,26,27,30,64를 사용하여 분자 메커니즘을 해부하기위한 여러 프로젝트에 적용되었습니다. JUMPn 소프트웨어 및 프로토콜은 공동 발현 네트워크 분석을 위한 DE 단백질의 고려, 포괄적이고 고품질의 PPI 네트워크의 편집, 간소화되고 사용자 친화적인 인터페이스를 통한 엄격한 통계 분석(예를 들어, 다중 가설 테스트의 고려에 의해)을 포함하여 완전히 최적화되었습니다. JUMPn에 의해 확인된 다수의 단백질 모듈은 기능적 실험 연구(25,27) 또는 독립적인 환자 코호트(26)에 의해 검증되었으며, JUMPn은 다양한 생물학적 과정의 기초가 되는 핵심 분자 및 경로를 식별하기 위한 효과적인 도구로서 예시된다.

이 프로토콜의 중요한 단계에는 공동 발현 클러스터 및 PPI 모듈의 최적 결과 생성이 포함되며, 여기에는 매개 변수 튜닝의 여러 반복과 맞춤형 PPI 네트워크 업로드가 필요할 수 있습니다. 우리의 프로토콜에서, 우리는 중요한 클러스터의 누락, 할당되지 않은 단백질의 높은 비율, 두 개의 중복 클러스터의 병합 및 PPI 모듈 내에서 중요한 단백질의 누락을 처리하는 방법을 포함하여 일반적인 실제 시나리오에 대해 논의했습니다. 우리는 사용자가 여러 양성 대조군 단백질을 준비하고 최종 공동 발현 클러스터에서 그들의 존재를 확인하는 것이 좋습니다. 때로는 불완전한 PPI 네트워크 데이터베이스로 인해 긍정 제어가 최종 PPI 모듈에 포함되지 않을 수도 있습니다. 이를 부분적으로 완화하기 위해 PPI 네트워크를 BioPlex V362 및 STRING V1160의 최신 버전으로 업데이트했습니다. 또한 JUMPn을 사용하면 사용자 정의 PPI 네트워크를 업로드 할 수 있습니다. 예를 들어, 중요한 양성 대조군 단백질을 미끼로 사용하는 친화성 정제-질량 분광분석법(AP-MS) 실험으로부터 유래된 신규한 상호작용은 보다 맞춤화된 분석을 위해 현재의 복합 PPI 네트워크와 통합될 수 있다.

각각의 공동발현 단백질 클러스터에 대한 경로 농축 분석의 프레임워크를 사용함으로써, JUMPn은 전사 인자 (TF) 활성을 추론하기 위해 확장될 수 있다. 가정은 공동 발현 클러스터에 특정 TF의 표적 유전자의 과다 표현이 존재하는 경우 (즉, 이들 표적은 차별적으로 발현되고 동일한 발현 패턴을 따른다), 그 TF의 활성은 표적 단백질 풍부도가 일관되게 변화되기 때문에 실험 조건에 걸쳐 잠재적으로 변경된다는 것이다. 기술적으로, 이것은 현재 경로 데이터베이스를 TF 타겟 데이터베이스로 대체함으로써 (예를 들어, ENCODE 프로젝트(65)로부터) JUMPn을 통해 간단하게 달성될 수 있다. 유사하게, 키나제 활성은 또한 키나제-기질 데이터베이스를 이용함으로써, 깊은 포스포프로테오믹스를 입력으로서 취함으로써 추론될 수 있다. 예를 들어, 우리는 뇌 종양 병인(64)의 기초가 되는 조절되지 않는 TF 및 키나아제를 성공적으로 확인했다. 실제로, 활동 추론을 위한 네트워크 접근법을 사용하는 것은 인간 질병에 대한 조절되지 않는 동인을 식별하기 위한 강력한 접근법으로서 등장하였다66,67.

JUMPn 소프트웨어는 광범위한 데이터 유형에 쉽게 적용됩니다. 등압 표지 정량화된 프로테옴이 예시적인 예로서 사용되었음에도 불구하고, 동일한 프로토콜은 라벨이 없는 정량화된 프로테오믹스 데이터뿐만 아니라 게놈-전체 발현 프로필에도 적용가능하다(예를 들어, RNA-seq 또는 마이크로어레이에 의해 정량화; 유전자 및 단백질 발현 프로필27 둘 다에 대해 JUMPn을 적용하는 최근의 예를 참조). 포스포프로테오믹스 데이터는 또한 JUMPn에 의해 공동-발현된 포스포사이트를 확인하기 위해 취해질 수 있고, 이어서 키나제 활성 추론(25)이 뒤따를 수 있다. 또한, AP-MS 접근법에 의해 생성된 상호작용 데이터가 또한 적절할 것이며, 이에 의해 유사한 미끼 상호작용 강도 및 화학량론을 따르는 먹이 단백질은 공동발현 클러스터를 형성하고 데이터 해석(68)을 위해 공지된 PPI와 더 중첩될 것이다.

JUMPn의 현재 버전에 대한 제한 사항이 있습니다. 첫째, 설치 절차는 명령 줄 기반이며 컴퓨터 과학에 대한 기본 지식이 필요합니다. 이것은 JUMPn의 광범위한 사용을 방해하며, 특히 계산 배경이없는 생물 학자들로부터 특히 그렇습니다. 보다 이상적인 구현은 온라인 서버에 JUMPn을 게시하는 것입니다. 둘째, 현재의 데이터베이스는 인간 질병 연구에 초점을 맞추기 때문에 인간 중심적입니다. 마우스에 의해 생성된 프로테오믹스 데이터는 또한 대부분의 PPI가두 종 69,70에 걸쳐 보존된다고 가정할 때, 이러한 인간 중심 데이터베이스(25,27)를 사용하여 JUMPn에 의해 분석되었다는 점에 유의한다. 마우스-특이적 신호전달은 이러한 접근법에 의해 포착되지 않을 것이지만, 그러한 인간 연구에는 관심이 없다. 그러나, 비포유류 모델 시스템(예를 들어, 제브라피쉬, 파리, 또는 효모)의 경우, 종-특이적 데이터베이스는 고급 옵션을 사용하여 JUMPn에 준비되고 업로드되어야 한다. 추가적인 종의 자원은 향후 JUMPn 방출을 통해 제공될 수 있다. 셋째, 온톨로지/경로 분석의 현재 단계는 상당한 시간이 걸리며, 이는 병렬 컴퓨팅에 의해 더욱 최적화될 수 있다.

결론적으로, 우리는 시스템 생물학 접근법에 의해 공동 발현되고 잠재적으로 물리적으로 상호 작용하는 단백질 모듈을 식별하고 시각화하기 위해 정량적 단백체 데이터를 탐구하기위한 JUMPn 소프트웨어 및 프로토콜을 제시합니다. JUMPn을 다른 것들(53,71,72)과 구별하는 주요 특징들은 다음을 포함한다: (i) JUMPn은 경로 및 네트워크 분석의 네 가지 주요 컴포넌트들을 통합하고 합리화한다(그림 1); (ii) 간단한 유전자 목록을 입력으로 사용하는 대부분의 경로 분석 소프트웨어와 달리, JUMPn은 정량화 매트릭스에서 시작하여 정량적 정보가 문헌에 문서화 된 경로 및 네트워크와 원활하게 통합 될 수 있습니다. (iii) 공동 발현 단백질 클러스터와 상호 작용 모듈은 모두 알려진 경로에 의해 자동으로 주석을 달고 사용자 친화적 인 웹 브라우저를 사용하여 R / shiny 상호 작용 플랫폼을 통해 시각화됩니다. (iv) 최종 결과는 Excel 형식으로 쉽게 게시 할 수있는 세 개의 테이블로 구성됩니다. 따라서, 우리는 JUMPn 및 이 프로토콜이 정량적 프로테오믹스 데이터를 사용하는 해부 메카니즘을 위한 많은 연구에 널리 적용될 것으로 기대한다.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자는 공개 할 것이 없습니다.

Acknowledgments

기금 지원은 NIH (National Institutes of Health) (R01AG047928, R01AG053987, RF1AG064909, RF1AG068581 및 U54NS110435) 및 ALSAC (미국 레바논 시리아 관련 자선 단체)가 제공했습니다. MS 분석은 St. Jude Children's Research Hospital의 Proteomics and Metabolomics Center에서 수행되었으며, NIH Cancer Center Support Grant (P30CA021765)가 부분적으로 지원했습니다. 내용은 전적으로 저자의 책임이며 반드시 국립 보건원 (National Institutes of Health)의 공식 견해를 나타내는 것은 아닙니다.

Materials

Name Company Catalog Number Comments
MacBook Pro with a 2.3 GHz Quad-Core Processor running OS 10.15.7. Apple Inc. MacBook Pro 13'' Hardware used for software development and testing
Anoconda Anaconda, Inc. version 4.9.2 https://docs.anaconda.com/anaconda/install/
miniconda Anaconda, Inc. version 4.9.2 https://docs.conda.io/en/latest/miniconda.html
RStudio RStudio Public-benefit corporation version 4.0.3 https://www.rstudio.com/products/rstudio/download/
Shiny Server RStudio Public-benefit corporation https://shiny.rstudio.com/articles/shinyapps.html

DOWNLOAD MATERIALS LIST

References

  1. Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537, 347-355 (2016).
  2. Senko, M. W., et al. Novel parallelized quadrupole/linear ion trap/orbitrap tribrid mass spectrometer improving proteome coverage and peptide identification rates. Analytical Chemistry. 85, 11710-11714 (2013).
  3. Eliuk, S., Makarov, A. Evolution of orbitrap mass spectrometry instrumentation. Annual Review of Analytical Chemistry. 8, 61-80 (2015).
  4. Wang, H., et al. Systematic optimization of long gradient chromatography mass spectrometry for deep analysis of brain proteome. Journal of Proteome Research. 14, 829-838 (2015).
  5. Blue, L. E. Recent advances in capillary ultrahigh pressure liquid chromatography. Journal of Chromatography A. 1523, 17-39 (2017).
  6. Meier, F., et al. Online parallel accumulation-serial fragmentation (PASEF) with a novel trapped ion mobility mass spectrometer. Molecular & Cellular Proteomics. 17, 2534-2545 (2018).
  7. Ludwig, C., et al. Data-independent acquisition-based SWATH-MS for quantitative proteomics: a tutorial. Molecular Systems Biology. 14 (8), 8126 (2018).
  8. Zhang, Y. Y., Fonslow, B. R., Shan, B., Baek, M. C., Yates, J. R. Protein analysis by shotgun/bottom-up proteomics. Chemical Reviews. 113, 2343-2394 (2013).
  9. Wang, Z., et al. 27-Plex tandem mass tag mass spectrometry for profiling brain proteome in Alzheimer's disease. Analytical Chemistry. 92, 7162-7170 (2020).
  10. Li, J. M., et al. TMTpro reagents: a set of isobaric labeling mass tags enables simultaneous proteome-wide measurements across 16 samples. Nature Methods. 17 (4), 399-404 (2020).
  11. Collins, B. C., et al. Multi-laboratory assessment of reproducibility, qualitative and quantitative performance of SWATH-mass spectrometry. Nature Communications. 8 (1), 291 (2017).
  12. Navarro, P., et al. A multicenter study benchmarks software tools for label-free proteome quantification. Nature Biotechnology. 34, 1130 (2016).
  13. Wang, X. S., et al. A tag-based database search tool for peptide identification with high sensitivity and accuracy. Molecular & Cellular Proteomics. 13, 3663-3673 (2014).
  14. Li, Y. X., et al. JUMPg: An integrative proteogenomics pipeline identifying unannotated proteins in human brain and cancer cells. Journal of Proteome Research. 15, 2309-2320 (2016).
  15. Cox, J., Mann, M. MaxQuant enables high peptide identification rates, individualized p.p.b.-range mass accuracies and proteome-wide protein quantification. Nature Biotechnology. 26, 1367-1372 (2008).
  16. Kong, A. T., Leprevost, F. V., Avtonomov, D. M., Mellacheruvu, D., Nesvizhskii, A. I. MSFragger: ultrafast and comprehensive peptide identification in mass spectrometry-based proteomics. Nature Methods. 14, 513 (2017).
  17. Chi, H., et al. Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine. Nature Biotechnology. 36, 1059 (2018).
  18. Demichev, V., Messner, C. B., Vernardis, S. I., Lilley, K. S., Ralser, M. DIA-NN neural networks and interference correction enable deep proteome coverage in high throughput. Nature Methods. 17, 41 (2020).
  19. High, A. A., et al. Deep proteome profiling by isobaric labeling, extensive liquid chromatography, mass spectrometry, and software-assisted quantification. Journal of Visualized Experiments: JoVE. (129), e56474 (2017).
  20. Wang, Z., et al. High-throughput and deep-proteome profiling by 16-plex tandem mass tag labeling coupled with two-dimensional chromatography and mass spectrometry. Journal of Visualized Experiments: JoVE. (162), e61684 (2020).
  21. Meier, F., Geyer, P. E., Winter, S. V., Cox, J., Mann, M. BoxCar acquisition method enables single-shot proteomics at a depth of 10,000 proteins in 100 minutes. Nature Methods. 15, 440 (2018).
  22. Sinitcyn, P., Rudolph, J. D., Cox, J. Computational methods for understanding mass spectrometry-based shotgun proteomics data. Annual Review of Biomedical Data Science. 1, 207-234 (2018).
  23. Ideker, T., Galitski, T., Hood, L. A new approach to decoding life: Systems biology. Annual Review of Genomics and Human Genetics. 2, 343-372 (2001).
  24. Barabasi, A. L., Oltvai, Z. N. Network biology: understanding the cell's functional organization. Nature Reviews Genetics. 5, 101-113 (2004).
  25. Tan, H., et al. Integrative proteomics and phosphoproteomics profiling reveals dynamic signaling networks and bioenergetics pathways underlying T cell activation. Immunity. 46, 488-503 (2017).
  26. Bai, B., et al. Deep multilayer brain proteomics identifies molecular networks in alzheimer's disease progression. Neuron. 105, 975-991 (2020).
  27. Zeng, H., et al. Discrete roles and bifurcation of PTEN signaling and mTORC1-mediated anabolic metabolism underlie IL-7-driven B lymphopoiesis. Science Advances. 4, 5701 (2018).
  28. Seyfried, N. T., et al. A multi-network approach identifies protein-specific co-expression in asymptomatic and symptomatic Alzheimer's disease. Cell Systems. 4, 60-72 (2017).
  29. Johnson, E. C. B., et al. Large-scale proteomic analysis of Alzheimer's disease brain and cerebrospinal fluid reveals early changes in energy metabolism associated with microglia and astrocyte activation. Nature Medicine. 26, 769-780 (2020).
  30. Stewart, E., et al. Identification of therapeutic targets in rhabdomyosarcoma through integrated genomic, epigenomic, and proteomic analyses. Cancer Cell. 34, 411-426 (2018).
  31. Rudolph, J. D., Cox, J. A network module for the perseus software for computational proteomics facilitates proteome interaction graph analysis. Journal of Proteome Research. 18, 2052-2064 (2019).
  32. Zhang, B., et al. Proteogenomic characterization of human colon and rectal cancer. Nature. 513, 382 (2014).
  33. Petralia, F., et al. Integrated proteogenomic characterization across major histological types of pediatric brain cancer. Cell. 183, 1962 (2020).
  34. Dutkowski, J., et al. A gene ontology inferred from molecular networks. Nature Biotechnology. 31, 38 (2013).
  35. Yu, M. K., et al. Translation of genotype to phenotype by a hierarchy of cell subsystems. Cell Systems. 2, 77-88 (2016).
  36. Jansen, R., Greenbaum, D., Gerstein, M. Relating whole-genome expression data with protein-protein interactions. Genome Research. 12, 37-46 (2002).
  37. Huttlin, E. L., et al. Architecture of the human interactome defines protein communities and disease networks. Nature. 545, 505-509 (2017).
  38. Ron-Harel, N., et al. Mitochondrial biogenesis and proteome remodeling promote one-carbon metabolism for T cell activation. Cell Metabolism. 24, 104-117 (2016).
  39. Niu, M. M., et al. Extensive peptide fractionation and y(1) ion-based interference detection method for enabling accurate quantification by isobaric labeling and mass spectrometry. Analytical Chemistry. 89, 2956-2963 (2017).
  40. Chang, W. shiny: Web Application Framework for. Nature Protocols. 11, Anaconda. miniconda (2021). RStudio (2021) Shiny Server 2301-2319 (2021).
  41. JUMPn. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0 (2021).
  42. Anaconda. , Available from: https://docs.anaconda.com/anaconda/install/ (2021).
  43. miniconda. , Available from: https://docs.conda.io/en/latest/miniconda.html (2021).
  44. RStudio. , Available from: https://www.rstudio.com/products/rstudio/download/ (2021).
  45. Shiny Server. , Available from: https://shiny.rstudio.com/articles/shinyapps.html (2021).
  46. Tyanova, S., Temu, T., Cox, J. The MaxQuant computational platform for mass spectrometry-based shotgun proteomics. Nature Protocol. 11, 2301-2319 (2016).
  47. R code. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/JUMPn_preprocessing (2021).
  48. Florens, L., et al. Analyzing chromatin remodeling complexes using shotgun proteomics and normalized spectral abundance factors. Methods. 40, 303-311 (2006).
  49. Zhang, B., Horvath, S. A general framework for weighted gene co-expression network analysis. Statistical Applications in Genetics and Molecular Biology. 4, Article 17 (2005).
  50. Voineagu, I., et al. Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. 474, 380 (2011).
  51. Langfelder, P., Zhang, B., Horvath, S. Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R. Bioinformatics. 24, 719-720 (2008).
  52. Ravasz, E., Somera, A. L., Mongru, D. A., Oltvai, Z. N., Barabasi, A. L. Hierarchical organization of modularity in metabolic networks. Science. 297, 1551-1555 (2002).
  53. Kuleshov, M. V., et al. Enrichr: a comprehensive gene set enrichment analysis web server 2016 update. Nucleic Acids Research. 44, 90-97 (2016).
  54. Liberzon, A., et al. Molecular signatures database (MSigDB) 3.0. Bioinformatics. 27, 1739-1740 (2011).
  55. FlyEn rich r. , Available from: https://maayanlab.cloud/FlyEnrichr/#stats (2021).
  56. JUMPn GitHub. , Available from: https://github.com/VanderwallDavid/JUMPn_1.0.0/tree/main/resources/example_fly_ (2021).
  57. Langfelder, P., Horvath, S. Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology. 1, 54 (2007).
  58. Benjamini, Y., Hochberg, Y. Controlling the false discovery rate - a practical and powerful approach to multiple testing. Journal of the Royal Statistical Society: Series B. 57, 289-300 (1995).
  59. Szklarczyk, D., et al. STRING v10: protein-protein interaction networks, integrated over the tree of life. Nucleic Acids Research. 43, 447-452 (2015).
  60. Szklarczyk, D., et al. STRING v11: protein-protein association networks with increased coverage, supporting functional discovery in genome-wide experimental datasets. Nucleic Acids Research. 47, 607-613 (2019).
  61. Huttlin, E. L., et al. The BioPlex network: A systematic exploration of the human interactome. Cell. 162, 425-440 (2015).
  62. Huttlin, E. L., et al. Dual proteome-scale networks reveal cell-specific remodeling of the human interactome. Cell. 184, 3022-3040 (2021).
  63. Li, T., et al. A scored human protein-protein interaction network to catalyze genomic interpretation. Nature Methods. 14, 61-64 (2017).
  64. Wang, H., et al. Deep multiomics profiling of brain tumors identifies signaling networks downstream of cancer driver genes. Nature Communications. 10, 3718 (2019).
  65. Gerstein, M. B., et al. Architecture of the human regulatory network derived from ENCODE data. Nature. 489, 91-100 (2012).
  66. Yu, J., Peng, J., Chi, H. Systems immunology: Integrating multi-omics data to infer regulatory networks and hidden drivers of immunity. Current Opinion in Systems Biology. 15, 19-29 (2019).
  67. Califano, A., Alvarez, M. J. The recurrent architecture of tumour initiation, progression and drug sensitivity. Nature Reviews Cancer. 17, 116-130 (2017).
  68. Hein, M. Y., et al. A human interactome in three quantitative dimensions organized by stoichiometries and abundances. Cell. 163, 712-723 (2015).
  69. Liang, Z., Xu, M., Teng, M. K., Niu, L. W. Comparison of protein interaction networks reveals species conservation and divergence. BMC Bioinformatics. 7, 457 (2006).
  70. Shou, C., et al. Measuring the evolutionary rewiring of biological networks. PLOS Computational Biology. 7, 1001050 (2011).
  71. Zhou, Y., et al. Metascape provides a biologist-oriented resource for the analysis of systems-level datasets. Nature Communications. 10, 1523 (2019).
  72. Cline, M. S., et al. Integration of biological networks and gene expression data using Cytoscape. Nature Protocols. 2, 2366-2382 (2007).

Tags

생화학 문제 176
JUMPn: 프로테오믹스의 단백질 공동 발현 클러스터링 및 네트워크 분석을 위한 간소화된 응용 프로그램
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Vanderwall, D., Suresh, P., Fu, Y.,More

Vanderwall, D., Suresh, P., Fu, Y., Cho, J. H., Shaw, T. I., Mishra, A., High, A. A., Peng, J., Li, Y. JUMPn: A Streamlined Application for Protein Co-Expression Clustering and Network Analysis in Proteomics. J. Vis. Exp. (176), e62796, doi:10.3791/62796 (2021).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter