포스트 번역 상 수정 및 변형에 대 한 신속 하 고 양적 방법 사용의 펩 티 드 유전자에 매핑

Christoph N. Schlaffner; Georg J. Pirklbauer; Andreas Bender; Judith A.J. Steen; Jyoti S. Choudhary

doi:10.3791/57633

Method Article

포스트 번역 상 수정 및 변형에 대 한 신속 하 고 양적 방법 사용의 펩 티 드 유전자에 매핑

DOI:

10.3791/57633

⸱

May 22nd, 2018

Christoph N. Schlaffner¹^,²^,³ , Georg J. Pirklbauer² , Andreas Bender³ , Judith A.J. Steen¹ , Jyoti S. Choudhary²^,⁴

¹Department of Neurobiology, F. M. Kirby Neurobiology Center, Boston Children's Hospital, Harvard Medical School, ²Proteomic Mass Spectrometry, Wellcome Trust Sanger Institute, Wellcome Genome Campus, ³Centre for Molecular Informatics, Department of Chemistry, University of Cambridge, ⁴Functional Proteomics Group, Chester Beatty Laboratories, Institute of Cancer Research

Summary

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

여기에 우리가 현재 proteogenomic 도구 포고와 빠른, 양적, 포스트 번역 상 수정 및 변형에 대 한 프로토콜 사용 참조 게놈에 질량 분석을 통해 식별 하는 펩 티 드의 매핑. 이 도구는 사용 하 여 통합 및 proteogenomic 및 개인 proteomic 연구와 직교 게놈 데이터 시각화의.

Abstract

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

유전자, 성적 증명서, 그리고 단백질 사이 잡담 하는 열쇠 세포질 응답; 따라서, 고유한 엔터티로 분자 레벨의 분석 세포 내에서 분자 역학의 이해를 통합 연구를 천천히 확장 되 고 됩니다. 시각화 및 다른 omics 데이터 집합과 proteomics의 통합에 대 한 현재 도구 대규모 연구에 적합 하지 않습니다. 또한, 그들은 기본적인 시퀀스 캡처할 식별, 포스트 번역 상 수정 및 정량 삭제. 이러한 문제를 해결 하려면 우리는 게놈 주석 참조를 정량화와 관련된 포스트 번역 상 수정 펩 티 드를 지도 하는 포고를 개발 했다. 또한, 도구 사용자 지정된 시퀀스 데이터베이스 통합 단일 아미노산 변종에서에서 식별 하는 펩 티 드의 매핑을 사용할 수 있도록 개발 되었다. PoGo는 명령줄 도구입니다, 하는 동안 그래픽 인터페이스 PoGoGUI 쉽게 펩 티 드 25 종 합 게놈 주석에서 지 원하는 지도를 비 생물 정보학 연구원을 수 있습니다. 생성 된 출력 파일 형식 유전체학 분야에서 빌려 고, 따라서, 시각화는 대부분 게놈 브라우저에서 지원 됩니다. 대규모 연구, 포고를 만드는 유전자를 또한 proteogenomics 데이터의 쉬운 공유에 매핑된 데이터의 웹에서 액세스할 수 있는 저장소 TrackHubGenerator에 의해 지원 됩니다. 약간의 노력으로이 도구는 단 몇 분 내 유전자를 참조 하 여 다른 사용 가능한 시퀀스 id 기반 도구를 능가 하는 펩 티 드의 수백만 매핑할 수 있습니다. 이 프로토콜에서는 proteogenomics 매핑 포고를 통해 공개적으로 사용 가능한 데이터 집합의 양적 그리고 phosphoproteomics, 뿐만 아니라 대규모 연구는 최고의 방법을 보여 줍니다.

Introduction

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

셀, 게놈, transcriptome, 및 프로테옴에서 내부 및 외부 자극에 대 한 응답을 조절 하 여 건강 및 질병에 지도 하는 특정 기능을 수행 하기 위해 서로 상호 작용 하는 서로 영향을. 따라서, 특성화 및 정량화 유전자, 성적 증명서, 그리고 단백질 세포질 과정을 완전히 이해 결정적 이다. 차세대 시퀀싱 (NGS)를 식별 하 여 유전자 및 식 계량 가장 일반적으로 적용 된 전략 중 하나입니다. 그러나, 단백질 표정은 질량 분석 (MS)에 의해 일반적으로 평가 된다. 지난 10 년간 MS 기술에 있는 중요 한 전진은 더 완전 한 식별 및 proteomes, transcriptomics¹대 등 데이터를 만들기의 정량화 활성화 됩니다. Proteogenomics와 멀티-omics NGS와 MS 데이터를 통합 하는 방법으로 되 고 여러 분자 수준에서 세포 프로세스를 평가 하기 위해 강력한 접근 암의 하위를 식별 하 고 암² 소설 잠재적인 약물 표적을 선도 ^, ³. 그 proteogenomics 유전자 및 주석⁴proteomic 증거를 제공 하기 위해 처음 사용 되었다 주의 하는 것이 중요 하다. 이전 비 코딩 하는 것으로 생각 하는 몇몇 유전자 최근 대규모 인체 조직 데이터 집합⁵^,^,⁶⁷고려 재평가 받은. 또한, proteomic 데이터는 성공적으로 비 모형 유기 체⁸^,⁹주석 노력을 지원 하기 위해 사용 됩니다. 그러나, proteogenomic 데이터 통합 하이라이트 단백질 표정 게놈 기능에 관하여 더 악용 될 수 있습니다 및 결합 된 레퍼런스 시스템 및 방법을 제공 하 여 성적 증명서와 단백질 사이 잡담을 명료 공동 시각화입니다.

Proteomics, transcriptomics, 및 게놈 데이터에 대 한 일반적인 참조를 제공 하기 위해 수많은 도구 매핑 펩 티 드 게놈 좌표¹⁰^,^,¹¹¹² ^{에 MS를 통해 식별에 대 한 구현 되었습니다.}¹³^,^,¹⁴¹⁵^,^,¹⁶¹⁷. 접근 매핑 참조, 게놈 브라우저, 및 그림 1에서 보듯이 다른 proteomics 도구와의 통합도 지원 측면에서 다르다. 일부 도구 게놈¹⁶에 역 번역 된 펩 티 드, 지도 하는 동안 다른 펩 티 드¹⁵의 뉴클레오티드 순서를 재구성 하 단백질 및 유전자 주석 내의 검색 엔진 주석 위치를 사용 합니다. 아직도 다른 사람¹¹^,¹³에 대 한 펩 티 드를 지도 하는 게놈의 3 또는 6 프레임 번역을 사용 합니다. 마지막으로, 여러 가지 도구 뉴클레오티드 순서를 생략 하 고 중간으로 RNA 시퀀싱 매핑된 성적표에서 아미노산 시퀀스 번역을 사용 하 여 연결 된 게놈 좌표¹⁰^,¹²^{, 펩 티 드 지도} ¹⁴^,¹⁷. 그러나, 뉴클레오티드 시퀀스의 번역은 느린 과정 그리고 사용자 지정 데이터베이스 오류 펩 티 드 매핑 전파를 하는 경향이 있다. 신속 하 고 높은 처리량 매핑에 대 한 작고 포괄적인 참조 중요 하다. 따라서, 관련 된 게놈 좌표와 표준화 된 단백질 참조 게놈 매핑 정확한 펩 티 드에 대 한 필수적입니다. 소설 측면 proteogenomics, 변형 및 포스트 번역 상 수정 (PTMs)²^,³, 법인 등에서 최근 연구를 통해 추진력을 얻고 있다. 그러나,이 일반적으로 지원 되지 않습니다 그림 1에 표시 된 대로 도구를 매핑 현재 proteogenomic에 의해. 속도 매핑의 품질을 개선 하기 위해, 포고, 개발 되었다 게놈¹⁸펩 티 드의 빠르고 양적 매핑 수 있는 도구입니다. 또한, 포고 2 개의 순서 이체와 주석된 포스트 번역 상 수정와 펩 티 드의 매핑이 있습니다.

포고는 proteomes 및 글로벌 수정 캡처 양적 고해상도 데이터 집합의 급속 한 증가 대처 하기 위해 개발 되었습니다 하 고 개인적인 변이 및 정밀 의학 같은 대규모 분석에 대 한 중앙 유틸리티를 제공 합니다. 이 문서에서는 게놈 기능에 관하여 포스트 번역 상 수정의 존재를 시각화 하기 위해이 도구의 응용 프로그램을 설명 합니다. 또한,이 문서에는 매핑된 펩 티 드를 통해 다른 접합 이벤트의 식별 및 사용자 지정 variant 데이터베이스 참조 게놈을 통해 식별 하는 펩 티 드의 매핑 강조 표시 합니다. 이 프로토콜에서 포고의 이러한 기능을 보여 주기 위해 자존심 아카이브¹⁹ 다운로드 공개적으로 사용 가능한 데이터 집합을 사용 합니다. 또한,이 프로토콜 대규모 proteogenomics 연구에 대 한 게놈에 매핑된 펩 티 드의 온라인 접근 허브의 창조에 대 한 TrackHubGenerator의 응용 프로그램을 설명 합니다.

Protocol

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

1. 준비, 다운로드 및 설치

참고: 파일 및 폴더 경로 예제 표준 사용자에 대 한 접근의 용이성에 대 한 Windows 형식에 표시 됩니다. 포고와 PoGoGUI 맥 Os와 리눅스 운영 체제에 사용할 수 있습니다.

포고와 PoGoGUI GitHub에서 다운로드
1. 웹 브라우저를 열고 GitHub (http://github.com/cschlaffner/PoGo/)에 포고를 합니다. 자료 를 선택 하 고 최신 버전 zip 압축된 파일을 다운로드. 실행 파일 폴더 (예:C:\PoGo\executables\)로 압축 된 파일을 추출 합니다.
2. GitHub (http://github.com/cschlaffner/PoGoGUI/)에 PoGoGUI 웹 브라우저에서 탐색 합니다. 자료 를 선택 하 고 (예를 들어, "PoGoGUI v1.0.2.jar") 최신 릴리스 jar 파일을 다운로드. 실행 파일 폴더에 jar 파일을 저장 합니다.
게놈 주석 및 번역 된 단백질 코딩 순서 다운로드
참고: GENCODE⁷ (www.gencodegenes.org) 또는 합²⁰ (www.ensembl.org) 일반적인 전송 형식 (GTF)와 단백질 시퀀스에서 게놈 주석 및 지원된 종에 대 한 번역 된 단백질 코딩 순서 다운로드 FASTA 형식입니다.
1. 웹 브라우저에서 www.gencodegenes.org로 이동 하 고 데이터 선택 | 인간 | 현재 버전. 포괄적인 유전자 주석 GTF 링크를 통해 다운로드 하 고 데이터 폴더 (예를 들어, C:\PoGo\Data\)에 gz 압축 파일을 추출 unzipping 프로그램 (예를 들어, 7-우편 번호)를 사용 하 여.
2. 단백질 코딩 대 본 번역 시퀀스 FASTA 링크를 통해 다운로드 하 고 이전 단계에서 생성 된 데이터 폴더에 gz 압축 파일을 추출.
  1. 또는 www.ensembl.org 웹 브라우저에서 탐색 하 고 FTP 통해 데이터를 다운로드하 여 다음 다운로드 선택. 지원된 종 (예, 인간)를 찾아. 대 본 주석 GTF 링크를 사용 하 여 유전자 설정 열에 대 한 최신 릴리스 파일을 다운로드 합니다. 이름 구조 "species.release.gtf.gz" 파일을 선택 하 고 데이터 폴더에 gz 압축 파일을 추출.
3. 단백질 코딩 대 본 번역 시퀀스는 FASTA을 사용 하 여 단백질 시퀀스 (FASTA) 열에서 링크 최신 버전을 다운로드. 이름 구조 "species.release.pep.all.fa.gz" 파일을 선택 하 고 데이터 폴더에 gz 압축 파일을 추출.
펩 티 드 식별 파일 준비
참고: 포고 샘플 식별자, 펩 티 드 순서, 펩 티 드-스펙트럼-선수 (Psm) 및 정량적 값의 수를 포함 하는 4 열 형식을 지원 합니다. 그러나, PoGoGUI 지원 표준화 된 식별 파일 mzIdentML, mzid, 및 mzTab, 형식 그리고²¹의 공개적으로 사용 가능한 프레임 워크 ms 데이터 코어 api 사용 하 여 포고의 4 열 형식으로 변환 합니다. MzIdentML, mzid, 또는 mzTab 형식의 파일 자부심 아카이브¹⁹에서 다운로드할 수 있습니다. 또는 탭 구분 파일 형식 확장자.tsv 또는.pogo에에서 데이터를 제공할 수 있습니다. 다음 열 머리글이 4 열을 포함 하는 형식: 샘플 식별자 (샘플), 펩 티 드 순서 (펩타이드), 펩 티 드-스펙트럼-선수 (Psm) 및 펩 티 드 정량 (양의)의 수. 예를 들어 그림 2에 표시 됩니다.
1. 자존심 아카이브¹⁹ (https://www.ebi.ac.uk/pride/archive/projects/PXD006465/files²²)에서 인간의 고환에 proteomics 연구에서 mzTab 형식의 예제 파일을 다운로드 합니다.
2. 저장 하 고 단계 1.2.1에서에서 만든 데이터 폴더에 gz 압축 파일을 풉니다.
  참고: 또는, 인간 phosphoproteomics MaxQuant 자부심 아카이브 (https://www.ebi.ac.uk/pride/archive/projects/PXD005246/files²³에서 파일 "Traktman_2013_MaxQuantOutput full.zip")에서 검색에 대 한 예제 데이터를 다운로드.
3. 저장 하 고 단계 1.2.1에서에서 만들어진 데이터 폴더에서 zip 압축 파일을 풉니다.
4. 빈 스프레드시트를 열고 c: / 포고/데이터/Traktman_2013_MaxQuantOutput-전체/결합/txt 폴더에서 peptides.txt 파일을 가져올/ 데이터 옵션을 사용 하 여 | 텍스트/CSV에서. 열기 창에서 편집을 클릭 합니다.
5. "시퀀스", "실험 BR1", "실험 BR2", "실험 BR3", "비율 H/L 정규화 BR1", "비율 H/L BR2 정규화", 및 "비율 H/L 정규화 BR3" 제외한 모든 열을 제거 합니다.
6. 열 선택 "비율 H/L 정규화 BR1", "비율 H/L BR2 정규화", 및 "비율 H/L 정규화 BR3" 변환을 클릭 | 열을 피벗 해제. "실험 BR1", "실험 BR2", 및 "실험 BR3" 열을 선택 하 고 피벗 해제 작업을 반복.
7. 결과 열 "특성"을 선택 하 고 사용 하 여 변환 내용을 분할 | 열 분할 | 구분 기호에 의해. 드롭 다운 메뉴에서 구분 기호로 공간 을 선택 합니다. 열 "Attribute.1"에 대 한 작업을 반복 합니다.
8. "Attribute.1.1", "Attribute.2", "Attribute.3", 및 "Attribute.1.1.1"의 결과 열을 제거 합니다.
9. 추가 열을 사용 하 여 열을 추가 | 사용자 지정 열 옵션. 다음을 나타내는 사용자 지정 열 수식 적응: "[Attribute.4]=[Attribute.1.2] =".
10. "거짓"; 포함 된 모든 줄을 필터링 하려면 생성 된 사용자 지정 열에 필터 적용 "TRUE"를 포함 하는 유일한 라인 유지 됩니다.
11. "Attribute.1.2"와 "사용자 정의" 열을 제거 하 고 다음에 나머지 열 순서를 변경할: "Attribute.4", "순서", "Value.1", 및 "값".
12. 각각 "실험", "펩 티 드", "Psm", 및 "양의" 열 이름을 변경 합니다. 홈을 사용 하 여 파일 로드 | 닫기 & 로드.
13. 파일 파일을 사용 하 여 탭으로 구분 된 파일으로 저장 | 다른 이름으로 저장 하 고 형식을 "텍스트 (탭으로 분리) (*.txt)"를 선택 합니다. 이름을 "peptides_pogo.txt"로 변경 하 고 c: / 포고/데이터 폴더에 저장 합니다.

2. 매핑 주석된 포스트 번역 상 수정 및 시각화 등 정량 펩 티 드

참고: 결과 출력 파일 브라우저 확장 데이터 (침대) 포맷을 지 원하는 모든 게놈 브라우저에서 로드할 수 있습니다. 다양 한 브라우저 (사용 되는 다음) 통합 게놈 브라우저 (IGV)²⁴ ,²⁵UCSC 게놈 브라우저, 그리고 합 게놈 브라우저²⁰입니다. 그것은 포고 매핑에 사용 주석 GTF 및 단백질 FASTA 버전 게놈 브라우저에서 게놈의 버전을 일치 해야 합니다. 인간의 합 자료 57-75 및 GENCODE 버전 3d-19, GRCh37/hg19;를 사용 하 여 합 버전 76 이상 및 20 이상 GENCODE GRCh38/hg38를 사용 합니다. 마우스 합 버전 74 이상 및 GENCODE M2, GRCm38를 사용 하 여 또는.

펩 티 드 PoGoGUI를 사용 하 여 지도 (그림 3 참조).
1. 실행 파일 폴더로 이동 합니다. PoGoGUI-vX.X.X.jar아이콘을 두 번 클릭 하 여 프로그램을 시작 합니다.
  참고: 그래픽 사용자 인터페이스 시작 하 고 간단 하 고 시각적 선택 옵션을 허용 합니다.
2. "포고 실행 파일" 옆에 있는 선택 단추를 사용 합니다. 그런 다음 관련 운영 체제 하위 폴더 (예:C:\PoGo\Executables\Windows\)를 실행 파일 폴더에서 이동 합니다. 포고 (예, PoGo.exe)의 실행 파일을 선택 하 고 열기 단추를 클릭 하 여 선택 확인.
3. 선택을 클릭 하 여 단백질 시퀀스에 대 한 참조 입력된 파일을 선택 합니다. 데이터 폴더로 이동한 번역 FASTA 파일을 선택 합니다. 열기 단추를 클릭 하 여 선택을 확인 합니다.
4. 선택 단추를 사용 하 여 사본 주석 파일을 선택 합니다. 데이터 폴더로 이동한 주석 GTF 파일을 선택 합니다. 열기 단추를 클릭 하 여 선택 영역을 확인 합니다.
5. 펩 티 드 식별 파일 추가-여러 파일 선택을 사용 하는-"펩 티 드 파일" 옆에 있는 추가 단추를 사용 하 여. 지원 되는 형식 mzTab, mzIdentML, 또는 mzid, 또는 탭으로 구분 된 4 열 형식으로 다운로드 하 고 단계 1.3에서에서 준비 파일을 선택 합니다.
6. 출력 형식 선택에 침대와 GTF 체크 박스 untick. PTM 침대와 체크 GCT 둡니다만.
7. 드롭 다운 선택에서 데이터에 대 한 적절 한 종족을 선택 합니다. FASTA 파일, GTF 파일 드롭 다운 선택은와 같은 종족에 대 한 필수적 이다.
8. 시작 단추를 클릭 하 여 매핑을 시작 합니다.
  참고: 필요한 경우, PoGoGUI 포고 형식으로 입력된 파일을 변환, 미래의 편의상 같은 폴더에 포고 파일 제공 되며 매핑 프로세스를 시작. 1.3.1 단계에서 다운로드 한 mzTab 파일의 변환 매핑 개시 전에 10-20 분 사이의 지속 됩니다.
통합 게놈 뷰어 시각화
참고: 그림 4를 참조.
1. 파일을 통해 IGV에서 "_ptm.bed"로 끝나는 포고 출력 파일 로드 | 로드 파일에서 파일을 선택.
  참고: 크기, 때문에 일부 파일 게놈 영역의 빠른 다시 로드를 허용 하는 인덱스의 생성을 필요할 수 있습니다. IGV 세대에 자동으로 사용자를 자극할 것 이다. 표시 된 지침을 따릅니다.
2. "_Noptm.bed"로 끝나는 파일에 대 한 로드 단계를 반복 합니다. 이 파일에는 수정 없이 발견 모든 펩 티 드를 포함 되어 있습니다.
3. 참고 각 로드 파일 트랙을 식별 하는 파일 이름으로 별도 트랙으로 표시 됩니다. 끌어서 목록에서 원하는 위치에 그들을 삭제 하 여 트랙을 다시 정렬할.
4. 각 트랙 축소 방법에 처음 표시 되는 참고. 그들을 확장 하려면 트랙 이름을 마우스 오른쪽 단추로 클릭 하 고 시퀀스를 포함 하 여 펩 티 드의 전체 보기에 대 한 확장 또는 스택 보기 지기까지 선택 합니다.
5. ".Gct"로 끝나는 파일에 대 한 로드 단계를 반복 합니다. 이 파일에는 주석된 샘플 당 펩타이드 정량을 포함 되어 있습니다.
6. 달리 위에 로드 된 파일에 대 한 각 주석된 샘플 로드 됩니다 별도 트랙으로. 통해 샘플 끌어서 놓기 작업을 다시 구성 합니다.
7. 게놈 내에서 염색체 드롭-다운 메뉴에서 선택 하 여, 게놈 좌표에 입력, 유전자 기호를 검색 하거나 클릭 이동한 개최 확대 염색체의 섹션을 선택 하.

3. 매핑 사용자 지정 Variant 데이터베이스 참조 게놈을 통해 식별 하는 펩 티 드

참고: 그래픽 사용자 인터페이스 (GUI)를 사용 하 여 또는 명령 라인 인터페이스를 통해 포고 매핑을 수행할 수 있습니다. 그들은 교환할 수 있다. 프로토콜의이 부분에서 커맨드 라인 인터페이스는 호환성을 강조 하는 데 사용 됩니다. 이 프로토콜 섹션의 두 번째 부분에는 소프트웨어 도구 R²⁶필요합니다. 패키지를 설치 하는 것을 확인 하십시오.

참조 게놈을 참조 펩 티 드를 매핑하십시오.
1. 명령 프롬프트 (cmd)를 열고 포고 (예, C:\PoGo\Executables\)의 실행 파일 폴더로 이동 합니다.
2. 아래 명령을 입력 합니다.
  PoGo.exe-gtf \PATH\TO\GTF-fasta \PATH\TO\FASTA-\PATH\TO\IN에-침대 포맷-종 MYSPECIES
  1. 대체는 \PATH\TO\GTF, \PATH\TO\FASTA, 및 \PATH\TO\IN 주석 GTF, 단백질 시퀀스, FASTA 그리고 펩 티 드 식별 (4 열 형식의 파일 파일 ".tsv" 또는 ".pogo")에 대 한 경로와 각각. 또한 데이터 (예를 들어, 인간)와 종으로 MYSPECIES를 대체 합니다.
3. "Enter" 키를 눌러 실행을 확인 합니다. 실행은 더 이상 진행 하기 전에 완료 때까지 기다리십시오.
  참고:이 몇 분 정도 걸릴 수 있습니다. 결과 파일 펩 티 드 입력된 파일 같은 폴더에 저장 됩니다 하 고 다음에 \PATH\TO\OUT.pogo.bed로 간주 됩니다.
입력된 파일에서만 변형 펩 티 드를 추출 합니다.
1. 오픈 R 부하 입력 파일 \PATH\TO\IN 다음 명령을 사용 하 여:
  inputdata <-read.table("PATH/TO/IN",header=TRUE,sep="\t")
2. 로드 명령을 사용 하 여 이미 매핑된 펩 티 드.
  mappedpeptides <-read.table("PATH/TO/OUT.pogo.bed",sep="\t",header=FALSE)
3. 이미 매핑된 펩 티 드를 inputdata에서 제거 합니다.
  peptidesnotmapped <-inputdata [! ( inputdata$ 펩 티 드에 %%mappedpeptides $V4)]
4. 새로운 입력된 파일에 매핑되지 않은 펩 티 드를 인쇄:
  write.table (peptidesnotmapped, "PATH\TO\IN.notmapped.pogo", 헤더 = FALSE, 9 월 = "\t", col.names=TRUE,row.names=FALSE,quote=FALSE)
불일치를 허용 하는 참조 게놈에 나머지 펩 티 드를 매핑하십시오.
1. 3.1 단계 에서처럼 명령 프롬프트 열고 포고의 실행 파일 폴더로 이동 합니다.
2. 1 아미노산 불일치를 허용 아래 명령을 입력 하 고 \PATH\TO\GTF, \PATH\TO\FASTA, 및 \PATH\TO\IN.notmapped.pogo 주석 GTF, 단백질 시퀀스, FASTA 및 펩 티 드 식별 파일 3.2 단계에서 만든 경로 대체. 또한 데이터 (예를 들면, 인간)와 종으로 MYSPECIES를 대체 합니다.
  1. PoGo.exe-gtf \PATH\TO\GTF-fasta \PATH\TO\FASTA-\PATH\TO\IN에-침대 포맷-종 MYSPECIES-1 m m
3. "Enter" 키를 눌러 명령의 실행을 확인 합니다. 실행은 더 이상 진행 하기 전에 완료 때까지 기다리십시오.
  참고:이 몇 분 정도 걸릴 수 있습니다. 결과 파일 펩 티 드 입력된 파일 같은 폴더에 저장 됩니다 하 고 다음에 \PATH\TO\OUT.pogo_1MM.bed로 간주 됩니다.
2.2 단계에 설명 된 대로 IGV 불일치 없이 매핑된 펩 티 드를 시각화 합니다.

4. 매핑 사용 하 여 여러 파일 및 큰 데이터 집합에 대 한 트랙 허브를 생성

PoGoGUI를 사용 하 여 여러 파일에서 펩 티 드를 매핑
1. 실행 파일 폴더를 이동한 PoGoGUI vX.X.X.jar를 실행 하 여 GUI 프로그램을 시작 합니다.
2. 프로토콜 단계 2.1.2-2.1.4에에서 설명 된 대로 참조 입력된 단백질 시퀀스 FASTA 파일 및 주석 GTF 파일 사용 (여기 리눅스) 운영 체제에 대 한 포고 실행 파일을 선택 합니다.
3. "펩 티 드 파일"; 옆에 있는 추가 단추를 사용 하 여 펩 티 드 식별 파일 추가 여러 파일 선택 드래그-앤-드롭 "펩 티 드 파일" 아래 빈 필드에 뿐만 아니라 사용 됩니다.
4. 출력 형식 섹션에서 PTM 침대, GTF, GCT 옆 체크 박스 untick와 체크 하는 침대를 두고.
5. 단일 출력으로 여러 개의 입력된 파일을 병합하는 옵션을 선택 합니다.
  참고:이 입력된 파일의 모든 펩 티 드 결합 하는 단일 출력 파일 발생 합니다. 이 옵션을 선택 하지 않은 상태로 두고 별도로 각 입력된 파일에 대 한 프로그램의 순차적 실행에 발생 합니다.
6. FASTA GTF 파일 일치 드롭 다운 선택에서 데이터에 대 한 적절 한 종족을 선택 합니다.
7. 시작 단추를 클릭 하 여 매핑을 시작 합니다. 필요한 경우 프로그램 포고 형식으로 입력된 파일을 변환 합니다. 이 실행 하는 데 시간이 걸릴 수 있습니다. 한편, 트랙 허브 세대에 대 한 필요한 도구와 스크립트 다운로드.
트랙 허브 세대에 대 한 준비
1. 웹 브라우저를 열고, https://github.com/cschlaffner/TrackHubGenerator를 이동한 "TrackHubGenerator.pl" 파일을 다운로드 합니다. 실행 파일 폴더에 파일을 저장 합니다.
2. 웹 브라우저에서 www.hgdownload.soe.ucsc.edu/admin/exe/로 이동 하 고 사용 (여기 리눅스) 운영 체제에 대 한 폴더를 선택 합니다. 실행 파일 폴더²⁷에 도구 bedToBigBed 및 fetchChromSizes 스크립트 다운로드.
매핑된 펩 티 드에서 트랙 허브를 생성
참고: PoGoGUI는 펩 티 드를 매핑 완료 된 후 트랙 허브 생성할 수 있습니다 자동으로 침대 형식 같은 폴더에 저장 된 모든 결과 파일에 대 한.
1. 터미널 창을 열고 다음 명령을 입력 합니다.
  펄 TrackHubGenerator.pl 경로/이름/어셈블리 FBED UCSC 이메일
  1. 파일 경로 함께 경로/에/이름으로 대체 하 고 (예, ~/PoGo/Data/Mytrackhub), 트랙 허브에 대 한 주석 기반 (예를 들면, 인간에 대 한 hg38)에 있는 게놈 어셈블리와 어셈블리 이름을 포함 하는 폴더 경로와 FBED는 침대는 트랙 허브 기반으로 파일 (예, ~/PoGo/Data/), UCSC UCSC에서 다운로드 한 도구는 어디에 저장 하는 폴더 (예, ~/PoGo/Executables/), 그리고 사람이 트랙에 대 한 책임에 대 한 이메일 주소와 이메일 허브입니다.
2. "Enter" 키를 눌러 실행을 확인 실행만 완료 하는 짧은 시간을 걸릴 것입니다.
3. 웹 접근 가능한 FTP 서버에 모든 내용 함께 생성 된 트랙 허브 (즉, 생성된 된 폴더 ~/PoGo/Data/Mytrackhub/)를 전송 합니다.
  참고: 프로토콜 ftp와 http를 통해 트랙 허브에 액세스할 수 있도록 연결 된 웹 서버와 FTP 서버는 선호. Github 저장소 (github.com) 및 figshare (figshare.com)이이 유형의 액세스를 지원 하 고 FTP 서버 대신 사용할 수 있습니다.
UCSC 게놈 브라우저에서 트랙 허브 시각화
1. 웹 브라우저에서 https://genome.ucsc.edu/로 이동 하 고 MyData 선택 | 허브를 추적. 내 허브탭 클릭 하십시오.
2. 텍스트 필드에 트랙 허브에 URL을 복사 합니다.
  참고: URL의 서버 주소, 허브 위치 추적 및 이름 및 hub.txt 파일 (예:http://ngs.sanger.ac.uk/production/proteogenomics/WTSI_proteomics_PandeyKusterCutler_tissues_hi/hub.txt)으로 구성 됩니다.
3. 추가 허브를 클릭 하 여 트랙 허브를 로드 합니다.
  참고: 허브 로드 됩니다, 짧은 메시지, 트랙 허브의 이름, 트랙 허브에 대 한 담당자의 연락처 등의 세부 정보 메시지가 나타납니다 그리고 게놈 어셈블리 사용. 웹사이트 메인 페이지에 반환 합니다.
4. GenomeBrowser 입력 브라우저 보기를 선택 합니다.
  참고: 사용자 지정 트랙 허브 목록 상단에 표시 됩니다. 여러 개의 침대 파일 트랙 허브에 대 한 기초를 구축, 각 파일의 허브 내에서 별도 트랙으로 표시 됩니다.

Results

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

일반 proteomic 워크플로 포고¹⁸ 의 단계 적용, 시각화의 다운스트림 옵션을 강조 표시 한 그래픽 묘사 그림 5에 표시 됩니다. (즉, 뒤에 액체 크로마토그래피 탠덤 질량 분석으로 결합 하는 단백질의 분해 소화) 샷건 proteomics proteogenomic 매핑의 한 전조 단계입니다. 결과 탠덤 질량 스펙트럼 일반적으로 단백질 시퀀스 데이터베이스에서 파생 된 이론적인 스펙트럼 비교 됩니다. Proteogenomics 연구 잠재력과 동의어 아닌 단일 뉴클레오티드 변종 (SNVs) 참조 게놈⁸이 다시 쉽게 관련 된 하드 만들기 데이터베이스에 코딩 소설 성적표의 번역 순서를 소개 합니다. 포고 (PoGoGUI)의 그래픽 사용자 인터페이스 질량 분석 실험에서 펩 티 드 식별 표준화 된 보고에 대 한 파일 포맷을 지원 하 고 단순화 된 4 열 포고 형식으로 변환 합니다. PoGoGUI는 명령줄 도구 포고를 래핑합니다 고 따라서 펩 티 드의 단백질 코딩 유전자는 GTF FASTA 형태로 번역된 사본 시퀀스에 일반적으로 제공 된 참조 주석 활용 게놈 좌표에의 매핑. 다른 출력 형식은 포고 포스트 번역 상 수정 및 펩 티 드 수준 정량화를 포함 하 여 질량 분석을 통해 확인 된 펩 티 드의 다양 한 측면의 시각화를 사용 하 여 생성 됩니다. 침대에서 출력 파일 추가 변환 하 고 트랙 허브 라는 온라인 액세스 디렉터리에 결합 된 수 있습니다. 트랙 허브로 서 단일 출력 파일, 다음 수 수 시각 UCSC 게놈 브라우저²⁵, 합 게놈 브라우저²⁰,²⁴, IGV 및 Biodalliance²⁸ (하단 그림 5 참조)와 같은 브라우저에서.

우리는 라이트 외 에 설명 된 대로 높은 의미에서 필터링 인간 프로테옴 지도 초안의 해도 적용할 포고 ⁷ 두 다른 도구 proteogenomic 매핑, 즉 iPiG¹⁴ PGx¹⁰에 그것을 비교 하 고. Dataset는 총 3 백만 이상의 시퀀스의 결과 59 성인 그리고 태아 조직에 걸쳐 233,055 독특한 펩 티 드 구성. 포고 실적이 이러한 도구 모두 런타임에서 (6.9 x 및 96.4 배 빠른, 각각)와 메모리 사용 (20%, 60% 더 적은 메모리, 각각) 그림 6¹⁸에서 같이. 성공적으로 매핑된 펩 티 드의 예는 그림 7에 표시 됩니다.

포고 크게 속도 메모리에서 다른 도구 보다, 하는 동안 그것은 또한 매핑 포스트 번역 상 수정 및 게놈에 펩 티 드와 관련 된 양적 정보입니다. 그림 8A 는 개요로 한 엑손을 걸쳐 매핑 펩 티 드 결합 접속점에 대 한 게놈 브라우저에서 침대 포맷의 시각화를 묘사 한다. 포고 게놈 내에서 펩 티 드 매핑의 특수성에 대해 쉽게 시각 보조 제공을 색칠 옵션을 사용 합니다. 빨간색으로 매핑 특이 단일 유전자를 검은 하이라이트 동안 단일 사본으로 나타냅니다. 그러나, 펩 티 드 다른 사본 간에 공유 됩니다. 회색 매핑을 여러 유전자 사이 공유 하는 펩 티 드를 표시 합니다. 이들은, 예를 들어, 덜 유전자의 정량화에 대 한 신뢰할 수 있거나 신뢰할 수 없는 전화는 유전자의 표현입니다. 포고의 PTM 침대 옵션 그림 8B에서와 같이 다양 한 유형의 포스트 번역 상 수정에 맞게 색상 코드를 재정의 합니다. 또한, PTMs ( 그림 8B참조) 두꺼운 블록으로 표시 됩니다. 형식의 단일 PTM 동안 동일한 유형의 여러 PTMs 첫 번째 수정 된 아미노산에서 두꺼운 블록에서 마지막 스팬은 두꺼운 블록에서 수정 된 아미노산 잔류물의 위치에 의해 강조 표시 됩니다.

우리 50 대 장 암 세포 라인 전체 프로테옴 등 phosphoproteome²⁹의 데이터 집합에 포고와 그 후 TrackHubGenerator을 적용. UCSC 게놈 브라우저에 로드 트랙 허브 게놈에 매핑된 펩 티 드를 보여준다는 매핑 및 ( 그림 9참조) 인 산화 사이트의 독자 성을 강조 하는 동안 추가 데이터는 추가 폴더에 제공 됩니다. GCT 파일 다음 게놈 맥락에서 펩 티 드 및 phosphopeptide 정량의 시각화를 사용합니다. 그러나, GCT 파일의 펩 티 드 결합 접속점 (상단 그림 10 참조)에 걸쳐 쉽게 시각화를 제공 하지 않습니다. 펩 티 드 결합 접속점에 걸쳐는 exons를 그들의 각각 부분으로 분할 됩니다. 스플라이스 펩 티 드 exon 매핑 같은 정량적 인 값을 통해 확인할 수 있지만 로드 시퀀스 기반 매핑 파일 등 침대 GTF 선 지원에 걸친 얇은 intron에는 exons를 연결 하는 해석 ( 그림 10 참조 하단)입니다.

변형 사용 매핑 유틸리티를 강조 하기 위해 우리가 인간의 고환 프로테옴 neXtProt 다중 효소 전략²²를 사용 하 여 누락 된 단백질에 대 한 사냥에 대 한 검색의 데이터 집합에 두 가지 구성으로 포고 적용. neXtProt 참조 단백질 시퀀스 외 5 백만 이상의 단일 아미노산 변종³⁰구성 되어 있습니다. 단일 아미노산 변종 발견 펩 티 드를 매핑 다른 매핑 도구에서 지원 되지 않습니다. 177,012 독특한 펩 티 드의 총 확인 되었다. 이들의 99.8% (176,694) 펩 티 드 성공적으로 불일치를 허용 하지 않고 매핑 먼저 했다. 0.2% (318) 펩 티 드 이후 매핑된 있도록 하나의 아미노산 대체 했다 결과 확인 된 펩 티 드 목록에서 그들을 제거. 이 결과 다른 사용 가능한 도구와 참조 게놈에 매핑되지 않은 것이 162 펩 티 드의 3,446 매핑. 매핑 불일치를 포함 하 여 평균 수 높은 반면, 62 펩 티 드 했다만 단일 장소, 진정한 변형 시퀀스를 나타내는 매핑됩니다. 하나의 아미노산 대체와 매핑된 펩 티 드의 예는 그림 11에 번역 된 게놈 시퀀스와 시퀀스는 강조 표시 됩니다.

figure-results-1
그림 1입니다. 다른 펩 티 드-게놈 매핑 도구의 시각적인 비교. 비교는 다양 한 측면에 관하여 표시 됩니다. 이러한 측면에는 매핑 참조, 프레임 워크에 통합의 수준 및 온라인 / 오프 라인 브라우저의 지원 포함 됩니다. 또한, proteogenomics 및 그들의 기능 지원의 소설 측면은 별도로 강조 표시. 포고만 직접 다른 도구에 비해 게놈 시퀀스에 매핑하는 기능을 결여 된다. 그러나, 그것은 대부분의 다른 도구를 지원 하지 않는 모든 새로운 기능을 지원 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-2
그림 2입니다. 매핑 펩 티 드에 대 한 예제 입력된 파일. 포고 4 열 탭으로 구분 된 형식으로 데이터 입력된을 허용합니다. 열 머리글 첫 번째 줄에는 '실험', '펩타이드', 'Psm', 그리고 '양의', 실험 또는 샘플 식별자, 펩 티 드 순서, 펩 티 드-스펙트럼 일치의 수 및 펩 티 드에 대 한 정량적 값 다음에 나타내는 각각. 파일 이름 확장명 지원 *.txt, *.tsv, 및 *.pogo 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-3
그림 3입니다. 파일 선택 및 매개 변수 옵션에 대 한 강조 표시 된 단계를 PoGoGUI 인터페이스. 그림을 선택 하 고 업로드 하는 필요한 모든 파일 및 매핑 펩 티 드 인간 참조 게놈에 포스트 번역 상 수정에 대 한 옵션을 선택 하는 단계입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-4
그림 4입니다. 통합 게놈 뷰어 (IGV) 데이터의 스크린샷 업로드 절차. 그림 포고 IGV 브라우저에서 출력 파일을 업로드 하기 위한 단계를 강조 표시 합니다. 또한, 매핑 및 시퀀스를 강조 하기 위해 매핑된 펩 티 드의 트랙을 확대의 옵션이 표시 됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-5
그림 5입니다. LC-MS/MS에서 게놈 브라우저에서 시각화 단계의 워크플로 간소화. 포고 매핑 탠덤 질량 스펙트럼에서 펩 티 드의 id를 다음과 같습니다. 달성 하기 위하여 게놈을 매핑, 포고 참조 주석 게놈 주석 (GTF) 및 대 본 번역 시퀀스 (FASTA)로 제공 활용 합니다. 별도로 게놈 브라우저에서 로드할 수 있는 다른 출력 형식이 생성 됩니다. 또한, 침대 형식의 파일은 대규모 데이터 집합의 시각화를 지 원하는 트랙 허브에 결합할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-6
그림 6입니다. PGx iPiG에 대 한 포고를 벤치마킹. 포고 능가 하는 성능 벤치마킹에서 다른 도구. 3 백만 이상 시퀀스에서 결과 59 성인 그리고 태아 조직에 걸쳐 233,055 독특한 펩 티 드를 매핑, 포고 되었고 6.9 x 96.4 x PGx iPiG, 보다 빠른 각각. 또한, 포고 20%와 60% 더 적은 메모리와 비교 하 여 PGx iPiG, 각각 필요 합니다. 포고와 PGx 성공적으로 완료 되 면, 하는 동안 iPiG 16 g b 메모리 오류 결과. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-7
그림 7입니다. 매핑된 펩 티 드의 UCSC 게놈 브라우저 예제 보기. 그림 펩 티 드 유전자 mTOR 매핑됩니다. 결합 된 트랙 펩 티 드 결합 접속점에 걸쳐 고 관련 시퀀스 한 exon에만 보여, 조직 관련 트랙만 압축 형식에서 매핑을 강조 표시 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-8
그림 8입니다. 매핑 시각화 및 컬러 코딩의 도식. (A) 표준 침대 출력 파일에는 exon에 펩 티 드 (왼쪽), 펩 티 드 exon 블록 (오른쪽)으로 부품을 다루는 여러 개의 exons 하이라이트에서 매핑 하면서 하나의 블록으로 표시 됩니다. Introns는 얇은 라인을 연결 하 여 표시 됩니다. 포고 색상 매핑 또는 펩 티 드 유전자, 그리고 3-계층 시스템을 사용 하 여 녹취 록에의. (B) 침대 형식의 블록 구조 뿐만 아니라 PTM 침대 출력 두꺼운 블록으로의 포스트 번역 상 수정 위치 하이라이트. 형식의 단일 PTM의 존재 같은 PTM의 여러 사이트는 처음부터 마지막 수정 사이트에 걸친 긴 블록으로 결합 하는 동안 두꺼운 블록 수정된 아미노산 잔류물을 강조 표시 합니다. 펩 티 드 매핑 추가 PTM 유형 및 색상 코덱에서 수정에 따라 나누어집니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-9
그림 9입니다. 대 장 암 프로테옴 및 phosphoproteome 데이터 UCSC 게놈 브라우저에서 허브 보기 추적. 트랙 허브 전체 프로테옴 데이터 뿐만 아니라 phosphoproteome로 구성 되어 있습니다. 프로테옴 및 phosphoproteome 트랙에서 붉은 색의 SFN의 단일 사본으로 매핑 나타냅니다, _ptm으로 끝나는 트랙 펩 티 드 내에서 인 산화 위치 표시. 여기, 붉은 색의 인 산화로 수정 형식을 나타냅니다. 두 개의 펩 티 드 각 보여주는 단일 인 산화 (두꺼운 블록)으로 확인 되었습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-10
그림 10입니다. 대 장 암 phosphopeptides와 IGV 관련된 정량. 그림 50 암 세포 라인의 하위 집합입니다. 그것은 또한 보여준다 4 개의 열 블록의 빛의 다른 그늘에 빨간색. 색 (빨간색)를 낮은 (흰색)에서 관계 되는 풍부를 나타냅니다. 4 열 처음 4 펩 티 드 믿고으로 이어질 수도 있습니다, 그러나 그것은 관련 시퀀스 기반 GTF 출력 파일 이들은 실제로 2 개의 펩 티 드 결합 접속점에 걸친 각 분명해 진다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

figure-results-11
그림 11입니다. 아미노산 변종 IGV에 펩 티 드의 보기. 그림 펩 티 드 유전자 GPSM1의 번역 시작 참조 게놈에 매핑된 단일 아미노산 변종입니다. Variant는 아미노산 잔류물 8 및 valine (A→V)에 알라닌의 대체에서 결과에 배치 됩니다. (파란색) 주석된 성적표의 번역 시퀀스 펩 티 드 순서에 비해 variant를 강조 표시합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Discussion

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 프로토콜 소프트웨어 도구 포고 및 그래픽 사용자 인터페이스 PoGoGUI 게놈 좌표에 펩 티 드의 빠른 매핑을 사용 하는 방법에 대해 설명 합니다. 도구는 양적, 포스트 번역 상 수정 및 게놈 주석 참조를 사용 하 여 매핑을 변형 사용 등 독특한 기능을 제공 합니다. 이 문서는 대규모 proteogenomic 연구에서 메서드를 보여 줍니다 고¹⁸다른 사용 가능한 도구 비해 그 속도 메모리 효율을 강조. TrackHubGenerator 도구와 함께,이 게놈의 온라인 접근 허브 만들고 게놈 연결 데이터, 포고, 그래픽 사용자 인터페이스, 게놈 컨텍스트에서 데이터를 신속 하 게 시각화를 가능 하 게 대규모 proteogenomics 연구. 또한, 우리 변형 데이터베이스 및 양적 phosphoproteomics^,²²²⁹에 대 한 검색 하는 데이터 집합으로 포고의 독특한 기능을 보여 줍니다.

GCT 파일 같은 단일 파일 귀중 한 시각화 및 펩 티 드 기능 및 게놈 loci 사이의 링크를 제공합니다. 그러나, 그것은 혼자이에 따라 해석 어렵거나 고유성, 포스트 번역 상 수정 등 양적 값 proteogenomics의 단일 측면에 그들의 제한으로 인해 오해의 소지가 있을 수 있습니다 주의 하는 것이 중요. 따라서, 그것은 신중 하 게 선택한 출력 파일, 옵션, 및 조합 손을 proteogenomic 질문에 대 한 적절 한 조합을 수정 하는 것이 중요. 예를 들어 특정 한 genomic 소재 시에 매핑의 특수성에 대 한 정보 있을 게놈 기능⁷의 주석에 대 한 큰 가치 다른 샘플에서 정량화와 관련 된 연구에 대 한 더 적절 한 수도 게놈 기능 변화 단백질 풍부²⁹에. 각 설정에 대 한 포고 하 여 출력을 생성 합니다. 경우에 출력이 생성 되지 않습니다, 또는 빈 파일을 출력 폴더에 표시 됩니다, 원하는 내용과 필요한 파일 형식에 대 한 입력된 파일을 확인 하는 것이 좋습니다. 어디 파일 형식이 나 내용이 따르지 않는 포고의 기대 하는 경우에 (예를 들어, FASTA 파일 기발한 대 본 번역 시퀀스를 포함 하는 성적 증명서의 뉴클레오티드 시퀀스 포함), 오류 메시지가 사용자에 게 묻습니다 입력된 파일을 확인 하십시오.

프로토콜 및 도구 제한 주로 유전체학에 일반적으로 사용 되는 파일 형식의 재사용 기반으로 합니다. Proteogenomic 응용 프로그램에 대 한 게놈에 사용 되는 파일 형식 재사용 특정 한계 동반 된다. 이러한 게놈의 중심 게놈 시각화에 대 한 요구의 다른 세트는 및 proteogenomic 데이터, 포스트 번역 상 수정 단백질 데이터에서를 시각화 하는 필요 등. 이 단일 기능 사용 하 여 게놈 파일 형식으로 제한 됩니다. 많은 방법과 도구 자신 있게 지역화 펩 티 드 순서³¹^,³²^,^,³³³⁴내 포스트 번역 상 수정 단백질에 대 한 개발 되었습니다. 그러나, 여러 수정 게놈에 독특하고 뚜렷한 방식으로 시각화 게놈 파일 포맷의 구조에 의해 방해 된다. 따라서, 동일한 유형의 여러 PTMs의 단일 블록 시각화 수정 사이트의 어떤 모호함을 구성 하지 않습니다 하지만 게놈 지역 사회에서 서로 다른 요구 사항만 한 번에 하나의 기능을 시각화의 결과 이다. 그럼에도 불구 하 고, 포고 포스트 번역 상 수정에 단일 뉴클레오티드 변종 같은 게놈 기능 효과에 초점을 맞춘 연구 있도록 게놈 좌표에 매핑 포스트 번역 상 수정의 이점이 있다. 포고를 사용 하 여, 변형 매핑 총 매핑 수를 증가 합니다. 그러나, 매핑된 펩 티 드의 독특한 색 구분 신뢰할 수 없는 것 들 로부터 신뢰할 수 있는 매핑을 강조 한다. 알려진된 단일 뉴클레오티드 변종에서 식별 하는 variant 펩 티 드의 매핑 함께 VCF 형태로 변형 함께 매핑된 펩 티 드를 시각화 수 있습니다. 이 이렇게 변형 펩 티 드의 신뢰할 수 없는 매핑을 나타내는 색상 코드는 알려진된 뉴클레오티드 이체의 존재에 의해 기 각.

포고를 사용 하기 위한 중요 한 단계는 올바른 파일 및 포맷의 사용 이다. 단백질 시퀀스 동반 GTF 형식에서 주석으로 번역 된 사본 시퀀스의 사용은 주요 기준입니다. 포고 펩 티 드 아미노산 불일치와 지도를 사용 하 여 고려할 때 또 다른 중요 한 요소는 메모리입니다. 반면 높은 메모리 효율적인 표준 응용 프로그램에 대 한, 메모리 사용¹⁸에서 비슷하게 지 수 증가 크게 하 고 기 하 급수적으로 증가 하나 또는 두 개의 불일치와 가능한 매핑 수 리드. 우리는이 프로토콜을 먼저 불일치 없이 펩 티 드 지도 세트에서 그들을 제거에 설명 된 대로 단계적된 매핑을 제안 합니다. 후속 이전 매핑되지 않은 펩 티 드 다음 매핑할 수 한 불일치를 사용 하 여 그리고 매핑되지 않은 남은 펩 티 드에 대 한 두 가지 불일치와 절차를 반복할 수 있습니다.

질량 분석의 처리량을 크게 증가 연구 인터페이스 genomic와 proteomic 데이터 최근 몇 년 동안에서 더 자주 되 고 있다 때문에, 쉽게 이러한 유형의 동일한 좌표 시스템의 데이터 인터페이스를 사용 하는 도구는 점점 필수. 여기에 제시 된 도구는 게놈 결합 하는 필요 및 더 나은 이해 통합 연구의 크고 작은 데이터 집합에 걸쳐 참조 주석에 펩 티 드를 매핑하여 향상 proteomic 데이터 도움이 됩니다. 격려, 포고 펩 티 드 유전자 후보 참조 주석으로 동일한 형태로 제공 된 인간의 고환³⁵에 표현 하는 새로운 유전자의 주석 노력을 지원 하기 위해 지도에 적용 되었습니다. 여기에 제시 된 접근 펩 티 드 식별을 위해 사용 되는 데이터베이스의 독립적입니다. 프로토콜 식별에 도움이 될 수 있습니다 사용 하 여 소설을 번역 제품의 시각화 번역 시퀀스에서 입력된 파일을 적응 하 고 관련 RNA-seq 실험에서 GTF 파일.

몇 가지 접근 및 다양 한 펩 티 드 펩 티 드 가이드 RNA 시퀀싱 매핑, 게놈 순서에 직접 매핑에서 배열 하는 게놈 좌표에 매핑하는 특별 한 응용 프로그램 시나리오 도구 도입된¹⁰^, 되었습니다. ¹¹ ^, ¹² ^, ¹³ ^, ¹⁴ ^, ¹⁵ ^, ¹⁶ ^, ^{그러나 17}., 이러한 포스트 번역 상 수정 고 RNA 시퀀싱 읽기의 기본 매핑에서 오류 펩 티 드 수준에 전파 될 수 있습니다 때 펩 티 드를 올바르게 지도 실패 귀 착될 수 있다. 포고는 구체적으로 그 장애물을 극복 하 고 양적 고해상도 proteomic 집합 직교 유전체학 플랫폼으로 통합의 급속 한 증가 대처 하기 위해 개발 되었습니다. 여기에 설명 된 도구 높은 처리량 워크플로로 통합 될 수 있습니다. PoGoGUI 그래픽 인터페이스를 통해 도구는 사용 하기 간단 하며 전문 생물 정보학 교육.

Disclosures

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

저자는 공개 없다.

Acknowledgements

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

이 작품은 Wellcome 신뢰 (WT098051)와 GENCODE 프로젝트에 NIH 교부 금 (U41HG007234)에 의해 투자 되었다.

Materials

List of materials used in this article
Name	Company	Catalog Number	Comments
PoGo (소프트웨어)	NA		https://github.com/cschlaffner/PoGo
PoGoGUI (소프트웨어)	NA		https://github.com/cschlaffner/PoGoGUI
TrackHubGenerator (소프트웨어)	NA	https://github.com/cschlaffner/TrackHubGenerator
Integrative Genomics Viewer (소프트웨어)	NA	NA	http://software.broadinstitute.org/software/igv/
UCSC 게놈 브라우저 (웹 사이트)	NA		https://genome.ucsc.edu/
GENCODE (웹 사이트)	NA		NA http://gencodegenes.org
Ensembl (웹 사이트)	NA		NA http://ensembl.org
bedToBigBed (소프트웨어)	NA		http://hgdownload.soe.ucsc.edu/admin/exe/
fetchChromSizes.sh (소프트웨어)	NA	NA	http://hgdownload.soe.ucsc.edu/admin/exe/

References

$$\rightleftharpoonup{xx}$$ $$\longleftharp{xx}$$, $$\longrightharp{xx}$$,

Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).">Aebersold, R., Mann, M. Mass-spectrometric exploration of proteome structure and function. Nature. 537 (7620), 347-355 (2016).
Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).">Mertins, P., et al. Proteogenomics connects somatic mutations to signalling in breast cancer. Nature. 534 (7605), 55-62 (2016).
Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).">Zhang, H., et al. Integrated proteogenomic characterization of human high-grade serous ovarian cancer. Cell. 166 (3), 755-765 (2016).
Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).">Jaffe, J. D., Berg, H. C., Church, G. M. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics. 4 (1), 59-77 (2004).
Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).">Wilhelm, M., et al. Mass-spectrometry-based draft of the human proteome. Nature. 509 (7502), 582-587 (2014).
A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).">Kim, M. S., et al. A draft map of the human proteome. Nature. 509 (7502), 575-581 (2014).
Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).">Wright, J. C., et al. Improving GENCODE reference gene annotation using a high-stringency proteogenomics workflow. Nature Communications. 7, 11778(2016).
Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).">Nesvizhskii, A. I. Proteogenomics: concepts, applications and computational strategies. Nature Methods. 11 (11), 1114-1125 (2014).
Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).">Armengaud, J., et al. Non-model organisms, a species endangered by proteogenomics. Journal of Proteomics. 105, 5-18 (2014).
PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).">Askenazi, M., Ruggles, K. V., Fenyo, D. PGx: putting peptides to BED. Journal of Proteome Research. 15 (3), 795-799 (2016).
ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).">Choi, S., Kim, H., Paek, E. ACTG: novel peptide mapping onto gene models. Bioinformatics. 33 (8), 1218-1220 (2017).
ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).">Ghali, F., et al. ProteoAnnotator-open source proteogenomics annotation software supporting PSI standards. Proteomics. 14 (23-24), 2731-2741 (2014).
PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).">Has, C., Lashin, S. A., Kochetov, A. V., Allmer, J. PGMiner reloaded, fully automated proteogenomic annotation tool linking genomes to proteomes. Journal of Integrative Bioinformatics. 13 (4), 293(2016).
iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).">Kuhring, M., Renard, B. Y. iPiG: integrating peptide spectrum matches into genome browser visualizations. PLoS One. 7 (12), e50246(2012).
Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).">Pang, C. N., et al. Tools to covisualize and coanalyze proteomic data with genomes and transcriptomes: validation of genes and alternative mRNA splicing. Journal of Proteome Research. 13 (1), 84-98 (2014).
The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).">Sanders, W. S., et al. The proteogenomic mapping tool. BMC Bioinformatics. 12 (115), (2011).
ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).">Wang, X., et al. ProBAMsuite, a bioinformatics framework for genome-based representation and analysis of proteomics data. Molecular & Cellular Proteomics. 15 (3), 1164-1175 (2016).
Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).">Schlaffner, C. N., Pirklbauer, G. J., Bender, A., Choudhary, J. S. Fast, quantitative and variant enabled mapping of peptides to genomes. Cell Systems. 5 (2), 152-156 (2017).
The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).">Vizcaino, J. A., et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Research. 41, D1063-D1069 (2013).
Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).">Aken, B. L., et al. Ensembl 2017. Nucleic Acids Research. 45 (D1), D635-D642 (2017).
Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).">Perez-Riverol, Y., et al. Ms-data-core-api: an open-source, metadata-oriented library for computational proteomics. Bioinformatics. 31 (17), 2903-2905 (2015).
Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).">Wang, Y., et al. Multi-protease strategy identifies three PE2 missing proteins in human testis tissue. Journal of Proteome Research. , (2017).
Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).">Greseth, M. D., Carter, D. C., Terhune, S. S., Traktman, P. Proteomic screen for cellular targets of the vaccinia virus F10 protein kinase reveals that phosphorylation of mDia regulates stress fiber formation. Molecular & Cellular Proteomics. 16 (4 Suppl 1), S124-S143 (2017).
Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).">Thorvaldsdottir, H., Robinson, J. T., Mesirov, J. P. Integrative genomics viewer (IGV): high-performance genomics data visualization and exploration. Briefings in Bioinformatics. 14 (2), 178-192 (2013).
The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).">Kent, W. J., et al. The human genome browser at UCSC. Genome Research. 12 (6), 996-1006 (2002).
R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).">The R Development Core Team. R: A Language and Environment for Statistical Computing. , R Foundation for Statistical Computing. Vienna, Austria. (2008).
BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).">Kent, W. J., Zweig, A. S., Barber, G., Hinrichs, A. S., Karolchik, D. BigWig and BigBed: enabling browsing of large distributed datasets. Bioinformatics. 26 (17), 2204-2207 (2010).
Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).">Down, T. A., Piipari, M., Hubbard, T. J. Dalliance: interactive genome viewing on the web. Bioinformatics. 27 (6), 889-890 (2011).
Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).">Roumeliotis, T. I., et al. Genomic determinants of protein abundance variation in colorectal cancer cells. Cell Reports. 20 (9), 2201-2214 (2017).
The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).">Gaudet, P., et al. The neXtProt knowledgebase on human proteins: 2017 update. Nucleic Acids Research. 45, D177-D182 (2017).
LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).">Fermin, D., Walmsley, S. J., Gingras, A. C., Choi, H., Nesvizhskii, A. I. LuciPHOr: algorithm for phosphorylation site localization with false localization rate estimation using modified target-decoy approach. Molecular & Cellular Proteomics. 12 (11), 3409-3419 (2013).
LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).">Fermin, D., Avtonomov, D., Choi, H., Nesvizhskii, A. I. LuciPHOr2: site localization of generic post-translational modifications from tandem mass spectrometry data. Bioinformatics. 31 (7), 1141-1143 (2015).
Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).">Hansen, T. A., Sylvester, M., Jensen, O. N., Kjeldsen, F. Automated and high confidence protein phosphorylation site localization using complementary collision-activated dissociation and electron transfer dissociation tandem mass spectrometry. Analytical Chemistry. 84 (22), 9694-9699 (2012).
Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).">Taus, T., et al. Universal and confident phosphorylation site localization using phosphoRS. Journal of Proteome Research. 10 (12), 5354-5362 (2011).
Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).">Weisser, H., Wright, J. C., Mudge, J. M., Gutenbrunner, P., Choudhary, J. S. Flexible data analysis pipeline for high-confidence proteogenomics. Journal of Proteome Research. 15 (12), 4686-4695 (2016).

Reprints and Permissions

Request permission to reuse the text or figures of this JoVE article

Request Permission

포스트 번역 상 수정 및 변형에 대 한 신속 하 고 양적 방법 사용의 펩 티 드 유전자에 매핑

In This Article

Summary

Abstract

Introduction

Protocol

Results

Discussion

Disclosures

Acknowledgements

Materials

References

Reprints and Permissions

Tags

Related Articles