여기에 우리가 현재 proteogenomic 도구 포고와 빠른, 양적, 포스트 번역 상 수정 및 변형에 대 한 프로토콜 사용 참조 게놈에 질량 분석을 통해 식별 하는 펩 티 드의 매핑. 이 도구는 사용 하 여 통합 및 proteogenomic 및 개인 proteomic 연구와 직교 게놈 데이터 시각화의.
Method Article
여기에 우리가 현재 proteogenomic 도구 포고와 빠른, 양적, 포스트 번역 상 수정 및 변형에 대 한 프로토콜 사용 참조 게놈에 질량 분석을 통해 식별 하는 펩 티 드의 매핑. 이 도구는 사용 하 여 통합 및 proteogenomic 및 개인 proteomic 연구와 직교 게놈 데이터 시각화의.
유전자, 성적 증명서, 그리고 단백질 사이 잡담 하는 열쇠 세포질 응답; 따라서, 고유한 엔터티로 분자 레벨의 분석 세포 내에서 분자 역학의 이해를 통합 연구를 천천히 확장 되 고 됩니다. 시각화 및 다른 omics 데이터 집합과 proteomics의 통합에 대 한 현재 도구 대규모 연구에 적합 하지 않습니다. 또한, 그들은 기본적인 시퀀스 캡처할 식별, 포스트 번역 상 수정 및 정량 삭제. 이러한 문제를 해결 하려면 우리는 게놈 주석 참조를 정량화와 관련된 포스트 번역 상 수정 펩 티 드를 지도 하는 포고를 개발 했다. 또한, 도구 사용자 지정된 시퀀스 데이터베이스 통합 단일 아미노산 변종에서에서 식별 하는 펩 티 드의 매핑을 사용할 수 있도록 개발 되었다. PoGo는 명령줄 도구입니다, 하는 동안 그래픽 인터페이스 PoGoGUI 쉽게 펩 티 드 25 종 합 게놈 주석에서 지 원하는 지도를 비 생물 정보학 연구원을 수 있습니다. 생성 된 출력 파일 형식 유전체학 분야에서 빌려 고, 따라서, 시각화는 대부분 게놈 브라우저에서 지원 됩니다. 대규모 연구, 포고를 만드는 유전자를 또한 proteogenomics 데이터의 쉬운 공유에 매핑된 데이터의 웹에서 액세스할 수 있는 저장소 TrackHubGenerator에 의해 지원 됩니다. 약간의 노력으로이 도구는 단 몇 분 내 유전자를 참조 하 여 다른 사용 가능한 시퀀스 id 기반 도구를 능가 하는 펩 티 드의 수백만 매핑할 수 있습니다. 이 프로토콜에서는 proteogenomics 매핑 포고를 통해 공개적으로 사용 가능한 데이터 집합의 양적 그리고 phosphoproteomics, 뿐만 아니라 대규모 연구는 최고의 방법을 보여 줍니다.
셀, 게놈, transcriptome, 및 프로테옴에서 내부 및 외부 자극에 대 한 응답을 조절 하 여 건강 및 질병에 지도 하는 특정 기능을 수행 하기 위해 서로 상호 작용 하는 서로 영향을. 따라서, 특성화 및 정량화 유전자, 성적 증명서, 그리고 단백질 세포질 과정을 완전히 이해 결정적 이다. 차세대 시퀀싱 (NGS)를 식별 하 여 유전자 및 식 계량 가장 일반적으로 적용 된 전략 중 하나입니다. 그러나, 단백질 표정은 질량 분석 (MS)에 의해 일반적으로 평가 된다. 지난 10 년간 MS 기술에 있는 중요 한 전진은 더 완전 한 식별 및 proteomes, transcriptomics1대 등 데이터를 만들기의 정량화 활성화 됩니다. Proteogenomics와 멀티-omics NGS와 MS 데이터를 통합 하는 방법으로 되 고 여러 분자 수준에서 세포 프로세스를 평가 하기 위해 강력한 접근 암의 하위를 식별 하 고 암2 소설 잠재적인 약물 표적을 선도 , 3. 그 proteogenomics 유전자 및 주석4proteomic 증거를 제공 하기 위해 처음 사용 되었다 주의 하는 것이 중요 하다. 이전 비 코딩 하는 것으로 생각 하는 몇몇 유전자 최근 대규모 인체 조직 데이터 집합5,,67고려 재평가 받은. 또한, proteomic 데이터는 성공적으로 비 모형 유기 체8,9주석 노력을 지원 하기 위해 사용 됩니다. 그러나, proteogenomic 데이터 통합 하이라이트 단백질 표정 게놈 기능에 관하여 더 악용 될 수 있습니다 및 결합 된 레퍼런스 시스템 및 방법을 제공 하 여 성적 증명서와 단백질 사이 잡담을 명료 공동 시각화입니다.
Proteomics, transcriptomics, 및 게놈 데이터에 대 한 일반적인 참조를 제공 하기 위해 수많은 도구 매핑 펩 티 드 게놈 좌표10,,1112 에 MS를 통해 식별에 대 한 구현 되었습니다. 13,,1415,,1617. 접근 매핑 참조, 게놈 브라우저, 및 그림 1에서 보듯이 다른 proteomics 도구와의 통합도 지원 측면에서 다르다. 일부 도구 게놈16에 역 번역 된 펩 티 드, 지도 하는 동안 다른 펩 티 드15의 뉴클레오티드 순서를 재구성 하 단백질 및 유전자 주석 내의 검색 엔진 주석 위치를 사용 합니다. 아직도 다른 사람11,13에 대 한 펩 티 드를 지도 하는 게놈의 3 또는 6 프레임 번역을 사용 합니다. 마지막으로, 여러 가지 도구 뉴클레오티드 순서를 생략 하 고 중간으로 RNA 시퀀싱 매핑된 성적표에서 아미노산 시퀀스 번역을 사용 하 여 연결 된 게놈 좌표10,12, 펩 티 드 지도 14,17. 그러나, 뉴클레오티드 시퀀스의 번역은 느린 과정 그리고 사용자 지정 데이터베이스 오류 펩 티 드 매핑 전파를 하는 경향이 있다. 신속 하 고 높은 처리량 매핑에 대 한 작고 포괄적인 참조 중요 하다. 따라서, 관련 된 게놈 좌표와 표준화 된 단백질 참조 게놈 매핑 정확한 펩 티 드에 대 한 필수적입니다. 소설 측면 proteogenomics, 변형 및 포스트 번역 상 수정 (PTMs)2,3, 법인 등에서 최근 연구를 통해 추진력을 얻고 있다. 그러나,이 일반적으로 지원 되지 않습니다 그림 1에 표시 된 대로 도구를 매핑 현재 proteogenomic에 의해. 속도 매핑의 품질을 개선 하기 위해, 포고, 개발 되었다 게놈18펩 티 드의 빠르고 양적 매핑 수 있는 도구입니다. 또한, 포고 2 개의 순서 이체와 주석된 포스트 번역 상 수정와 펩 티 드의 매핑이 있습니다.
포고는 proteomes 및 글로벌 수정 캡처 양적 고해상도 데이터 집합의 급속 한 증가 대처 하기 위해 개발 되었습니다 하 고 개인적인 변이 및 정밀 의학 같은 대규모 분석에 대 한 중앙 유틸리티를 제공 합니다. 이 문서에서는 게놈 기능에 관하여 포스트 번역 상 수정의 존재를 시각화 하기 위해이 도구의 응용 프로그램을 설명 합니다. 또한,이 문서에는 매핑된 펩 티 드를 통해 다른 접합 이벤트의 식별 및 사용자 지정 variant 데이터베이스 참조 게놈을 통해 식별 하는 펩 티 드의 매핑 강조 표시 합니다. 이 프로토콜에서 포고의 이러한 기능을 보여 주기 위해 자존심 아카이브19 다운로드 공개적으로 사용 가능한 데이터 집합을 사용 합니다. 또한,이 프로토콜 대규모 proteogenomics 연구에 대 한 게놈에 매핑된 펩 티 드의 온라인 접근 허브의 창조에 대 한 TrackHubGenerator의 응용 프로그램을 설명 합니다.
1. 준비, 다운로드 및 설치
참고: 파일 및 폴더 경로 예제 표준 사용자에 대 한 접근의 용이성에 대 한 Windows 형식에 표시 됩니다. 포고와 PoGoGUI 맥 Os와 리눅스 운영 체제에 사용할 수 있습니다.
2. 매핑 주석된 포스트 번역 상 수정 및 시각화 등 정량 펩 티 드
참고: 결과 출력 파일 브라우저 확장 데이터 (침대) 포맷을 지 원하는 모든 게놈 브라우저에서 로드할 수 있습니다. 다양 한 브라우저 (사용 되는 다음) 통합 게놈 브라우저 (IGV)24 ,25UCSC 게놈 브라우저, 그리고 합 게놈 브라우저20입니다. 그것은 포고 매핑에 사용 주석 GTF 및 단백질 FASTA 버전 게놈 브라우저에서 게놈의 버전을 일치 해야 합니다. 인간의 합 자료 57-75 및 GENCODE 버전 3d-19, GRCh37/hg19;를 사용 하 여 합 버전 76 이상 및 20 이상 GENCODE GRCh38/hg38를 사용 합니다. 마우스 합 버전 74 이상 및 GENCODE M2, GRCm38를 사용 하 여 또는.
3. 매핑 사용자 지정 Variant 데이터베이스 참조 게놈을 통해 식별 하는 펩 티 드
참고: 그래픽 사용자 인터페이스 (GUI)를 사용 하 여 또는 명령 라인 인터페이스를 통해 포고 매핑을 수행할 수 있습니다. 그들은 교환할 수 있다. 프로토콜의이 부분에서 커맨드 라인 인터페이스는 호환성을 강조 하는 데 사용 됩니다. 이 프로토콜 섹션의 두 번째 부분에는 소프트웨어 도구 R26필요합니다. 패키지를 설치 하는 것을 확인 하십시오.
4. 매핑 사용 하 여 여러 파일 및 큰 데이터 집합에 대 한 트랙 허브를 생성
일반 proteomic 워크플로 포고18 의 단계 적용, 시각화의 다운스트림 옵션을 강조 표시 한 그래픽 묘사 그림 5에 표시 됩니다. (즉, 뒤에 액체 크로마토그래피 탠덤 질량 분석으로 결합 하는 단백질의 분해 소화) 샷건 proteomics proteogenomic 매핑의 한 전조 단계입니다. 결과 탠덤 질량 스펙트럼 일반적으로 단백질 시퀀스 데이터베이스에서 파생 된 이론적인 스펙트럼 비교 됩니다. Proteogenomics 연구 잠재력과 동의어 아닌 단일 뉴클레오티드 변종 (SNVs) 참조 게놈8이 다시 쉽게 관련 된 하드 만들기 데이터베이스에 코딩 소설 성적표의 번역 순서를 소개 합니다. 포고 (PoGoGUI)의 그래픽 사용자 인터페이스 질량 분석 실험에서 펩 티 드 식별 표준화 된 보고에 대 한 파일 포맷을 지원 하 고 단순화 된 4 열 포고 형식으로 변환 합니다. PoGoGUI는 명령줄 도구 포고를 래핑합니다 고 따라서 펩 티 드의 단백질 코딩 유전자는 GTF FASTA 형태로 번역된 사본 시퀀스에 일반적으로 제공 된 참조 주석 활용 게놈 좌표에의 매핑. 다른 출력 형식은 포고 포스트 번역 상 수정 및 펩 티 드 수준 정량화를 포함 하 여 질량 분석을 통해 확인 된 펩 티 드의 다양 한 측면의 시각화를 사용 하 여 생성 됩니다. 침대에서 출력 파일 추가 변환 하 고 트랙 허브 라는 온라인 액세스 디렉터리에 결합 된 수 있습니다. 트랙 허브로 서 단일 출력 파일, 다음 수 수 시각 UCSC 게놈 브라우저25, 합 게놈 브라우저20,24, IGV 및 Biodalliance28 (하단 그림 5 참조)와 같은 브라우저에서.
우리는 라이트 외 에 설명 된 대로 높은 의미에서 필터링 인간 프로테옴 지도 초안의 해도 적용할 포고 7 두 다른 도구 proteogenomic 매핑, 즉 iPiG14 PGx10에 그것을 비교 하 고. Dataset는 총 3 백만 이상의 시퀀스의 결과 59 성인 그리고 태아 조직에 걸쳐 233,055 독특한 펩 티 드 구성. 포고 실적이 이러한 도구 모두 런타임에서 (6.9 x 및 96.4 배 빠른, 각각)와 메모리 사용 (20%, 60% 더 적은 메모리, 각각) 그림 618에서 같이. 성공적으로 매핑된 펩 티 드의 예는 그림 7에 표시 됩니다.
포고 크게 속도 메모리에서 다른 도구 보다, 하는 동안 그것은 또한 매핑 포스트 번역 상 수정 및 게놈에 펩 티 드와 관련 된 양적 정보입니다. 그림 8A 는 개요로 한 엑손을 걸쳐 매핑 펩 티 드 결합 접속점에 대 한 게놈 브라우저에서 침대 포맷의 시각화를 묘사 한다. 포고 게놈 내에서 펩 티 드 매핑의 특수성에 대해 쉽게 시각 보조 제공을 색칠 옵션을 사용 합니다. 빨간색으로 매핑 특이 단일 유전자를 검은 하이라이트 동안 단일 사본으로 나타냅니다. 그러나, 펩 티 드 다른 사본 간에 공유 됩니다. 회색 매핑을 여러 유전자 사이 공유 하는 펩 티 드를 표시 합니다. 이들은, 예를 들어, 덜 유전자의 정량화에 대 한 신뢰할 수 있거나 신뢰할 수 없는 전화는 유전자의 표현입니다. 포고의 PTM 침대 옵션 그림 8B에서와 같이 다양 한 유형의 포스트 번역 상 수정에 맞게 색상 코드를 재정의 합니다. 또한, PTMs ( 그림 8B참조) 두꺼운 블록으로 표시 됩니다. 형식의 단일 PTM 동안 동일한 유형의 여러 PTMs 첫 번째 수정 된 아미노산에서 두꺼운 블록에서 마지막 스팬은 두꺼운 블록에서 수정 된 아미노산 잔류물의 위치에 의해 강조 표시 됩니다.
우리 50 대 장 암 세포 라인 전체 프로테옴 등 phosphoproteome29의 데이터 집합에 포고와 그 후 TrackHubGenerator을 적용. UCSC 게놈 브라우저에 로드 트랙 허브 게놈에 매핑된 펩 티 드를 보여준다는 매핑 및 ( 그림 9참조) 인 산화 사이트의 독자 성을 강조 하는 동안 추가 데이터는 추가 폴더에 제공 됩니다. GCT 파일 다음 게놈 맥락에서 펩 티 드 및 phosphopeptide 정량의 시각화를 사용합니다. 그러나, GCT 파일의 펩 티 드 결합 접속점 (상단 그림 10 참조)에 걸쳐 쉽게 시각화를 제공 하지 않습니다. 펩 티 드 결합 접속점에 걸쳐는 exons를 그들의 각각 부분으로 분할 됩니다. 스플라이스 펩 티 드 exon 매핑 같은 정량적 인 값을 통해 확인할 수 있지만 로드 시퀀스 기반 매핑 파일 등 침대 GTF 선 지원에 걸친 얇은 intron에는 exons를 연결 하는 해석 ( 그림 10 참조 하단)입니다.
변형 사용 매핑 유틸리티를 강조 하기 위해 우리가 인간의 고환 프로테옴 neXtProt 다중 효소 전략22를 사용 하 여 누락 된 단백질에 대 한 사냥에 대 한 검색의 데이터 집합에 두 가지 구성으로 포고 적용. neXtProt 참조 단백질 시퀀스 외 5 백만 이상의 단일 아미노산 변종30구성 되어 있습니다. 단일 아미노산 변종 발견 펩 티 드를 매핑 다른 매핑 도구에서 지원 되지 않습니다. 177,012 독특한 펩 티 드의 총 확인 되었다. 이들의 99.8% (176,694) 펩 티 드 성공적으로 불일치를 허용 하지 않고 매핑 먼저 했다. 0.2% (318) 펩 티 드 이후 매핑된 있도록 하나의 아미노산 대체 했다 결과 확인 된 펩 티 드 목록에서 그들을 제거. 이 결과 다른 사용 가능한 도구와 참조 게놈에 매핑되지 않은 것이 162 펩 티 드의 3,446 매핑. 매핑 불일치를 포함 하 여 평균 수 높은 반면, 62 펩 티 드 했다만 단일 장소, 진정한 변형 시퀀스를 나타내는 매핑됩니다. 하나의 아미노산 대체와 매핑된 펩 티 드의 예는 그림 11에 번역 된 게놈 시퀀스와 시퀀스는 강조 표시 됩니다.

그림 1입니다. 다른 펩 티 드-게놈 매핑 도구의 시각적인 비교. 비교는 다양 한 측면에 관하여 표시 됩니다. 이러한 측면에는 매핑 참조, 프레임 워크에 통합의 수준 및 온라인 / 오프 라인 브라우저의 지원 포함 됩니다. 또한, proteogenomics 및 그들의 기능 지원의 소설 측면은 별도로 강조 표시. 포고만 직접 다른 도구에 비해 게놈 시퀀스에 매핑하는 기능을 결여 된다. 그러나, 그것은 대부분의 다른 도구를 지원 하지 않는 모든 새로운 기능을 지원 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 2입니다. 매핑 펩 티 드에 대 한 예제 입력된 파일. 포고 4 열 탭으로 구분 된 형식으로 데이터 입력된을 허용합니다. 열 머리글 첫 번째 줄에는 '실험', '펩타이드', 'Psm', 그리고 '양의', 실험 또는 샘플 식별자, 펩 티 드 순서, 펩 티 드-스펙트럼 일치의 수 및 펩 티 드에 대 한 정량적 값 다음에 나타내는 각각. 파일 이름 확장명 지원 *.txt, *.tsv, 및 *.pogo 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 3입니다. 파일 선택 및 매개 변수 옵션에 대 한 강조 표시 된 단계를 PoGoGUI 인터페이스. 그림을 선택 하 고 업로드 하는 필요한 모든 파일 및 매핑 펩 티 드 인간 참조 게놈에 포스트 번역 상 수정에 대 한 옵션을 선택 하는 단계입니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 4입니다. 통합 게놈 뷰어 (IGV) 데이터의 스크린샷 업로드 절차. 그림 포고 IGV 브라우저에서 출력 파일을 업로드 하기 위한 단계를 강조 표시 합니다. 또한, 매핑 및 시퀀스를 강조 하기 위해 매핑된 펩 티 드의 트랙을 확대의 옵션이 표시 됩니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 5입니다. LC-MS/MS에서 게놈 브라우저에서 시각화 단계의 워크플로 간소화. 포고 매핑 탠덤 질량 스펙트럼에서 펩 티 드의 id를 다음과 같습니다. 달성 하기 위하여 게놈을 매핑, 포고 참조 주석 게놈 주석 (GTF) 및 대 본 번역 시퀀스 (FASTA)로 제공 활용 합니다. 별도로 게놈 브라우저에서 로드할 수 있는 다른 출력 형식이 생성 됩니다. 또한, 침대 형식의 파일은 대규모 데이터 집합의 시각화를 지 원하는 트랙 허브에 결합할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 6입니다. PGx iPiG에 대 한 포고를 벤치마킹. 포고 능가 하는 성능 벤치마킹에서 다른 도구. 3 백만 이상 시퀀스에서 결과 59 성인 그리고 태아 조직에 걸쳐 233,055 독특한 펩 티 드를 매핑, 포고 되었고 6.9 x 96.4 x PGx iPiG, 보다 빠른 각각. 또한, 포고 20%와 60% 더 적은 메모리와 비교 하 여 PGx iPiG, 각각 필요 합니다. 포고와 PGx 성공적으로 완료 되 면, 하는 동안 iPiG 16 g b 메모리 오류 결과. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 7입니다. 매핑된 펩 티 드의 UCSC 게놈 브라우저 예제 보기. 그림 펩 티 드 유전자 mTOR 매핑됩니다. 결합 된 트랙 펩 티 드 결합 접속점에 걸쳐 고 관련 시퀀스 한 exon에만 보여, 조직 관련 트랙만 압축 형식에서 매핑을 강조 표시 합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 8입니다. 매핑 시각화 및 컬러 코딩의 도식. (A) 표준 침대 출력 파일에는 exon에 펩 티 드 (왼쪽), 펩 티 드 exon 블록 (오른쪽)으로 부품을 다루는 여러 개의 exons 하이라이트에서 매핑 하면서 하나의 블록으로 표시 됩니다. Introns는 얇은 라인을 연결 하 여 표시 됩니다. 포고 색상 매핑 또는 펩 티 드 유전자, 그리고 3-계층 시스템을 사용 하 여 녹취 록에의. (B) 침대 형식의 블록 구조 뿐만 아니라 PTM 침대 출력 두꺼운 블록으로의 포스트 번역 상 수정 위치 하이라이트. 형식의 단일 PTM의 존재 같은 PTM의 여러 사이트는 처음부터 마지막 수정 사이트에 걸친 긴 블록으로 결합 하는 동안 두꺼운 블록 수정된 아미노산 잔류물을 강조 표시 합니다. 펩 티 드 매핑 추가 PTM 유형 및 색상 코덱에서 수정에 따라 나누어집니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 9입니다. 대 장 암 프로테옴 및 phosphoproteome 데이터 UCSC 게놈 브라우저에서 허브 보기 추적. 트랙 허브 전체 프로테옴 데이터 뿐만 아니라 phosphoproteome로 구성 되어 있습니다. 프로테옴 및 phosphoproteome 트랙에서 붉은 색의 SFN의 단일 사본으로 매핑 나타냅니다, _ptm으로 끝나는 트랙 펩 티 드 내에서 인 산화 위치 표시. 여기, 붉은 색의 인 산화로 수정 형식을 나타냅니다. 두 개의 펩 티 드 각 보여주는 단일 인 산화 (두꺼운 블록)으로 확인 되었습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 10입니다. 대 장 암 phosphopeptides와 IGV 관련된 정량. 그림 50 암 세포 라인의 하위 집합입니다. 그것은 또한 보여준다 4 개의 열 블록의 빛의 다른 그늘에 빨간색. 색 (빨간색)를 낮은 (흰색)에서 관계 되는 풍부를 나타냅니다. 4 열 처음 4 펩 티 드 믿고으로 이어질 수도 있습니다, 그러나 그것은 관련 시퀀스 기반 GTF 출력 파일 이들은 실제로 2 개의 펩 티 드 결합 접속점에 걸친 각 분명해 진다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

그림 11입니다. 아미노산 변종 IGV에 펩 티 드의 보기. 그림 펩 티 드 유전자 GPSM1의 번역 시작 참조 게놈에 매핑된 단일 아미노산 변종입니다. Variant는 아미노산 잔류물 8 및 valine (A→V)에 알라닌의 대체에서 결과에 배치 됩니다. (파란색) 주석된 성적표의 번역 시퀀스 펩 티 드 순서에 비해 variant를 강조 표시합니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.
이 프로토콜 소프트웨어 도구 포고 및 그래픽 사용자 인터페이스 PoGoGUI 게놈 좌표에 펩 티 드의 빠른 매핑을 사용 하는 방법에 대해 설명 합니다. 도구는 양적, 포스트 번역 상 수정 및 게놈 주석 참조를 사용 하 여 매핑을 변형 사용 등 독특한 기능을 제공 합니다. 이 문서는 대규모 proteogenomic 연구에서 메서드를 보여 줍니다 고18다른 사용 가능한 도구 비해 그 속도 메모리 효율을 강조. TrackHubGenerator 도구와 함께,이 게놈의 온라인 접근 허브 만들고 게놈 연결 데이터, 포고, 그래픽 사용자 인터페이스, 게놈 컨텍스트에서 데이터를 신속 하 게 시각화를 가능 하 게 대규모 proteogenomics 연구. 또한, 우리 변형 데이터베이스 및 양적 phosphoproteomics,2229에 대 한 검색 하는 데이터 집합으로 포고의 독특한 기능을 보여 줍니다.
GCT 파일 같은 단일 파일 귀중 한 시각화 및 펩 티 드 기능 및 게놈 loci 사이의 링크를 제공합니다. 그러나, 그것은 혼자이에 따라 해석 어렵거나 고유성, 포스트 번역 상 수정 등 양적 값 proteogenomics의 단일 측면에 그들의 제한으로 인해 오해의 소지가 있을 수 있습니다 주의 하는 것이 중요. 따라서, 그것은 신중 하 게 선택한 출력 파일, 옵션, 및 조합 손을 proteogenomic 질문에 대 한 적절 한 조합을 수정 하는 것이 중요. 예를 들어 특정 한 genomic 소재 시에 매핑의 특수성에 대 한 정보 있을 게놈 기능7의 주석에 대 한 큰 가치 다른 샘플에서 정량화와 관련 된 연구에 대 한 더 적절 한 수도 게놈 기능 변화 단백질 풍부29에. 각 설정에 대 한 포고 하 여 출력을 생성 합니다. 경우에 출력이 생성 되지 않습니다, 또는 빈 파일을 출력 폴더에 표시 됩니다, 원하는 내용과 필요한 파일 형식에 대 한 입력된 파일을 확인 하는 것이 좋습니다. 어디 파일 형식이 나 내용이 따르지 않는 포고의 기대 하는 경우에 (예를 들어, FASTA 파일 기발한 대 본 번역 시퀀스를 포함 하는 성적 증명서의 뉴클레오티드 시퀀스 포함), 오류 메시지가 사용자에 게 묻습니다 입력된 파일을 확인 하십시오.
프로토콜 및 도구 제한 주로 유전체학에 일반적으로 사용 되는 파일 형식의 재사용 기반으로 합니다. Proteogenomic 응용 프로그램에 대 한 게놈에 사용 되는 파일 형식 재사용 특정 한계 동반 된다. 이러한 게놈의 중심 게놈 시각화에 대 한 요구의 다른 세트는 및 proteogenomic 데이터, 포스트 번역 상 수정 단백질 데이터에서를 시각화 하는 필요 등. 이 단일 기능 사용 하 여 게놈 파일 형식으로 제한 됩니다. 많은 방법과 도구 자신 있게 지역화 펩 티 드 순서31,32,,3334내 포스트 번역 상 수정 단백질에 대 한 개발 되었습니다. 그러나, 여러 수정 게놈에 독특하고 뚜렷한 방식으로 시각화 게놈 파일 포맷의 구조에 의해 방해 된다. 따라서, 동일한 유형의 여러 PTMs의 단일 블록 시각화 수정 사이트의 어떤 모호함을 구성 하지 않습니다 하지만 게놈 지역 사회에서 서로 다른 요구 사항만 한 번에 하나의 기능을 시각화의 결과 이다. 그럼에도 불구 하 고, 포고 포스트 번역 상 수정에 단일 뉴클레오티드 변종 같은 게놈 기능 효과에 초점을 맞춘 연구 있도록 게놈 좌표에 매핑 포스트 번역 상 수정의 이점이 있다. 포고를 사용 하 여, 변형 매핑 총 매핑 수를 증가 합니다. 그러나, 매핑된 펩 티 드의 독특한 색 구분 신뢰할 수 없는 것 들 로부터 신뢰할 수 있는 매핑을 강조 한다. 알려진된 단일 뉴클레오티드 변종에서 식별 하는 variant 펩 티 드의 매핑 함께 VCF 형태로 변형 함께 매핑된 펩 티 드를 시각화 수 있습니다. 이 이렇게 변형 펩 티 드의 신뢰할 수 없는 매핑을 나타내는 색상 코드는 알려진된 뉴클레오티드 이체의 존재에 의해 기 각.
포고를 사용 하기 위한 중요 한 단계는 올바른 파일 및 포맷의 사용 이다. 단백질 시퀀스 동반 GTF 형식에서 주석으로 번역 된 사본 시퀀스의 사용은 주요 기준입니다. 포고 펩 티 드 아미노산 불일치와 지도를 사용 하 여 고려할 때 또 다른 중요 한 요소는 메모리입니다. 반면 높은 메모리 효율적인 표준 응용 프로그램에 대 한, 메모리 사용18에서 비슷하게 지 수 증가 크게 하 고 기 하 급수적으로 증가 하나 또는 두 개의 불일치와 가능한 매핑 수 리드. 우리는이 프로토콜을 먼저 불일치 없이 펩 티 드 지도 세트에서 그들을 제거에 설명 된 대로 단계적된 매핑을 제안 합니다. 후속 이전 매핑되지 않은 펩 티 드 다음 매핑할 수 한 불일치를 사용 하 여 그리고 매핑되지 않은 남은 펩 티 드에 대 한 두 가지 불일치와 절차를 반복할 수 있습니다.
질량 분석의 처리량을 크게 증가 연구 인터페이스 genomic와 proteomic 데이터 최근 몇 년 동안에서 더 자주 되 고 있다 때문에, 쉽게 이러한 유형의 동일한 좌표 시스템의 데이터 인터페이스를 사용 하는 도구는 점점 필수. 여기에 제시 된 도구는 게놈 결합 하는 필요 및 더 나은 이해 통합 연구의 크고 작은 데이터 집합에 걸쳐 참조 주석에 펩 티 드를 매핑하여 향상 proteomic 데이터 도움이 됩니다. 격려, 포고 펩 티 드 유전자 후보 참조 주석으로 동일한 형태로 제공 된 인간의 고환35에 표현 하는 새로운 유전자의 주석 노력을 지원 하기 위해 지도에 적용 되었습니다. 여기에 제시 된 접근 펩 티 드 식별을 위해 사용 되는 데이터베이스의 독립적입니다. 프로토콜 식별에 도움이 될 수 있습니다 사용 하 여 소설을 번역 제품의 시각화 번역 시퀀스에서 입력된 파일을 적응 하 고 관련 RNA-seq 실험에서 GTF 파일.
몇 가지 접근 및 다양 한 펩 티 드 펩 티 드 가이드 RNA 시퀀싱 매핑, 게놈 순서에 직접 매핑에서 배열 하는 게놈 좌표에 매핑하는 특별 한 응용 프로그램 시나리오 도구 도입된10, 되었습니다. 11 , 12 , 13 , 14 , 15 , 16 , 그러나 17., 이러한 포스트 번역 상 수정 고 RNA 시퀀싱 읽기의 기본 매핑에서 오류 펩 티 드 수준에 전파 될 수 있습니다 때 펩 티 드를 올바르게 지도 실패 귀 착될 수 있다. 포고는 구체적으로 그 장애물을 극복 하 고 양적 고해상도 proteomic 집합 직교 유전체학 플랫폼으로 통합의 급속 한 증가 대처 하기 위해 개발 되었습니다. 여기에 설명 된 도구 높은 처리량 워크플로로 통합 될 수 있습니다. PoGoGUI 그래픽 인터페이스를 통해 도구는 사용 하기 간단 하며 전문 생물 정보학 교육.
저자는 공개 없다.
이 작품은 Wellcome 신뢰 (WT098051)와 GENCODE 프로젝트에 NIH 교부 금 (U41HG007234)에 의해 투자 되었다.
| Name | Company | Catalog Number | Comments |
|---|---|---|---|
| PoGo (소프트웨어) | NA | https://github.com/cschlaffner/PoGo | |
| PoGoGUI (소프트웨어) | NA | https://github.com/cschlaffner/PoGoGUI | |
| TrackHubGenerator (소프트웨어) | NA | https://github.com/cschlaffner/TrackHubGenerator | |
| Integrative Genomics Viewer (소프트웨어) | NA | NA | http://software.broadinstitute.org/software/igv/ |
| UCSC 게놈 브라우저 (웹 사이트) | NA | https://genome.ucsc.edu/ | |
| GENCODE (웹 사이트) | NA | NA http://gencodegenes.org | |
| Ensembl (웹 사이트) | NA | NA http://ensembl.org | |
| bedToBigBed (소프트웨어) | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ | |
| fetchChromSizes.sh (소프트웨어) | NA | NA | http://hgdownload.soe.ucsc.edu/admin/exe/ |
Request permission to reuse the text or figures of this JoVE article
Request Permission