Waiting
Login processing...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Genetics

일괄 처리 효 모 2 잡종 스크린에서 시퀀스 데이터의 informatic 분석

Published: June 28, 2018 doi: 10.3791/57802

Summary

효 모 인구 잠재적으로 긍정적인 효 모 2 잡종 상호 작용에 대 한 선택의 깊은 시퀀싱 풍부한 파트너 단백질 상호 작용에 대 한 정보를 생성 합니다. 여기, 우리가 특정 생물 정보학 도구와 같은 화면에서 시퀀스 데이터 분석 사용자 지정 된 업데이트 소프트웨어의 동작을 설명 합니다.

Abstract

우리는 동시에 높은 처리량 짧은 읽기 DNA 시퀀싱을 활용 한 화면 내에서 임시 및 정적 단백질 상호 작용의 수십을 밝히기 위해 효 모 2 잡종 분석 결과 적응 했습니다. 결과 시퀀스 데이터 집합 수 뿐만 아니라 인구에 긍정적인 효 모 2 잡종 상호 작용을 위해 선택 하는 동안 풍성 하 게 하는 어떤 유전자를 추적 하지만 또한 상호 작용에 대 한 충분 한 단백질의 관련 하위 도메인에 대 한 자세한 정보를 제공. 여기, 우리는 비-전문가 모든 생물 정보학 및 통계 단계를 처리 하 고 일괄 처리 효 모 2 잡종 분석 결과에서 DNA 시퀀스 fastq 파일을 분석을 수행할 수 있는 독립 실행형 소프트웨어 프로그램의 전체 제품군을 설명 합니다. 이러한 소프트웨어에 의해 보호 처리 단계를 포함: 해당 각 후보 단백질 효 모 2 잡종 먹이 라이브러리;에서 인코딩 하 1) 매핑 및 계산 순서 읽기 2) 통계 분석 프로그램을 평가 하는 농축 프로 파일; 그리고 3) 변환 프레임 및 관심사의 상호 작용 단백질 인코딩합니다 각 농축된 플라스 미드의 코딩 영역 내에서 위치를 검사 하는 도구.

Introduction

단백질 상호 작용을 발견 하는 한 가지 방법은 효 모 2 잡종 (Y2H) 분석 결과, 어떤 악용 설계 관심사의 단백질의 상호 작용 파트너1조각에 묶을 때에 자라는 효 모 세포 이다. 여러 Y2H 상호 작용의 탐지는 지금 대규모 병렬 높은 처리량 시퀀싱의 도움으로 할 수 있습니다. 여러 가지 형식 되었습니다 설명2,3,,45 포함 한 우리가 개발 인구 일괄 생성 하 플라스 미드를 포함 하는 효 모에 대 한 선택 하는 조건 하에서 재배 되는 긍정적인 Y2H 상호 작용6. 워크플로 우리 개발, 되 나 DEEPN (동적 농축 단백질 네트워크의 평가 위한), 하나의 단백질 (또는 도메인) 와 상호 작용 하는 단백질을 식별 하기 위해 같은 먹이 라이브러리에서 차동 interactomes 식별. 다른 단백질 또는 conformationally 별개의 돌연변이 도메인입니다. 이 워크플로의 주요 단계 중 하나는 적절 한 처리 및 DNA 시퀀싱 데이터의 분석 이다. 유사한 RNA-seq 실험의 Y2H 상호 작용 방식에서 선택 전후에 둘 다 각 유전자에 대 한 읽기 수 계산 하 여 몇 가지 정보를 얻을 수 있습니다. 그러나, Y2H 상호 작용을 만들 수 있는 특정된 단백질의 하위 도메인에 대 한 정보를 포함 하 여이 데이터 집합에서 훨씬 더 자세한 정보를 추출할 수 있습니다. 또한, 반면 DEEPN 방식은 귀중 한 많은 샘플 복제 분석 수 복잡 하 고 비싼입니다. 이 문제는 복제의 수는 제한6DEEPN 데이터 집합을 위해 특별히 개발 된 통계 모델 사용 하 여 완화 됩니다. 있도록 처리 및 DNA 시퀀싱 데이터 집합의 분석, 완전 한, 강력한, 안정적이 고 접근 없이 생물 정보학 전문 수 사관에 대 한, 우리는 분석의 모든 단계를 커버 하는 소프트웨어 프로그램의 한 벌을 개발 했다.

데스크톱 컴퓨터에서 실행 되는 독립 실행형 소프트웨어 프로그램의이 제품군 MAPster, DEEPN, 및 Stat_Maker 포함 되어 있습니다. MAPster 다운스트림 응용 프로그램에 사용 하기 위해 표준.sam 파일을 만드는 각 fastq 파일 대기7HISAT2 프로그램 사용 하 여 게놈에 매핑할 수 있는 그래픽 사용자 인터페이스입니다. DEEPN 여러 모듈 있다. 그것은 할당 하 고 해당 특정 유전자 유사한 ' 유전자 개수 ' 모듈을 사용 하는 RNA-seq 형식 정량화 하는 읽기를 계산. 그것은 또한 Gal4 transcriptional 도메인 및 먹이 시퀀스 사이의 교차점에 해당 하는 시퀀스를 추출 하 고 대조 비교 테이블 및 그래프 (를 사용 하 여 모듈 'Junction_Make')에 의해 그들의 검사를 허용 하도록 이러한 연결의 위치 모듈 'Blast_Query' 쉬운 검사와 정량, 접합 Gal4 접점 시퀀스의 비교를 허용 한다. Stat_Maker는 통계적으로 확률이 Y2H 안타에 우선 순위를 지정 하는 방법으로 유전자 농축 데이터 당 읽기 평가 합니다. 여기, 우리는 이러한 소프트웨어 프로그램을 사용 하 고 완전히 DEEPN Y2H에서 데이터 실험 DNA 시퀀스를 분석 하는 방법을 설명 합니다. 버전 DEEPN의 PC, 맥, 그리고 리눅스 시스템에서 실행할 수 있습니다. MAPster 매핑 프로그램 같은 다른 프로그램 및 DEEPN 통계 모듈 Stat_Maker 서브루틴 유닉스에서 실행 하 고 Mac 및 linux 시스템에만 사용할 수 있습니다에 의존.

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 매핑 Fastq 파일

참고: DEEPN 소프트웨어 뿐만 아니라 많은 생물 정보학 프로그램 참조 DNA에에서 그것의 위치에 대 한 각각의 시퀀스를 읽고 매핑된 점에서 DNA 시퀀스 데이터를 사용 합니다. 다양 한 매핑 프로그램이.sam 파일 이후 단계에서 사용을 생산 하기 위해 HISTAT2 프로그램을 사용 하 여 여기 MAPster 인터페이스를 포함 한 사용할 수 있습니다.

  1. 게놈의 올바른 버전을 시퀀스 데이터를 매핑하십시오. 마우스 유래의 Y2H 라이브러리 사용 UCSC mm10 게놈; 인간의 유전자를 사용 하 여, UCSC hg38 참조 게놈 유전자를 Saccharomyces cerevisiae 사용, UCSC SacCer3 참조 게놈을 사용 하 여.
  2. MAPster를 설치 합니다.
    1. MAPster 소프트웨어 다운로드 및 설치. 다음에 웹 브라우저를 사용 하 여 소프트웨어를 찾을 수 있습니다: https://github.com/emptyewer/MAPster/releases. HISAT2는 애플 매킨토시와 같은 유닉스 기반 시스템에서 실행 됩니다. 이 때문에, MAPster 프로그램 애플 매킨토시와 리눅스와 같은 호환 되는 시스템에만 실행 됩니다.
      참고: 애플 맥에 대 한 시스템 요구 사항은: OSX 10.10 + > 4 기가바이트 RAM, > 500 기가바이트 디스크 공간, 및 참조 게놈을 다운로드 하기 위한 인터넷 액세스. 사용자와 상담 하는 기관 그것은 사람이 그들의 엔터프라이즈 관리자 권한 및 사용 권한을 제한 하는 보안 프로토콜 경우 해야 합니다.
  3. 필요한 파일 및 "기본" 탭 (그림 1)을 통해 매개 변수를 입력 합니다. 적절 한 "Pairwise" 버튼을 파일을 입력으로 쌍 또는 기본 파일 형식으로 FASTQ와 홀 중 하나를 선택 합니다.
    1. DEEPN 분석에 대 한 단일 읽기 형식에서 실행 하는 "Off"로 "Pairwise" 옵션을 설정 합니다.
    2. 드래그-앤-드롭 적절 한 창에 의해 단순히 MAPster 파일 로드.
    3. Y2H 먹이 라이브러리 삽입의 소스에 해당 하는 DNA/게놈 소스 참조를 선택 합니다. 여러 모델 생물에서 인덱싱된 게놈 "게놈" 상자에 나열 되 고 다운로드 될 수 있다 자동으로 존스 홉킨스 대학 센터에서 전산 생물학에 대 한. 참조 게놈은 나중에 사용 하기 위해 로컬로 저장 됩니다.
    4. HISAT2 지원 멀티 스레딩 이후 "스레드" 상자에서 매핑 프로그램에 헌신 하 게 될 컴퓨터 프로세스의 수를 나타냅니다. MAPster는 컴퓨터를 검색 하 고 기본적으로 사용할 수 있는 프로세서의 최대 수는 것이 좋습니다.
    5. 출력 파일 이름을 지정 합니다. 이 파일 이름은 공백이 나 특수 문자 없이 짧은 아직 설명 이름 좋습니다 그래서 DEEPN 과정 전반에 걸쳐 사용 됩니다. "오픈 출력 디렉터리" 단추를 사용 하 여 매핑된 파일을 출력 폴더를 지정 합니다.
    6. 일단 적절 한 파일 및 매개 변수를 선택 "대기열에 추가" 버튼을 사용 하 여 작업 큐를 매핑 작업을 추가 합니다. 주 창에서 파일 이름을 수 삭제 하 고 파일에 해당 하는 새 예제로 교체 하 고 해당 출력 파일 이름이 제공 된 후 큐에 추가할 수 있습니다.
    7. 모든 작업은 작업 큐에 입력 되 면 "실행 큐" 버튼을 클릭 합니다.
      참고: 매핑 작업 큐에 배치 되었습니다, 일단 "작업 매개 변수" 창에 "작업 명령" 창에 표시 될 모든 인수 사용 하 여 명령줄 문을 표시할 매개 변수 설정을 그 일을 선택 하면 됩니다. 출력 옵션 정렬에 실패 계속 읽기 여부 감독 등 각 읽기에 대해 허용 하는 기본 정렬 수 지정. 기본 출력 파일 MAPster에서 샘 형식 (예: '.sam' 파일)입니다. 그것은 모든 fastq 파일에서 시퀀스 읽기 (매핑된) 했다를 포함 하 여 그 샘플에 대 한 지정 되지 않았습니다 포함 됩니다 (매핑하지) 지정 된 geome를 성공적으로 매핑된.

2. Bioinformatic 처리를 사용 하 여 DEEPN 소프트웨어

참고: DEEPN 소프트웨어는 현재 컴파일 사용 마우스 cDNA 시퀀스, 인간 cDNA 시퀀스, 또는 S. cerevisiae genomic DNA 순서를 포함 하는 먹이 라이브러리와. DEEPN 표준.sam 파일 포맷을 수락 하 고 매핑되지 않은 매핑된 읽기 각 매핑된 및 매핑되지 않은 읽기 또는 별도 파일을 포함 하는 샘 (.sam) 파일을 받아들일 수 있다.

  1. DEEPN 소프트웨어 다운로드 및 설치. 다음에 웹 브라우저를 사용 하 여 소프트웨어를 찾을 수 있습니다: https://github.com/emptyewer/DEEPN/releases. 컴퓨팅 플랫폼 및 다운로드 버전 일치를 선택 합니다. 를 설치 하려면 다운로드 한 설치 패키지를 엽니다.
    참고: 버전 DEEPN의 PC, 맥, 그리고 리눅스 sysrems 사용할 수 있습니다. Mac과 PC 시스템 있어야 > 500 Gb 하드 디스크 공간 및 > 4gb의 RAM.
  2. DEEPN 소프트웨어를 엽니다. 주 창 (그림 2)에서 위쪽 선택 상자에서 해당 먹이 라이브러리 정보를 선택 합니다. 처리 된 파일 폴더/디렉터리를 "작업 폴더" 버튼을 클릭 하 여 이동 갈 수 있는 폴더를 선택 합니다. 하나는 필요한 경우 새로운 폴더/디렉터리를 만들 수 있습니다. "작업 폴더"를 선택 DEEPN unmapped_sam_files, mapped_sam_files, 및 sam_files는 3 개의 하위 폴더를 만듭니다.
    1. 경우.sam 파일 포함 된 매핑된 및 매핑되지 않은 읽기 등을 사용 하 여 MAPster 프로그램의 기본 설정으로, 'sam_files' 폴더에 넣어. 그렇지 않으면 장소.sam 파일 unmapped_sam_files와 mapped_sam_files에 따라.
  3. "유전자 수 + 접합" 확인 버튼을 클릭 하 여 처리를 시작 합니다.
    참고: 처리는 각 유전자에 해당 하는 얼마나 많은 읽기를 매핑 위치를 사용 하는 유전자 수 모듈 함께 시작 됩니다. 접합 확인 다음 추출 접점 시퀀스 (시퀀스 직접 융합 Gal4 활성화 도메인에서 다운스트림) 읽기에서 폭발 알고리즘을 사용 하 여 그들을 식별 하 고. 이것은 그림 3에 표시 하는 폴더의 전체 집합을 만듭니다. 처리 시간 크기와 시퀀스 데이터 파일의 수 및 사용 하는 컴퓨터의 처리 속도에 따라 달라 집니다. 전형적인 시간 범위 12-30 h ~ 250 백만의 실험 데이터 집합에서 읽습니다. 유전자 수 절차 및 Junction_Make 절차는 "유전자 개수" 단추 또는 "접합" 확인 버튼을 클릭 하 여 개별적으로 시작할 수 있습니다.
  4. 다운로드 및 설치 Stat_Maker (https://github.com/emptyewer/DEEPN/releases). 현재 유닉스 맥 시스템 에서만 작동 DEEPN 데이터 집합을 위한 통계 분석 패키지입니다.
    1. Stat_Maker을 "설치 확인" (그림 4) 버튼을 클릭 합니다. 처음으로 실행 하는 경우 Stat_Maker 자동으로 설치 합니다 R, JAGS, 및 Bioconductor는 인터넷에서 이러한 리소스를 당겨. 일단 R, JAGS, 및 Bioconductor를 감지 Stat_Maker 활성화 하 고 추가 사용자 입력을 허용.
    2. DEEPN 처리 작업 폴더 탐색 "폴더 선택" 버튼을 클릭 합니다. Stat_Maker 자동 발견 하 고 창에서 통계 분석을 위해 파일을 나열 합니다.
    3. 적절 한 파일에서에서 끌어서 위의 파일 목록 창 각 벡터 및 미끼 데이터 집합에 대 한 및 각 성장 조건에 대 한 아래 파일 창으로: 선택 되지 않은 (그의 + 미디어) (그의-미디어)을 선택. 중요 한 것은, Stat_Maker의 두 샘플 선택 및 빈에 대 한 중복 데이터 집합 벡터 혼자, 선택 되지 않은 인구의 두 샘플 필요 합니다. 이 실험에서 가변성의 견적을 제공합니다.
    4. "실행" 버튼을 클릭 합니다. 컴퓨터의 속도 따라 계산 5-15 분 사이 걸릴 것입니다.
  5. "Stat_Maker" 결과 주요 작업 폴더 내에서 새로운 하위 폴더에 배치 되는 Stat_Maker 출력 결과 검토 합니다.
    참고: 결과 CSV (쉼표로 구분 된 값) 파일을 열 수 있는 일반적인 스프레드시트 프로그램에서 발견 된다. Stat_Maker 차동 미끼와 함께 관심을 선택 빈 pTEF GBD (그림 5)에 농축 될 가능성이 높은 유전자 안타를 평가할 것 이다. 또한 표로 어디 유전자 삽입 발견 업스트림, 다운스트림, 또는 열려있는 독서 프레임 및 올바른 변환 독서 내 유전자도 발견 여부 내 각 데이터 집합에 대 한 읽기 비율이입니다. 종종 DEEPN 해당 단백질의 적절 한 독서 프레임에서 또는 해당 오픈-독서 프레임의 하류는 cDNA의 부분에는 주어진된 cDNA의 일부와 미끼의 강력한 Y2H 상호 작용을 사로잡을 것입니다. Stat_Maker에서 결합 된 출력 스캔 탐지 및 제거가 없는 안타의 합리화.
  6. 각 잠재적인 후보에 대 한 데이터를 검토 하려면 DEEPN 소프트웨어를 열고, 해당 먹이 라이브러리 정보 및 다음 "작업 폴더"를 사용 하 여 올바른 작업 폴더를 선택 합니다.
    1. "폭발 쿼리" 버튼을 클릭 합니다. 이 새로운 창 (그림 6)를 로드합니다. 위쪽 텍스트 상자에서 유전자 이름 또는 관심사의 후보 유전자 선택 은행 NM 번호를 입력 합니다. 이러한 유전자 이름 StatMaker 출력 파일에 나열 된 이름에 해당 합니다. 유형 입력 하거나 반환,이 관심사의 유전자의 검색을 시작 합니다.
    2. 어떤 데이터 집합 "데이터 집합 선택" 메뉴를 사용 하 여 분석을 위해 사용 됩니다를 선택 합니다. 일반적으로, 이러한 벡터만 포함 하 고 선택적 비 조건에서 성장 하는 샘플 및 선택 조건 하에서 성장 하는 미끼 샘플 미끼. 그러나 처음, 데이터를 로드 하는 데 몇 분 걸릴 것입니다, 그리고, 다른 유전자와 같은 데이터 집합의 후속 쿼리 빠르게 갈 것입니다. Blast_Query는 관심과 각 융해 점은 어떻게 풍부한의 순서에 따라서 퓨전 포인트 표시 됩니다. 이 모두 "결과" 탭을 사용 하 여 테이블 형식 또는 "플롯" 탭을 사용 하 여 그래픽 형식에 표시 될 수 있습니다. 이러한 결과 오른쪽 상단에 있는 ".csv 저장" 버튼을 클릭 하 여.csv 파일로 내보낼 수 있습니다.

3입니다. 후보자 DEEPN 식별 확인

참고: DEEPN 및 Stat_Maker의 목적은 긍정적인 Y2H 상호 작용을 주는 후보 유전자를 식별 하는. 같은 Y2H 상호 작용을 확인 수 수 관심의 미끼 플라스 미드를 사용 하 여 전통적인 이진 Y2H 형식을 사용 하 여 할 빈 Gal4 활성화 도메인 '먹이' 플라스 미드와 결합 뿐 아니라 먹이 플라스 미드의 유전자 또는 cDNA 조각 들고와. 그것은 효 모 인구 Y2H 선택 대상에서 분리 된 DNA의 혼합물에서 관심사의 실제 플라스 미드 분리 가능. 그러나, 하나의 수 계산 유전자 또는 cDNA 조각 Y2H 상호 작용을 생성 하는 재구성, 5'과 3' 그 파편의 끝에 대 한 프라이 머 디자인과 효 모 인구에서 고립 된 DNA에서 그 단편을 증폭. 후보 먹이 조각의 5'과 3' 끝을 찾는 방법에 설명 합니다.

  1. DEEPN 소프트웨어 열고 매개 변수 "선택 매개 변수" 및 "작업 폴더 선택"에 해당 하는 프로젝트의 작업 폴더를 선택 합니다. "폭발 쿼리" 버튼을 클릭 하 여 Blast_Query 모듈을 실행 합니다.
  2. 관심이 나 그것의 은행 "NM"의 유전자의 이름을 입력 합니다 위쪽 텍스트 상자에 숫자. 풀 다운 메뉴에서 해당 하는 선택 된 효 모 인구 미끼에 대 한 관심의 접합 위치 '결과' 탭의 테이블을 검색 하는 데이터 집합을 선택 합니다. 기본적으로 Blast_Query 그들의 풍부한 데이터베이스 내 연결의 총 수의 ppm으로 정량 데이터 집합에 따라 다른 위치를 주문할 것 이다.
    1. 가장 풍부한 위치는 "ORF에" 와 "프레임에". 위치에 대 한 값은 상위 텍스트 상자에 NCBI 참고 순서 ('NM' 번호) 유전자의 염기 위치에 해당 합니다. 이 시퀀스는 은행 (https://www.ncbi.nlm.nih.gov/nuccore/)에서 검색 하거나 Blast_Query 창에서 아래쪽 텍스트 상자에서 복사 될 수 있습니다.
      참고: 예를 들어 그림 6, 중간 패널에서에서 찾을 수 있습니다. 센터에는 '결과' 가장 풍부한 교차점으로 표시: '위치': 867; '#Junctions': 20033.821; '쿼리 시작', 1; CD: ORF;에 그리고 '프레임': 프레임에. 은행 NCBI 참고 순서 NM_019648의 뉴클레오티드 867 먹이 파편의 시작 이다.
  3. 쿼리를 시작 하는 것이 1, 뇌관 포함 위치 번호에 해당 하는 뉴클레오티드의 5' 끝을 디자인 하 고 그 위치 (그림 7)에서 다운스트림 25 뉴클레오티드를 연장. 쿼리 시작은 이상의 1, 관심사의 먹이 순서 Gal4 활성화 도메인 사이의 여분의 뉴클레오티드는 고 그 뇌관 시작 한다 더 하류 쿼리 시작 값에 따라 것을 나타냅니다.
  4. DEEPN 창에서 "데이터 분석" 아래 "깊이 읽기" 버튼을 클릭 합니다. 일단 읽기 깊이 창이 열리면, 상단 텍스트 상자에 NCBI 참조 시퀀스 (NM) 번호 또는 유전자 이름을 입력 합니다. 풀 다운 메뉴를 사용 하 여 관심의 풍부한 유전자를 포함 하는 관련 데이터 집합을 선택 합니다. 왼쪽에 테이블을 사용 하 고 그래픽 얼마나 많은 읽기의 관심 (그림 7B) 유전자에 해당 하는 데이터에서 발견 된 확인 하려면 오른쪽에 표시.
  5. 3' 끝 뇌관 읽기 깊이 계산 유전자 조각의 시퀀스 캡처 것입니다 디자인. ORF 넘어 읽기의 풍부한 경우 codon 중지, 정지 코 돈과 정지 codon의 상류 그냥 지역 포함 되도록 뇌관 디자인. 유전자에 대 한 시퀀스 정지 codon 과거를 확장 하지 않습니다, 경우 결과 표를 사용 하는 가장 먼 3' 영역을 검색 하는 멀리 3'로이 위치를 사용 하 여 뇌관을 배치 하는 위치.
    참고: 읽기 깊이 프로그램 관심의 지정 된 유전자 또는 cDNA를 일치 하는 시퀀스를 찾을 수 간격으로 검색 합니다. 이 샘플에서 해당 유전자에 대 한 가장 풍부한 먹이 조각의 5'과 3' 끝이 예측할 수 있습니다. 시퀀스의 길이 따라 읽기 깊이에서 동요는 정상, 그림 7에서 볼 수 있습니다. 이면 읽기 깊이 명확 하 게 정지 codon 과거 먹이 조각 정지 codon를 지 나 확장 하 고 따라서 3' 뇌관 단순히 정지 codon 주변 지역 대응 될 수 있습니다 나타냅니다.
  6. 유전자 당 50 µ L PCR 반응을 수행 합니다. 각 반응 포함 각 정방향 및 역방향 뇌관 먹이 도서관 플라스 미드를 일치의 25 pmol (재료의 표 참조). 반응 또한 높은-충실도 2 x PCR 마스터 믹스의 25 µ L, 5 µ g의 DNA 샘플, 그리고 50 µ L까지 물을 포함합니다.
    1. 72 ° C, 어 닐 링 30 55 ° C의 온도에서 3 분의 확장 시간 25 사이클에 대 한 반응을 증폭 s, 98 ° C 10에서 변성 시키기 사이클링 98 ° C에 30 s 변성에 의해 선행 s. 고 따라 72 ° c.에서 5 분 부 화와

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Fastq 데이터 매핑: 첫 번째 단계
실질적으로 모든 NGS 응용 프로그램 DEEPN 초기 출력은 짧은 시퀀스 읽기 게놈에 정렬 하 여 매핑할 수 합니다 파일을 포함 하 여, transcriptomic, 또는 다른 DNA8참조. 최근, HISAT2 맞춤 프로그램 최신의 색인 생성 알고리즘을 사용 하 여 매핑 속도7,9를 극적으로 증가 하는 개발 되었다. HISAT2 데스크톱 컴퓨터에서 효율적으로 실행 하 고 지도 일반적으로 크기의 분에 파일을 읽을 수 있습니다. 이 수 있었습니다 HISAT2 라는 MAPster 로컬로, fastq 파일을 매핑할 수 있는 그래픽 사용자 인터페이스로 포장 명령줄 언어 (그림 1) 일반적으로 작동 하는 원격 고성능 컴퓨터 클러스터에 의존 하지 않도록 사용자가. MAPster의 중요 한 특징 RNA-seq에 대 한 미리 설정 된 매개 변수의 존재를 포함 하 고 전체 게놈 매핑 실험, 여러 작업 대기열 쉽게 조정 가능한 HISAT2 매개 변수 및 전문가 사용자에 대 한 전체 집합에 대 한 액세스를 사용자 지정 응용 프로그램입니다. MAPster의 기능을 설명 하기 위해 공개적으로 사용 가능한 eHAP 셀 RNA-seq 데이터 파일은 앙상블 GRChg38 게놈 플러스 사본 참조 DNA에 매핑됩니다. EHAP A11 복제 1 FASTQ 파일에서 NCBI 시퀀스 읽기 아카이브 다운로드 고 38.3 백만 읽기를 포함. MAPster 실행 되었습니다 애플 아이맥에 기본을 사용 하 여 3.5 g h z 인텔 코어 i7 프로세서와 짝이 없는 읽기 파일에 대 한 RNA-seq 매개 변수. 매핑은 5 분에 완성 되었다. 전체 맞춤 율은 96.6% 이었다. 전체 정렬 속도 Y2H 먹이 플라스 미드 벡터 시퀀스의 존재로 인해 낮은 유사한 결과 백만 15-25 읽기/샘플의 전형적인 DEEPN 데이터 집합을 찾을 수 있습니다.

Stat_Maker의 도움으로 후보 안타를 찾는.
StatMaker 프로그램 대부분의 후보 상호 작용 단백질을 식별 하는 데 필요한 관련 정보를 요약 하는 excel에서 볼 수 있는 파일을 생성 합니다. Stat_Maker 하기 때문에 사용 하 여 unix 기반 서브루틴의 실행 됩니다 (OS10.10 +) Mac에서 PC 하지 하지만. 첫째, 그것은 둘 다 벡터 제어 미끼 인구 및 생산에 대 한 각 유전자에 대 한 ppm에 읽기 확률 보다 진정으로 큰 관심의 미끼와 Y2H 상호 작용에 대 한 옵션을 선택 하면 특정 유전자의 농축 인지 순위 요약 된 그 유전자를 벡터 전용 컨트롤 (그림 5)와 상호 작용에 대 한 옵션을 선택 하면 농축 둘째, StatMaker 평가 모든 유전자에 BlastQuery 모듈 계산을 수행 하 고 올바른 변환 프레임 및 코딩 시퀀스는 bonafide 생물학으로 관련에 대 한 필요한 것에 있는 접합 읽기 비율을 표로 작성 interactor입니다. 이 결합 된 출력 수 있습니다 가까이 BlastQuery에 의해 검열 될 수 있다 그을 식별 하기 위해 신속 하 게 정렬 하 고 필터링 후보. 이 출력 하나는 먼저 그 후보자의 Y2H 상호 작용을 위한 미끼 단백질에 관심 하 고 혼자 벡터 플라스 미드에 상호 작용에 대 한 선택 때 선택 하는 동안 농축 되 고 높은 probabily 정렬할 수 있습니다. 실제로, 우리는 P 찾을 > 0.95 작품 잘. 다음 후보자 그 코딩 영역 및 간단한 정렬 기능을 사용 하 여 적절 한 독서 프레임은 대부분 접합 읽기에 대 한 평가 될 수 있다. 여기, 후보자와 함께 >는 올바른 변환 프레임에서 오픈 프레임/단백질 코딩 영역 (ORF)를 읽고 내 발견 하거나 그냥 시작 하는 교차점의 85% (상류) 시작 codon의 상류. 이 후자의 필터 생산 훨씬 더 생물학적으로 적절 하 고 추가 검사에 대 한 관리 목록을 허용 P 값, 후보자의 60-80%를 제거 합니다.

DEEPN 소프트웨어입니다.
코어 DEEPN 소프트웨어 여러 계산 모듈을 SAM 파일을 사용 하 여 모든 생물 정보학 단계 통합을 함께 묶는다. Gene_Count은 RNA-seq 정량에 유사한 계산을 수행 하는 유전자, 당 읽기 수를 제공 합니다. 그러나이 유형의 계산을 수행 하는 다른 프로그램 에서도 사용할 수,, 파일 형식이 다른 DEEPN 모듈 및 Stat_Maker 프로그램에 호환 되도록 변경 될 필요가 있을 것입니다. 하지만 또는, Gene_Count 모듈 RNAseq 실험을 계량 하는 데 사용할 수,, 다른 패키지 특정 통계 프로그램 통합된 개발된10되었습니다. 일치 하는 관심의 해당 유전자의 특정 매핑된 읽기 과정 초기 DEEPN 소프트웨어 이후 유전자 할당에 대 한 데이터 트리 구조를 사용 하 여 향상 되었습니다. 이것의 효과 크게 10 백만 포함 하는 일반적인 데이터 집합 매핑된 읽기 같은 처리의 속도 가속 화 하기 위해 최소 시스템 요구 사항을 데스크톱 컴퓨터에 5-10 분을 소요 했다. 특히 Gal4 활성화 도메인에 걸쳐 있는 접합 읽기의 분석 및 관심, 상호 작용 후보 다른 분석은 자체 포함 된. 그들은 로컬로 실행 되는 폭발 alogorithm와 함께 패키지와 구문 분석를 올바르게 모든 교차점 읽고 대조 절차 및 모든 주어진된 유전자에 대 한 그들의 위치. DEEPN 소프트웨어의 단점 중 하나는 그것이 만드는 참조 게놈에 있는 exons cDNAs 또는 코딩 영역을 정의 하는 데 사용 됩니다 정의 하는 특별 한 서식이 지정 된 데이터베이스의 사용 및 포맷 변환 시작 및 중지 순서를 지정 하는 데이터베이스 각 cDNA/유전자의 사용. 우리는 그것이 DEEPN 부족 우리가 특정 유전자의 인덱싱 발생 하는 스 퓨 리 어스 실수 중 일부 신뢰할 수 있는 형태로 요구 하는 모든 데이터베이스 정보를 검색 하기 어려운 발견. 따라서, 우리는 우리가 품질 제어 및 일관성 있는 내부 참조용 DEEPN 소프트웨어에 그들을 포함 새로운 데이터베이스를 조립. 현재, 마우스, 인간, 그리고 S. cerevisiae Y2H 먹이 라이브러리 지원 됩니다 포함 된 데이터베이스에는 DNA fastq 파일 mm10, hg38, 또는 SacCer3 참조 UCSC에서 사용할 수 있는 데이터베이스에 대 한 매핑됩니다. 다른 유기 체에서 Y2H 라이브러리는 비슷한 데이터베이스 구축 및 DEEPN 소프트웨어에 배치 DEEPN에 의해 처리할 수 있습니다. 그러나 전반적으로,, 모든 DEEPN 모듈, 데이터베이스 및 다른 프로그램의 독립 된 포장 확인 이러한 bioinformatic 분석 전문성의 모든 레벨에서 조사에 액세스할 수 있습니다.

Figure 1
그림 1 : The MAPster 인터페이스. MAPster의 메인 윈도우의 스크린 샷입니다. 필요한 파일 및 형식 입력 상자에 표시 됩니다. 일자형 읽는 시퀀스 파일을 치료 "Pairwise" (A)를 해제 합니다. 참조 게놈 '게놈' 메뉴 선택 (B) 바. HISAT2에 의해 사용 되는 프로세서 수 (C) "스레드" 메뉴 선택 됩니다. 새로운 샘플 이름 "출력 파일 이름" 텍스트 창 (D)에 입력할 수 있습니다. 출력 파일에 대 한 디렉터리 (E)에 지정 될 수 있습니다. 아래는 일자형의 큐를 표시 하는 창이 파일을 읽을. 예제는 큐에 추가 된 후 매핑 "실행 큐" 버튼 (F)으로 시작할 수 있습니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 2
그림 2 : DEEPN 인터페이스. DEEPN 모듈을 운영 하는 데 사용 하는 그래픽 사용자 인터페이스의 그림. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 3
그림 3 : 처리 완료. 데이터를 처리 하는 DEEPN, 일단 다음과 같은 하위 폴더가 만들어집니다. 이러한 검열 될 수 있다, 하지만 이러한 하위 폴더 기본 작업 폴더 내에서 남아 있고 그들은 그들의 이름과 내용을 유지를 요구 하는 다운스트림 프로세스. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 4
그림 4 : Stat_Maker 분석. 처리를 위해 적절 한 파일을 로드 된 Stat_Maker에 대 한 그래픽 사용자 인터페이스의 그림. 최고는 Stat_Maker의 초기 보기를 보여 줍니다. 일단 기본 지원 데이터의 존재 "설치 확인" 버튼을 적절 한 작업 폴더를 "폴더 선택" 버튼을 클릭 한 후 확인을 클릭 하 여 확인 된, GUI 활성화 됩니다, 파일을 로드 하기 위한 수 있도록. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 5
그림 5 : Stat_Maker 출력에서 발췌. 혼자 (빈 pTEF-GBD) 벡터를 하나의 미끼 단백질에 먹이 후보자의 농축을 비교 하는 Stat_Maker 출력의 부분. 또한 표시 여부 먹이 후보에 해당 하는 플라스 미드 포함 적절 한 오픈-독서 프레임의 해당 분석이 이다. 평가 각 유전자는 여러 값: Enr, 미끼, Vec, 기지. '기본'은 평균 읽기 (ppm) 관찰 했다 중복 인구에 해당 하는 2 집합 내 유전자에 대 한 포함 된만 벡터 혼자 및 선택적 비 조건에서 성장. "Vec" 평균 비율을 말합니다 읽습니다 (ppm) 관찰 했다 중복 인구에 해당 하는 2 집합 내 유전자에 대 한 포함 된만 벡터 혼자 및 선택적 조건 하에서 성장 (예:-그의). '미끼' 미끼 플라스 미드를 포함 하는 2 인구에 해당 하는 2 데이터 집합 내의 유전자에 대 한 관찰 및 선택적 조건 하에서 성장 읽기 (ppm)의 비율을 말합니다 (예:-그의). "Enr" (enrichement)는 log2 ((Bs/Bn) / (Vs/Vn)) 어디 학사는 미끼 선택에 대 한 읽기, Bn은 선택이 아닌 미끼에 대 한 읽기, Vs 벡터 선택, 혼자 이며 Vn 벡터 선택에서 혼자. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 6
그림 6 : Blast_Query의 디스플레이. 3 다른 보기에서 Blast_Query의 출력입니다. 최고는 후보자의 데이터 집합을 선택 하기 전에 Stat_Maker의 초기 보기입니다. 중간 패널은 두 개의 서로 다른 데이터 집합에 대 한 특정된 후보에 대 한 정보를 표시 하는 데이터 테이블의 예제 보기. 하단은 관심사의 유전자 또는 cDNA에 따라 특정 연결 지점 수를 플로팅 테이블 형식 데이터의 그래픽 보기를 보여줍니다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Figure 7
그림 7 : 증폭 5'과 3' 뇌관 찾기. 5' 올바른 프레임와 퓨전을 올리고 디자인 하는 방법과 가상 순서 Gal4 활성화 도메인 및 관심사의 먹이 순서 사이 지점 (A) 표시 합니다. 예제 1에서 퓨전 포인트의 위치는 Q 1의 시작 하는 10번째 뉴클레오티드에입니다. 위의 오프셋을 사용 하 여 테이블, 0 뉴클레오티드 5' 시작 뇌관의 위치를 찾아 추가할 수 있습니다. 재건축된 먹이 플라스 미드 퓨전 포인트 Gal4 활성화 도메인 뉴클레오티드 10에서 먹이에 직접 융합을 보여준다. 예제 2에서는 쿼리 시작은 3, 오프셋 1 뉴클레오티드의 정확한 시작 지점 및 먹이 삽입의 프레임을 캡처하기 위해 필요. 재건축된 먹이의 회로도 Gal4 활성화 도메인에 대 한 설명 되어야 먹이 삽입의 알려진된 위치 사이 2 뉴클레오티드는 보여줍니다. (B) 읽기 깊이 창을 보여 줍니다. 상단에 textbox NCBI 참고 순서 번호를 입력 하는 데 사용 됩니다 및 '선택.sam 파일' 아래에서 풀 다운 메뉴 경우 풍부한 상호 작용 유전자를 포함 하는 샘플에 대 한 데이터를 선택 하는 데 사용은 관심. 읽기 깊이 보여줍니다 얼마나 많은 시퀀스 (Y 축) 관심 (x 축)의 순서의 뉴클레오티드 위치에 해당 하는 데이터에서 발견 됐다. 이 그림의 더 큰 버전을 보려면 여기를 클릭 하십시오.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

여기에 설명 된 소프트웨어 제품군 완전히 처리 하 고 높은 처리량 DEEPN 실험에서 DNA 시퀀싱 데이터를 분석 한 수 있습니다. 사용 하는 첫 번째 프로그램은 MAPster 표준 fastq 파일에서 DNA 순서 읽기 하 고 다운스트림 처리 DEEPN 소프트웨어를 포함 한 정보 프로그램의 전체 호스트에 대 한 참조 DNA에 그들의 위치를 지도. MAPster 인터페이스와 결합 입력된 파일, 여러 작업을 대기열에 능력의 유틸리티 coveniently 이름 출력 파일, 프로그램7 제어의 다양 한 사용 하기 쉬운 도구 매핑 제공 하는 기본 HISAT2의 속도와 결합 DEEPN 넘어 응용 프로그램입니다. MAPster는 DEEPN 외 데이터 분석의 다른 유형을 위해 적응 되는 HISAT2 프로그램의 몇 가지 매개 변수를 액세스할 수 있습니다. 이러한 기능 중 일부는 RNA-seq와 전체 게놈 매핑 실험에 대 한 미리 설정 된 매개 변수를 포함 하 고 쉽게 조정 가능한 HISAT2 매개 변수 및 사용자 지정된 응용 프로그램에 대 한 숙련 된 사용자에 대 한 전체 집합에 액세스할. 예를 들어, RNA-seq 버튼 사본 어셈블리를 촉진 것 서식을 추가 합니다. CRISPR 단추 블록 맞춤으로 역방향 보완 물가 가이드 RNA 순서에서 파생 된 참조 DNA 파일에 대 한 적절 한 것입니다. 선택적 매개 변수는 아래 4 개의 탭, ", 정렬, 점수, 입력과 출력" 발견. 입력된 옵션 입력된 파일 형식을 변경 하 고 기본 읽기 트리밍 옵션 지정을 포함 한다. 맞춤 및 점수 탭 참조 DNA 한 가닥을 선택 하 고 맞춤 점수에 대 한 차이 불일치 처벌을 설정 하는 옵션을 포함 합니다. 편리 하 게 각각의 고유 매개 변수 설정 복잡 한 NGS 응용을 추구 하는 전문가 비 전문가 사용자에 게 관심의 MAPster 해야 여러 매핑 작업 대기열 수 있습니다.

DEEPN 및 Stat_Maker 소프트웨어 프로그램 배치 Y2H 화면에서 데이터의 특정 생물 정보학 분석을 다하고 있습니다. 이 수 사관의 광범위 한 범위에 액세스할 수 하 고 구성 하는 그래픽 사용자 인터페이스를 통해 실행 하는 연속 bioinformatic 소프트웨어 패키지. 이 패키지는 더 최적화 되었고 빠르게 실행 하 고 후보 안타의 분석은 유선형의 원래 설명6 에서 통합. 생물 정보학의 모든 단계를 데스크톱 컴퓨터에서 실행할 수 있습니다. 이 위치를 계산 하는 얼마나 많은 읽기 지도 주요 DEEPN 소프트웨어 소요 함으로써 선택 주어진된 유전자는 농축 하는 방법에 대 한 기초를 형성 하는 각 유전자에 해당 합니다. 이 소프트웨어 또한 관심의 삽입에 해당 하는 먹이 플라스 미드의 transcriptional 활성화 도메인에 융합 하 고 하나의 특정 ORF의 모든 다른 부분을 시각화 수 있도록 이러한 결과 표로 작성 시퀀스를 '교차점'를 찾습니다. 또는 상호 작용에 대 한 충분 한 cDNA입니다. 또한,이 또한 각 삽입의 독서 프레임을 확인 하는 정보 제공. Bioinformatic 소프트웨어의 제 3 팔은 Stat_Maker를 사용 하 여 출력 파일 DEEPN 처리 Gal4 DNA 바인딩 도메인 벡터 혼자 (대 주어진된 미끼 단백질 상호 작용에서 유래한 유전자 풍부의 통계적 인 관련성을 계산 빈 pTEF-GBD)입니다. 최근 향상은 Stat_Maker 각 후보자의 통계 순위를 제공 뿐만 아니라 또한 그들을 훨씬 더 쉽게 만드는 하나의 파일에 사용할 수 있도록 해당 접점 시퀀스에서 추출 된 해당 정보 tabulates 대 한 조사 결과 검토 하는 조사.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

저자 공개할 게 없다

Acknowledgments

이 작품은 건강의 국가 학회에 의해 지원 되었다: NIH R21 EB021870-01A1 NSF 연구 프로젝트 그랜트에 의해: 1517110.

Materials

Name Company Catalog Number Comments
Mapster https://github.com/emptyewer/MAPster/releases
DEEPN software https://github.com/emptyewer/DEEPN/releases
Statmaker https://github.com/emptyewer/DEEPN/releases
Minimum computer system Apple Mac Intel Core i5 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- OS 10.10 or higher
Dell Intel i5-7400 or better
- 4 Gb RAM or better
- 500 Gb Disk spce or better
- Windows 7 or higher

DOWNLOAD MATERIALS LIST

References

  1. Fields, S., Song, O. A novel genetic system to detect protein-protein interactions. Nature. 340 (6230), 245-246 (1989).
  2. Rajagopala, S. V. Mapping the Protein-Protein Interactome Networks Using Yeast Two-Hybrid Screens. Advances in Experimental Medicine and Biology. 883, 187-214 (2015).
  3. Weimann, M., et al. A Y2H-seq approach defines the human protein methyltransferase interactome. Nature Methods. 10 (4), 339-342 (2013).
  4. Yachie, N., et al. Pooled-matrix protein interaction screens using Barcode Fusion Genetics. Molecular Systems Biology. 12 (4), 863 (2016).
  5. Trigg, S. A., et al. CrY2H-seq: a massively multiplexed assay for deep-coverage interactome mapping. Nature Methods. , (2017).
  6. Pashkova, N., et al. DEEPN as an Approach for Batch Processing of Yeast 2-Hybrid Interactions. Cell Reports. 17 (1), 303-315 (2016).
  7. Kim, D., Langmead, B., Salzberg, S. L. HISAT: a fast spliced aligner with low memory requirements. Nature Methods. 12 (4), 357-360 (2015).
  8. Reinert, K., Langmead, B., Weese, D., Evers, D. J. Alignment of Next-Generation Sequencing Reads. Annual Review of Genomics and Human Genetics. 16, 133-151 (2015).
  9. Pertea, M., Kim, D., Pertea, G. M., Leek, J. T., Salzberg, S. L. Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown. Nature Protocols. 11 (9), 1650-1667 (2016).
  10. Conesa, A., et al. A survey of best practices for RNA-seq data analysis. Genome Biology. 17, 13 (2016).

Tags

유전학 문제 136 단백질 상호 작용 다음 세대 시퀀싱 DNA 순서 분석 효 모 2 잡종
일괄 처리 효 모 2 잡종 스크린에서 시퀀스 데이터의 informatic 분석
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Krishnamani, V., Peterson, T. A.,More

Krishnamani, V., Peterson, T. A., Piper, R. C., Stamnes, M. A. Informatic Analysis of Sequence Data from Batch Yeast 2-Hybrid Screens. J. Vis. Exp. (136), e57802, doi:10.3791/57802 (2018).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter