Summary

Interactome-Seq: En protokol til Domainome bibliotek konstruktion, validering og udvælgelse af Phage Display og næste Generation Sequencing

Published: October 03, 2018
doi:

Summary

De protokoller er beskrevet tillader opbygning, karakterisering og udvælgelse (mod mål på valg) af en “domainome” bibliotek fra DNA-kilder. Dette opnås ved en forskning rørledning, der kombinerer forskellige teknologier: phage display, en falsning reporter og næste generation sequencing med en web-værktøj til dataanalyse.

Abstract

Folde reportere er proteiner med let identificerbare fænotyper, såsom antibiotikaresistens, hvis folde og funktion er kompromitteret når smeltet til dårligt folde proteiner eller tilfældige åbne læserammer. Vi har udviklet en strategi hvor, ved hjælp af TEM-1 β-lactamase (det enzym der giver ampicillin-resistensen) på en genomisk skala, kan vi vælge samlinger af korrekt foldet protein domæner fra den kodende del af DNA af enhver intronless genom. Protein fragmenter opnået ved denne tilgang, den såkaldte “domainome”, vil være udtrykt og opløselig, hvilket gør dem egnet til strukturelle/funktionelle studier.

Ved kloning og viser “domainome” direkte i en phage displaysystem, har vi viste, at det er muligt at vælge bestemte protein domæner med de ønskede bindende egenskaber (f.eks., at andre proteiner eller antistoffer), hvilket giver væsentlig eksperimentelle information til gen annotation eller antigen identifikation.

Identifikation af de mest beriget kloner i valgte polyklonale indbyggere kan opnås ved hjælp af nye næste generation sequencing teknologier (NGS). Af disse grunde har indføre vi dyb sekventering analyse af selve biblioteket og udvalg udgange til at give komplette oplysninger om mangfoldighed, tæthed og præcis kortlægning af hver af de valgte fragment. Protokollerne præsenteres her viser de vigtigste skridt for bibliotek opbygning, karakterisering og validering.

Introduction

Her, beskriver vi en høj overførselshastighed metode for byggeri og udvælgelse af biblioteker af foldede og opløseligt protein domæner fra enhver genic/genomisk start kilde. Metoden kombinerer tre forskellige teknologier: phage display, brug af folde reporter og næste generation sequencing (NGS) med en bestemt web-værktøj til dataanalyse. Metoderne, der kan bruges i mange forskellige sammenhænge af protein-baseret forskning, til identifikation og anmærkning af nye proteiner/protein domæner, karakterisering af strukturelle og funktionelle egenskaber af kendte proteiner samt definitionen af protein-interaktion netværk.

Mange åbne spørgsmål er stadig til stede i protein-baseret forskning og udvikling af metoder til optimal protein produktion er et vigtigt behov for flere områder af undersøgelsen. For eksempel, på trods af tilgængeligheden af tusindvis af prokaryote og eukaryote genomer1er en tilsvarende kort over den relative proteomes med en direkte kommentering af kodede proteiner og peptider stadig mangler for de fleste organismer. Katalog af komplet proteomes fremstår som et udfordrende mål, der kræver en stor indsats med hensyn til tid og ressourcer. Guldstandarden for eksperimenterende anmærkningen forbliver kloning af alle de åbne læserammer (ORFs) af en genom, opbygning af den såkaldte “ORFeome”. Genfunktion tildeles normalt baseret på homologi relaterede gener kendt aktivitet, men denne fremgangsmåde er dårligt præcis på grund af tilstedeværelsen af mange forkerte anmærkninger i reference databaser2,3,4, 5. Desuden, selv for proteiner, der er blevet identificeret og kommenteret, yderligere undersøgelser er nødvendige at opnå karakterisering med hensyn til overflod, udtryk mønstre i forskellige sammenhænge, herunder strukturelle og funktionelle egenskaber som interaktion netværk.

Desuden, da proteiner er sammensat af forskellige domæner, hver af dem viser specifikke funktioner og anderledes bidrager til protein funktioner, undersøgelsen og den nøjagtige definition af disse domæner kan tillade en mere omfattende billede, både på indre gen og i fuld genom. Alle disse nødvendige oplysninger gør protein-baseret forskning en bred og udfordrende område.

I dette perspektiv er kunne et vigtigt bidrag gives af uvildige og høj overførselshastighed metoder til protein produktion. Men succesen af sådanne fremgangsmåder, ved siden af de betydelige investeringer, bygger på evnen til at producere opløselige/stabil protein konstruktioner. Dette er en stor begrænsende faktor, da det er blevet anslået, at kun omkring 30% af proteiner kan udtrykkes med succes og produceret på et tilstrækkeligt niveau være eksperimentelt nyttige6,7,8. En metode til at overvinde denne begrænsning er baseret på brugen af tilfældigt fragmenterede DNA til at producere forskellige polypeptider, som tilsammen udgør overlappende fragment repræsentation af enkelte gener. Kun en lille procentdel af tilfældigt genererede DNA fragmenter er funktionelle ORFs, mens det store flertal af dem er ikke-funktionelle (på grund af tilstedeværelsen af stop kodon inde deres sekvenser) eller indkode for un-naturlige (ORF i en ramme end oprindelige) polypeptider med ingen biologiske betydning.

For at løse alle disse problemer, har vores gruppe udviklet en høj overførselshastighed protein udtryk og interaktion analyse platform, der kan bruges på en genomisk skala9,10,11,12. Denne platform integrerer de følgende teknikker: 1) en metode til at vælge samlinger af korrekt foldet protein domæner fra den kodende del af DNA fra enhver organisme; 2) phage display-teknologi til at vælge partnere af interaktioner; 3) NGS helt karakterisere den hele interactome under undersøgelse og identificere kloner af interesse; og 4) en web-værktøj til analyse af data for brugere uden Bioinformatik eller programmering færdigheder til at udføre Interactome-Seq analyse på en nem og brugervenlig måde.

Brugen af denne platform tilbyder vigtige fordele i forhold til alternative strategier af undersøgelsen; først og fremmest er metoden helt objektiv, høj overførselshastighed og modulære for undersøgelse spænder fra et enkelt gen op til en samlede genom. Det første trin af rørledningen er oprettelsen af et bibliotek fra tilfældigt fragmenterede DNA under undersøgelsen, som er så dybt præget af NGS. Dette bibliotek er genereret ved hjælp af en manipuleret vektor hvor gener/fragmenter af interesse er klonet mellem et signal sekvensen for protein sekretion i periplasmic plads (dvs., Sec førende) og TEM1 β-lactamase-gen. Fusion protein vil tillægge ampicillin-resistens og evnen til at overleve under ampicillin pres kun hvis klonede fragmenter er i-frame med både disse elementer og den heraf følgende fusion protein er korrekt foldet10,13 ,14. Alle kloner reddet efter antibiotika valg, den såkaldte “filtreret kloner”, er ORFs og et stort flertal af dem (mere end 80%), stammer fra virkelige gener9. Desuden ligger kraften i denne strategi i de resultater, at alle ORF filtreret kloner kodning for korrekt foldet/opløselige proteiner/domæner15. Som mange kloner, findes i den bibliotek og kortlægning i den samme region/domæne, har forskellige udgangspunkt og slutpunkt, giver dette uvildig, trinvis identifikation af minimum fragmenter, der er tilbøjelige til at resultere i opløselige produkter.

En yderligere forbedring af teknologien, der er givet ved brug af NGS at karakterisere biblioteket. Kombinationen af denne platform og af en bestemt web-værktøj til analyse af data giver vigtige upartiske oplysninger om de nøjagtige nukleotidsekvenser og placeringen af udvalgte ORFs på reference DNA under undersøgelsen uden behov for yderligere omfattende analyser eller eksperimentelle forsøg.

Domainome biblioteker kan overføres til et udvalg sammenhæng og anvendes som et universelt instrument til at udføre funktionelle studier. Høj overførselshastighed protein udtryk og interaktion analyse platformen, vi integreret, og som vi kaldte Interactome-Seq udnytter phage display teknologi ved at overføre de filtrerede ORF i en phagemid vektor og skabe en phage-ORF bibliotek. En gang igen klonet i forbindelse phage display, protein domæner vises på overfladen af M13 partikler; på denne måde kan domainome biblioteker vælges direkte for gen fragmenter kodning domæner med specifikke enzymaktiviteter eller bindende egenskaber, så interactome netværk profilering. Denne tilgang blev først beskrevet af Zacchi et al. 16 og senere brugt i flere andre sammenhæng13,17,18.

Sammenlignet med andre teknologier, der anvendes til at undersøge protein-protein interaktion (herunder gær to hybridsystem og massespektrometri19,20), er en stor fordel forstærkning af den bindende partner, der opstår under phage vise flere runder af udvalg. Dette øger udvalg følsomheden således identifikation af lav rigelige bindende proteiner domæner i biblioteket. Effektiviteten af valget udført med ORF-filtreret bibliotek er yderligere steget på grund af manglen på ikke-funktionelle kloner. Endelig tillader teknologien udvalg skal udføres mod både protein og ikke-protein lokkemad21,22,23,24,25.

Phage valg ved hjælp af domainome-phage biblioteket kan udføres ved hjælp af antistoffer kommer fra sera af patienter med forskellige patologiske tilstande, fx autoimmune sygdomme13, kræft eller infektion sygdomme som madding. Denne fremgangsmåde anvendes til at opnå den såkaldte “antistof signatur” af sygdom under undersøgelsen gør det muligt at massivt identificere og karakterisere antigener/epitoper specifikt anerkendt af patienternes antistoffer på samme tid. Sammenlignet med andre metoder til brug af phage display giver mulighed for identifikation af både lineære og konformationelle antigene epitoper. Identifikation af en bestemt signatur kunne potentielt har stor betydning for forståelse patogenese, ny vaccine design, identifikation af nye terapeutiske mål og udvikling af nye og specifikke diagnostiske og prognostiske værktøjer. Desuden, når undersøgelsen er fokuseret på smitsomme sygdomme, en stor fordel er, at opdagelsen af immunogen proteiner er uafhængig af patogenet dyrkning.

Vores tilgang bekræfter at folde journalister kan bruges på en genomisk skala for at vælge “domainome”: en samling af korrekt foldet, godt udtryk, opløseligt protein domæner fra den kodende del af DNA og/eller cDNA fra enhver organisme. En gang isolerede protein fragmenter er nyttige til mange formål, vigtige eksperimentelle oplysning til gen anmærkning samt med hensyn til strukturelle studier, antistof epitop kortlægning, antigen identifikation, osv. Fuldstændigheden af høj overførselshastighed data fra NGS muliggør analysen af meget komplekse prøver, såsom phage display biblioteker, og rummer potentiale til at omgå den traditionelle møjsommeligt picking og testning af individuelle phage reddet kloner.

På samme tid takket være funktioner af filtrerede biblioteket og til den ekstreme følsomhed og kraft af NGS analyse er det muligt at identificere det protein domæne ansvarlig for hver interaktion direkte i en indledende skærm, uden at skulle oprette ekstra biblioteker for hver bundet protein. NGS giver mulighed for at opnå en omfattende definition af den hele domainome af enhver genic/genomisk start kilde og data analyse web tool muliggør opnåelse af en meget specifik Karakteristik fra et kvalitativt og kvantitativt synspunkt af de interactome proteiner domæner.

Protocol

1. opførelse af ORF bibliotek (figur 1) Forberedelse af Indsæt DNA Fragmenter forberedelse fra syntetisk eller genomisk DNA Uddrag/rense DNA ved hjælp af standard metoder26. Fragment DNA ved hjælp af sonikering. Hvis ved hjælp af en standard sonikator, som en generel henstilling start med 30 s pulser på 100% power output.Bemærk: Pilot forsøg bør gøres med forskellige power og s…

Representative Results

Den filtrering tilgang er skematiserede i figur 1. Hver art af intronless DNA kan bruges. I figur 1A den første del af metoden filtrering er repræsenteret: efter indlæsning på en agarosegel eller en bioanalyzer, en god fragmentering af DNA af interesse vises som et udstrygningspræparat af fragmenter med en længde fordeling i den ønskede størrelse af 150-750 bp. En repræsentativ virtuelle gel billede af fragmenterede DNA …

Discussion

Oprettelsen af en høj kvalitet meget forskelligartede ORFs filtreret bibliotek er det første vigtige skridt i hele proceduren, da det vil påvirke alle de efterfølgende trin i rørledningen.

Et vigtigt fordelagtige element i vores metode er, at enhver kilde (intronless) DNA (cDNA, genomisk DNA, PCR afledt eller syntetiske DNA) er egnet til biblioteket konstruktion. Den første parameter, der bør tages i betragtning er, at længden af DNA fragmenterne klonet i pFILTER vektor bør give en re…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Dette arbejde blev støttet af en bevilling fra italienske Undervisningsministeriet og universitetet (2010P3S8BR_002 til CP).

Materials

Sonopuls  ultrasonic homogenizer Bandelin HD2070 or equivalent
GeneRuler 100 bp Plus DNA Ladder Thermo Scientific SM0321 or equivalent
GeneRuler 1 kb DNA Ladder Thermo Fisher Scientific SM0311 or equivalent
Molecular Biology Agarose BioRad 161-3102 or equivalent
Green Gel Plus Fisher Molecular Biology FS-GEL01 or equivalent
6x DNA Loading Dye Thermo Fisher Scientific R0611 or equivalent
QIAquick Gel Extraction Kit Qiagen 28704 or equivalent
Quick Blunting Kit New England Biolabs E1201S
NanoDrop 2000 UV-Vis Spectrophotometer Thermo Fisher Scientific ND-2000
High-Capacity cDNA Reverse Transcription Kit Thermo Fisher Scientific 4368813
Streptavidin Magnetic Beads New England Biolabs S1420S or equivalent
QIAquick PCR purification Kit Qiagen 28104 or equivalent
EcoRV New England Biolabs R0195L
Antarctic Phosphatase New England Biolabs M0289S
T4 DNA Ligase New England Biolabs M0202T
Sodium Acetate 3M pH5.2 general lab supplier
Ethanol for molecular biology Sigma-Aldrich E7023 or equivalent
DH5aF' bacteria cells Thermo Fisher Scientific
0,2 ml tubes general lab supplier
1,5 ml tubes general lab supplier
0,1 cm electroporation cuvettes Biosigma 4905020
Electroporator 2510 Eppendorf
2x YT medium Sigma-Aldrich Y1003
Ampicillin sodium salt Sigma-Aldrich A9518
Chloramphenicol Sigma-Aldrich C0378
DreamTaq DNA Polymerase Thermo Fisher Scientific EP0702
Deoxynucleotide (dNTP) Solution Mix New England Biolabs N0447S
96-well thermal cycler (with heated lid) general lab supplier
150 mm plates general lab supplier
100 mm plates general lab supplier
Glycerol Sigma-Aldrich G5516
BssHII New England Biolabs R0199L
NheI New England Biolabs R0131L
QIAprep Spin Miniprep Kit Qiagen 27104 or equivalent
M13KO7 Helper Phage GE Healthcare Life Sciences 27-1524-01 
Kanamycin sulfate from Streptomyces kanamyceticus Sigma-Aldrich K1377
Polyethylene glycol (PEG) Sigma-Aldrich P5413
Sodium Cloride (NaCl) Sigma-Aldrich S3014
PBS general lab supplier
Dynabeads Protein G for Immunoprecipitation Thermo Fisher Scientific 10003D or equivalent
MagnaRack Magnetic Separation Rack Thermo Fisher Scientific CS15000 or equivalent
Tween 20 Sigma-Aldrich P1379
Nonfat dried milk powder EuroClone EMR180500
KAPA HiFi HotStart ReadyMix  Kapa Biosystems, Fisher Scientific 7958935001
AMPure XP beads  Agencourt, Beckman Coulter A63881
Nextera XT dual Index  Primers  Illumina FC-131-2001 or FC-131-2002 or FC-131-2003 or FC-131-2004
MiSeq or Hiseq2500  Illumina
Spectrophotomer Nanodrop
Agilent Bioanalyzer or TapeStation Agilent
Forward PCR primer general lab supplier 5’ TACCTATTGCCTACGGCAGCCGCTGGATTGTTATTACTC 3’
Reverse PCR primer general lab supplier 5’ TGGTGATGGTGAGTACTATCCAGGCCCAGCAGTGGGTTTG 3’
Forward primer for NGS general lab supplier  5’ TCGTCGGCAGCGTCAGATGTGTATAAGAGACAGGCAGCAAGCGGCGCGCATGC 3’;
Reverse primer for NGS general lab supplier 5’ GTCTCGTGGGCTCGGAGATGTGTATAAGAGACAGGGGATTGGTTTGCCGCTAGC 3’;

References

  1. Loman, N. J., Pallen, M. J. Twenty years of bacterial genome sequencing. Nat Rev Microbiol. 13 (12), 787-794 (2015).
  2. Jones, C. E., Brown, A. L., Baumann, U. Estimating the annotation error rate of curated GO database sequence annotations. BMC Bioinformatics. 8 (1), 170 (2007).
  3. Andorf, C., Dobbs, D., Honavar, V. Exploring inconsistencies in genome-wide protein function annotations: a machine learning approach. BMC Bioinformatics. 8 (1), 284 (2007).
  4. Wong, W. -. C., Maurer-Stroh, S., Eisenhaber, F. More Than 1,001 Problems with Protein Domain Databases: Transmembrane Regions, Signal Peptides and the Issue of Sequence Homology. PLoS Comput Biol. 6 (7), e1000867 (2010).
  5. Bioinformatics, B., et al. Identification and correction of abnormal, incomplete and mispredicted proteins in public databases. BMC Bioinformatics. 9 (9), (2008).
  6. Phizicky, E., Bastiaens, P. I. H., Zhu, H., Snyder, M., Fields, S. Protein analysis on a proteomic scale. Nature. 422 (6928), 208-215 (2003).
  7. DiDonato, M., Deacon, A. M., Klock, H. E., McMullan, D., Lesley, S. A. A scaleable and integrated crystallization pipeline applied to mining the Thermotoga maritima proteome. J Struct Funct Genomics. 5 (1-2), 133-146 (2004).
  8. Nordlund, P., et al. Protein production and purification. Nat Methods. 5 (2), 135-146 (2008).
  9. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  10. Di Niro, R., et al. Rapid interactome profiling by massive sequencing. Nucleic Acids Res. 38 (9), e110 (2010).
  11. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71 (Pt 11), 2227-2235 (2015).
  12. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  13. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).
  14. Robinson, M. D., McCarthy, D. J., Smyth, G. K. edgeR: A Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics. 26 (1), 139-140 (2009).
  15. Heger, A., Holm, L. Exhaustive enumeration of protein domain families. J Mol Biol. 328 (3), 749-767 (2003).
  16. Zacchi, P., Sblattero, D., Florian, F., Marzari, R., Bradbury, A. R. M. Selecting open reading frames from DNA. Genome Res. 13 (5), 980-990 (2003).
  17. Faix, P. H., Burg, M. A., Gonzales, M., Ravey, E. P., Baird, A., Larocca, D. Phage display of cDNA libraries: Enrichment of cDNA expression using open reading frame selection. Biotechniques. 36 (6), 1018-1029 (2004).
  18. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  19. Collins, M. O., Choudhary, J. S. Mapping multiprotein complexes by affinity purification and mass spectrometry. Curr Opin Biotechnol. 19 (4), 324-330 (2008).
  20. Suter, B., Kittanakom, S., Stagljar, I. Two-hybrid technologies in proteomics research. Curr Opin Biotechnol. 19 (4), 316-323 (2008).
  21. Nakai, Y., Nomura, Y., Sato, T., Shiratsuchi, A., Nakanishi, Y. Isolation of a Drosophila gene coding for a protein containing a novel phosphatidylserine-binding motif. J Biochem. 137 (5), 593-599 (2005).
  22. Deng, S. J., et al. Selection of antibody single-chain variable fragments with improved carbohydrate binding by phage display. J Biol Chem. 269 (13), 9533-9538 (1994).
  23. Danner, S., Belasco, J. G. T7 phage display: A novel genetic selection system for cloning RNA-binding proteins from cDNA libraries. Proc Natl Acad Sci. 98 (23), 12954-12959 (2001).
  24. Gargir, A., Ofek, I., Meron-Sudai, S., Tanamy, M. G., Kabouridis, P. S., Nissim, A. Single chain antibodies specific for fatty acids derived from a semi-synthetic phage display library. Biochim Biophys Acta – Gen Subj. 1569 (1-3), 167-173 (2002).
  25. Patrucco, L., et al. Identification of novel proteins binding the AU-rich element of α-prothymosin mRNA through the selection of open reading frames (RIDome). RNA Biol. 12 (12), 1289-1300 (2015).
  26. Ausubel, F. M., et al. Current Protocols in Molecular Biology. Mol Biol. 1 (2), 146 (2003).
  27. Sblattero, D., Bradbury, A. Exploiting recombination in single bacteria to make large phage antibody libraries. Nat Biotechnol. 18, 75-80 (2000).
  28. Martin, M. Cutadapt removes adapter sequences from high-throughput sequencing reads. EMBnet.journal. 17 (1), 10 (2011).
  29. Camacho, C., et al. BLAST+: architecture and applications. BMC Bioinformatics. 10 (1), 421 (2009).
  30. Li, H., et al. The Sequence Alignment/Map format and SAMtools. Bioinformatics. 25 (16), 2078-2079 (2009).
  31. Quinlan, A. R. BEDTools: The Swiss-Army tool for genome feature analysis. Curr Protoc Bioinforma. , (2014).
  32. Skinner, M. E., Uzilov, A. V., Stein, L. D., Mungall, C. J., Holmes, I. H. JBrowse: A next-generation genome browser. Genome Res. 19 (9), 1630-1638 (2009).
  33. Gourlay, L. J., et al. Selecting soluble/foldable protein domains through single-gene or genomic ORF filtering: Structure of the head domain of Burkholderia pseudomallei antigen BPSL2063. Acta Crystallogr Sect D Biol Crystallogr. 71, 2227-2235 (2015).
  34. D’Angelo, S., et al. Filtering "genic" open reading frames from genomic DNA samples for advanced annotation. BMC Genomics. 12 (Suppl 1), S5 (2011).
  35. Di Niro, R., et al. Characterizing monoclonal antibody epitopes by filtered gene fragment phage display. Biochem J. 388 (Pt 3), 889-894 (2005).
  36. D’Angelo, S., et al. Profiling celiac disease antibody repertoire. Clin Immunol. 148 (1), 99-109 (2013).

Play Video

Cite This Article
Soluri, M. F., Puccio, S., Caredda, G., Grillo, G., Licciulli, V. F., Consiglio, A., Edomi, P., Santoro, C., Sblattero, D., Peano, C. Interactome-Seq: A Protocol for Domainome Library Construction, Validation and Selection by Phage Display and Next Generation Sequencing. J. Vis. Exp. (140), e56981, doi:10.3791/56981 (2018).

View Video