蛋白质组学是以生物体系整体蛋白质为研究对象的新的研究领域,已经成为后基因时代中生命科学最重要研究方向之一。 近年来,蛋白质组学研究取得了令人鼓舞的进展,一系列新技术与新方法得到了快速的发展。 本文总结了2013年以来蛋白质组学研究的有关新技术,并对其发展进行了展望。
Proteomics, as one of the foremost branches of science in the post-genome era, is mainly focused on the expression, translational modification and interaction of proteins in cells, tissues and organs. With the rapid advancement of precision medicine and life science, higher and higher requirements have been put forward for the development of analytical methods for proteomics. Herein, we summarized the new technologies for proteome research since 2013 and prospected the future of new technics and methods for protein research.
蛋白质组学是研究细胞、组织、器官等中蛋白质的表达、翻译后修饰和相互作用等的科学。 近年来,蛋白质组学研究取得了一系列突破性进展,如在2001年Yates等[1]需要花费68 h才能定性1483种蛋白质,如今诸多实验室均在1 h内就可以完成4000种以上蛋白质的分析,或者在24 h内完成8000种以上蛋白质的分析[2,3,4]。 随着生命科学研究的不断深入,对蛋白质组学技术提出了越来越高的要求。 本文重点介绍自2013年以来在蛋白质样品预处理、蛋白质定性定量分析以及蛋白质相互作用研究等方面的重要进展。
高度复杂的生物样品分析,对于蛋白质组分析提出了严峻挑战。 高效的样品预处理方法可以显著降低生物样品的复杂程度,为实现蛋白质组的深度覆盖分析提供重要技术支撑。
对细胞、组织等生物样品中的蛋白质进行有效的提取和溶解是样品预处理过程的首要步骤。 然而其面临着低丰度蛋白质损失严重、疏水性膜蛋白质溶解困难等问题,进而影响了蛋白质检测的灵敏度。 张丽华团队[5]在国际上率先筛选出溶解能力强、酶活和质谱兼容性好的离子液体——氯化-1-十二烷基-3-甲基咪唑离子液体(C12Im-Cl),并发展了C12Im-Cl辅助增溶的膜蛋白质样品预处理方法;与十二烷基磺酸钠(SDS)方法相比,鉴定到的膜内在蛋白(IMPs)和跨膜肽段分别提高了40%和250%。 采用C12Im-Cl对常规8 mol/L尿素提取后的不溶物进行萃取,能够回收常规分析中丢失的大量强疏水性蛋白质信息[6]。 在微量蛋白质分析方面,邹汉法团队[7]利用十二烷基麦芽糖苷提高微量细胞中膜蛋白质等的回收率;从10000个细胞中鉴定到近500个糖基化位点。 方群团队和黄超兰团队[8]合作将微流控液滴技术与蛋白质组分析技术相结合,发展了一种微型化的油-气-液“三明治”芯片及相应的纳升级液体操控和进样方法,能够在原位静态的纳升级液滴中完成少量细胞蛋白质组分析所必需的多步样品前处理操作,并且实现了将液滴样品直接高效地注入到色谱分析柱内完成后续的液相色谱分离与质谱检测。 采用该芯片系统可以分别成功地从100、50、10和1个人宫颈癌HeLa细胞中鉴定到1360、612、192和51个蛋白质,在单细胞蛋白质组学分析中取得了突破性进展。 此外,Kelly团队[9]也构建了基于芯片的纳升级微量蛋白预处理平台,用于微量细胞分析,在少于200 nL的液滴中“一锅法”实现细胞中蛋白质的提取、还原、烷基化和两步酶解。 采用该平台,可实现10~140个细胞中,1500~3000个蛋白质的高效鉴定。 进而,他们[10]将该平台与荧光激活细胞分选仪联用,从1个HeLa细胞(~0.15 ng总蛋白)中可鉴定到670个蛋白质。
基于“鸟枪法”的策略是目前蛋白质组学研究的主流技术,而如何实现蛋白质样品的高效酶解至关重要。 张丽华团队[11]通过研制基于氧化石墨烯修饰的聚合物微球,制备了一种新型的固定化酶反应器,实现了蛋白质的同时酶解和18O同位素标记,与传统离线自由溶液酶解和标记方法相比,采用该酶反应器,不仅酶解标记时间从传统方法的38 h,缩短至2.5 min,而且,18O标记的效率从93%提高至98%。 邓春晖团队[12]通过Au实现了核酸适配体在靶板的高密度固载,进行靶标蛋白的捕获后,利用激光辅助酶解技术实现了靶蛋白在30 s内快速高效酶解。 钱小红团队[13]通过原子转移自由基聚合(ATRP)反应在壳-壳结构纳米磁球上接枝亲水性和疏水性聚合物刷,开发了具有酶解性能互补的双矩阵固定化酶反应器,将常规酶解时间从12 h缩短为1 min。
蛋白质翻译后修饰在生命体中具有极其重要的作用。 然而,修饰蛋白质分析面临修饰种类繁多、结构复杂及丰度低等问题,亟需发展高选择性的富集方法。 基于金属离子螯合作用的金属氧化物材料以及固定金属离子亲和色谱材料仍是磷酸化肽/蛋白样品预处理的主流技术,其进展主要集中于以下3个方面:1)基质材料方面。Capriotti团队[14]将新型的石墨化炭黑-TiO2复合纳米材料用于磷酸化修饰蛋白质/多肽,尤其是相对分子质量<3000的亲水磷酸化肽段的富集;此外,其它生物相容性优异的介孔新材料、等级孔材料、聚多巴胺、石墨烯-单/双金属氧化物复合纳米材料、金属有机框架(MOF)材料也被广泛用于磷酸化肽段/蛋白质的特异性富集[15];2)配基方面。 邹汉法团队[16]发展了新型的磷酸酯钛固定金属离子亲和色谱材料,其磷酸肽富集特异性达到98%以上,将其用于人肝癌样品中磷酸化蛋白质组规模化分析,共鉴定到22446个磷酸化位点,构建了最大的单个组织磷酸位点数据;3)新技术方面。 叶明亮团队[17]发展了SH2超亲体-固定化金属离子亲和色谱(IMAC)结合的酪氨酸磷酸化富集策略;从9个人源细胞系中鉴定到10030个酪氨酸磷酸化位点,使酪氨酸磷酸化蛋白质组学的研究达到了一个前所未有的深度和广度。 该团队进一步将SH2超亲体代替抗体进行酪氨酸磷酸化的蛋白质印迹法(Western)、酶联免疫分析(ELISA)检测,显著提高了酪氨酸磷酸化的检测灵敏度[18]。
糖基化蛋白质组富集的原理包括亲水作用、硼亲和、凝集素亲和及酰肼化学等。 邹汉法团队利[19]用基于叠氮-炔基点击化学制备了亲水麦芽糖修饰材料,从人肝中鉴定到近4800个位点,将人类糖蛋白组数据提高了158%。 该团队[20]进一步与梁鑫淼团队合作,制备了组氨酸修饰的唾液酸糖基化富集材料,其抗非特异性吸附达到1:5000,实现了唾液酸糖基化肽段的高特异性富集。 张丽华团队[21]利用“巯基-烯烃”的表面点击聚合反应制备了具有三维树枝结构的新型聚合物苯硼酸材料,用于糖基化蛋白的富集,其非特异性干扰可达5000倍以上。 钱小红团队[22]利用共聚制备了温度敏感型材料,并对材料表面修饰了三苯基膦。 低于临界温度时,材料具有良好的亲水性,增加了三苯基膦的水溶性,使其与叠氮标记的 O-乙酰氨基葡萄糖( O-GlcNAc)蛋白充分反应;超出临界温度时,材料发生团聚,从而将上清中非修饰蛋白去除,提高 O-GlcNAc蛋白的富集特异性和富集效率。将该材料用于Hela细胞中 O-GlcNAc糖基化分析,共鉴定到1700个糖基化蛋白质,实现了细胞中 O-GlcNAc糖基化分析的高通量分析。
泛素化蛋白质/多肽样品预处理主要基于抗体法[23,24]。徐平团队[25]通过基因工程技术构建了串联杂合泛素结合结构域;从人高转移性肝癌细胞(MHCC 97H)中鉴定到3145个泛素化蛋白,其鉴定蛋白数目较前期文献提高了5倍以上。 蛋白质乙酰化分析方面,抗体技术仍是主流[26];张祥民团队[27]以MOFs包覆的磁性微球为基质,利用抗原-抗体的特异性结合,实现了乙酰化蛋白质的特异性富集;董襄朝团队[28]发展了基于分子印迹技术的乙酰化蛋白/肽段富集技术,实现了微量样品中蛋白质乙酰化富集。 甲基化修饰蛋白的富集主要基于抗体或者标签的方法[29],但存在作用力弱、特异性低的问题;赵宗保团队[30]合成了甲基化修饰供体替代物 S-腺苷甲硫氨酸类似物,并将其用于甲基化修饰蛋白的标记。
近年来,亚细胞器蛋白质组学已成为一个重要的研究领域。 亚细胞器分离纯化常用的技术包括梯度离心法和磁珠亲和纯化法。 但是,前者由于仅依据亚细胞器的物理特性,所以分离出来的样品的纯度有限;后者虽然分离得到的亚细胞器纯度非常高,但一次性所能处理的样品量较少。 为了弥补上述方法的不足,人们开发了基于不同分离原理的亚细胞器分离方法。 自由流电泳因其具有可连续分离、分离条件温和、无固体支持介质等优势,特别适用于生物材料的分离纯化,因此很早被应用于亚细胞器的分离。 曹成喜团队[31]开发了配有热电制冷模块的循环式自由流电泳系统,并将其成功用于细胞、细胞器以及蛋白质复合体的蛋白质组学分析。 此外,Moon团队[32]开发了基于流场分离的半制备级尺寸分选系统,并用于HEK 293T细胞裂解液的亚细胞器分级。 基于微流控芯片技术的亚细胞器分离技术也得到研究者们的重视。 Astier团队[33]开发了一种基于纳米尺度确定性侧向位移的柱型微流控芯片,并在DNA、病毒和外泌体等的分离中展现出很好的应用前景。 Soper团队[34]开发了一种基于微流控固相萃取装置,并将其用于生物素标记膜蛋白质的富集。 此外,随着质膜蛋白质和外泌体越来越引起人们的关注,张丽华团队[35]利用质膜蛋白质广泛的糖基化修饰,使用带有酰肼基团的磁球共价结合细胞表面蛋白和磷脂上经氧化处理的糖链,并结合磷脂双分子层的脂筏效应,可以实现同时富集质膜上糖基化和非糖基化修饰的质膜蛋白。 张丽华团队[36]还发展了一种基于聚乙二醇(PEG)二次沉淀富集外泌体的方法,实现了外泌体的有效富集,并建立了目前文献报道最大的外泌体数据集。
综上所述,虽然目前蛋白质组样品处理技术得到了快速发展,如何进一步提高样品处理的效率、选择性、回收率、重现性和自动化程度仍是人们需要不断追求的目标。
随着上述样品预处理技术和质谱技术的快速发展,蛋白质组学定性分析正朝向高精准与高覆盖定量分析的方向发展。
在集成化蛋白质分析方面,张丽华团队[37]构建了集成式的微反应系统,可将蛋白质酶解、糖肽富集以及去糖基化过程由传统离线方式的>10 h缩短到3 h内;张祥民团队[38]构建了活细胞在线裂解-酶解-分离鉴定系统,可从100个细胞中分离鉴定出800多个蛋白质;叶明亮团队[39]建立了一种细胞裂解-蛋白质提取-酶解的集成化系统,整个过程只需25 min,可从1×105个HeLa细胞样品中鉴定到约2987个磷酸化位点。 上述技术对于实现临床样本的快速高灵敏度检测,以及发现疾病标志物继而寻找药物靶标具有重要意义。
在蛋白质组深度覆盖分析方面,3个国际小组先后于2004年和2005年在Nature和Science杂志上公布了3张人类蛋白质组草图[40,41,42],覆盖了人类基因编码蛋白质的85%。 然而,由于蛋白质的低丰度和强疏水性等原因,仍有15%的基因编码蛋白质为漏检蛋白质。 王通团队[43]采用RIPA裂解液对细胞样品进行蛋白质提取后,使用2%NP-40对不溶物进行溶解,再次离心后所得到的去垢剂不溶物,进而使用多组分构成的强萃取液进行溶解,分别使用胶内酶解,FASP方法及StageTip法进行酶解,共鉴定到23个漏检蛋白质。 徐平团队[44]利用不同浓度制备的凝胶对不同相对分子质量蛋白质保留能力的不同,建立了4层凝胶过滤的方法,在蛋白质水平去除高丰度的高相对分子质量蛋白质,以富集低相对分子质量蛋白质;通过对低相对分子质量蛋白、膜蛋白、磷酸化蛋白及泛素化蛋白等4类蛋白质采取相应的特殊富集策略,总共鉴定到79种漏检蛋白。 为实现对转录因子的高效富集,秦钧团队[45]开发了一种亲和试剂,该试剂包含转录因子DNA结合序列串联阵列,利用该亲和试剂从单个细胞系样品中鉴定到了400 多个转录因子,而从11个不同类型的细胞中共鉴定到878个转录因子,涵盖了细胞内近1/2的基因组编码的转录因子产物,实现了转录因子的高覆盖鉴定。 Mann团队[46]发展了BoxCar的质谱采集方法,将质谱检测过程中母离子(MS1)的常规全荷质比采集窗口分段成多个窄的荷质比窗口,较常规MS1的离子注入时间提高10倍以上,通过MS1中高丰度和低丰度肽段信号强度的均衡化,使低丰度肽段检测的信噪比提高30~60倍,实现了100 min内小鼠脑组织中10000个蛋白质的高覆盖度鉴定。
上述新技术与新方法的建立和发展推动了人类蛋白质组分析的覆盖度,其产生的大数据将全景式地揭示人体蛋白质组成及其调控规律,辅助解读人类基因组“天书”。
随着蛋白质组学的不断发展,如何实现蛋白质定量的准确度和精密度已成为当前蛋白质科学亟待解决的关键问题之一。 随着高精度生物质谱技术的发展和基于生物信息学的海量数据处理技术的进步,基于生物质谱的蛋白质组定量方法成为定量蛋白质组的主流技术。 张丽华团队[47]提出了基于二级质谱特征碎片离子定量的准等重二甲基化标记策略;蛋白质组定量覆盖率高达99%以上;定量结果与理论值相对偏差低于2%;动态范围达到4个数量级。 陆豪杰团队[48]发展了基于质量亏损的四重标记数据非依赖性定量方法,在细胞培养时将13C615N2-Lys和D8-lys(Lys:赖氨酸)分别用于培养4组样品中的任意2组,并在标记完成后,选择Lys-C蛋白酶对蛋白质进行酶切后,其中相同代谢标记的两份样品分别用准等重二甲基化方法(213CD2H和2CD3)进行肽段水平标记,并通过质谱非依赖型模式进行二级谱采集。 这些肽段在MS1上没有质量差异,而碎裂时在MS/MS谱图中会产生两对碎片离子;通过比较这些成对碎片离子的强度;实现了蛋白质组的四重标记相对定量分析,并且也通过数据非依赖性的质谱采集模式提高了定量的准确度。 上述方法解决了常规定量方法中一级谱定量灵敏度低和基于二级谱报告离子定量的低估效应,显著地提高了定量的精准度,在蛋白质组的相对定量中具有很好的应用前景。
虽然现有的蛋白质组定量方法种类繁多,然而这些方法的大部分实验过程都是离线操作。 如何减少人为操作,实现样品定量分析的在线化、集成化,进而提高定量的精密度、覆盖度和通量仍是该领域的发展方向之一。
蛋白质作为细胞活性及功能的最终执行者,通常与其它蛋白质相互作用形成复合体后在特定的时间和空间内发挥特定的功能。 虽然酵母双杂交、串联亲和纯化和免疫共沉淀等传统方法可以揭示蛋白质间的直接相互作用,甚至可通过大规模筛选发现未知相互作用,然而这些方法不仅分析通量极低,而且无法提供蛋白质相互作用位点信息。 因此,如何实现蛋白质复合体的精准解析已成为当前生命科学新的研究热点。
化学交联结合质谱技术以其特有的分析速度快、通量高、成本低、对蛋白质各方面性状要求低等优势,使得该技术已成为近年来持续增长的新的科研热点。 但是,该技术目前也存在着交联产物形式复杂、交联肽段丰度低和交联肽段的数据解析复杂等众多有挑战性的问题。 董梦秋团队[49]开发的Leiker交联剂,其具有既可以亲和纯化交联肽段,并能够在进入质谱前被切除的生物素标签,实现了大肠杆菌中3130对交联肽的高效鉴定。 针对交联肽段的数据检索空间随着肽段数目的增加呈平方级增长的问题,贺思敏团队[50]开发的pLink软件,同时对2条肽段的碎片离子进行匹配打分,并采取粗打分和细打分相结合的开放式搜索流程,实现了对复杂样品的交联数据鉴定。 Heck团队[51]采用了质谱气相碎裂型交联试剂进行蛋白质复合体解析,不仅降低了质谱图的复杂程度,而且避免了交联数据平方级规模的搜索困难。 此外,Bruce团队[52]通过体内化学交联策略分析细菌和宿主细胞蛋白质的相互作用,探究细菌抗生素的耐药性机制。 以上技术的发展极大程度上推动了蛋白质构象和相互作用的表征。
从化学交联结合质谱技术的现状来看,该技术在纯化的蛋白或蛋白复合物中已比较成熟,但是样品复杂度高的问题仍然有待更多的进步来解决,并且如何判定交联数据的准确度也亟需引入更多的评价机制。
在蛋白质组鉴定分析方面,贺思敏团队[53]开发了最新版蛋白质鉴定引擎pFind-Alioth,对高分辨率质谱数据进行快速和无限制数据库搜索;通过使用不同实验室采集的基于高能碰撞诱导裂解(HCD)数据集进行测试,谱图识别率达到60%~80%并且数据处理速度比其它非限制性搜索引擎速度快5~10倍。 Coon团队[54]开发了基于匹配离子数和离子强度的简单打分算法,对高精度质谱数据进行分析的软件Morpheus;可以得到比Mascot、OMSSA、Sequest等软件更多的蛋白质鉴定结果,并且速度比其它软件快1.5到4.6倍。 张丽华团队[55]发展了针对肽段两端等重同位素标记蛋白质样品的质谱鉴定算法;利用二级质谱图中成对存在的碎片离子种类和强度对候选肽段进行打分,有效降低了噪音干扰,显著提高了多肽特征碎片离子的识别准确性。 杨芃原团队、贺思敏团队以及黄超兰团队[56]合作,开发基于阶梯能量的一步质谱采集法,提高了糖肽鉴定的通量并开发了具有自主产权的pGlyco2.0糖肽检索引擎,从糖链、肽段、糖肽3个层面对糖肽数据库检索进行精确质控,从而大幅提升了N糖蛋白质组学分析的通量和质量。
在蛋白质组定量分析方面,Cox团队[57]开发的MaxQuant软件,被广泛应用于蛋白质组无标记定量、基于一级谱的标记定量和等重标记定量。 贺思敏团队[58]发展了通用蛋白质定量软件pQuant;与现在国际知名蛋白质组定量软件MaxQuant相比,pQuant在多组评测数据集上显示出明显优势。 朱云平团队[59]发展了新的定量可靠性过滤指标和打分,保证了定量准确性和灵敏性;在此基础上,针对稳定同位素标记的数据设计、开发了自动化定量软件SILVER。
随着质谱技术的发展,人们获得了越来越多的蛋白质质谱数据,未来需要进一步发展机器学习和数据挖掘相关技术,对这些蛋白质组学数据进行分析,提取其中有价值的信息。 此外,需要发展更好的质量控制方法,降低蛋白质组分析的假阳性率,提高定性定量的准确度。
经过近30年的发展,尤其是近年来质谱技术的飞速发展,蛋白质组学技术取得了飞速的突破,已被广泛用于生命科学领域的基础研究以及临床医学等的应用研究,并且发挥着至关重要的作用。 同时,随着分析对象的日益普遍,对蛋白质组学技术也提出了新的挑战,尤其在低丰度样品的高灵敏度检测、复杂生物样品的高覆盖度、高通量分析以及蛋白质-蛋白质相互作用的动态高效表征等方面研究对蛋白质组学新技术提出了新的挑战。 同时,蛋白质组学与其它学科的交叉研究也日益显著和重要,尤其是蛋白质组学与基因组学、代谢组学、生物信息学等领域的交叉学科,高效展现了系统生物学的优势,必将成为未来生命研究领域最令人激动的科学新前沿。
[1] |
|
[2] |
|
[3] |
|
[4] |
|
[5] |
|
[6] |
|
[7] |
|
[8] |
|
[9] |
|
[10] |
|
[11] |
|
[12] |
|
[13] |
|
[14] |
|
[15] |
|
[16] |
|
[17] |
|
[18] |
|
[19] |
|
[20] |
|
[21] |
|
[22] |
|
[23] |
|
[24] |
|
[25] |
|
[26] |
|
[27] |
|
[28] |
|
[29] |
|
[30] |
|
[31] |
|
[32] |
|
[33] |
|
[34] |
|
[35] |
|
[36] |
|
[37] |
|
[38] |
|
[39] |
|
[40] |
|
[41] |
|
[42] |
|
[43] |
|
[44] |
|
[45] |
|
[46] |
|
[47] |
|
[48] |
|
[49] |
|
[50] |
|
[51] |
|
[52] |
|
[53] |
|
[54] |
|
[55] |
|
[56] |
|
[57] |
|
[58] |
|
[59] |
|