Nature | π-HuB计划:蛋白质组学驱动的人类精准医疗与生命科学蓝图

2024-12-18 发布人:中原人工智能产业技术研究院 阅读原文

2024年12月11日,来自蛋白质组学国家重点实验室、北京蛋白质组研究中心、国家蛋白质科学中心、北京生命组学研究所和广东智慧医学国际研究院的贺福初院士联合瑞士苏黎世联邦理工学院分子系统生物学研究所生物系的Ruedi Aebersold及麦考瑞大学麦考瑞医学院的Mark S. Baker教授、卞修武院士、李明院士等世界顶尖科学家在Nature期刊上发表了一篇题为“π-HuB: the proteomic navigator of the human body”的前瞻性论文。该文章系统性地介绍了蛋白质组学在理解人类生物学复杂性、疾病诊断与治疗以及精准医学中的广泛应用。研究聚焦于通过多模态蛋白质组数据构建智能计算引擎π-HuB Navigator,目标是揭示人体关键分子机制,促进疾病风险评估、药物靶点发现和治疗策略优化。文章亮点包括如何利用单细胞和空间蛋白质组学技术绘制人体细胞、组织和器官的高分辨率蛋白质图谱,以及构建“Meta Homo Sapiens”模型,全面探讨蛋白质组在个体生命历程中适应外界影响的动态变化。此外,文章展望了如何通过人工智能推动蛋白质组驱动的精准医疗,开创疾病预测与干预的新纪元。

关键字

蛋白组学 | 精准医疗 |可解释人工智能 | 多模态数据整合

引言

人类基因组计划(HGP)提供了一份详尽的人类基因组图谱,并识别出了约20,300个蛋白编码基因。这证明了以数据为驱动的大规模协作“组学”项目在转变生物医学研究中的强大作用,为基因组学驱动的精准医学奠定了基础。人体由约37万亿个不同类型的细胞组成,这些细胞具有多样的形态和功能,分布于各种组织和器官中,且都共享几乎相同的基因组。此外,在个体生命期间,其体内的组织、器官和细胞经常会因环境变化经历广泛或可逆/不可逆的变化。自人类基因组序列发布以来的约24年间,研究团队发现,仅依赖基因组信息无法预测观察到的细胞和有机体的复杂性。

人类生物学及其复杂的机制与被称为蛋白质“宇宙”(或更科学地称为蛋白质组,即在特定时间由基因组在任何细胞或组织中表达的全部蛋白质)紧密相连。蛋白质作为细胞机制的基本功能元素,几乎参与所有生物过程,其意义不仅限于正常生理功能。在疾病的发生和发展过程中,蛋白质也是主要的参与者,同时它们还是大多数药物的主要分子靶点。因此,与基因组学提供的静态视图不同,蛋白质组学提供了关于人体动态适应变化条件的信息。继HGP时代之后,基于人类蛋白质组的研究成为生命科学和医学领域最令人兴奋且充满挑战的课题之一。

2001年,人类基因组序列发表的同时,一群蛋白质组学研究人员创立了国际人类蛋白质组组织(HUPO)。2010年9月,HUPO启动了首个国际协作项目——人类蛋白质组计划(HPP),其目标是通过质谱技术获得所有人类蛋白编码基因表达的高质量证据,并使其测量结果具备常规化和可靠性。自此,HUPO组织了多个研讨会以推动HPP的发展。十年后的2020年,HUPO的HPP项目团队描述了第一个高严谨性的人类蛋白质组图谱,覆盖了90.4%的标准人类蛋白质组,这一进展与HGP的十年成就相媲美。到2023年,研究团队已经检测到19,750个标准人类蛋白中18,397个(占93%),并生成了用于高度特异性目标质谱测量的参考光谱集,覆盖了99%以上的已注释人类蛋白。

HUPO成立后,在HPP框架下的生物学/疾病中心计划得到了扩展,旨在从多种生理和病理条件下测量和解释人类蛋白质组数据,包括蛋白质丰度、翻译后修饰(PTMs)、交互伙伴以及定位等。

第一个专注于人类器官的蛋白质组项目(人类肝脏蛋白质组计划)实际上早在2003年就由中国启动,作为HPP的先行者。这一项目揭示了肝脏蛋白表达谱和蛋白–蛋白相互作用,并发现了乙酰化在代谢调控中的主要功能作用。随后,其他组织或器官(如大脑、心脏、胃、皮肤和免疫细胞)的蛋白质组得到了表征,形成了基于器官/组织的初步人类蛋白质组图谱。同时,越来越多的与疾病相关的器官/组织蛋白质组得到了分析,例如中国人类蛋白质组计划、美国国家癌症研究所的临床蛋白质肿瘤分析联盟、瑞士的肿瘤分析项目、瑞典的人类蛋白图谱以及澳大利亚的ProCan项目。此外,近年来基于非质谱技术的方法提供了多种机会,在体液中发现反映个体健康或疾病状态的生物标志物。

尽管取得了显著的技术和计算进展,研究团队仅刚刚开始探索人类蛋白质组的复杂性,尚未完全发挥其潜力以实现生物医学突破(Box 1)。

2020年,中国科学技术部资助了由全球约40个蛋白质组学研究团队参与的合作项目,旨在规划未来与HPP相关的研究项目。自此,多个跨学科工作组成立,并组织了许多线下会议和网络研讨会,同时与政府和私营资助机构进行了交流。这些活动促使研究团队提出了一个“大科学”项目——人体蛋白质组导航计划(π-HuB)。该项目正在形成一个由中国和国际科学家组成的联盟,致力于从所有主要人体组织/器官和细胞类型中生成大规模蛋白质组数据集,并对数据进行前所未有规模的综合分析。

π-HuB项目旨在构建一个智能计算引擎,称为π-HuB导航器,整合多模态蛋白质组数据集,增强对人类生物学的理解,促进疾病风险评估和诊断,发现新的药物靶点,优化治疗策略,并推动智能化医疗的实现。

Box1:人类蛋白质组的复杂性

 

首先,在任何特定时间点,人类蛋白质组在多个层面上呈现出巨大的分子多样性,包括蛋白质的表达水平和降解速度、其功能状态(如翻译后修饰(PTMs)、蛋白–蛋白相互作用(PPIs)及其形状)、以及其细胞和亚细胞的定位。这些蛋白质及其特性共同塑造了人体约37万亿个细胞,这些细胞在形态和功能上呈现出极大的多样性。

其次,对于任何一个人类社会而言,人群的基因组多样性导致了更大的蛋白质组多样性。每个人都会拥有其独特的“私人蛋白质组”,进而呈现出独特的功能状态。

第三,在人的一生中,个体的蛋白质组具有高度的动态性,并会受到不同外部和内部因素的影响。这些因素包括:体细胞突变、人类微生物组(可以定义为居住在人体不同部位的微生物生态系统,例如肠道微生物)、生活方式(例如饮食、食物、营养补充剂、身体活动和药物)、体细胞突变的发生,以及外部环境的状态。这些因素与人类健康和疾病密切相关。

π-HuB 项目的三个核心目标

π-HuB 项目以支持国际和跨学科科学家的协作为使命,计划投资数十亿元人民币,历时三十年,致力于实现以下三个具体目标(图 1)。

图1:π-HuB项目的总体目标

探索人体基本原理

π-HuB 项目首先将人体分解为一个数字化的蛋白质组解剖学空间层次结构。通过利用快速发展的技术(例如单细胞和空间蛋白质组学),研究团队将数字化并持续优化人体的完整定量蛋白质组及细胞组成,包括所有主要组织/器官的细胞组成、个体细胞类型及单个细胞的蛋白质组成,以及细胞内的以蛋白质组为中心的分子网络(如翻译后修饰(PTMs)和蛋白–蛋白相互作用(PPIs))。借助多模态数据融合/整合技术的最新进展,尤其是深度学习或基础模型的快速发展,高分辨率的基于解剖学的蛋白质组数据将提供前所未有的机会,用于解码细胞/组织/器官的基本分子/细胞构建原理,并揭示生物过程的关键分子/细胞机制,即从蛋白质网络到表型的因果关系。

构建“Meta Homo Sapiens”模型

π-HuB 项目将深入研究个体生命周期内人类蛋白质组的动态变化,并在群体层面探讨人类蛋白质组如何适应各种影响健康结果的因素。整个人体状态空间将被转化为多个子空间,并通过多维度进一步剖析。具体目标包括:(1)追踪主要产前和产后阶段的蛋白质组轨迹;(2)分析复杂疾病的代表病例在发展和进程中的蛋白质组动态变化;(3)确定非遗传因素(如共生微生物组、生活方式和不同环境)对人类蛋白质组的影响。这些状态背景化的蛋白质组数据将与其他人类组学数据(例如 HuBMAP、Human Cell Atlas、Human Tumor Atlas Network 和 LifeTime Initiative 的努力)整合,并投影为一个数字化模型——“Meta Homo Sapiens”。该模型将在人体构成原理的基础上建立,使用三维解剖学层次结构记录器官、组织、体液和细胞在各个层次的数字特征。模型由时间序列框架构成,每个时间框架包含一个单位时间内测量和增强的蛋白质组数据,以代表给定时间点的人体状态。

构建π-HuB 导航器

π-HuB 项目的目标是实现以蛋白质组为驱动的“实践智慧”医学(phronesis medicine),这一概念来源于古希腊,指与特定情境中的实际行动相关的实践智慧。与传统或现有医学模式不同,实践智慧医学旨在开发能力以实现对人体状态的精确控制,从而预防疾病。这一能力应包括准确、高效的监测、诊断和治疗能力,以及高度稳健的决策能力,用于疾病预测、预警、预防、控制和健康管理。π-HuB 导航器将作为一种虚拟状态空间仪器,融合细胞、体液、组织和器官中的生理表型及以蛋白质组为导向的时空生化/生物物理信息。导航器将把“Meta Homo Sapiens”模型从初始身体状态转化为不同的次生状态,从而生成更贴近现实的模型。

随后,导航器将创建一个覆盖所有关键身体状态的状态空间,通过对每个模型在特定时期内的身体动力学进行模拟,从而解决基于非侵入性蛋白质组快照和纵向蛋白质组测量的结果预测问题。最终,研究团队将使用因果推断识别引发相邻关键状态间转变的潜在触发因素。每个状态空间可以看作一个拓扑导航图,其中每个节点表示由相应生物标志物定义的关键状态,每两个节点之间的边记录了从一个状态转变到另一个状态的触发因素。因此,构建这样的导航器将为追踪健康与疾病轨迹、定义疾病风险评估和早期诊断的重要因素,以及推动新疗法和智能医疗方法的发展提供机会,从而实现健康转变方向的有效重定向,助力长寿和繁荣生活的实现。

研究团队构建π-HuB 导航器的支柱

为了实现上述目标,该项目由六个关键支柱支持(图2)。

图2:π-HuB项目实施的关键支柱

人类生物样本

人类生物样本是π-HuB 项目的基础组成部分。为了实现上述目标,π-HuB 的样本可以分为以下几类:(1) 基于解剖学的样本,包括通过尸检在最高伦理标准下获得的新鲜器官、组织和活体样本;(2) 双胞胎队列用于计算观察到的种群变异的遗传成分,并在复杂疾病的病因学研究中控制混杂因素;(3) 基于种群的队列是来自全球不同地理区域、不同行为方式和不同环境的高质量生物样本横断面收集;(4) 纵向队列研究采用非侵入性或低侵入性方法,采集具有健康或治疗相关结果的定义暴露个体的样本,这些样本具有较高的采样频率。

在实践中,研究团队将首先使用现有的全球先进生物样本库中的样本,并愿意与其他资源密切合作。项目中的所有样本都需要有一致的临床和人口学注释,这些信息来自多种来源,例如问卷、身体测量、生化测试、医学成像数据、疾病易感性遗传变异记录以及可穿戴设备记录等。此外,这些注释应使用商定的元数据标准,这对于数据的可访问性、互操作性以及基于人工智能的数据整合至关重要。

测量技术的创新

考虑到该项目旨在以前所未有的分辨率和规模绘制人类蛋白质组,并计划在30 年的时间范围内完成,测量技术的进步对项目成功至关重要(图 2)。例如,迫切需要识别并测量单个细胞中微量蛋白质。近年来,基于质谱的单细胞蛋白质组学(SCP)技术取得了巨大进展。然而,将现有技术应用于数百万至数十亿个人类细胞的实际大规模分析仍然远未达到理想状态。目前,基于质谱的 SCP 技术能够测量单个细胞中大约 4,500 种蛋白质,但由于缺乏多路复用策略,样本通量仍是 SCP 分析的主要缺陷。

为此,研究团队将首先绘制细胞类型分辨的人类蛋白质组图谱,同时协调并支持国际社会努力加速和基准化跨平台与实验室的质谱SCP 技术。一旦能够在 π-HuB 数据收集中心实现 SCP 的相对较高分析性能(例如,每个细胞测量 3,000 多种蛋白质,通量约为每天 1,000 个细胞),项目将启动从人类样本收集 SCP 数据的计划。同时,研究团队将密切跟踪单分子蛋白质测序的新概念和新技术,这些技术具有显著潜力,可以在单细胞分析中实现广泛的序列覆盖。

此外,π-HuB 项目还将开发、整合并应用能够生成多维蛋白质组数据的稳健技术,这些数据能够指示蛋白质组的功能状态,例如翻译后修饰(PTMs)、结构状态、定位和相互作用,以及这些属性的特定环境相互依赖性。为此,研究团队将设立一个独立于自身技术中心的技术侦察部门,以识别和资助新兴技术。

由于技术将快速发展,项目初期获得的数据可能会被后期数据取代。然而,这些早期数据对于数据分析和整合工具的开发与基准测试、为领域内研究人员提供培训机会、演示项目联盟内数据和样本互操作性程序以及支持试点研究都具有不可估量的价值。此外,研究团队认为,如同人类基因组计划(HGP),项目也将分阶段推进,并定期发布高保真度的人类蛋白质组图谱“草案”,这些“草案”将通过新技术不断迭代成为更准确和完整的版本。

π-HuB 项目的关键技术

单细胞蛋白质组学(SCP):研究团队将全面评估最先进的 SCP 方法(例如,nanoPOTS、SCoPE-MS 和 scPiMS),并确定启动大规模人类样本 SCP 数据采集计划的适当时机。为进一步提高 SCP 分析的通量,鼓励在全自动纳克级样本制备技术和单分子蛋白质测序技术领域进行工程级创新也至关重要。

空间蛋白质组学:研究团队将在初期应用深度视觉蛋白质组学技术或其衍生技术,对不同细胞类型的蛋白质组进行空间分布分析。然而,新的空间蛋白质组学概念和技术仍需进一步开发,例如基于人工智能的组织成像导航、高通量像素格式采样、多模态数据采集和整合。

血浆蛋白质组分析:研究团队将采用基于质谱或亲和技术的方法对血浆蛋白质组进行分析。这些技术已被证明能够以高通量同时分析数千个血浆样本中的数千种蛋白质。

功能蛋白质组学:研究团队将专注于新型化学生物学和生物物理学方法,用于靶向并富集人类蛋白质组的原生功能状态。例如,最近的技术进展已使得在体检测蛋白质的亚细胞定位、动态变化和相互作用成为可能。

自动化机器学习(AutoML):π-HuB 项目旨在自动化大规模蛋白质组数据分析与解释的端到端机器学习应用过程。这包括定制机器学习模型的选择和优化,促进非专业人员访问复杂的多模态数据分析,并应对蛋白质组学研究中的挑战,例如蛋白质鉴定、定量与生物标志物发现、早期疾病诊断、优化治疗干预措施以及生物学过程的动态研究。

可解释人工智能(XAI):研究团队将开发 XAI 方法,为蛋白质组学分析的发现提供清晰且易于理解的解释,尤其是能够验证人工智能驱动的假设,确保人工智能的结论科学可靠且可解释,从而增强计算科学家和实验生物学家之间的信任与合作。此外,XAI 能够通过提供透明的决策过程,缩小人工智能模型与实际应用之间的差距,例如个体层面的疾病风险预测以及药物或药物组合对细胞状态的影响预测。

大型语言模型(LLM):π-HuB 项目将构建经过广泛生物医学文献训练的高级人工智能模型,理解并生成蛋白质组学领域的特定语言。这些模型预计能够分析并综合大量生物医学文本,从非结构化数据源(例如与蛋白质组学相关的研究论文)中提取洞见,并协助识别模式、潜在治疗靶点以及人类蛋白质组数据中的新关联。

计算技术创新

除了数据收集,研究团队的目标还包括开发数据整合、分析和解释的方法与工具(图2)。数据驱动的建模方法(如自动化机器学习,autoML)在逼近许多虚拟和现实系统方面已证明其强大功能。然而,将生物学的“黑箱”转变为数字系统通常无法提供能够在临床实践中被信任的任何智识性知识或见解。因此,π-HuB 项目将通过揭示人体的分子重建来推动生物医学的边界。

受数学直觉指导和假设提出的成功启发,研究团队将利用可解释人工智能(XAI)方法、大型语言模型(LLMs)以及其他尚未被构想的方法,解释适用于目标的人体深度学习模型,从分子到细胞再到器官和系统层面的分辨率不断提高,从而揭示生物事件的知识并建立构造理论。在此背景下,吸引人工智能从业者加入蛋白质组学领域将至关重要。利用这些新知识,研究团队将构建多个“白箱”原型 Meta Homo Sapiens 模型,作为 π-HuB 构建系统基础模型的关键前提条件。

研究团队相信,π-HuB 项目因其项目联盟所获取蛋白质组数据集的规模、一致性、注释与处理的高度一致性以及覆盖蛋白质组多个层次的特点,在应对数据科学挑战方面处于理想位置。

大科学基础设施

由于π-HuB 项目将分析大量人类样本(例如,来自人类器官的分选单细胞以及临床队列中的生物样本),因此需要超高通量的设施来进行数据的生产、收集和处理。这些设施理想状态下需要具备专业知识,并拥有高效、可重复的流程,用于处理人类样本、分析样本中的蛋白质组分子数据以及存储、传输、处理和解释这些数据。因此,研究团队将在全国范围内建立用于收集和处理多层蛋白质组数据的大科学基础设施/中心。

在π-HuB 项目第一阶段,最低要求是这些基础设施每天能够处理 1,000–2,000 个样本,并每天生成 1 TB 的质谱原始数据(按当前技术水平,随着技术和仪器的发展,这一数据量预计会进一步增加)。在中国,只有少数现有项目具备这种分析能力,其中包括用于“一站式”样本制备的自动化工作站、超过 40 台先进的高分辨率质谱仪以及名为“天河二号”的高性能计算系统。此外,中国的许多其他大科学基础设施和国家实验室也承诺支持 π-HuB 项目,为其提供最先进的单细胞技术、多模态跨尺度生物医学成像技术和基于云的高性能人工智能计算系统。

研究团队还与全球各大学或机构附属的研究实体现有基础设施合作,例如荷兰的蛋白质组学中心和澳大利亚的ProCan 项目,为 π-HuB 提供国际化支持。

开放资源

π-HuB 项目将高度重视国际化、高效的开放资源,包括标准、样本及其注释、数据和关键分析工具。与其他具有广泛适用性的社区大型资源类似,该项目需要一个开放共享的框架,以确保研究人员、资助机构和利益相关者之间的透明全球合作。在此框架内,研究团队将最大限度地重用已收集的人类样本并重新分析之前生成的数据,从而最大化科学进步的收益,同时最小化参与者隐私风险,并承认研究人员的贡献。

例如,所有π-HuB 生成的(非敏感)原始数据将通过多个成熟的数据门户直接向国际科学界开放,这些门户遵循“可查找、可访问、可互操作、可重复使用”(FAIR)数据原则,例如 ProteomeXchange Consortium 的 PRIDE 和 iProX。此外,研究团队将开发生物信息学基础设施,以将蛋白质组图谱整合到全球最受欢迎的蛋白质知识库 UniProt 中,使整个生命科学社区都能访问相关信息。

此外,该项目还将基于π-HuB 的分子和空间数据开发一个基于网络的 Meta Homo Sapiens 计算框架,使临床医生和患者能够免费查询医疗干预策略。

国际研究团队

第六个支柱是“人”,包括研究人员、软件工程师、临床医生、病理学家、项目经理、行政人员、财务人员、律师、商业实体等。π-HuB 项目的实施需要全球范围内大量人员在决策机构指导下协同工作,同时需要明确的治理和问责指导原则。

具体而言,π-HuB 项目将由执行委员会领导,并由顾问委员会监督。此外,能力建设和文化交流将促进国际研究人员在思想和研究成果的交流以及研究和智力文化方面的相互受益。为此,研究团队将设立若干奖学金/研究基金计划,推动这些交流,通过此类计划吸引更多的青年科学家参与这一富有远见的国际项目。

挑战

伦理问题

在π-HuB 项目的框架内,研究团队提出了若干措施以缓解蛋白质组学研究中发现的伦理和监管挑战。特别是在涉及人类样本的情况下,项目需建立一个关于伦理审批标准、患者/供体知情同意、样本注释本体、材料转移协议以及保密协议的通用、灵活且广泛接受的框架,以便获得来自不同地理区域政府的认可。此外,通过蛋白质组特征重新识别个人的风险需要仔细评估和管理。

为维护项目的伦理完整性并促进社会接受度,研究团队将成立一个专门的伦理委员会,其主要职责是监督项目的各个方面,包括生物样本的收集、分析、数据管理和信息发布。采取这种积极的伦理与监管合规态度,不仅将增强π-HuB 项目的科学可信度,还将加强公众的信任和参与。

大数据挑战

π-HuB 项目将与现有国际数据中心(如 ProteomeXchange 联盟)密切合作,以确保在蛋白质组学领域广泛采用的数据标准和管理规则的一致性。然而,该项目需要一个专门为 π-HuB 项目设计的适用数据中心。

首先,需要进行新的升级以存储和管理更多的元数据(例如临床信息),以满足项目的数据管理需求。其次,该中心应支持多组学和多模型数据管理与应用。最后但同样重要的是,它需要易于全球研究人员访问。研究团队将通过在不同国家建立分中心来实现这一目标,这些分中心既满足各国的法律限制,又通过总部的数据管理系统软件和技术支持符合π-HuB 项目的需求。

数据生成与整合

国际团队将采集来自不同模态的大量数据。因此,确保各团队生成的数据具有可比性和可整合性至关重要。研究团队将首先确保所有人类样本在采集、注释、处理、存储和追踪方面均按照标准操作程序(SOPs)进行。此外,为确保每个数据采集团队能够生成高质量且统一的蛋白质组数据集,π-HuB 项目将采用 HUPO 蛋白质组标准倡议(PSI)原则,对基于质谱和非质谱的最先进方法在样本制备、方法设定、数据采集、处理和误差控制等方面进行标准化,并为每个步骤制定 SOPs。

考虑到方法发展的速度,研究团队还将开发并共享标准、测试样本和基准数据,帮助各研究中心为新技术更新SOPs。

此外,需要开发具有强泛化能力的新型计算方法和机器学习模型,以进一步完善蛋白质组数据分析(例如质量控制、数据清洗、标准化和缺失值填补),并解决多模态和跨中心/实验室测量中可受益的问题。

研究团队将开发一个集中式、基于云的交互平台,用于数据共享和分析,平台将托管用于数据处理、整合和解释的标准化工具和流程。最后,研究团队还将为联盟成员提供全面的培训和支持,确保其熟悉并遵守SOPs 和计算工具。这些努力将推动 π-HuB 数据的流动性,支持通过新算法发现新的洞察,并开发统一多组学层的新模型。

建模

π-HuB导航器将基于由计算驱动的Meta Homo Sapiens人类蛋白质组模型进行构建,这是一项极其复杂的任务。研究团队的初步计划中,该模型将由三个基本模块组成(图3):(1)状态标识器,通过以蛋白质组为中心的测量对人体的不同状态进行编码,在状态空间中表示这些状态,随后通过多模态大语言模型(LLM)整合人体的表型信息;(2)谱系追踪器,用于量化在不同生理/病理/治疗条件下每对状态之间的转变概率,例如,这些状态之间的概率可以通过蒙特卡罗方法进行估计;(3)路径规划器,通过平衡疗效、经济成本以及个体依从性等各种目标,搜索最优治疗路径。

图3:π-HuB导航器的基本模块

蛋白质组学的普及化

与基因组学及其相关的测序技术相比,蛋白质组学的潜力尚未被公众充分认识,甚至许多临床医生也未完全意识到其重要性。因此,π-HuB项目的一个主要目标是在实现研究目标的同时,为临床医生和公众构建一个界面,以提高公众的认识和参与度。这种倡导将成为样本获取以及解决以疾病为重点的研究中最具影响力和紧迫需求的重要推动力。π-HuB联盟还将为临床医生、病理学家和患者提供培训和教育,使他们能够解读和使用蛋白质组学数据,并推动蛋白质组学驱动的发现应用于临床和医疗保健。特别是,该界面中提供的工具将协助研究人员和临床医生理解特定状态变化的生物通路,从而指导日常研究和临床实践。

成果与展望

主要成果:π-HuB 第一阶段

为了使π-HuB 成为一个广泛适用的项目,研究团队需要通过制定可交付成果和预期结果,将其设置为一系列在相对较短时间框架内开展的阶段性计划,从而最大限度地增强项目对社会的相关性。在启动和发展阶段(2024-2033 年,即“第一阶段”),他们将建立一个国际合作网络,通过推动方法学进步、对尖端技术进行基准化以实现标准化、构建数据整合和建模的计算基础设施等方式,为该项目奠定技术基础。同时,在相对较短的时间内实现以下主要成果也至关重要(表1)。

表1:π-HuB第一阶段的主要成果

细胞类型组织的基本原则

π-HuB 项目最终将支持生成来自不同祖源/种群的人群的所有主要人体器官和组织的单细胞分辨率图谱。然而,在第一阶段,他们将首先使用尖端的流式分选技术和并行质谱采集平台,为所有主要器官构建参考细胞类型蛋白质组图谱。此外,快速发展的空间蛋白质组学技术将提供关于分泌蛋白在周围微环境中的作用以及蛋白质组在组织、细胞和分子水平上的亚细胞定位的更多见解。为此,研究团队将实施多种尖端的协同方法,包括基于质谱的、多重免疫亲和性技术和超分辨成像方法。此外,新兴的邻近标记和体内交联方法将使得在人类多种细胞类型中对蛋白质亚细胞定位、蛋白质复合物和蛋白质相互作用(PPIs)进行分析成为可能。这些分析将为揭示在每个器官内形成不同细胞类型和细胞状态的分子/细胞机制提供多样化的机会。结合尖端计算和生物信息学方法,这些细胞类型分辨的多维蛋白质组图谱将有助于揭示主要组织/器官的细胞类型组织构建原则。

基于蛋白质组学的生活方式指南

在第一阶段,研究团队将专注于塑造/重塑健康个体蛋白质组的主要因素。具体来说,他们将从大规模自然人群中收集大量生物液体蛋白质组,旨在:(1)绘制循环/组织蛋白质的定量性状位点(QTL)以及与疾病易感性相关的遗传变异所关联的蛋白质等位基因变体,构建致病通路;(2)通过定量分析五个主要产前周期(配子形成、受精、胚胎发育、胎儿发育和分娩)和五个主要产后周期(青春期、发育期、怀孕期、更年期和老年期)的生物液体蛋白质组的动态变化,追踪蛋白质组在人的生命周期中的轨迹;(3)分析四种主要饮食营养模式(西方、日本、地中海和生存型饮食)对人类生物液体蛋白质组的影响;(4)根据 Köppen-Geiger 气候分类图,将人群分为六种主要生态环境(热带、温带、寒带、干旱、极地和高原),分析人在适应过程中的蛋白质组轨迹;(5)绘制人类肠道和皮肤蛋白质组与来源于内外环境的代表性微生物组的相互作用,并构建人类蛋白质组对微生物组响应的适应轨迹;(6)绘制人类蛋白质组对药物、饮食和运动等各种临床干预策略的响应。这些分析将生成与上述生命周期状态相关的人类蛋白质组特征资源。此类资源将通过神经网络或大语言模型(LLMs)开发蛋白质组健康评分,从而制定基于蛋白质组学的生活方式指南。

蛋白质组学驱动的精准医学的推广

在过去十年中,越来越多的证据表明蛋白质组学方法可以促进疾病的机制理解,同时加速生物标志物的发现并优化治疗开发。特别是,仅通过蛋白质组学已经能够为许多肿瘤类型以及其他多种疾病识别潜在的生物标志物或治疗靶点。然而,尽管取得了这些进展,大多数蛋白质组学研究中关于人类疾病的发现尚未得到验证,由数据生成的治疗建议也尚未被批准。例如,大多数通过蛋白质组学研究识别的潜在生物标志物来自小规模的回顾性研究,缺乏在更广泛人群中推广此类标志物使用的基础。π-HuB 联盟,由多学科研究人员和临床医生组成,为通过蛋白质组学方法重新构想生物标志物的发现提供了前所未有的机会。因此,研究团队认为,在π-HuB 的框架下,组织大规模、国际多中心队列研究以验证新型生物标志物用于重大疾病的早期和伴随诊断将更加可行。研究团队计划绘制十个主要器官及其相关生物液体在不同病理生理阶段的蛋白质组,重点关注每个相关器官的三到五种代表性疾病。这些分析将与前述具有细胞类型分辨率的组织蛋白质组图谱和生命导向的适应性蛋白质组图谱相结合,允许构建与特定生命阶段和生存条件相关的蛋白质组进化轨迹,从而绘制疾病发生和发展的路径。此外,π-HuB 项目将积极与临床医生、政策制定者和工业合作伙伴合作,推动新的基于蛋白质的生物标志物和药物靶点的发现,并将其应用于临床诊断和药物开发,推动蛋白质组学驱动的精准医学范式转变。

展望

自2020年成立以来,π-HuB联盟已发展成为一个拥有超过100名成员的国际合作力量,动员了来自学术界、工业界和政府部门的科学家,专注于蛋白质与健康科学领域。研究团队的π-HuB项目通过整合来自全球多学科科学家的研究成果,促进了全球范围内的进一步合作与讨论,旨在更好地理解人类生物学,并推动医学从疾病轨迹预测迈向新治疗方案的开发。

研究团队预期,π-HuB项目将在未来几十年对生物医学研究做出重大贡献,帮助实现疾病的预防与诊断,加速药物研发,并最终开启一个由蛋白质组学驱动的智慧医学(Phronesis Medicine)时代。

链接

  • 引文:He, F., Aebersold, R., Baker, M.S. et al. π-HuB: the proteomic navigator of the human body. Nature 636, 322–331 (2024).
  • 原文链接:https://doi.org/10.1038/s41586-024-08280-5                                                                                                                              

启发

这篇文章启示我们,未来精准医学的发展将深度依赖于蛋白质组学技术与人工智能的融合。通过对单细胞、空间蛋白质组等多模态数据的全面解析,我们能够以高分辨率揭示细胞、组织和器官的动态分子机制,为疾病早期诊断和个性化治疗提供可靠的科学依据。同时,文章中提出的Meta Homo Sapiens模型启发我们,生命过程中的动态变化不仅是静态基因组信息的表达结果,更受到蛋白质修饰、相互作用和环境适应等多因素驱动。人工智能技术,尤其是可解释性强的深度学习方法,在蛋白质组数据整合与因果推断中展现出巨大的潜力,能够识别复杂生物网络中的关键节点和触发因素,从而实现疾病进展预测和干预策略优化。此外,研究还强调了构建蛋白质组健康评分系统的重要性,为个体健康管理和社会化医疗提供了全新的方向。这启示我们,在未来的生物医学研究中,数据驱动的多层次分析与模型化将成为揭示生命规律和推动医疗创新的核心工具。

未来我们可以将实时单细胞蛋白质组动态监测技术与强化学习驱动的动态干预策略相结合,以实现更精确的疾病预测与干预。将当前的单细胞蛋白质组学(如空间蛋白质组学和单细胞质谱技术)与实时动态监测工具结合,利用纳米传感器等前沿技术实现对蛋白质表达、修饰状态及细胞内信号网络的实时捕捉。同时,利用强化学习算法,构建基于时序数据的决策模型,持续优化干预策略。这种方法能够实时捕捉细胞状态的动态变化,识别早期疾病标志物,并通过动态调整治疗干预(如药物剂量、免疫调节)来优化治疗效果。此外,强化学习的反馈机制能够持续学习新的病理特征,实现个性化治疗的动态优化。