Skip to content Skip to footer

基因泰克和斯坦福大学的人工智能驱动的遗传扰动实验方法

image-20231228221953446

ULZ公司博士:

- 基因泰克和斯坦福大学合作开发了一种革命性的遗传扰动实验方法。

- Perturb-seq是一种通过评估对遗传干扰的表达反应来了解基因和细胞功能的技术。

- 由于生物学背景的复杂性和非累加性遗传相互作用,出现了挑战。

- 机器学习用于预测扰动结果,但由于选择偏差而面临可靠性问题。

- 一种新的范式将湿实验室实验与机器学习模型训练的最佳设计方法相结合。

- 引入了主动学习原则,但由于资源限制而面临限制。

- ITERPERT是一种新方法,它用公开的先验知识来源补充经验证据,并采用数据融合技术。

- ITERPERT的精度与现有方法相当,干扰更少。

- 此次合作凸显了跨学科研究在提高基因实验精度方面的力量。

主要AI新闻:

基因泰克和斯坦福大学是遗传学和细胞研究领域的两家领先机构,他们联手彻底改变了遗传扰动实验的格局。在合作中,他们开发了一种迭代的 Perturb-seq 程序,该程序利用机器学习的力量,在扰动实验的设计和执行中开创了一个高效和精确的新时代。

扰动序列在理解基因和细胞功能中的作用

这项开创性工作的核心是 Perturb-seq,这是一种进行混合遗传筛选的尖端方法。该技术依赖于评估细胞对遗传干扰的表达反应,利用单细胞RNA测序(scRNA-seq)作为其基石。Perturb-seq为复杂的基因调控世界提供了一个独特的窗口,使研究人员能够将细胞改造成特定状态,并发现具有治疗潜力的靶基因。

扰动空间的挑战

Perturb-seq的巨大潜力面临着其固有的复杂性带来的挑战。随着需要考虑的生物学背景、细胞类型、状态和刺激的不断扩大,所需测试的数量呈指数级增长。非累加性遗传相互作用进一步加剧了这些实验的复杂性,使得直接执行所有实验变得不切实际,特别是当可能性达到数十亿时。

机器学习是游戏规则的改变者

最近的研究通过利用机器学习的力量照亮了一条充满希望的前进道路。研究人员已经开发出算法,可以使用现有的 Perturb-seq 数据集作为训练数据来预测扰动、单个基因或基因组合的结果。虽然这些模型具有巨大的潜力,但它们并非没有缺点。在原始实验设计过程中引入的选择偏差给它们的可靠性蒙上了阴影。

扰动序列实验的范式转变

基因泰克公司和斯坦福大学的研究人员介绍了一种解决扰动空间的新方法。在这种范式中,Perturb-seq 检测在湿实验室环境中展开,而机器学习模型则使用交错顺序优化设计方法运行。在过程的每个阶段,都会进行数据采集和模型重新训练。为了保证模型预测未剖面扰动的准确性,采用最优设计技术对扰动实验的子集进行策略性选择。这种方法可以智能地对扰动空间进行采样,从而产生一个模型,该模型以最小的扰动实验彻底探索该区域。

主动学习的作用

这一创新战略的核心是主动学习的概念,这是机器学习中一个公认的原则。主动学习已在多个领域得到应用,包括文档分类、医学成像和语音识别。然而,成功的主动学习通常依赖于大量初始标记示例集,由于时间和预算限制,这种情况在迭代 Perturb-seq 的背景下被证明是具有挑战性的。

介绍ITERPERT:经济实惠的解决方案

为了解决Perturb-seq实验预算限制内的主动学习困境,研究团队提出了ITERPERT(ITERative PERTurb-seq)。这种方法从数据驱动的研究中汲取灵感,强调用公开的先验知识来源补充经验证据,特别是在早期阶段和资源有限的时候。这些知识来源包括各种形式的表示,从网络和文本到图像和三维结构。

利用知识融合的力量

为了克服在主动学习中使用不同知识模式的挑战,该团队采用了复制内核希尔伯特空间和内核融合方法。这种创新的融合技术融合了来自各种来源的数据,包括物理分子相互作用、来自可比系统的 Perturb-seq 数据以及采用不同模式的大规模遗传筛选。

在实证检验中取得巨大成功

研究人员使用从癌细胞系(K562细胞)获得的大规模单基因CRISPRi Perturb-seq数据集进行了广泛的实证研究。在与八种已建立的主动学习方法的正面比较中,ITERPERT展示了与性能最佳技术相当的准确性水平,同时利用的训练数据减少了三倍的扰动。此外,在考虑整个迭代过程中的批量效应时,ITERPERT在关键基因和基因组规模的筛选中表现出卓越的性能。

结论:

基因泰克和斯坦福大学的合作努力产生了一种改变游戏规则的遗传扰动实验方法。他们的创新技术,包括机器学习和数据融合,不仅提高了准确性,还解决了资源限制问题。这一突破为更高效、更具成本效益的基因研究铺平了道路,有望在基因和细胞疗法及应用市场取得重大进展。