小罗碎碎念
如果有人问,“从你熟悉的院士中挑选一个,你最先想到的会是谁?“,我会毫不犹豫的回答:张泽民
昨晚一边在操场锻炼,一边在手机里听着一个哈佛的博士直播做报告。听报告的同时,脑子里在回忆白天发生的事情,最后停留在了两条朋友圈的内容上:
- Transformer在单细胞的应用综述
- 张泽民院士团队的文献精读
报告的最后又是一个经典问题结尾——**讲者认为医学AI未来的发展趋势是什么?**哈佛的那位博士给出的回答是——做长时间且有价值的研究。还有一位西湖大学的老师,给出的回答,落脚点在数据。
发表一篇顶刊有很多因素
我们在微信直接搜张泽民
,可以看到北大在两个月前发的一个视频。
张院士在这个视频中提到,自己博士的时候经历了换导师、导师辞职创业,并且博士期间没有发表一篇论文。
张院士能有今天的成就,肯定是同龄人中的佼佼者,但即便如此,还是会经历很多挫折,因为我们在学生时代,能掌控的事情是很少的,但是只要你熬过来了,总能在众多风口中抓住一些希望,毕竟每一个时代,都需要一批带领大家前行的人。
当你成功的时候,过往的挫折会更加衬托你的优秀,所以大佬很喜欢谈自己不如意的过去。但是你最终如果失败了,众多因果皆会归于你自身。
一、张院士团队成果
1-1:成长经历
张泽民,男,1967年7月出生于河南省驻马店市,中国科学院院士,北京大学生物医学前沿创新中心(BIOPIC)研究员、主任,北京大学未来基因诊断高精尖创新中心研究员,北京大学生命科学学院教授,北大-清华生命科学联合中心高级研究员。
张泽民于1988年于南开大学生物系获学士学位;1989年由中美生物化学联合招生项目赴美国留学;1995年于美国宾州州立大学获博士学位;1995至1998年在美国旧金山加州大学进行博士后研究工作;1998年起任职于美国GENENTECH公司开始生物信息学研究,先后担任博士后导师、生物信息学部主任、生物信息首席科学家;2014年加入北京大学;2023年当选为中国科学院院士。
张泽民致力于应用机器学习和高通量测序等高新技术进行抗癌药靶和生物标记物的发现。
1-2:团队成果
这一部分简要分析张院士团队2023年~2024年发表的成果。
绿色底色标记的四篇文章是我下面会单独拎出来分析的文章。
二、张院士文献分析
2-1:2024年文献
Cell:肿瘤微环境中B细胞的异质性及其与免疫治疗反应的相关性
角色 | 姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Yu Yang | 北京大学生物医学前沿创新中心、北京大学跨学科高等研究院、北京大学生命科学学院 |
第一作者 | Xueyan Chen | 深圳湾实验室癌症研究所 |
通讯作者 | Dongfang Wang | 北京大学生物医学前沿创新中心、北京大学跨学科高等研究院、北京大学生命科学学院 |
通讯作者 | Min-Min Chen | 深圳湾实验室癌症研究所 |
通讯作者 | Zemin Zhang | 北京大学生物医学前沿创新中心、北京大学跨学科高等研究院、北京大学生命科学学院 |
这篇文章通过构建泛癌种单细胞图谱,揭示了肿瘤浸润性B细胞在不同癌症中的异质性,并特别关注了与良好预后相关的肿瘤相关非典型B细胞(TAABs)。
研究的主要发现和结论包括:
-
癌症类型中的B细胞异质性:研究发现,不同癌症类型中TIBs的丰度和亚型组成存在显著差异。
-
肿瘤相关非典型B细胞(TAABs):研究识别了一种与良好预后相关的B细胞亚群——TAABs。这些细胞在肿瘤中表现出克隆扩增和激活状态,并似乎与CD4 T细胞有互动。
-
B细胞亚群的表型和功能:通过单细胞RNA测序数据,研究揭示了TIBs在泛癌水平上的表型异质性,并鉴定了具有预后潜力的肿瘤富集亚群。
-
B细胞与免疫治疗反应:TAABs被预测为免疫治疗反应的预测因子,特别是在非小细胞肺癌和黑色素瘤中,治疗响应者倾向于在TAABs的表达上更高。
-
B细胞在肿瘤微环境中的作用:B细胞作为肿瘤相关抗原呈递细胞和抗体生产者,是连接先天和适应性免疫机制的纽带。
-
研究方法:研究使用了单细胞RNA测序技术,结合了多个已发表的研究数据集,并进行了严格的质量控制和过滤。
-
研究限制:尽管研究提供了关于B细胞在癌症中异质性的见解,但作者也指出了研究的局限性,包括某些癌症类型的样本可能存在采样偏差,以及缺乏与临床信息匹配的大型队列研究。
-
研究意义:这项研究为理解B细胞在癌症发展中的作用提供了新的视角,并为未来的B细胞相关免疫治疗策略的开发奠定了基础。
文章还包含了大量的技术细节,包括实验设计、数据分析方法和使用的特定工具和算法。
代码链接
- CellChat: 用于分析细胞间通讯的R包。在文章中,CellChat用于预测肿瘤微环境中不同细胞类型之间的相互作用,如B细胞与其他免疫细胞的通讯。
数据集
- GEO: GSE233236: 这是文章中提到的单细胞RNA测序数据集,用于构建人类B细胞的全面资源,并进行后续的分析。
- GSA for human: HRA000321: 这是文章中使用的人类单细胞数据集的基因表达综合分析数据集,用于支持文章中的研究结果。
- http://pan-b.cancer-pku.cn/: 这是一个网站链接,提供了文章中构建的单细胞B细胞图谱的可视化工具,允许用户进一步探索数据。
Cancer Cell:PD-1阻断治疗下结直肠癌患者肿瘤微环境与免疫动态的单细胞分析
作者类型 | 作者姓名 | 单位名称(中文) |
---|---|---|
第一作者 | Yuqing Chen | 北京大学生命科学学院,生物医学创新中心 (Biomedical Pioneering Innovative Center, Peking University) |
通讯作者 | Dongfang Wang | 北京大学生命科学学院,生物医学创新中心 (Biomedical Pioneering Innovative Center, Peking University) |
通讯作者 | Aiwen Wu | 北京大学肿瘤医院 & 研究所,胃肠道癌症中心 (Gastrointestinal Cancer Center, Peking University Cancer Hospital & Institute) |
通讯作者 | Zemin Zhang | 北京大学生命科学学院,生物医学创新中心 (Biomedical Pioneering Innovative Center, Peking University) |
这篇文章通过单细胞分析技术,揭示了结直肠癌患者在PD-1阻断治疗下肿瘤微环境和全身免疫系统的动态变化,以及这些变化与治疗反应之间的关系。
研究团队通过分析22名接受PD-1阻断治疗的患者的多个连续单细胞样本,绘制了CRC患者局部和系统免疫的演变图谱。
研究发现,肿瘤内的细胞程序表现出与治疗反应相关的协调动态。特别是,耗竭T细胞(Tex)或肿瘤反应性类似CD8+ T细胞(Ttr-like)与治疗效果密切相关,Tex细胞在PD-1阻断后与多种其他肿瘤富集细胞类型显示出相关比例变化。
此外,研究揭示了肿瘤中血液相关Ttr-like细胞的较少耗竭表型,并发现它们的含量更高预示着更好的治疗效果。最后,研究还发现循环CD8+ T细胞中与主要组织相容性复合体(MHC)II相关的签名在基线时与优越的反应相关联。
这些发现为PD-1阻断治疗后CRC中细胞动态的时间空间特征提供了见解,并为有效免疫疗法的系统免疫参与提供了进一步的证据。
文章的主要亮点包括:
- 揭示了人类CRC在PD-1阻断下的全面跨组织单细胞图谱。
- 发现局部协调的细胞程序表现出与反应相关的动态。
- 基线时较高的Ttr-like细胞浸润与更好的反应相关。
- 血液中Ttr-like细胞水平的增加有助于提高治疗效果。
研究结果有助于开发新的策略,以帮助更广泛的CRC患者群体。
代码链接和数据集
- 代码链接:
- GitHub 代码库: https://github.com/yqq-chen/CRC_ICB
- 这是文章中用于分析和可视化数据的源代码,包括用于数据处理、统计分析、图形生成和结果解释的脚本和程序。
- 数据集:
- GEO (Gene Expression Omnibus) 数据集:
- 人类CRC患者单细胞RNA-seq数据: GSE236581
- 人类HNSCC患者单细胞RNA-seq数据: GSE200996
- 人类NSCLC患者单细胞RNA-seq数据: GSE179994
- GEO (Gene Expression Omnibus) 数据集:
2-2:2023年文献
Cell:自然杀伤细胞在肿瘤微环境中的异质性及其免疫治疗潜力
这篇文章通过单细胞RNA测序分析揭示了人类自然杀伤(NK)细胞在不同癌症中的异质性和功能,为癌症免疫治疗提供了新的靶点。
研究团队通过单细胞RNA测序分析了来自24种癌症类型的716名癌症患者的NK细胞,构建了一个全面的肿瘤浸润NK细胞图谱。研究发现,NK细胞在肿瘤中的组成和功能表现出显著的癌症类型特异性异质性。
研究的主要发现包括:
-
NK细胞亚群的异质性:NK细胞可以根据肿瘤类型被细分为不同的亚群,表现出不同的功能特征。
-
RGS1作为组织浸润NK细胞的标志物:研究发现RGS1(调节G蛋白信号的蛋白1)是区分肿瘤和非肿瘤组织中NK细胞的可靠标志物。
-
肿瘤相关NK细胞(TaNK)的特征:研究识别了一种在肿瘤中富集的NK细胞亚群,这些细胞表现出受损的抗肿瘤功能,并与不利的预后和对免疫治疗的抵抗性相关。
-
LAMP3+树突细胞对NK细胞功能的调节:研究通过空间分析发现,LAMP3+树突细胞似乎在肿瘤中调节NK细胞的功能。
-
NK细胞的临床潜力:研究提供了基于NK细胞的癌症免疫治疗的见解,并强调了特定髓样细胞亚群在调节NK细胞抗肿瘤功能中的潜在临床应用。
文章还讨论了NK细胞在肿瘤微环境中的功能和相互作用,以及它们如何受到肿瘤微环境中其他细胞类型的影响。此外,研究还探讨了肿瘤患者外周血中NK细胞的变化,发现这些细胞在肿瘤进展期间表现出系统性变化。
这项研究为理解NK细胞在肿瘤免疫中的作用提供了新的视角,并为开发针对特定NK细胞亚群的免疫治疗策略提供了潜在的靶点。
代码链接和数据集
-
代码链接:
- Interactive explorer of human NK cells:这是一个交互式平台,用于分析和可视化本研究中的单细胞测序数据集。
- Code repository on GitHub:这是文章相关代码的存储库,包含用于数据分析、处理和可视化的脚本和程序。
-
数据集:
- GEO accession number:GSE212890,这是用于存储人类单细胞RNA测序数据的公共数据库GenBank的访问编号。
- GSA for Human:HRA000321,这是存储在Genome Sequence Archive (GSA)中的人类数据集的编号,用于存放大规模基因组数据。
- 公共人类癌症单细胞RNA测序数据集:文章中提到了多个公共数据集,这些数据集的详细信息在文章的补充材料中提供,通常用于比较分析或作为研究背景的一部分。
- Human breast cancer treatment-related scRNA-seq dataset:乳腺癌治疗相关的单细胞RNA测序数据集,GEO编号为GSE169246。
- Human melanoma treatment-related scRNA-seq dataset:黑色素瘤治疗相关的单细胞RNA测序数据集,GEO编号为GSE139249。
- Human lung cancer treatment-related RNA-seq dataset:肺癌治疗相关的RNA测序数据集,GEO编号为GSE135222。
- Human melanoma treatment-related RNA-seq dataset:黑色素瘤治疗相关的RNA测序数据集,GEO编号为GSE91061。
- Human metastatic urothelial carcinoma treatment-related RNA-seq dataset:转移性尿路上皮癌治疗相关的RNA测序数据集,IMvigor210。
Cell:从基因组学角度深入理解癌症
这篇文章通过癌症基因组学的视角,全面回顾了癌症生物学理解的加速进展,并探讨了未来治疗策略的发展方向。
文章的主要内容包括:
-
癌症基因组学的核心任务:全面绘制癌症驱动事件的分子基础,并提供个性化的治疗策略。癌症基因组学的研究重点从最初的癌症细胞本身,扩展到了整个肿瘤生态系统,包括不同的细胞组分及其功能状态。
-
癌症基因组学的发展:随着测序技术的进步,癌症基因组学已经从研究少数基因或肿瘤发展到大规模、全基因组、多组学和泛癌分析。这些研究不仅识别了癌症驱动基因,还加深了对肿瘤进化和异质性的理解。
-
癌症基因组学的主要里程碑:文章强调了癌症基因组学的重要进展,包括对癌症驱动基因、肿瘤分类、精准医疗的发展,以及肿瘤进化和异质性的系统描述。
-
单细胞技术的影响:随着单细胞技术的出现,癌症基因组学研究经历了范式转变,从关注癌症细胞本身转向整个肿瘤生态系统,特别是肿瘤微环境(TME)的概念。
-
癌症基因组学的未来方向:文章讨论了随着组学数据的爆炸性增长,如何利用这些发现来满足未被满足的医疗需求,并最终控制甚至治愈癌症。
-
癌症基因组学的基础研究:包括通过基因组学研究揭示的驱动基因、癌症细胞获得的一系列特征,以及非编码区的突变如何也可能驱动癌症。
-
多组学技术的补充视角:除了基因突变,癌症的恶性过程还可能涉及其他机制,如表观遗传重编程等。
-
大规模队列和改进技术的作用:大规模的癌症基因组学研究,如TCGA和ICGC,为几乎所有主要癌症类型提供了全面的分子图谱。
-
肿瘤分层和精准医疗:基于癌症驱动基因、表达谱和功能影响的肿瘤分层,为个性化癌症治疗提供了指导。
-
单细胞测序带来的先进癌症基因组学范式:单细胞测序技术揭示了肿瘤异质性的新理解,并推动了癌症基因组学领域的革命。
文章最后讨论了癌症基因组学的新前沿,包括对肿瘤组成的全面理解、通过液体活检预测核心肿瘤特征、以及如何通过单细胞多组学技术提供更深入的视角。作者强调,尽管癌症基因组学已经取得了巨大成功,但仍需持续的技术进步和国际合作,以实现治愈所有癌症的最终目标。
三、如何与人工智能结合
这一部分推荐五篇文献,都是顶刊。由于小罗目前对这一领域了解有限,所以下面的内容若有错误,烦请各位前辈批评指正!!
3-1:数字生物学与机器学习在预测T细胞特异性中的应用前景
这篇文章探讨了利用数字生物学和机器学习技术预测T细胞受体(TCR)与抗原特异性之间关系的可能性和挑战。
文章讨论了利用机器学习和实验生物学的最新进展来预测T细胞受体(TCR)与其相应抗原之间的特异性。尽管TCR在健康和疾病中的细胞免疫中起着关键作用,但目前从TCR到其配对抗原的可靠映射的计算重建仍然是系统免疫学的一个难题。
现有的数据集仅限于可能的TCR-配体对的极小部分,而且当应用于已知结合物之外时,最先进的预测模型的性能会下降。文章呼吁进行跨学科的合作,以解决预测TCR-抗原特异性的问题,并讨论了预测模型的一般要求、面临的挑战,以及数字生物学的最新进展如何可能提供解决方案。
文章最后强调,为了实现对T细胞免疫学领域的这些挑战的系统性解决方案,需要跨学科的合作,包括实验和计算免疫学家、机器学习专家以及转化和工业合作伙伴。
作者鼓励社区采取一系列行动,包括建立一个整合的TCR数据库、提高对不常见HLA等位基因和非病毒表位的TCR-抗原对的覆盖率,以及对现有的预测模型进行全面、独立和系统的评估。
3-2:计算免疫基因组学在癌症免疫疗法反应预测中的应用
这篇文章是一篇关于计算免疫基因组学方法在预测癌症免疫疗法反应中的应用的综述。
文章首先介绍了癌症免疫基因组学这一新兴领域,它结合了基因组学和免疫学的知识。随着大规模基因组合作项目和单细胞转录组技术的发展,研究人员能够对多种癌症类型的突变和转录特征进行表征,并识别出临床可行的改变以及预测性和预后性生物标志物。
文章详细讨论了研究人员开发的计算方法和机器学习算法,这些方法能够从大量组织的基因组和转录组测序数据中准确获取临床有用的信息,以及探索肿瘤及其微环境。文章强调了对这些测序和计算方法的真正潜力和局限性的理解,以便改进接受免疫疗法的癌症患者的管理。
文章分为几个部分,包括癌症内在特征(如肿瘤纯度和基因组肿瘤内异质性)和癌症外在特征(如肿瘤微环境)的分析,单细胞分析,以及对免疫检查点抑制剂(ICIs)反应的预测**。特别提到了肿瘤突变负担(TMB)作为预测生物标志物,以及特定基因表达谱(GEP)签名与对ICIs反应的联系**。
文章还讨论了用于分析癌症内在特征的工具,如肿瘤纯度和基因组ITH的估计,以及用于分析癌症外在特征的工具,如肿瘤微环境中免疫细胞比例的估算。此外,还提到了用于预测对ICIs反应的工具,如TIP、TIDE、Immunophenoscore、IMPRES和TREC等。
最后,文章总结了计算免疫基因组学方法在预测癌症患者对免疫疗法反应方面的潜力,并指出了这些方法在临床试验中测量患者接受ICIs治疗时的癌症内在和外在特征的可靠性和局限性。作者强调了需要进一步的研究和验证,以改进这些方法,并最终改善患者的治疗结果。
3-3:3D组织学技术与人工智能的协同应用
这篇文章讨论了如何通过结合组织透明化技术、组学分析和人工智能来推动三维组织学的发展,以实现对生物体细胞和分子层面的全面理解。
文章强调了单细胞转录组学揭示了跨物种和组织的细胞和分子多样性,但这些分子数据的三维空间背景常被忽视。作者讨论了如何通过深度学习和计算方法的发展,从大量的数据中提取有意义的见解,以及如何将结构、分子和计算方法的整合,以释放下一代3D组织学的全面潜力。
文章还探讨了组织学的历史和传统方法,以及如何通过组织透明化技术来克服传统方法的局限性。这些技术使得可以在细胞和亚细胞水平上对完整的生物样本进行成像,这对于研究如癌症发展和转移等多尺度过程至关重要。
此外,文章还讨论了在实现组织透明化、标记和成像方面的技术挑战,包括如何提高成像的特异性、速度和智能化,以及如何将机器学习整合到成像系统中以提高扫描质量和减少数据大小。
最后,作者提出了对未来3D组织学发展的展望,包括如何将分子数据映射到共同的参考框架中,以及如何使用人工智能工具来分析大规模的成像和分子数据集。文章强调了实现这些技术进步对于基础、转化和临床研究的重要性,以及它们在疾病机制理解和药物靶点发现方面的潜力。
3-4:深度学习在癌症基因组学和组织病理学中的应用
这篇文章综述了深度学习在癌症基因组学和组织病理学中的应用,并探讨了其在精准肿瘤学中的潜力和挑战。
文章首先强调了组织病理学和基因组分析在精准肿瘤学中的核心地位,这些技术通常用于癌症患者的诊断和治疗。
传统上,病理学幻灯片由训练有素的病理学家手动复查,而基因组数据则通过计算管道进行评估。随着现代人工智能(AI)方法,特别是机器学习和深度学习(DL)的出现,为从原始数据中提取可操作的洞察提供了一种全新的方法,这可能会增强甚至取代传统评估工作流程的某些方面。
文章总结了DL在组织病理学和基因组学中的当前和新兴应用,包括基本的诊断任务以及更高级的预后任务。基于越来越多的证据,作者认为DL可能成为肿瘤学和癌症研究中新型工作流程的基础。然而,文章也指出DL模型可能存在偏见和其他缺陷,这是医疗保健和研究人员需要了解的,并提出了解决这些问题的方法。
文章还讨论了DL在临床常规中的潜在局限性,并对未来的发展方向提供了见解。总的来说,这篇综述旨在不仅介绍该领域的最新发展,而且激励研究人员进一步贡献于这个话题并填补现有的空白。
文章的背景部分讨论了精准肿瘤学基于组织病理学和基因组方法,这些方法使得可以为患者应用合适的治疗方法。文章还提到了AI在生物医学研究中的应用,以及机器学习的三种主要方法:强化学习、无监督学习和监督学习。
在讨论DL在组织病理学中的应用时,文章提到了弱监督学习方法,这些方法的目标是预测整个WSI的“标签”。文章还提到了DL在基本组织病理学任务中的应用,例如预测诊断、亚型和肿瘤分级。
文章还探讨了DL在高级组织病理学任务中的应用,如预测治疗反应和患者生存。此外,文章还讨论了DL在临床基因组学中的应用,包括从基因组数据中预测突变和治疗反应。
最后,文章讨论了多模态方法,即将来自不同数据源的输入整合到模型中,以产生单一预测。这种方法利用了病理学图像和基因组数据的潜在协同效应,以提高模型性能。
文章的展望部分讨论了DL模型在精准医疗中应用的关键限制,并提出了克服这些限制的策略。作者强调了数据集大小、数据多样性、数据标准化和模型更新等挑战,并提出了可能的解决方案,如分布式学习、数据增强和模型可解释性。
3-5:利用Transformers解码单细胞数据的潜力与挑战
这篇文章综述了变换器(Transformers)在单细胞组学数据分析中的应用,并探讨了其在该领域未来的潜力。
文章首先介绍了单细胞组学数据的增长为研究细胞特性提供了前所未有的资源,但现有的单细胞模型未能充分利用这些数据。作者探讨了变换器架构及其在单细胞数据中的适应性,并全面回顾了变换器在单细胞分析中的现有应用,讨论了它们在未来单细胞生物学中的潜力。
文章的主要内容包括:
-
单细胞组学的发展:单细胞组学技术加深了我们对生物系统的理解,提供了细胞异质性和动态的细粒度视图。
-
变换器架构:变换器最初是为自然语言处理(NLP)任务设计的,但最近也被用作跨领域的基础模型。文章讨论了变换器架构及其在单细胞组学中的适应性。
-
单细胞输入数据的表示:由于单细胞组学数据通常不是序列数据,因此需要将其嵌入到适合变换器的格式中。文章讨论了不同的数据嵌入方法。
-
变换器在单细胞组学中的应用:变换器已被应用于多种单细胞任务,如细胞注释、细胞和基因表示学习、单细胞模态预测等。
-
建模单细胞数据的挑战:包括噪声、批次效应和数据稀疏性等问题。
-
基因和细胞注意力:变换器层由注意力层和前馈神经网络组成,能够捕捉输入嵌入之间的依赖关系。
-
编码器和解码器:变换器可以由编码器、解码器或两者组合构成。文章讨论了它们的结构和功能。
-
变换器的训练:介绍了自监督学习(SSL)在单细胞模型训练中的应用,如掩码语言模型(MLM)。
-
单细胞变换器的挑战和评估:讨论了在单细胞数据建模中使用变换器的挑战,以及如何评估模型的能力。
-
结论和展望:文章总结了变换器在单细胞组学中的潜力,并对未来的研究方向提出了展望。