地址链接:《动手做科研》06. 如何产生新的研究想法
欢迎加入我的知识星球,定期分享AI论文干货知识!
导读: 提出好的研究想法是相当困难的,特别是当你刚接触一个领域时——这需要对文献中的空白有所了解。然而,产生研究想法的过程可以在阅读一篇研究论文之后就可以开始了。
在这次课程中,我将与你分享一套框架可帮助你生成自己的研究想法。首先,你将学习如何应用一个框架来识别研究论文中的空白(别人没研究过),包括研究问题、实验设计和发现等方面。接着你将学习如何应用一个框架来基于一篇研究论文生成想法,思考感兴趣任务的要素、评估策略以及所提方法。最后,你将学习如何应用一个框架来迭代你的想法,以提高它们的质量。
本次课程的结构是这样的:首先,你需要通过阅读两篇指定的研究论文来做准备,然后我们将运用这些框架到你已阅读的论文上。
本教程目标:
- 能够识别研究论文中的空白,包括研究问题、实验设置和研究发现。
- 能够基于研究论文产生新想法,考虑感兴趣任务的元素、评估策略和提出的方法。
- 能够迭代自己的想法以提高其质量。
准备工作
在开始这次讲座之前,建议阅读CheXzero(“通过自监督学习从未标注的胸部X射线图像中检测病理的专家级方法”)和CLIP(“通过自然语言监督学习可转移视觉模型”),以便能够跟上讲座中引用的示例。
参考我们之前的笔记,了解如何阅读研究论文。
识别论文中的空白,所有研究论文都存在空白——未被问及的问题、实验设置中的不足以及与先前工作的比较上的差距,这些空白往往指明了未来研究的重要方向。
接下来,我将分享一些识别研究论文中空白的方法,并以CheXzero论文为例进行说明。
1.1 识别研究问题中的空白
写下论文的核心研究问题,然后写下支持该核心问题的研究假设。研究假设是对“研究者预测研究结果的精确、可测试陈述”,并非所有假设都会明确陈述,你可能需要从所执行的实验中推断。
现在,你可以观察总体研究问题与研究假设之间的空白——哪些假设尚未得到检验?
示例答案:
研究问题:算法在无明确标注的情况下能多好地检测疾病?
研究假设:
一个基于胸透报告自我监督训练的模型(CheXzero)可以完成病理分类任务,其准确度可与放射科医师媲美。
CheXzero在病灶检测上能超越完全监督模型。
CheXzero在疾病分类上优于先前的自我监督方法(如MoCo-CXR、MedAug和ConVIRT)。
空白:
CheXzero是否能检测从未在报告中隐含出现过的疾病?
即使使用少量的图文报告语料库,CheXzero是否仍能保持高水平性能?
1.2 识别实验设置中的空白
现在我们已经确定了研究假设,可以看看实验设置——在这里我们可以关注空白方法的评估方式是否有不足?比较的选择或实施方式是否有缺陷?
最重要的是,实验设置是否能决定性地测试研究假设?我们不看实验结果,而是看实验本身的设置。
示例答案:
研究假设(实验设置):
- 一个在胸部X射线报告上训练的自监督模型(CheXzero)可以以与放射科医生相当的准确性执行病理分类任务。
- 使用单一机构的500项研究的测试集进行评估,参考标准由多数投票确定——类似于先前的研究。比较是在5种疾病上进行,使用3名持证放射科医生的平均值进行F1和MCC指标的比较。
空白:
假设1:放射科医生的数量可能太少,无法决定性地证明与放射科医生完全可比。也许需要了解放射科医生的经验/培训,以更精确地定义什么构成放射科医生级别的表现。
假设2:评估的病理数量受到测试集中样本数量的限制。评估更多的病理类别将更支持这些假设。
假设3:比较的自监督方法数量有限——选择了标签高效的方法ConVIRT、MedAug和MoCo-CXR。可以比较更多的自监督学习算法。
假设3:不清楚比较是单一模型还是集成模型,或者是否使用相同的训练来源。
1.3 通过明确和隐含的限制识别空白
现在我们已经识别了实验设置中的空白,接下来关注结果和讨论。
在这里,我们要寻找明确表达的工作限制。部分工作很容易,因为有时有一个明确的限制部分可以直接使用;或者可以从未来工作的陈述中推断出来。然而,有时方法的限制体现在结果本身,即方法失败的地方。
示例答案
明确列出:
- “自监督方法仍然需要反复查询标记验证集的性能,以进行超参数选择和计算MCC和F1统计数据时确定特定条件的概率阈值。”
- “自监督方法目前仅限于分类图像数据;然而,医学数据集通常结合不同的成像模态,可以从电子健康记录或其他来源整合非成像数据,或者可以是时间序列。例如,磁共振成像和计算机断层扫描生成的三维数据已经被用于训练其他机器学习管道。”
- “同样,有兴趣将该方法应用于其他任务,其中医学数据与某种形式的非结构化文本配对。例如,自监督方法可以利用描述诊断(如癌症)的病理报告,这些报告存在于组织病理学扫描中。”
- “最后,未来的工作应该开发方法,将该方法扩展到更大的图像尺寸,以更好地分类较小的病理。”
通过结果隐含:
- 模型在肺不张和胸腔积液上的MCC表现低于放射科医生。
- 模型在Padchest上的AUC性能在57个放射学发现中的19个发现中< 0.700,其中n>50。
- CheXzero方法在检测Padchest上的“No Finding”方面严重表现不佳,AUC为0.755。
生成研究想法
我们已经使用框架识别了研究论文中的空白,这些空白为改进提供了机会,但不一定总是清楚如何解决这些空白。
以下框架旨在帮助你思考可以在三条轴线上构建研究论文,我们再次应用此框架到CheXzero示例。
2.1 改变感兴趣的任务
- 你能否将主要想法应用到不同的模态?
- 示例:病理幻灯片通常有相关的报告,你能否将病理幻灯片与报告配对并进行疾病检测?
- 你能否将主要想法应用到不同的数据类型?
- 示例:也许报告不一定是文本——也许我们可以将医学图像(例如病理幻灯片)与可用的基因组改变配对,并执行类似的对比学习。
- 你能否将方法或学习模型应用于不同的任务?
- 示例:也许CheXzero模型可以用于对象检测或图像语义分割?或者用于医学图像问答。
- 你能否改变感兴趣的结果?
- 示例:与其关注准确性,我们可以检查CheXzero对比学习方法的鲁棒性特性,或者考虑方法的数据效率或其在不同患者子群上的性能与完全监督的方法相比。
###2.2 改变评估策略
- 你能否在不同的数据集上进行评估?
- 示例:CheXzero仅考虑了CheXpert、MIMIC-CXR和Padchest。然而,还有其他数据集,包括非常不同类型的患者或疾病检测任务,例如深圳数据集(包括结核病检测)或Ranzcr CLIP(包括管道定位任务)。
- 你能否使用不同的指标进行评估?
- 示例:AUC指标用于评估判别性能,但它不能给我们提供模型校准的见解(概率输出是否反映了长期疾病结果的比例),这可以通过校准曲线来衡量。
- 你能否理解为什么某些方法效果好/不好?
- 示例:尚未探讨疾病特定词汇在报告中出现的频率与不同病理上的性能之间是否存在关系。这种关系可以通过实验证实,以解释在某些类别上的高性能和在其他类别上的低性能。
- 你能否进行不同的比较?
- 示例:我们可以解决许多未解决的比较,包括在Padchest上对放射科医生和模型的比较,这需要收集更多的放射科医生注释。
2.3 改变提出的方法
(提示:这组问题可能最适用于深度学习方法论文,然而我在其他研究子领域中也发现了类似的问题集。)
- 你能否改变训练数据集或数据元素?
- 示例:CheXzero在MIMIC-CXR上训练,这是少数几个同时具有图像和报告的数据集之一。然而,可以更改的是训练可以使用IU-Xray数据集(OpenI)进行增强,或者训练可以使用放射报告的另一部分(发现部分)。
- 你能否改变预训练/训练策略?
- 示例:CheXzero利用OpenAI模型的预训练权重,但有更新的检查点可用,这些检查点是在更大的数据集(LAION-5B)上训练的。此外,有修改损失函数的训练策略,包括掩码语言模型结合图像-文本对比损失,这些都是未来工作的探索领域。
- 你能否改变深度学习架构?
- 示例:而不是为图像和文本单独使用一个编码器,可以使用一个多模态编码器;这个编码器可以同时接受图像/图像嵌入和文本/文本嵌入。这个想法来自于视觉语言建模/预训练的进展。
- 你能否改变问题的表述?
- 示例:目前CheXzero问题的表述仅限于接受一个输入,而通常一份报告可以配对多张胸部X射线图像。可以将表述扩展为接受一个或多个可用的图像(视图)作为输入。
练习
使用上述框架识别CLIP(或者你自己领域里的一篇文章)的扩展创意。
迭代你的idea
你想到的idea在迭代中会变得更好,为什么一个想法可能不是一个好主意?原因包括:它们可能没有解决实际问题,它们可能已经发表,或者它们不可行。
那么,如何评估一个想法是否好呢?
3.1 搜索你的idea是否已被尝试
你的新idea可能已经被尝试过,尤其是如果你计划构建的论文不是最新的。我在这里做的一个练习是为你的新论文想法构建标题,看看谷歌是否会显示结果。关键有时是了解多种表达同一概念的方式,这需要理解相关工作。
示例
如果我对将CheXzero类似的方法应用于其他类型的数据感兴趣,我可能会搜索:
- 对比学习组织病理学文本(没有相关结果)
- 对比学习组织病理学基因组改变(返回匹配项)
阅读重要的相关工作和后续工作,通常相关工作或讨论可能明确指出有价值的替代方法:列出这些方法并开始阅读这些方法。你可能会受益于阅读描述你的实验将使用的数据集创建的论文。
如果你构建的论文已经存在很长时间,你可以通过使用**Google Scholar的“被引用”**搜索、在ArXiv
上搜索摘要或明确搜索感兴趣的任务以查看相关基准来找到基于该工作的论文,保持如之前课程中使用的阅读列表。当你在这个阅读列表中论文时,好的idea会开始自我强化。
**示例:**对于CLIP论文
-
Google Scholar 被引用
-
ArXiv 搜索
-
谷歌具体任务
3.2 从前辈那里获得反馈
一旦你以书面形式写下了你的想法,接下来强烈建议从领域专家或者前辈那里获得反馈。你可以给相关领域前辈写邮件,分享你的想法和计划,并询问他们对你的idea的看法.
最好的办法就是问自己的导师,相关领域的师兄师姐,或者互联网上的同学,当然要辩证的看待,因为当你深入调研一个领域之后,你要相信你已经是有一定判断能力的。
练习
现在拿出你为CLIP提出的最佳创意并在谷歌上搜索,并写下你找到的内容。
3.3 具体例子
现在,你已经看到了如何开始识别空白、提出创意并迭代它们,让我们看看人们在过去两年中如何识别CLIP中的空白并发表论文的。
3.3.1 改变感兴趣的任务
CheXZero
VideoCLIP
Florence
练习
阅读你选择的上述论文,分享它如何改变任务。
3.3.2改变评估策略
LIT:Zero-Shot Transfer with Locked-image text Tuning
Evaluating CLIPTowards Characterization of Broader Capabilities and Downstream Implications
练习
阅读你选择的上述论文,并分享它如何改变评估。
3.3.3改变提出的方法
示例:
ALIGN(Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision)
Florence:A New Foundation Model for Computer Vision