干货｜做实验到底应该选取多少被试？

在这里插入图片描述
Hello，大家好！

这里是壹脑云科研圈，我是喵君姐姐~

我们都知道心理学实验一般是通过分析被试的一系列数据从而得到相应的结论的。那么，在进行心理学实验的时候需要多少被试？怎么去看实验的被试量够不够呢？

今天我们介绍2018年发布在PsyArXiv的预印本文章“Number of participants required for common designs in psychology: A power analysis”。

考虑到心理实验中常见的效应量要求为 d = 0.4，在实验被试量能够达到50人左右最好。

对于大多数研究设计和实验分析，一般都需要100、200甚至更多的被试量。

接下来我们将讨论如何确定“我的实验必须要有多少个被试？”

01
前沿背景

心理学研究者害怕被试过多的研究

由于一些心理学研究者受到的教育，他们会认为研究中过多的被试是一种浪费。但现实中我们可能低估了一个研究所需要的数据量。

一般情况下，当研究者在数据分析中获得一些效应的显著性，他们可能就会停止收数据，即使这些效应可能无法进行预测，之后这个实验也无法被复制。

目前研究者可能高估了数据分析中的效应量大小，低估了实验中所需要的被试量。

以往研究中的误区

第一个误区

如果以完全相同的方式再次进行研究，我们认为p < 0.05时显著的效果有95%的概率实验能被复制。

这是不正确的，研究成功复制的概率只有50%。

第二个误区

效应量只对0.05左右的p值有影响。

效应量告诉了我们实验结果对我们不利的几率，以致于我们无法发现显著性。

然而，实际上效应量对整个p值范围都有影响。

有效的研究往往需要更多被试量

我们通过比较两项假设性研究来说明这一点，每项研究都有一个重复测量的变量，有两个水平。在第一项研究中，在被试水平上没有效应（d = 0）。在第二项研究中，在被试水平上有 d = 0.4 的效应。

以下是每项研究10名、30名、100名三种不同被试量的情况。

在这里插入图片描述

研究公布的效应量很可能被高估了

发表文章中所引用的研究并不是都能找到所对应的文献。

研究者的主要动机是如何降低几乎显著结果的p值，这可能使实验带有偏向性。

02
案例分析

简单的数据分析：t检验和相关

d = 0.2 为小效应规模，d = 0.4 为中等效应规模，d = 0.8 为大效应规模。

根据这个分类，我们可以用d = 0.5作为最有可能的效应大小，并根据这个大小计算所需的被试人数。

以下是根据软件包（如G. Power）计算出来的 p < 0.05、双尾的检验所需的被试量。

独立测量t检验：两组，每组100名被试；

重复测量t检验：一组52名被试；

有人提出用贝叶斯分析来替代传统的统计。

当贝叶斯系数在10以上，被认为是替代假设的有力证据；贝叶斯系数在0.10以下，被认为是零假设的有力证据。

目前还没有贝叶斯分析的效应量计算器，但我们可以通过模拟来估计现有算法的效应。

组间贝叶斯分析：两组，每组190名被试；

贝叶斯分析重复测量：一组100名参被试；

贝叶斯分析相关性：370个数据对。

三个组间水平的单因素方差分析

当一个分类变量有三个水平时，不同水平之间存在不同的差异。

例如，当两个条件之间存在已知的差异时，就会对第三个条件进行检查，该条件预期会产生符合其中一个条件的结果，或介于两者之间的结果。

假设研究者现在想知道，在多大程度上，非关联的、语义相关的词启动了目标词（例如，mum-boy ）。

那么在一个实验中呈现这三种水平的目标词是有意义的；

(a)确保对目标词有一个启动效应；

(b)检查新的目标词相对于相关词的启动效应有多大。

我们假设两个极端水平之间的标准化效应大小为 d = 0.4。

有两种情况值得关注：

第一种是新水平与现有水平相似，并且与其他水平的效果大小为 d = 0.4；

第二种则是新的水平是介于其他两个水平之间（即与每个条件相差 d = 0.2）。

在这里插入图片描述

为了说明人们是如何误解效应量要求的，我们可以看看G. Power推荐的方差分析F检验（主效应、交互、单因素）。

对于这样的检验，G. Power需要用 f-coefficient 表示效果大小。f系数大致是比较有名的（部分）eta平方值的平方根，对于组间的成对比较来说，f = d/2。

当我们选择效应大小 f = 0.2（等于 d = 0.4），α = 0.05。

如果我们用这些数字进行模拟，我们发现总括方差分析有75%的时间是显著的，但只有49%的样本存在完整的模式。

之所以总括检验有80%的时间不显著，是因为引入第三个条件稍微降低了f值。

我们还可以对有三个独立组的设计进行贝叶斯分析。

新水平与其他水平之一相似：三组，每组230名被试；

新水平介于其他两个条件之间：三组，每组950名被试。

三水平的单因素重复测量方差分析

在这里插入图片描述

在相关样本的t检验中，效果大小d是基于差异分数的，你可以简单地用差异分数的平均值除以它们的标准差来计算：d = 17/17.7= 0.96。

我们大多数人可能会使用部分eta平方（η² p）作为效应大小的初始估计，因为这是大多数软件包给出的。

如果我们对表2的数据进行方差分析，我们得到 F(1,9) = 9.24，p = 0.014，η² p = 0.507。

在根据η² p估计d时，我们可能会出错的一种方法是，我们使用了经常被引用的从η² p到d的转换公式：

在这里插入图片描述

但是，这个公式只适用于组间。对于重复测量，正确的方程是：

在这里插入图片描述

这个方程之所以是近似的，是因为d是在N上计算的，而 η² p 是在df上计算的。如果我们在df上计算d。

在这里插入图片描述

N越大，方程的近似值越大。

在重复测量设计中，我们在计算 d 时可能会误入歧途，这是因为 d 可以有两种定义。

首先，它可以像我们刚才在差异分数的基础上所做的定义；

然而，d也可以定义为均值的差异除以均值标准差。那么就相当于d ≈ 17/[(52.2+57.2)/2] = 0.31（而不是d=0.96）。

其他相似的实验设计

我们可以用两种方法来模拟设计。

第一种方法是让重复测量之间的相关性等于 r= 0.50。我们知道，d z = d av。

在这种情况下（r = 0.50；dav = 0.4；在混合分析中p < .05；对人口水平不同的配对比较进行显著的单尾Bonferroni校正的事后t检验），我们看到需要以下被试数量：

新的水平类似于其他水平之一：75名被试；

介于其他两个水平之间的新水平：290名被试。

我们模拟数据的第二种方法是假设 r = 0.90 的相关性，并调整dav，使dz保持在0.4。我们通过重新编码来实现。

在这里插入图片描述

所需的被试人数应该与 r = 0.5 的模拟大致相同，因为它们确实如此。

新水平类似于其他水平之一：75名被试；

介于其他两个水平之间的新水平：300名被试。

对于贝叶斯分析（在综合方差分析和相关的事后检验中 BF > 10，非显著性对偶比较的 BF < 3），这些是我们需要的被试数量如下。

重复测量变量：r = 0.50

与其他水平之一相似的新水平：120名被试；
介于其他两个水平之间的新水平：540名被试。

重复测量变量：r = 0.90

与其他水平之一类似的新水平：125名被试；
介于其他两个水平之间的新水平：540名被试。

双因素重复测量方差分析

首先是我们要控制一个可能的额外变量。

在这种情况下，我们主要对目标变量的主效应感兴趣。

所以，我们假设变量A的 d = 0.4，变量B的 d = 0.0，A与B没有交互作用。重复测量变量 A（d z = 0.4）和 B（d z = 0.0）无交互作用。

F检验(P = 10)：52名被试。

所需被试的数量大约是配对样本t检验的一半。

这是因为A的效应在B的两个水平上都能观察到，而且我们对每个被试的观察次数是其两倍（四个而不是两个）。

其次，我们希望在设计中包含两个变量，并且我们对变量之间的交互作用感兴趣。

在这里插入图片描述

在2x2设计中，具有最小规模的效应（变量A，变量B，A与B的交互作用）无法解释。

作为一个经验法则，当线在某一点上相互接触或交叉时，交互作用不会小于两个主效应。

这些都是80%的效应与实验的被试数量有关。

F检验（综合检验中的交互作用 p＜0.05；变量B的事后t检验，变量A的差异 p＜ 0.10/2[单尾，Bonferroni校正]；变量B的事后单尾t检验，变量A无差异 p＜ 0.10/2)：105名参与者

贝叶斯检验(交互作用BF > 10，BFs 事后检验 > 10)：200名被试。

一个重复测量变量和一个组间变量的方差分析

在第一种情况下，组间变量预计不会产生主效应，也不会与重复测量变量相互作用。它只是增加了设计的复杂性。

对于这种情况，以下是重复测量变量的主效应达到80%幂的数字，等于d = 0.4。

F检验（P 10）：两组，每组50名被试。

在第二种情况下，拉丁方与重复测量变量的主效应相互作用。

F检验(P 10）：两组，每组50名被试。

两组效果相反，交叉互动（d = +0.4和d = -0.4）。

F检验（p < 0.05）：唯一的交互作用显著：两组各27名被试。交互作用加两次事后检验显著：两组名被试。

贝叶斯分析(BF > 10）：只有交互作用显著：两组各50名被试。

交互作用加两次事后检验显著：两组各125名被试。

如果我们只看交互作用的显著性，那么两组各27被试就足以进行F检验。

要想有完整的模式，我们需要两组67个被试进行F检验，两组125名被试进行贝叶斯分析。

所以，在所需被试数量方面，被试内设计并不比被试间设计更有说服力。但它确实提供了更多的信息，因为它增加了组间变量可能的主效应，以及重复测量效应的组依赖性的信息。

结论和讨论

对于很多研究问题，少于100人的研究都是不足以说明问题的

综上可见，在每个主体间组的样本低于N = 100名被试的情况下，很少有研究能够说明问题。唯一的例外是用重复测量分析一个变量两个水平的主效应（p＜ 0.05）。

如今，更大的样本量比以前更容易运行的，越来越多的研究可以通过互联网进行。

对于研究，我们需要新奖励制度

被试量不足的研究之所以不断发表，主要原因是目前的奖励制度有利于此类研究。

未来，我们希望更多效应量达到 d = 0.4 的研究进行发表。

关于p＜0.05 和 BF＞10 的不同数据分析结果

贝叶斯分析的倡导者选择了一个更严格的标准来接受 "重要 "的结果，这减少了不可复制的假阳性被公布的机会。

因此实验需要更多的被试数量。

通过对每个被试在每个条件下的多次测量来增加实验的科学性

效应量分析中经常被忽视的一个问题是，误差可以通过增加每个被试的测量值来减少。

这对重复测量设计特别有效，因为这种设计的效应量除了取决于平均数的差异外，还取决于条件之间的相关性（即 d z 和 d av 的区别）。当相关性为 r = 0.8 时，d z ≈ 1.5 * d av ；当 r = 0.9 时，d z ≈ 2 * d av 。

作为审稿人和编辑，认真对待效应量

根据贝叶斯零假设显著性检验的效应量要求，审稿人和编辑应注重实验的被试量和效应量问题。

参考文献：

Brysbaert, M… (preprint). Number of participants required for common designs in psychology: A power analysis.

http://doi.org/10.31234/osf.io/2v4yx

内容 | 喵君姐姐
排版 | 右右
校对 | 蓝桉喵君姐姐

干货｜做实验到底应该选取多少被试？

相关文章

【Spring Cloud】Spring Cloud Alibaba 实战 Seata （分布式事务）

Datawhale-chatGPT用于句词分类

php xdebug配置

网安笔记03 DES概述

初学者自学Web安全的三个必经阶段（含系统路线脑图+工具笔记）

React学习1

5月10号软件资讯更新合集....

Dcoker高级篇

quill编辑器自定义音频、视频、行内style样式(字符边框、首行缩进)

【SpringCloud】Nacos安装与入门

设计师常用的7款界面设计工具!

Prometheus原理与二次开发

用递归算法删除不带头结点的单链表中值为x的值

深度学习技巧应用14-深度学习跨框架应用，ONNX实现模型互操作性

在Qt中设置程序图标的方法介绍

配置文件Application.properties

SpringBoot项目----图书管理系统（详解）

【大数据之Hadoop】二十九、HDFS存储优化

JVET-AD0081：一种基于外推滤波器的帧内预测模式

Linux常用命令（3）