数据不满足正态分布，到底能不能用t检验？

启示号
健康养生
5天前
527

作者：大仙儿

T检验是我们医学科研工作中使用频率非常高的一种进行均值比较的统计方法。但是对于T检验的适用条件却似乎存在着争议。

有人说，应用T检验的前提是数据来自于正态分布的总体，因此在进行T检验前均需进行正态性检验，也有人说，在样本量比较大时，可不必在意数据是否来源于正态分布总体，因为中心极限定理告诉我们样本均数在样本量较大时可以近似为正态分布。

那么到底哪种说法正确呢？样本量较大时是否还要求数据服从正态分布呢？其实这个问题在统计学专业的教材中有非常明确的数学证明，数据不满足正态分布时，也是可以使用T检验的，但不完全是因为中心极限定理。（本文附录将介绍统计学教材中对该问题的数学证明，建议先看文末的附录再看结论）

1. 原始数据为非正态数据时使用T检验的条件

从文末附录的证明过程我们不难看出，样本量较大时，任意分布的随机样本均数比较，可以使用T检验，但足够大的样本量是关键条件。那么多大的样本量才算是足够大呢？实际上并没有唯一答案，这取决于原始分布本身偏离正态分布的程度，以及我们对近似性标准要求到底有多高。

经验来看，若只是稍稍偏离正态分布，可能大于30的样本量就够了（相信大家对这个说法有所耳闻），但若偏离比较大，则会需要更多，比如50以上，甚至100以上。这种近似是可以接受的，因为即便是我们通过正态性检验发现不拒绝正态性假设时才进行T检验，也无法保证原始数据一定就是完美的正态分布，正态性检验本身也是个近似。

2. 选择T检验还是非参数检验？

通常我们获得的建议是，如果通过正态性检验发现不拒绝正态性假设就用T检验，如果拒绝了就用非参数检验，例如对于两样本，通常是wilcoxon rank-sum检验。那么T检验与非参数检验之间该如何选择呢？

答案是，若原始数据比较符合正态分布，推荐用T检验，若偏离较大，建议用非参数检验。若样本量非常大，那么这两种检验都是可以的。

这是因为两种检验方法在不同条件下的power不同。当数据近似符合正态分布时，T检验几乎利用了所有的数据信息，因此最有能力发现差异，非参数检验利用的是数据间的次序关系，本身造成了一定的信息损失。

但是当数据明显偏离正态分布时，由于T检验依赖于较大的样本量才可以获得较好的近似，其power可能下降明显，不如非参数检验power高。

例如，理论上，对于两组正态分布数据，wilcoxon rank-sum 检验的渐近检验效率是T检验的95.5%，但若数据明显偏离正态分布，同等样本量下wilcoxon rank-sum 检验的power要更高一些。所以当你无法确定原始数据是否大致符合正态分布，而又需要提前确定分析方法时，用非参数检验会相对保险。

我们常常也会看到支持用非参数检验另外一些说法：非参数检验对原始分布类型没有要求，不需要额外假设，对于非对称数据检验中位数比检验均数更好。这其实也是误解。

就拿wilcoxonrank-sum检验来说，虽然其不要求数据来自于哪个具体的分布，但是要求两个样本的分布形状要大体相同，在这样的情况下，检验两组样本均值存在差异还是中位数存在差异，其实是等价的，都可以说明两组数据分布位置存在差异，因此不存在检验均数不正确的问题。

对于非对称数据用中位数进行描述，只是因为中位数能更好地代表数据的中心位置，但不代表中位数是唯一可以用来说明组间存在差异的统计量。而且非参数检验大多检验的是位置参数，中位数和均数同属于位置参数，因此也不能说非参数检验方法检验的就一定是中位数（当然某些非参数检验确实针对的是中位数），或者用了非参数检验就一定只能报告中位数。

3. 模拟验证

本部分将针对几个不同类型的分布，构造样本的t统计量，以验证该统计量是否近似为标准正态分布（或T分布）。

①首先假设数据总体来自正态分布。（总体均数为2，标准差为5，样本量50，重复抽样1000次）

②指数分布（总体均数为2，标准差为2，样本量分别为50/100，重复抽样1000次）

③两点分布（p=0.2，样本量为50/100/200/500，重复抽样1000次）

两点分布只有0和1两个取值，与正态分布差异巨大，但样本量到200以上时，样本t统计量也比较接近标准正态分布了。

附录

为了使读者对该问题有全面的理解，本文的附录将首先证明为什么原始数据符合正态分布时，样本均值的比较要用T检验；然后证明为什么原始数据不符合正态分布时，样本均值可以近似使用T检验，以及近似的条件。

原始数据符合正态分布，

样本均值比较时需要用T检验的证明

数据用什么样的检验方法进行分析，实际上取决于我们构造的统计量服从什么样的分布，只有服从这个分布，才可以利用这个分布的相关函数计算P值，如果实际上不服从这个分布，那么计算出的P值自然是不准确的。因此要证明以上问题，实际上是要证明原始数据符合正态分布时，我们构造的检验统计量符合T分布。

在开始证明前，我们需要先了解以下三个分布及其特征：

正态分布

正态分布大家应该都很熟悉了，它有两个重要的参数，一个是均值μ，另一个是方差 σ2。正态分布一个非常重要的特征是：如果有多个变量服从正态分布，且互相独立，那么它们的线性组合也服从正态分布，例如，若

X1 ~ N（μ1，σ12），

X2 ~ N（μ2，σ22），那么

aX1+bX2~ N（aμ1+bμ2，a2σ12+b2σ22），

aX1-bX2~ N（aμ1-bμ2，a2σ12+b2σ22）。

χ2分布

如果一个变量X服从标准正态分布，即 N（0,1），那么变量 X2服从自由度为1的χ2 分布。χ2 分布的一个重要特征是：n个相互独立的 χ2 分布的和也服从χ2 分布，且自由度为n。

T分布

如果变量 X 服从标准正态分布 N（0,1），Y服从自由度为 n 的χ2 分布，且X 和 Y 相互独立，则以下统计量服从自由度为n 的T分布：

我们称以上为T分布的标准形式。

因此一个统计量要服从T分布需满足以下三个条件：

变量X为标准正态分布变量
变量Y为卡方分布变量
变量X与变量Y独立

换句话说，如果我们构造了一个统计量，并且这个统计量满足以上三个条件，那么就可以证明这个统计量服从 T 分布。

现在，我们从正态分布 N（μ，σ2）的总体中抽取了一个样本，并计算该样本的均数（例如若中国60岁居民收缩压是符合正态分布的，我们随机抽取了1000人计算了平均收缩压用于研究），即，

我们把T统计量的计算公式进行一下变形：

对比一下前面介绍的T分布的标准形式：

至此，我们证明了条件B。

而对于正态分布的数据，其样本方差与样本均数独立，即条件C（证明见参考资料1），因此T分布成立的三个条件全部满足。

故 T统计量服从T分布，即，

以上我们证明了数据来源于正态分布总体时样本均数和样本方差构造的统计量服从T分布。

原始数据不符合正态分布，

样本均值比较时可以用T检验的证明

第三，总体服从正态分布时可以证明样本均数与样本方差独立，当总体不服从正态分布时独立性无法保证，因此条件C也可能不满足。

这样看来，原始数据不符合正态分布时样本均值比较好像不应该使用T检验，为什么本文说可以使用呢？其实本文在一开始就提到过，这个证明不完全取决于中心极限定理，因为还需要用到另外两个统计学中非常重要的定理。

定理1（又称Slutsky定理）：

设{Zn} 和{Un} 是两个随机变量序列，若

Zn依分布收敛于分布 Z，Un依概率收敛于常数 C，则有，

Zn+Un依分布收敛于Z+C
Un*Zn 依分布收敛于 C*Z
Zn/Un依分布收敛于Z/c (c不等于0)

注：依分布收敛可以简单理解随着样本量增大，变量的分布越来越接近一个特定的分布；依概率收敛可以简单理解为随着样本量增加，变量的取值越来越可能接近一个固定的常数。

定理2：

设{Zn} 为一随机变量序列，且 Zn依概率收敛于常数C，又函数 g(.) 在C处连续，则g(Zn) 依概率收敛到 g(C)。（即如果一个变量收敛到一个常数，那么这个变量经过某种运算后的值收敛到该常数接受同样运算后的值）

下面我们利用以上几个定理完成第二个证明。

由中心极限定理，上式中分子服从标准正态分布 N（0,1）；上式分母依概率收敛到常数1；由定理1，上式 t 依分布收敛到标准正态分布 N（0,1）。

到此，我们证明了任意分布下样本构造的 t 统计量趋向于标准正态分布（确实不一定符合 T 分布），那为什么说可以用 T 检验呢？因为：在样本量比较大时，T 分布是近似于标准正态分布的，因此 t 统计量对应的P值可由 T 分布近似计算。也就是说，样本量较大时，任意分布的随机样本均数比较可以使用T检验。

以上证明来自于参考资料2（P38-P42），有兴趣的读者可以查阅验证。

参考资料：

1.http://jekyll.math.byuh.edu/courses/m321/handouts/mean_var_indep.pdf

2.茆诗松，王静龙，濮晓龙. 高等数理统计第二版. 北京：高等教育出版社，2006

扫码关注“医咖会”公众号，及时获取最新统计教程！

你可能想看：

谈困境投资一个企业碰到困境，所有人开始抛弃它的时候，到底能不能做逆向投资，越跌越买？取决于满足两个...

一个企业碰到困境，到底能不能做逆向投资，1大的战略方向有没有问题？如果企业的战略是被新一代的企业封锁的，因为战略方向严重问题。如果未来的战略是没问题的，中短期几年内犯了错误，那么就不用过于害怕，如果一...

新员工到底能不能享受年休假？看完彻底疯了！

《企业职工带薪年休假实施办法》第三条职工连续工作满12个月以上的：是不是职工在本单位连续工作满12个月以上，还是说职工在不同单位连续工作满12个月以上？就可以算是职工连续工作满12个月以上了？既包括...

桑叶到底能不能降血糖，口说无凭，来看看证据！

李宏、钱永华在《桑叶对高血糖大鼠血糖、血脂以及体重的影响》（2008）中指出。通过用不同剂量的桑叶对四氧嘧啶所致高血糖大鼠进行连续5周不间断地添饲测试？结果发现桑叶具有降低大鼠餐后血糖峰值和延缓大鼠血...

对照一下：阴阳气血，到底哪虚！五脏六腑，到底咋调！

气虚无力、阳虚怕冷血虚发燥、阴虚发热 1.气虚 ②肺气虚：③心气虚：④肾气虚：小便色淡量多、夜尿多，3.血虚心慌心烦、失眠多梦健忘、唇舌色淡。4.阴虚 ②肺阴...

检验常见检验项目及仪器品牌大全（收藏）

检查、免疫检查、。微生物检查、临检检查项目：2）免疫检查；自身抗体检查。3）微生物检查；衣原体抗原检查；轮状病毒抗原检查；血液病形态学检查：

抖音运营系列课程03：抖音号注册不能忽略的几个注意点，关系到后期能不能上热门

很多做抖音运营的学员注册抖音号都很随意，那么我们在注册抖音号到底需要注意哪几个问题呢，今天创推学院就给大家开课讲讲抖音号注册的注意事项。多账号注册需要用手机4G网流量，所有同一wifi下注册的账号都有...

被取出珍珠之后的贝肉怎么办？到底还能不能吃？

珍珠蚌是种比较特殊的蚌类，但却没有意识到这珍珠蚌本来就是一种软体动物，这些挖掉了珍珠后的蚌肉怎么办？养珍珠的是哪些蚌类？成型的珍珠有机会生成椭圆以及圆形珍珠。蚌壳上我们经常会看到非常漂亮有光泽的花纹，...

你的数据到底有多重要？这些惊艳的数据可视化案例告诉你 | TED演讲

在本文中他分享了数据背后所蕴含的令人意想不到的重量，今天我想跟大家聊聊两件非常振奋人心的内容，但对苹果公司我不想说太多。没有事物可以像电脑那样改变我们的生活，但我其实也不想聊电脑的事儿。我想聊聊电脑上...

到底什么是感动式服务？为什么做了很多，顾客还是不满意？

感动式服务是这几年的企业经营和市场竞争中被经常提及的一个词？其实大家对于感动式服务的概念。多数人认为的感动式服务就是过生日送个蛋糕。这种方法能感动顾客吗，顾客已经被其它商家弄得很烦了，正常的顾客关系维...

要让心满足，不能靠财富，只能靠开悟

只要人生没有觉悟，抓住的东西越多越苦。做高做久靠精神。聪明的人做钞票，智慧的人做钱包。人若能看到钱以外更广阔的世界，钱本身永远是小钱，智者不求有钱，所以智者不会为钱伤人，缺钱之苦不在赚钱少，有钱之苦不...

祛斑方法根据不同色斑来祛斑最有效

每种色斑的成因都不同，因此针对不同的色斑有不同的祛斑方法，有斑的MM要做到分斑分治，这样才能达到最有效的祛斑效果，　　祛斑是由日晒造成的黑色素沉积造成的。雀斑的祛斑方法比较简单，使用美白祛斑面膜就可达...

【新提醒】桂枝去芍药合麻黄附子细辛汤医案（特别的怕冷，尤其觉得后背，盖上被子后不能有一点风，否则会浑身发抖，还有鼻子容易塞住，往往只能用嘴呼吸，十分不舒服）

特别的怕冷，我去年曾经用附子汤合真武汤、麻黄附子细辛汤治疗过，患者目前症状怕冷严重，鼻子容易塞住，冬天不怎么出汗，夏天偶尔会出汗，并且患者感觉自己的最近脱发严重，但是吃的稍微多一点就会有呕吐的感觉，月...

内科医生私下告诉我，治疗前列腺炎不能用消...

治疗前列腺炎不能用消炎药。一直以来都吃消炎药，我以前治疗患者的这类疾病，医生说长期的炎症拖下去会导致前列腺肿和性功能障碍，就是那些我曾经以为可以治好前列腺炎的抗炎药以及抗菌药。小王的症状很快就消失了。...

从孕妇不能用哪些药，谈中医是如何失传的

已有越来越多的人怀疑中医的理论和治疗效果。唐略老师从孕妇用药开始讲起，究竟孕妇不能用哪些药？属妊娠期间禁用的药品，属妊娠期间禁忌的药品，但有活血堕胎作用。都属于妊娠期慎用药。还有一些中成药也属孕妇禁用...

以色列向世界宣告: 疫苗不能用来抵御变种（奥密克戎）!

发现即使是mRNA疫苗也无法抵御变种，因为还没有足够的临床数据证明与该型毒株关联的危险性，（Omicron）毒株不太可能在接种人群中引发新一波的大流行，以色列在境内发现新变异毒株感染病例后，以色列接种...

下载49图库最新版为什么不能用

49图库最新版为什么不能用在数字化时代,图像资源的需求日益增长，而49图库作为一款广受欢迎的图片下载平台，其最新版的推出自然吸引了大量用户的关注，不少用户在尝试下载49图库最新版时遇到了无法使用的问题...

退休后10个常见心态分析和应对措施

目前退休的人有十大表现和心态，但有少部分人对原单位依恋心理严重，二是回想过去不知面对未来有的人退休后，面对的问题并不比在职时少。但心理上并没有退休，三是生活闲散没有具体安排退休前，是老年人普遍的毛病。...

步态分析：异常步态

异常或病理步态模式反应了通过保持行走的努力。患侧膝关节因僵硬而于迈步相时活动范围减小，迈步相患侧代偿性骨盆上提、髋关节外展、外旋。1、如脊髓损伤部位稍高且损害程度较重但能拄双拐行走时，呈痉挛性截瘫步态...

刹车与离合能不能一起踩？维修老师傅：不了解的，很伤车！

刹车与离合能不能一起踩？我们能一起踩刹车和离合器吗？你甚至想知道你是否能同时使用刹车和离合器”许多汽车爱好者把汽车刹车和离合器混淆了，汽车减速时应该使用刹车。但是他们不知道许多离合器和刹车是否可以一起...

早期食管癌做胃镜能不能筛查？可以的！

下图就是最近在放大胃镜下发现的一个早期食管癌患者。可以看到我画红圈的地方食管表皮黏膜发红、跟周边明显不一样。反流性食管炎、冠心病、食管鳞状上皮增生、神经官能症、癔球症等也都会引起上述表现。所以如果想早...

胃癌克星就是这4种！再挑食也不能不吃它们！

要预防胃癌必须从吃的东西入手。1、大蒜可以有效帮助预防胃癌！大蒜的防癌功效相信大家都有所耳闻，主要是因为大蒜可以显著减少胃中的亚硝酸盐，2、洋葱也是预防胃癌的好帮手，吃洋葱一方面可以降低体内亚硝酸盐的...

药不能不吃，但要多吃排毒的食物

多吃些养肝肾护肠胃的食物，常吃能使肠胃轻松排药毒。三款养肝补肾排毒粥：先将山药，枸杞洗净，放入碗中，加入面粉拌勺成面团。以汤匙舀入滚水中煮至浮起，加入5杯水煮开，改小火煮成粥，最后加入枸杞。煮熟的山药...

在零下71度的地方长大是什么体验？亚裔小姐姐分享极寒生活，看呆了！

人竟然能在这样寒冷的地方生活，所以很多人会买俄罗斯品牌的羽绒衣。那你的手指会很快冻住。人走在大街上很难看清周围的东西，冬天绝对不是旅游的好时节。卖菜小贩一整天站在外面吆喝，雅库茨克人特别喜欢向外地人证...

和兵哥哥谈恋爱是一种怎样的体验？

趁着这段时间给你打电话说三分钟”上下楼的时间赶紧给你打个电话说两分钟！我现在吃了饭正走着去办公室加班“我想这么说的时候都一次次忍住了”不必说现在这个样子是无法培养感情的“不必说天天加班至深夜是对身体有...

做三农自媒体是种什么体验？今天采访被各大网站转载，我说两句！

今天有粉丝在评论里说，他说你的采访被放到三农领域里面了，我在里面的采访内容，有人问我说秦老师你见过做自媒体有年入千万的吗？一个技能是拍的视频好看，第二个技能就是卖产品很厉害，就导致了很多很多的人回家作...

SEER数据库系列|SEER数据库基本介绍

美国国家癌症研究所（National Cancer Institute）的SEER数据库收集了大约30％的美国人口的癌症诊断。从简单地按人群中器官部位枚举癌症的发展到包括通过组织病理学和分子亚型（由驱...

T 数据检验样本量分布

上一篇
【每日】关于缓刑考验期内发现漏罪能否再次适用缓刑的问题

下一篇
周振兴：3分钟让你了解：建立行业100问的好处

数据不满足正态分布，到底能不能用t检验？

最新文章

1861图库总站

荨麻疹、湿疹、皮肤瘙痒症

瘙痒症资料汇编常见皮肤病治顽固湿疹特效良方

当代中医师灵验奇方真传——中药治疗湿疹

祛寒除湿散简单的用法

情人节收到老公送的礼物，儿子无意的一句话，我怒扇老公耳光

118印刷图库总站

教科版科学一年级上册期末试卷

热门文章

欣赏丨世界著名的60幅女人体油画，裸露但不低俗~

小六壬完整解释

小六壬神断口诀大全，掐指一算直断生死！

荨麻疹图片和症状：手脸脖子荨麻疹初期症状图片大全

亲戚关系图（关于中国亲戚称谓）家庭称谓大全，再也不用担心叫错了称呼

珍贵舌诊：脾肾阳虚、虚寒泄泻、胃阴虚的舌苔照，看完记得存！

倪海厦经典配方全集（六）——桂枝汤、大小青龙汤、五苓散等

“四川泸州油纸伞” 的第七代传承人余万伦古法制伞一辈子