在生物学和医学研究中,对数据的合理统计分析并绘制正确清晰的图表,是得出可信的科学结论,并完成高质量论文投稿的基本要求。本次“优选课程”主要针对在统计分析和绘制统计图表上感到困难的研究人员特别是广大研究生,着重介绍统计分析的基本知识,如何选择合理的统计检验,并举例介绍如何使用GraphPad Prism软件进行统计分析,并轻松绘制出符合论文发表需要的数据图表的方法。
一、基础篇
1. 统计分析的流程(收集数据、统计方法选择、统计假设、计算分析、得出结论) 统计假设:
零假设(H0):假定两组(或多组)数据间无差别
备择假设(HA):假定数据间存在差别
统计分析的基本思想为:假定H0成立,通过计算P值,接受(拒绝)H0,从而判定组间不存在(存在)差别。2. 数据类型和统计方法的选择
1) 参数参数&非参数化数据
参数化数据为(近似)符合正态分布的样本数据
非参数化数据为显著性偏离正态分布的样本数据
2) 配对&非配对检验
配对检验:用于同一个样本前后对比(例如同一病人给药前和给药后的反应)
非配对检验:两个(或多个)相互独立的样本(例如两组不同病人分别给药或是安慰剂)
3) 两组&多组比较
判定是否需要多组比较,主要看各组间是否为完全独立。
如果为不同时间点,则必须应用多组比较(存在联系)。
如果为严格的相互独立,可使用t-检验两两比较,或是多组比较(视乎需要)。
4) 单一变量&二重变量分析
单一变量:t-检验或单变量方差分析或Kruskal沃利斯检验
两个自变量:双因素方差分析)
事后检验(Post-hoc test):Kruskal沃利斯检验(Dunn’s test),单变量方差分析(Tukey’s test),双因素方差分析(Bonferroni test)。
3. 统计方法的选择(小结流程图)
二、进阶篇
在本篇的讲解中,我们从各个实例,看应该如何使用GraphPad Prism软件,进行统计分析并绘制出完美的数据图表。
1) 例一: 正态分布检验
样本A: 2,3,3,4,4,4,5,5,6
样本B: 2,4,4,4,6,6,6,6,6
非正态分布数据,应选择散点图类型 。
2) 例二:方差分析结果的解读—F值
| 野生型(Wild type) | 基因敲入(Knock-in) | 基因敲除(Knock-out) |
---|
动物前肢肌力 | 6.5 | 16.8 | 1.2 |
4.3 | 22.5 | 0.8 |
2.1 | 7.8 | 3.5 |
7.9 | 16.2 | 1.9 |
10.2 | 8.4 | 0.8 |
11.1 | 6.9 | 5.8 |
One-way analysis of variance:
P value | 0.0023 |
P value summary | ** |
Are means significant difference? (P < 0.01) | Yes |
Number of groups | 3 |
F | 9.393 |
R square | 0.5560 |
3) 例三:双变量方差分析的解读:交叉效应
训练次数 | 野生型(Wild type) | 基因敲除(Knock-out) |
---|
1 | 6.7±1.1 | 7.3±1.0 |
2 | 12.4±2.3 | 9.5±2.2 |
3 | 17.5±4.9 | 10.4±2.5 |
4 | 21.3±5.1 | 12.3±3.1 |
5 | 22.6±4.7 | 13.6±4.0 |
Source of Variation | P value summary | Significant? |
---|
Interaction 1.交叉效应 | *** | Yes |
Column Factor 2.组间差异(基因型) | *** | Yes |
Row Factor 3.行间差异(训练次数) | *** | Yes |
本例的结论:野生型和基因敲除动物之间存在显著的行为学差异(Fgenotype(1, 95)=68.90, P<0.001),同时不同基因型动物的行为学随训练次数增加的改善情况也有显著差异(FInteraction(4, 95)=8.418, P<0.001)。
4) 例四:卡方检验(比率的检验)
| 患癌症 | 未患癌症 |
---|
野生型(Wild type) | 11 | 19 |
基因敲除(Knock-out) | 12 | 8 |
P value | 0.0089 |
P value summary | ** |
One- or two-sided | Two-sided |
Statistically significant? (alpha<0.05) | Yes |
本例的结论:两组动物间癌症发病率存在显著差别。
5) 例五:图表的格式操作(以复合折线图为例)