四格表卡方检验是我们研究分析中常用的方法之一,比如说,分析某个蛋白或RNA的表达与临床病理特征的关系。而实际最困扰我们的可能是分析过程中不同组频数的计算,我一开始都是用最原始的方法来计数不同组的频数,相对比较繁琐,接下来我为大家介绍一下如何利用公式快速计算出各个组的频数。
比如,我们想要比较蛋白A的表达与疾病分期是否相关,其中,蛋白A阴性表达记为0,阳性表达记为1。疾病分期IIIA期记为“0”,IIIB期记为“1”,而此时蛋白A阳性和阴性表达、IIIA和IIIB期的频数是已知的。如果蛋白A在前,疾病分期在后,两两组合就是“0 0”、“0 1”、“1 0”、“1 1”这4种情况,只要记录好这4组数据的频数就可以分析蛋白A的表达是否与疾病分期相关。
首先,在C列记录一行二者关系,然后利用公式进行计算(图1),在第二行第三列(C2)输入“=”,此时也就是选择公式进行计算,然后输入“A2+B2”,或者你输入“=”后,左侧的空白区域会出现函数这一栏,你选择“sum”求和,然后数值1输入A2,数值2输入B2,具体操作请参考图1a-b,也就是说C2=A2+B2,点Enter键会有相应结果出现,然后点击C2这一栏,待其右下角变为+,点击下拉菜单至最后一行数据,然后就会出现如图2所示的数据,也就是整个C竖列对应的结果均为同一行A和B数值之和,此时的C竖列结果均为公式结果,这种分析方法在数据比较大的时候会显现出其独特的优势,会节省很多时间。
分析数据时,我一般会选择把C竖列结果复制,然后点击选择性粘贴,粘贴为数值,或直接点击粘贴为数值,这样就会产生D竖列的结果,此时的结果只是纯粹的数字结果,不带有公式,这样D竖列的结果就会有0,1,2共3组,其中2代表的是蛋白A阳性、IIIB期,0代表的是蛋白A阴性、IIIA期,这时候选中D竖列,点击查找,输入0,然后就会出现结果为0的频数,也就是蛋白A阴性、IIIA期的频数。相应的,输入2,你就会得到蛋白A阳性、IIIB期的频数,如图3所示。
由于蛋白A阴性和阳性以及IIIA期和IIIB期的频数均为已知,如果你知道其中任意一组的频数,剩下3组的频数可以迅速得到。但是有一点需要注意,由于我在C、D竖列输入的都是汉字,所以不存在这个问题,如果你输入的内容包含数字,且数字和其中两组有交叉,比如说同样一组数据,只是第一行的标识改一下,A竖列记为蛋白2,D竖列记为蛋白2与疾病分期关系,这时候你点击查找2,查到的频数是包含D竖列中你输入的蛋白2中的数字2的,如图4所示,记得要把这部分出现的频数去掉才是你想要分析的结果,所以尤其注意。但是如果你只选择在数字这一竖列查找就不会出现这个问题了。
以上就是我个人利用公式快速计算不同组频数的方法,欢迎大家批评指正。