随着数据分析的结束,得出了预测变量和结局变量之间的因果关系。高兴之余,紧张的神经还不能放松,还要确认自己有没有掉进了数据分析结果的数个“陷阱”之中。
第一个“陷阱”,即因果关系是偶然因素导致的,也就是常说的随机误差或者I类错误。自然现象,比如血压,都是围绕平均值水平在一定范围内波动,样本量不足的情况下,收集的变量可能会偏平均值的一侧,就会导致随机误差的产生。
第二个“陷阱”,因果关系是由偏倚导致的,也叫做系统误差。人为设计的意在阐明变量间因果关系的这个研究“系统”会存在诸多的局限性(研究设计、抽样方法、测量方法等方面),这种局限性有可能导致错误的因果关系。
第三个“陷阱”,因果关系是由混杂因素导致的。混杂因素是预测变量和结局变量之外的第三因素。第三因素既是结局发生的原因(在其它的研究中会被作为预测变量),又与预测变量存在关联(因果关系、共存关系等),且预测变量不是第三因素发生的原因。疾病的某个结局往往都是由多种因素共同导致的,或者说存在多个可以作为预测变量的因素,如果两个或多个预测因素关系较为密切,往往同时出现,可能会干扰到各自对疾病结局的贡献。
以上可能的误差不可能完全避免,比较重要的是对存在的误差进行客观的评估和评价,以得出正确的结论。首先,随机误差发生,主要受到样本量和测量精确度的影响,其导致错误的因果关系的可能性可以通过计算P值和置信区间来评估。P值越小说明由偶然导致的错误的因果关系的可能性越小,代表有足够的样本量和足够的测量精确度,同样,置信区间越窄说明由偶然导致的错误的因果关系的可能性越小,代表有足够的样本量和足够的测量精确度。其次,偏倚是无法完全避免的,有效的方式是在试验设计和实施过程中,充分进行人员培训,保证有经验专家的全程指导。由偏倚导致的错误的因果关系的评估则可以通过评估此研究与其它研究,尤其是那些使用不同研究设计的试验的一致性来进行估计。发表的论文的“讨论”部分的最后也要求专门就试验的偏倚进行讨论。最后,混杂因素的影响对因果关系的影响是可以通过多种方法进行消除。需要注意的是,多数的方法都要求对混杂因素进行测量,所以试验设计过程中认识到并测量可能的混杂因素是处理混杂因素的关键。常见的措施有:1.限制,在纳入标准中对可能的混杂因素进行排除;2.匹配(常见于病例对照研究中),选择具有相同混杂变量值的病例和对照预防混杂产生;3.分层,按照潜在混杂变量值的水平将研究对象分隔到不同的层;4.统计学调整,采用多变量分析技术来排除混杂变量的影响,如多元回归、Cox回归等;5.倾向评分,特别适用于采用观察性研究评价治疗效力时,控制指示性混杂。采用倾向性评分是通过建立多变量模型来预测接受治疗的可能性,然后每个研究对象对得到一个预期治疗的可能性,即“倾向评分”。该评分可作为分层分析或多变量分析中唯一的混杂变量。
充分考虑到影响我们得出正确的、真实存在的因果关系的各种因素,并在文章报告中进行客观的评估和阐述,才是对试验负责的一种做法。