回顾我们已经取得的成果,我们有些经验和启发,想与广大同行一起分享。
一、建立前瞻性设计、预留标本的临床队列是开展自成体系的临床研究的关键
临床研究分为很多种类型,其中论证强度最高,最容易发表在高水平学术杂志上的是随机对照试验(RCT)。然而,RCT对团队、个人、平台、资源的要求极高,对于普通医生而言,往往难以企及。在此大背景下,开展疾病预后队列研究或诊断准确性试验才是大多数临床医生的首选。SIMPLE研究就是典型的诊断准确性试验,旨在分析多个生物标志物对疾病的诊断价值。与队列研究相比,诊断准确性试验的优势在于其不需要随访,或者随访时间极短,无需耗费过多的时间和精力。
在开展诊断准确性试验的过程中,一定要预留生物标本,包括血液、尿液、脑脊液、胸腔积液、组织标本等。因为将来可以利用这些标本检测一些新颖的生物标志物,并评价这些标志物对特定疾病的诊断价值。否则,我们就只能评价一些常规检查项目,比如影像学、病理学、细胞学、微生物学、分子生物学、生物化学指标对疾病的诊断价值了,这种研究的创新空间极为有限,论文发表难度较大。对于收集到的生物标本,一定要注意分装,因为我们不太可能一次就把所有拟研究的生物标志物全部检测完成。如果不对标本进行分装,检测生物标志物时必然存在一个“反复冻融”的问题,这样可能会影响生物标志物的稳定性。SIMPLE研究中,多数患者采集的胸腔积液标本都冻存到了10个EP管中。
二、数据一定要妥善保存,且发表论文前最好进行两次检查
利用一个队列发表多篇论文时,论文之间的数据本身是可以相互印证的,因此一定要仔细检查数据,防止不同论文的数据前后不一致而遭人侧目。我们的做法是:先将所有论文数据汇总到一个excel表格中,之后将该表格作为最原始的数据保存下来,且最好备份、设定密码和只读模式。在进行数据分析时,采用R语言读取excel表格并进行数据分析。不论我们如何在R语言上进行操作,excel中的数据都不会改变,这样就确保了结果的可重复性。目前市面上流行很多数据分析软件,常用的包括SPSS、Medcalc等。尽管这些软件能解决很多数据分析的问题,但是我个人仍然推崇R语言,一是因为其绘制的图片确实非常精美,二是因为一些非常复杂的统计只有借助R语言才能实现,三是因为其免费且对电脑内存消耗不大,四是因为其采用编程的方法进行数据分析,所有的数据分析思路均清晰地记录在代码中,随时可以回溯和查找任何一个操作步骤或者参数。当然,R语言也有一个缺点,就是采用编程的方法统计数据,这对于习惯了用鼠标操作进行数据统计的初学者极不友好。但身边多位曾长期采用鼠标操作的方式统计数据的朋友反映:一旦学会R语言,就会对其爱不释手,感叹于其功能的强大,再也不想用鼠标操作的方式统计数据了。我们课题组的论文在发表之前一般要经过两次检查,一是第一作者或研究生采用SPSS等软件统计,二是我采用R语言进行统计,并将两次结果进行对比,结果一致时才可投送论文。
三、注意实验设计细节
可以毫不夸张地说:细节可以决定临床研究的成败。在投稿过程中,我们发现审稿人提及最多的往往是一些细节问题,比如研究对象是否是连续招募的、检测信息是否对诊断的医师设盲、何时采集和保存样本、选择诊断界点的依据、是否进行了样本量估算、如何处理难以诊断的病人等。好在我们在开展SIMPLE研究之前就做过很多诊断准确性研究方面的系统评价和meta分析,对诊断准确性试验的设计细节及其底层逻辑有了较为深入的理解,还就此问题专门撰写了一篇综述[26]。事实上,在诊断准确性试验的系统评价和meta分析中,学界普遍采用诊断准确性试验质量评价工具(QUADAS-2)对原始研究的质量进行评价。QUADAS-2分别从病例招募、待评价试验(index test)的执行、金标准的执行以及研究流程四个模块对诊断准确性试验进行评估。每个模块都列举出了2∼4个关键性问题,这些问题其实就是评价诊断准确性试验质量的“考点”或者说“得分点”。深刻领悟这些问题的内涵及其底层逻辑,就可以参透出诊断准确性试验设计的要领。关于QUADAS-2的解读,建议大家可以参考张天嵩教授主编的《实用循证医学方法学》(第三版)中的相关阐述。
四、在伦理学允许的前提下,尽可能多地收集生物标本
我们在开展SIMPLE研究时,只从每名受试者收集到了10个EP管的胸腔积液,总体积大约7ml左右。当时我们认为这样的标本量应该足够用于生物标志物的研究了,因为用ELISA盒子检测一个生物标志物,所需样本量也就100μL左右。我们的标本量理论上可以检测70个标志物。然而,当我们开展标志物检测的时候,才发现我们当初的想法极为幼稚。首先,因为无法预知胸水中生物标志物的可能浓度范围,导致很多ELISA检测不可能一次成功;其次,有很多研究不需要用ELISA检测生物标志物,比如游离核酸、蛋白组学、代谢组学、NGS、外泌体相关标志物等,这些方面的研究对标本的消耗量极大。由于我们预存的标本体积较少,在一定程度上限制了我们开展这方面的研究。我们在第二阶段的研究中吸取了教训,收集了更多的胸腔积液和血液标本,因此能够利用一些前沿技术开展生物标志物方面的研究。
五、尽量获取随访资料
SIMPLE研究本质上是一个横断面的研究,当时由于人手不足,我们没有对患者进行随访。我们在发表论文的过程中,好几次被审稿人问及为何不研究生物标志物与患者预后的关系,对此我们也只能承认这是研究的局限性之一。事实上,如果我们还能同时获取患者的预后治疗,那SIMPLE研究就和PRIDE研究一样,既可以探讨生物标志物的诊断准确性问题,也可以探讨生物标志物的预后评估价值。这样一来,论文产出的质和量应该会有很大的提升。
六、不要放弃阴性结果
在我们发表的论文中,有好几篇属于阴性结果。也就是说,我们发现有的生物标志物根本没有诊断准确性,最终也发表了论文。比如,根据我们此前的文献调研结果,有两篇文章报道了胸腔积液同型半胱氨酸对恶性胸腔积液具有一定的诊断价值。但是当我们分析SIMPLE队列的数据时,发现不论是在呼和浩特还是在常熟,同型半胱氨酸对恶性胸腔积液均没有诊断价值。我们仔细对比了我们与此前发表的研究之间的区别,提出了一些可能的解释,最终论文也顺利发表在Thorac Cancer上[18]。此外,我们还发表过一些主要结果为阴性的论文,包括证明胸腔积液LDH/ADA诊断结核性胸腔积液的价值还不如ADA[23]、胸腔积液/血清CEA诊断恶性胸腔积液的价值还不如胸腔积液CEA本身[24]等。这些研究结果总体上都是阴性的,但是我们对其中的可能原因进行了解释,并阐述了这些发现对临床工作的启示,最终也顺利发表了论文。在投送阴性论文的过程中,我们往往会在cover letter中强调:我们的研究结果虽然是阴性的,但是我们对可能原因进行了解释,同时我们也坚信科学界应该听见不同的声音。根据我们的经验,在cover letter中说明这一观点有助于论文的发表。
七、统计是临床研究的灵魂
谈到诊断准确性试验,部分读者可能会觉得只要一个ROC分析,外加几个表格就可以发表了。然而,仅仅依靠一张ROC图和几张表格就能征服SCI杂志的日子早就一去不复回了。近十年来,新的统计学方法如雨后春笋般不断涌现,正在深刻改变着临床研究的模式和理念。运用这些统计学方法来分析数据,可以得到更为丰富的结论,极大地提升论文的整体档次。比如,我们可以采用决策曲线分析(DCA)探讨待评价试验为患者带来的净受益,可以采用净重分层指数法(NRI)和综合改良指数法(IDI)分析待评价试验所能带来的额外诊断价值(added diagnostic value),可以采用logistic回归、机器学习方案等建立诊断模型,可以采用列线图(nomogram)对诊断模型进行可视化等。我们课题组在加强队列建设的同时,也在不断摸索这些统计学方法的应用场景、软件操作步骤等,并积极将这些统计学方法运用到我们的论文中,在一定程度上提升了论文的质量和发表的可能性。
总之,在过去的六年里,我们课题组一直深耕胸腔积液生物标志物这个领域,构建了一个不明原因胸腔积液研究队列,并利用该队列的病历资料和预先留存的胸腔积液标本,成功在国际学术杂志上发表了十余篇胸腔积液生物标志物方面的论文。在开展这项研究的过程中,我们深切地认识到,通过预留生物标本来建立前瞻性设计的临床队列,是普通医生开展自成体系的临床研究的有效途径。