有病例和对照的研究就是病例-对照研究?
病例-对照研究是临床科研中最为常见的研究类型,由于“病例对照”这四个字具有一定的误导性,很多同行、甚至杂志编辑会想当然地认为有病例、有对照的研究就是病例-对照研究。据笔者观察,这种错误的认识在现实生活中可谓根深蒂固,常常会令一些流行病学专业人士感到啼笑皆非。
举个例子,试判断以下研究的类型:
为研究超重与类风湿性关节炎(RA)的关系,某研究者对 100 名 RA 患者和 100 名健康个体的体重进行了分析,发现 100 名 RA 患者中有 90 名超重(BMI>25);而 100 例健康对照中仅有 10 例超重,卡方检验发现 P<0.01,因此研究者:认为超重是 RA 的危险因子。
这个结论正确吗?这种研究到底属于什么研究呢?
很多同行会错误地认为:本研究有病例( RA 患者)、也有对照(健康对照),因此本研究属于病例-对照研究。
其实本研究并非病例-对照研究!而是属于横断面研究!
在讨论病例对照研究研究之前,我们需要先了解下临床研究的类型。总体上,临床研究可以分为三种类型:干预性研究、观察性研究、诊断准确性试验。根据是否随机分配研究对象,干预性研究可以分为随机对照试验和非随机对照试验。根据数据收集的时序关系、或者说暴露因素与结局变量的时序关系,观察性研究可以分为:队列研究、病例-对照研究、横断面研究。此外,近年来还有一种新的研究类型叫巢式病例对照研究,也称队列研究中的病例-对照研究。诊断准确性试验是一种特殊的研究类型,笔者认为其既不属于干预性研究、也不属于观察性研究,因此将其单独列为一类。
队列研究、病例-对照研究和横断面研究三者有何区别?笔者以超重和 RA 的关系来说明三者的区别:
- 队列研究:研究者随机抽取了某地区的 100000 名居民,记录了他们在进入研究时的体重指数(BMI)以及其他生活特征,按照是否超重(BMI>25),将这些居民(研究对象)分为超重人群(n=10000)和非超重人群(n=90000),然后对这些研究对象进行了 10 年的随访,采用 Kaplan-Meier 法和 Cox 风险比例模型分析了超重与 RA 的关系,最后发现超重的个体患 RA 的风险较高,因此得出结论:超重是 RA 的危险因子。
- 病例-对照研究:研究者对超重和 RA 的关系很感兴趣,因此在临床上找了 100 个 RA 患者和 100 个健康个体,拟采用问卷调查的方式分析超重与 RA 的关系。问卷调查的内容主要是:十年前(注意“十年前”这三个字)你的 BMI 是多少?研究者发现,RA 患者 10 年前的体重明显高于健康个体,经 Kaplan-Meier 法和 Cox 风险比例模型分析后发现超重的患者患 RA 的风险较高,因此得出结论:超重是 RA 的危险因子。
- 横断面研究:某研究者对超重与 RA 的关系十分感兴趣,因此现场调查了 100 个 RA 和 100 个健康个体的 BMI。结果发现,RA 患者中超重人群所占的比例明显高于健康个体,因此得出结论:RA 与超重有关。
从这三个例子我们可以看出,病例-对照研究和队列研究中,暴露因素(是否超重)与结局变量(是否患 RA)并不是同时发生的,而是有一个时间间隔。队列研究是预先知晓了暴露因素(是否超重),然后再去随访病人一段时间,确定病人是否发生结局(是否患 RA)。而病例-对照研究则是先知道了病人的结局(是否患 RA),然后才去回溯此前的某一个时间段病人是否有某种暴露因素(是否超重)。因此队列研究也称前瞻性研究,病例对照研究也常常被称为回顾性研究。这里的“前瞻”和“回顾”实际上是指实验设计,到底是由果索因(回顾),还是由因索果(前瞻)。
在临床实践中,“前瞻”和“回顾”还有另外一层意思,即资料的来源问题,或者说数据的收集方式。如果是有预谋、有计划、有组织的研究,就是前瞻性研究,严格来讲应该理解成用前瞻性资料开展的研究;如果是临时拍脑门想起来的方案,去收集既往数据的研究,就是回顾性研究,也可以理解成用回顾性资料开展的研究。
队列研究可以分为:前瞻性队列研究(利用前瞻性资料开展的研究),回顾性队列研究(利用回顾性资料开展的队列研究)和双向性队列研究(上述两种研究的综合)。打个比方:某研究者在 1995 年收集了某社区 1000 名居民的血清,调查 HBV 的发病率,在检测完了所有研究对象的血清 HBsAg 水平后,他将剩余的血清冻存起来。2015 年,该研究者突发奇想,决定研究下血清胆固醇增高是否与冠心病有关。于是研究者拿出了这 1000 份血清,检测了胆固醇浓度,然后拿着这些患者的资料,逐一走访患者,确定其是否患有冠心病。这种研究就属于回顾性队列研究。可以理解成:用回顾性资料开展的前瞻性(队列)研究。
横断面研究与队列研究、病例对照研究就不同了,因为其研究的暴露因素和结局变量是同时发生的。在上述例子中,作者调查的暴露因素(超重)与结局变量(是否患 RA)是同时发生的,没有任何先后顺序,因此是横断面研究。当然,这个横断面研究的设计有很多缺陷,比如:有严重的病例选择偏倚;没有考虑其他混杂因素等,因此结论在一定程度上欠缺说服力。
在横断面研究中,由于暴露因素和结局变量是同时发生的,无法明确因果关系,因此其结论不能下为超重是 RA 的“危险因素”,只能说超重与 RA 有关。“危险因素”一词只能用于队列研究和病例对照研究,不能用于横断面研究。上述横断面研究的结果只能解释为超重和 RA 有关,这里暗含了三层意思:①可能是超重引起了 RA ;②也可能是 RA 引起了超重;③还有可能是 RA 和超重只是某种病理状况的伴随因素,二者没有直接因果关系。比如已知吸烟是 RA 的危险因素,吸烟也是导致超重的危险因素,因此 RA 和超重其实是没有关系的,二者的关联其实是由于吸烟造成的。
就论证强度而言,队列研究的论证强度高于病例-对照研究,病例-对照研究高于横断面研究。队列研究的论证强度之所以高于病例-对照研究,是因为队列研究是真实世界的研究,能准确地反映疾病的发生率。且前瞻性队列研究的话,失访的比例和记忆偏倚明显较少,结论由说服力。病例-对照研究的缺陷是非真实世界的研究,因为真实的世界只存在于过去,现在去回溯资料的话,显然无法还原当年的真实世界。表现在其研究对象的纳入很随意,疾病组和对照组的构成并不足以反映真实世界中疾病的发病率,且能否回顾研究很多时候取决于病例资料是否完整。虽然病例-对照研究不如队列研究有说服力,但是比起横断面研究来,病例-对照研究的论证强度还是略微高了那么一点,主要是因为病例对照研究可以明确因果关系,而横断面研究不能。
虽然从论证强度的角度讲:队列研究高于病例对照研究,病例对照研究高于横断面研究。但是研究的难易程度来讲,开展横断面研究的难度明显要小于病例对照研究和队列研究,因为这不牵涉到随访问题。实际上,对某一临床问题的研究,一般都是先从横断面研究开始的,然后逐渐采用病例对照研究和队列研究的方式予以论证。
回到本文首段提出的问题:
问:为什么该研究属于横断研究?
答:因为超重和 RA 是同时发生的,时间上没有先后顺序。
问:那为什么说本研究有选择偏倚?
答:因为本研究中实验组和对照组的人数是主观确定的,研究人群中 RA 的发生率( RA 占总研究人群的比例)为 50%,与临床实践中的情况明显不符。
问:那正确的设计应该怎么办呢?
答:圈定某个地理范围,然后调查所有的研究对象或随机抽取一部分对象进行调查,调查内容主要是目前的体重状况和目前是否患 RA,同时调查其它可能的混杂因素。
问:那岂不是 RA 组患者的数量明显会低于健康个体的数量,实验组和对照组不平衡啊,这也行?
答:观察性研究强调的是真实世界的研究,实验组和对照组之间的比例本身就应该是自然形成的,无需刻意平衡。你说的实验组和对照组样本量要平衡这个事情,主要是干预性研究的试验设计原则吧。
问:那为什么很多国际杂志上发表的论文,第一步都是找一些病人和健康个体对比(例数基本相等)。按照你的说法,这样的论文属于有选择偏倚的横断面研究,为何还能发表?
答:这类文章主要是做基础研究的吧。文章的大头,或者说卖点显然不是“横断面研究”,而是后续的“分子机制”。从这个角度上将,横断面研究这块做得差点也无所谓。这就好比运动场上的长跑和短跑的关系:如果你是参加马拉松比赛,前 100 米跑得慢点,甚至优哉游哉地散散步也无所谓;如果你是参加百米比赛,那你就得分秒必争了。
问:哦,明白了!
答:恩。