第三节 实验数据的统计分析

临床生物化学检验的目的是要获得准确的检测结果,作为临床诊断和治疗的依据。但是,即使采用最准确的检测方法,选用最精密的仪器,由最有经验的检验人员操作,对同一均匀样本进行多次重复测定,所得的结果的数据也很难完全一致。这就表明,检验误差是客观存在的。另外,不同个体之间或者个体内也存在差异。

为了得到准确、可靠的检验结果,通常都是在尽可能消除了系统误差的前提下,重复测量多次,然后对测量数据用统计方法进行整理、分析、判断,作出可靠性评价。以概率论为理论基础的统计学方法,常用于确定方法误差、对比不同试验方法、比较不同仪器精度、评价检验人员的操作技术水平等。

一、统计分析的几个基本概念

(一)总体与样本

1.总体

总体(population)是根据研究目的确定的同质的研究对象的全体。更确切地说,是性质相同的所有观察单位某种变量值的集合。

2.样本

样本(sample)是指从总体中随机抽取的有代表性的一部分。统计分析正是通过对具体样本值的分析、研究,从而正确地推断出总体所具有的特性来。

(二)变异与误差

1.变异

变异(variation)是普遍的现象,即使样本来自同质的总体,它们彼此之间也存在差异,这种差异就是变异。产生变异的原因是多方面的,如同一指标不同个体之间,同一个体不同时间或不同状态之间,不同测量方法之间,同一方法不同重复之间,等等。

2.误差

误差(error)表示上述差异的形式,包括系统误差、随机误差和过失误差。统计学上的误差指的是随机误差,包括抽样误差和重复测量误差。抽样误差(sample error)是由于样本内各个体之间变异情况与总体内各个体变异情况不会完全相同,因此,样本指标与总体指标(如均数)之间也必定不会完全相同。统计学设计的任务之一就是如何减少抽样误差;统计检验的目的就是回答来自抽样误差的概率。

(三)随机现象与随机变量

1.随机现象

随机现象(random phenomenon)指在大量重复实验中呈现规律性,但在个别实验中呈现不确定的现象。观察随机现象的实验,称为随机实验(random experiment)。在随机实验中出现的事件称为随机事件(random event)。

2.随机变量

随机变量(random variable)指取值不能事先确定的观察结果,通常称为变量(variable)。其特点是不能用一个常数来表示。随机变量服从一定的概率分布。

(四)概率与分布

1.概率

概率(probability,P)是度量某随机事件A发生可能性大小的变量,记为P(A),0 <P(A)< 1。

2.分布

分布(distribution)指概率的分布,分为离散型和非离散型两类。离散型分布包括二项分布、Poission分布、负二项分布等,多属于计数资料。而非离散型分布常见的是连续性随机变量,如正态分布、卡方分布、t分布、F分布等,计量资料多属于连续型分布。

(五)统计描述与统计推断

1.统计描述

统计描述(statistical description)就是对样本特征进行描述,这种描述使用统计量。统计量使用集中性描述(如计量资料的均数、计数资料的相对数)和离散性描述(如标准差、标准误)。

2.统计推断

统计推断(statistical inference)就是对总体特征进行推断。统计推断包括参数估计和假设检验。参数估计就是用样本指标(统计量)来估计总体指标(参数)。参数估计又分为点估计和区间估计。例如某地抽样调查125名健康男性成人的血浆纤维蛋白原含量,已知属于正态分布,则以均值2.92g/L作为该地健康男性成人的总体均值的估计值,此即点估计。如果同时已知标准误为0.04g/L,并确定概率为0.95,则该地健康男性成人血浆纤维蛋白原均值有95%的可能在(2.92±1.981×0.04)g/L,即2.84~3.00g/L范围内,此即区间估计。假设检验是根据一定假设条件由样本推断总体的一种方法。常用的假设检验方法有u检验、t检验、卡方检验、F检验法、秩和检验等。

(六)实验资料的类型

不同类型的实验资料统计方法各有不同,因此合理地确定资料类型十分重要。

1.计量资料

计量资料(measurement data)又称数值变量资料,是指用定量方法测定每个观察单位某项指标量的大小的资料。如一组患者的年龄、体重、血红蛋白、白蛋白、胆红素、肌酐和尿素等。计量资料的特征通常包括集中趋势与离散程度。由于计量资料可以得到较多的信息,所以凡能计量的,尽量采用计量资料。

2.计数资料

计数资料(numeration data)又称无序分类资料,指先将观察单位按其性质或类别分组,然后清点各组观察单位个数所得的资料。其特点是:对每组观察单位只研究其数量的多少,而不具体考虑某指标的质量特征,属非连续性资料。如调查胃溃疡患者的血型分布,可以用A、B、O、AB四种血型分组得到每组人数便是多项分布资料。

3.等级资料

等级资料(ranked data)又称有序分类资料,是将观察单位按照某种属性的不同程度进行分类,进而计得各类的观察单位数。如临床疗效研究中按照治愈、显效、有效、无效四类分别清点病例数;尿中蛋白半定量测定结果按-、±、+、++、+++程度清点观察单位数。等级资料又称为半定量资料。

二、统计数据的收集与整理

在临床研究中,数据的收集与整理非常重要。原始数据的真实可靠,是临床研究成果的重要保证。

(一)临床研究数据来源

临床研究的数据来源很多,如病历、调查表或问卷、实验记录、检验结果、统计报表等。

(二)收集内容和范围

临床研究的资料常见有以下三类:研究对象特征指标(population/patients,P)、干预或暴露测量指标(intervention/exposure,I/E)、结局测量指标(outcome,O),总称为PIO类指标,大致归为四种类型。

1.单纯生物学指标

临床常用的一些硬指标,如病死率、不良事件发生率、痊愈率、复发率以及其他一些有关人体生化、生理的检验指标。

2.疾病常用测量指标

如潜在减寿年数(potential years of life lost,PYLL)、质量调整生命年(QALY)、伤残调整生命年(disability-adjusted life year,DALY)等。

3.临床经济学指标

如直接医疗成本、间接医疗成本等一系列费用指标,可用于成本效果分析、成本效益分析、成本效用分析等方面。

4.人口特征指标

包括性别、年龄、种族、职业、教育程度及其他一些社会经济学指标。

(三)数据收集方法

1.设计专门的资料收集工具

根据研究内容,设置基本条目和备查条目,形成专门的资料收集工具,如调查/研究记录表等。基本条目是指与研究目的密切相关、必不可少的内容。备查条目是用于质量控制的一些项目。

2.确定采集方式

采集方式主要有直接观测和访问。直接观测是指研究人员直接在现场对观察对象进行观测与测量,得到相关数据信息。访问包括面对面访问、电话访问、信函访问等。

(四)数据的整理与管理

原始数据需要经过进一步的整理与归纳,方能用于统计分析。

1.赋值与定量化

对于数值变量资料,如血糖、血脂水平,本身就已被准确测量,因此不存在赋值和定量化的问题,只是在有缺失值时,才需作相应的处理。但是对于分类变量资料,则需要重新赋值,使其定量化。

在赋值时,对于有序分类资料,可根据实际测量尺度采用等间距或非等间距赋值。如临床疗效分类中,无效为0,有效为1,显效为2,痊愈为3。而对于无序多分类资料,就要复杂一些,需采用哑变量方法赋值。如研究ABO血型,涉及A、B、AB、O四种类型,不能直接将A、B、AB、O型依次赋值为1、2、3、4,因为四种血型并没有等级之分,但在赋值后反而人为出现不同级别。对此,可通过设置3个哑变量加以解决。如规定凡是A型,哑变量1赋值为1,其余为0;凡是B型,哑变量2赋值为1,其余为0,依次转换。

2.数据录入与建库

一般采用数据库管理软件,如ACCESS、EXCEL、Visual Foxpro等,建立数据库。

三、统计数据的质量评价和分析

在统计分析前,需要从整体上把握数据的基本特征及质量,发现有无极端值、异常值和缺失值。

(一)定义

1.极端值

极端值(extreme value)又称离群值,是指那些远离大多数测量值的极端数值,要么极大,要么极小。初接触分析工作的人员,甚至总想弃去它以使其他数据显得更接近,精密度似乎更好些,这是很不应该的。出现这种数据时,首先应当尽量从技术上寻找原因,实在解释不了时才可以借助统计方法来决定取舍。

2.异常值

异常值(outlier)常为临床专业知识无法解释的测量值。一般来说,测定值中与平均值的偏差超过两倍标准差即可称为异常值,与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。在处理数据时,一般应剔除高度异常的异常值,但异常值是否剔除,应视具体情况而定。在统计检验时,指定为检出异常值的显著性水平α=0.05,称为检出水平;指定为检出高度异常的异常值的显著性水平α=0.01,称为舍弃水平,又称剔除水平(reject level)。

3.缺失值

缺失值(missing value)是指因为种种原因不能得到观测指标的具体测量值,出现了数据缺失。判断临床研究中数据缺失的影响大小,应视缺失属性而定。对于随机性缺失,如临床试验中试验组与对照组均可能出现缺失值,缺失比例相近,缺失与临床干预措施无关,如缺失比例不超过20%,对结果影响不大;而对于非随机性缺失,如药物的副反应过大,造成患者的大量失访,此时试验组与对照组的缺失比例会不同,这种缺失与干预措施有关,会对研究结果造成较大影响。

(二)如何发现与识别极端值、异常值

可结合SPSS软件等来识别,具体方法有以下几种:

1.变量排序

最常用的方法,这也是最简单的方法。排序后对照最大值和最小值、全距等统计量可以看出数据的离群状况。

2.散点图法

其优势就在于直观地呈现两两变量间的关系,尤其在两变量间的线性关联比较强的时候,如果有离群值,图形侦察的结果会很明显,其局限(也包括矩阵散点等图形)在于本质还是两两变量间的关系,更多的多维信息的提供还是需要经验去判断。

3.箱体图法

可以提供数据百分位数的概念,例如四分位数(25%和75%)是将该变量分成4个部分,分别提供了数据不同分位点附件的离散性,而且同时提供描述数据集中性的中位数,这样在中间50%的数据上提供的信息将是异常丰富的。

4.统计建模法

在统计建模过程中大多会提供异常值或极端值的诊断,例如距离的测算:cook距离、杠杆值等;影响统计量:DfBeta、协方差比率等。它们均有相应的判断标准,如果有些指标没有相应的判断异常值的标准,则可以通过排序的方式,找到其相对大小。

5.标识异常个例

提供的是统计建模的方式侦查异常个案。这种方法主要通过两步聚类的思想,找到不同个案间的相似性,通过对所在类别的评价计算出异常索引,然后找到对应的ID号,则该个案可能为异常值,至于对这些异常个案怎么处理,分析人员作出何种决定,这个最好结合专业背景综合判断后续的处理方法。

6.控制图法

如果涉及的是时序数据,控制图是不错的选择,在控制规则里提供了丰富的侦查异常个例的选项。

当然其他过程里也有一些细节的处理,例如,排列图、误差条形图、可视离散化、缺失值诊断、数据验证过程等。

(三)设计统计分析路线图

在一个临床研究中,如果要分析的内容较多,为避免重复或遗漏,不管是定量分析还是定性分析,均要做详细周密的安排,设计统计分析的路线图,其流程包括①确定研究目的;②确定统计分析目的;③选择合适的统计分析方法;④统计分析;⑤统计结果真实性评价。

四、实验资料的统计描述

(一)数值变量资料的统计描述

数值变量资料的基本特征需要采用两类指标进行描述:一类是集中趋势指标,用于反映一组数据的平均水平,如均数、中位数、几何均数等;另一类是描述离散程度的指标,用以反映一组数据的变异大小,如标准差、四分位数间距、变异系数等。这两类指标需要联合应用才能全面反映一组数值变量资料的基本特征。

1.描述集中趋势的指标

描述集中趋势的指标统称平均数,常用的有算术平均数、几何平均数、中位数、百分位数及众数等,前三种较为常用。

(1)算术平均数:

算术平均数(arithmetic mean)简称均数(mean)或均值,用拉丁字母表示。n次测量值的算术平均值,表示一组测定数据的集中趋势。算术平均数适合于正态分布资料。临床上大部分资料,如一组患者的年龄、体重、血红蛋白、白蛋白、胆红素、肌酐和尿素等,均服从正态分布,因此,其集中趋势通常用均数来描述:

(2)几何平均数:

几何平均数(geometric mean)是用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。对于变量值呈倍数关系或呈对数正态分布(正偏态分布),如抗体效价及抗体滴度、某些传染病的潜伏期、细菌计数等,宜用几何均数表示其平均水平。

(3)中位数:

一组测量数据按大小顺序排列,中间一个数据即为中位数(median)。当测量值的个数为偶数时,中位数为中间相邻两个测量值的平均值。它的优点是能简单直观地说明一组测量数据的结果,且不受两端具有过大误差数据的影响;缺点是不能充分利用数据,因而不如平均值准确。对于偏态数据,通常用中位数表示其中心位置,如研究急性肝炎时ALT、AST等范围从数十到上千变动较大,且每个患者的变化情况不一致。

2.描述离散程度的指标

(1)极差:

极差(range,R)也称范围(range),指总体标志值中最大标志值与最小标志值之差。

(2)四分位数间距:

四分位数间距(interquartile range,IR)为上四分位数(即P75)与下四分位数(即P25)之差。四分位数间距可看成是中间50%观察值的极差,其数值越大,变异度越大,反之,变异度越小。对于偏态数据,可以用四分位间距描述离散程度。

(3)标准差:

标准差(standard deviation)是对同一被测量进行n次测量,表征测量结果分散性的量。用符号S表示。常与均数结合描述正态分布特征,能反映一个数据集的离散程度,标准差越大,变量值分布越散,均数的代表性越差。临床检验结果如果是正态分布,以计算出95%观察值所在范围界限,作为临床的参考区间。

n次测量中某单个测得值xk的实验标准差Sxk)可按贝塞尔公式计算:

式中:Xi指第i次测量的测得值;n指测量次数;n次测量所得一组测得值的算术平均值。

利用标准差可计算变异系数,结合样本含量可计算标准误。

(4)变异系数:

标准差与均数的比值称为变异系数(coefficient of variation),记为CV,表示一种相对离散度,CV越小,表明数据的离散性越小,均数代表集中趋势的正确性越好。

(5)标准误:

标准误(standard error)指均数的标准差,用符号表示。标准误表示样本均数的离散程度,标准误的大小与标准差成正比。均数与标准误相结合,可对总体均数进行置信区间估计。

在定量描述时,应该特别注意选择合适的指标。对于正态分布或近似正态分布资料,可用“均数±标准差”来描述;而对于偏态分布或未知分布资料的特征描述则使用中位数与四分位数间距。临床生化检验资料大部分呈正态分布,可用“均数±标准差”来描述,但是有些指标如转氨酶、部分肿瘤标志物(如AFP等)属于偏态分布,只能用中位数来描述。

另外,还应注意资料的同质性,如不分性别、年龄计算一组对象血红蛋白的均数和标准差,既不能描述老年人、儿童血红蛋白的集中趋势,也不能反映女性的变异水平,意义不大。

(二)分类变量资料的统计描述

分类变量(categorical variable)是指其变量值是定性的,表现为互不相容的类别或属性。分类变量资料包括计数资料和等级资料。常用率(rate)和构成比(proportion)定量描述分类变量资料。如病死率、治愈率、感染率等。

五、假设检验方法

假设检验的方法很多,应结合研究目的、资料性质、设计类型、样本含量等选择合适的方法。

(一)数值变量资料的假设检验方法

1.当比较两组小样本数值变量资料时,可以考虑用t检验。根据设计类型可以分为三种类型:单个样本均值与总体均值比较t检验、配对设计t检验和两个独立样本均数比较的成组t检验。t检验的目的是推断两组数值变量(计量)资料的样本所代表的总体均数是否相等。

2.当比较组数是三组及以上时,就不能用t检验,可考虑使用方差分析(analysis of variance,ANOVA)。方差分析又称“变异数分析”或“F检验”,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,二是研究中施加的对结果形成影响的可控因素。

方差分析的应用条件为①各组为相互独立的随机样本;②各组来自正态分布总体,服从正态分布;③各组总体方差相等或近似,即方差齐性。

(二)分类变量资料的假设检验方法

进行两组或多组分类变量资料间比较的假设检验可选用卡方检验。卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率(构成比)以及两个分类变量的关联性分析。卡方检验的类型有四格表资料的卡方检验、行×列表资料的卡方检验、列联表资料的卡方检验。四格表资料的卡方检验用于进行两个率或两个构成比的比较,常用于诊断试验的研究与评价。

六、区间估计

区间估计与假设检验一样也属于统计分析中的统计推断,它可以对均数、率、相对危险度(RR)、比值比(OR)等参数的95%置信区间进行估计。

(一)置信区间及用途

1.置信区间(confidence interval, CI)

按一定的概率(1-a,常取95%或99%)去估计总体参数(均数或率)所在的范围,对某事件的总体进行推断。置信区间包括准确度和精密度两种属性。准确度是指区间内包括总体参数的可能性,如95%置信区间,准确度为95%,就是从被估计的总体中随机抽取含量为n的样本,由每一个样本计算一个置信区间,理论上其中有95%的可能性(概率)将包含被估计的参数。故任何一个样本所得95%置信区间用于估计总体参数时,被估计的参数不在该区间内的可能性(概率)仅有5%。精密度是指置信区间的宽度,宽度越小,则精密度越高。精密度与样本量和准确度有关,在样本量固定的情况下,准确度不能太高,准确度越高,精密度越差,反之亦然。

2.置信区间的用途

①估计总体参数:在临床科研工作,许多指标都是从样本资料获取,若要得到某个指标的总体值(参数)时,常用置信区间来估计。如率的置信区间是用于估计总体率、均数的置信区间用于估计总体均数。②假设检验:95%的置信区间与a为0.05的假设检验等价。若某研究的样本RR或OR的95%置信区间不包含1,即上下限均大于1或上下限均小于1时,有统计学意义(P < 0.05);若它的RR或OR值95%置信区间包含1时,没有统计学意义(P > 0.05)。

各种指标的置信区间计算,最常采用正态近似法,其中标准误的计算是其关键。标准误是由于抽样所致的样本与总体间的误差,用以衡量样本指标估计总体参数的可靠性,标准误越大,用样本估计总体的误差也就越大,反之就越小。在数值资料(计量资料)中,标准误的大小与个体变异(s)成正比,与样本含量(n)的平方根成反比。在分类资料(计数资料)中,标准误主要受样本含量(n)和某事件发生率(p)大小的影响,样本含量愈大,抽样误差愈小;某事件发生率愈接近于0.5,其抽样误差愈小,某事件发生率离0.5愈远(即发生率愈接近于0或1),抽样误差愈大。

置信区间的范围愈窄,样本估计总体的可靠性愈好;置信区间的范围愈宽,样本估计总体的可靠性愈差。

(二)均数的置信区间

总体均数的置信区间可用于估计总体均数、样本均数与总体均数比较、两均数比较。当总体标准差未知时用t分布原理,而S已知时,按正态分布原理计算。

1.均数的置信区间

通常,均数的95%置信区间可按下式计算:

,即95%置信区间的下限为:,上限为

式中n为样本含量分别为样本均数和标准差,SE为标准误,SE=S/n1/2,ta,n的值可用自由度(n)与检验水准(a)查t界值表得到。

当样本含量足够大时,如n > 100,其95%置信区间可按下式近似计算,n越大近似程度愈好。即95%置信区间的下限为,上限为

例:某医师测定某工厂144名健康男性工人血清高密度脂蛋白(mmol/L)的均数,标准差S=0.356 5,试估计该厂健康男性工人血清高密度脂蛋白总体均数的95%置信区间?

本例n=144S=0.356 5,可用大样本公式计算:

下限为=1.320 7-(1.96×0.356 5)/1441/2=1.262 5

上限为=1.320 7+(1.96×0.356 5)/1441/2=1.378 9

故该例总体均数的95%置信区间为(1.262 5mmol/L,1.378 9mmol/L)。

2.两个均数差值的置信区间

95%置信区间为:d±t0.05,n SE,即下限为:d-t0.05,n SE,上限为:d+t0.05,n SE

式中d为两均数之差,即|;

SE为两均数差值的标准误,其计算公式为:

SE=[(n1-1)S12+(n2-1)S22]/(n1+n2-2)

例如:某研究的,n1=38S2=5.6,n2=45,其均数的差值为:15.9=1.3

其差值的标准误为:SE=[(38-1)×6.42+(45-1)×5.62]/(38+45-2)=1.317

该例自由度ν=38+45-2=81,故以自由度为81,a=0.05,查表得t0.05,80=1.99,将其代入95%CI的计算公式,得:

d±t0.05,n SE=1.3±1.99×1.317=(-1.32,3.92)

(三)率的置信区间

总体率的置信区间可用于估计总体率、样本率与总体率比较,两样本率比较。计算总体率的置信区间时要考虑样本率(p)的大小。

1.正态近似法

n足够大,如n > 100,且样本率p与1-p均不太小,且npn(1-p)均大于5时,可用下式求总体率的1-a置信区间:

率的标准误:SE=p(1-p)/n

率的置信区间:p±uaSE=(p-uaSEp+uaSE

式中ua以a查u值表,若计算95%的置信区间,这时u0.05=1.96,a=0.05。

例如:采用某治疗措施治疗60例某病患者,治愈24例,其治愈率为24/60=40%,该治愈率的95%置信区间为:

SE=p(1-p)/n=0.4(1-0.4)/60=0.063

因此,该治愈率的95%置信区间是27.6%~52.4%。

2.当样本率p

< 0.30或p > 0.70时,对百分数采用平方根反正弦变换,即

y=sin-1p或sin y=p

p从0~100%时,y从0°~90°,若以弧度表示则y从0~1.57(π/2)。

y的标准误,按角度计算sy=820.7/n;若按弧度计算sy=1/(4n),总体率的1-a的置信区间按下式计算:

(y-uasy,y+uasy

然后再按下式变换求出百分数表示的置信区间:

PL=sin2(y-uasy);PU=sin2(y+uasy

例如:某医师调查某厂工人高血压病的患病情况,检查4 553人,257人有高血压,患病率为5.644 6%,求该厂高血压患病率的95%置信区间?

本例u0.05=1.96,按上式计算:

y=sin20.056 446=0.239 878,sy=1/(4×4 553)=0.007 41(以弧度计)

则y的95%置信区间为:

(0.239 878-1.96×0.007 410,0.239 878+1.96×0.007 410)=(0.225 4,0.254 4)

而率的95%置信区间为:

PL=sin2(0.225 4)=0.049 9

PU=sin2(0.254 4)=0.063 3

故该厂高血压患病率的95%置信区间为(4.99%,6.33%)。

(四)相对危险度的置信区间

相对危险度(relative risk,RR)的置信区间,应先计算RR,再求RR的自然对数ln(RR),其ln(RR)的标准误SE(lnRR)按下式计算:

SE(lnRR)=1na+1nc-1n(a+b)-1n(c+d)=1nr1+1nr2-1n1-1n2

ln(RR)的置信区间为:ln(RR)±ua SE(lnRR

RR的置信区间为:exp[ln(RR)±ua SE(lnRR)]

例如:某医师研究了阿司匹林治疗心肌梗死的效果,其资料见表1-5,试估计其RR的95%置信区间。

表1-5 阿司匹林治疗心肌梗死的效果

RR=p1/p2=(r1/n1)/(r2/n2)=(15/125)/(30/120)=0.48

ln(RR)=ln(0.48)=-0.734

ln(RR)的95%置信区间为:

ln(RR)±1.96SE(lnRR)=-0.734±1.96×0.289=(-1.301,-0.167)

RR的95%置信区间为:

exp[ln(RR)±1.96SE(lnRR)]=exp(-1.301,-0.167)=(0.272,0.846)

因此,该例RR的95%置信区间为0.272~0.846,其上、下限均小于1,可以认为阿司匹林治疗心肌梗死有效。

(五)比值比的置信区间

比值比(odds ratio,OR)指病例组中暴露人数与非暴露人数的比值除以对照组中暴露人数与非暴露人数的比值。反映的是该因素对疾病的发生是否起作用,> 1说明是危险因素,=1表示该因素对疾病的发生不起作用,< 1说明是保护因素。

由于队列资料的RR的1-a置信区间与OR的1-a置信区间很相近,且后者计算简便,因而临床医学可用OR的置信区间计算法来代替RR的置信区间的计算。OR的置信区间的计算,应先计算OR,再求OR的自然对数值ln(OR),其ln(OR)的SE(lnOR)按下式计算:

SE(lnOR)=1/a+1/b+1/c+1/d

ln(OR)的置信区间为:ln(OR)±ua SE(lnOR

OR的置信区间为:exp[ln(OR)±ua SE(lnOR)]

(六)相对危险度减少率的置信区间

由于RRR=1-RR,故相对危险度减少率(relative risk reduction,RRR)的置信区间可由1-RR的置信区间得到,如上例RR=0.48,其95%的置信区间为0.272~0.846,故RRR=1-0.48=0.52,其95%的置信区间为0.154~0.728。

(七)绝对危险度减少率(absolute risk reduction,ARR)的置信区间

ARR的标准误为:SE=p1(1-p1n1+p2(1-p2n2

ARR的置信区间:ARR±uaSE=(ARR-uaSE,ARR+uaSE

例如:试验组某病发生率为15/125=12%,而对照组人群的发生率为30/120=25%,其ARR=25%-12%=13%,标准误为:

SE=p1(1-p1n1+p2(1-p2n2=0.12×(1-0.12)×125+0.25×(1-0.25)×120=0.049

其95%的置信区间为:

ARR±uaSE=(ARR-uaSE,ARR+uaSE

=(0.13-1.96×0.049,0.13+1.96×0.049)=(3.4%,22.6%)

因此,该治愈率的95%的置信区间为3.4%~22.6%。

(八)需要处理的患者数的置信区间

由于无法计算需要处理的患者数(number needed to treat,NNT)的标准误,可由ARR的95%的置信区间来计算。因为NNT=1/ARR,故NNT的95%的置信区间为:

下限:1/(ARR95%置信区间的上限值)

上限:1/(ARR95%置信区间的下限值)

例如上述ARR的95%置信区间为3.4%~22.6%,其NNT的95%置信区间下限为1/22.6%=4.4;上限为:1/3.4%=29.4,故该NNT的95%置信区间为4.4~29.4。

七、相关分析

相关分析(correlation analysis)是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。相关分析有不同的类型,包括线性相关分析、偏相关分析、距离分析等。在临床生化检验中最常用的是线性相关分析。

线性相关分析是研究两个变量(xy)间线性关系的程度。用相关系数r来描述。根据r值的不同,两变量间相关关系可分为(图1-1):

(1)正相关:

0 < r < 1,表示两变量变化的方向一致。一般地,r ≥ 0.95,存在显著性相关;0.8 ≤ r < 0.95高度相关;0.5 ≤ r < 0.8中度相关;0.3 ≤ r < 0.5低度相关;r < 0.3关系极弱,认为不相关。

(2)负相关:

-1 < r < 0,表示两变量变化的方向相反,如吸烟与肺功能的关系。

(3)零相关:

r=0,表示两变量之间无任何关系。

(4)完全相关:

分为完全正相关(r=1)和完全负相关(r=-1)。表示两变量之间呈完全线性关系。

进行线性相关分析,要求两个变量满足独立性、随机性及正态性等基本条件。

例如:为探讨患者血糖与胰岛素水平的关系,某研究者同时测量了7名糖尿病患者中胰岛素和血糖水平,结果如表1-6。血糖与胰岛素之间是否相关呢?

图1-1 变量xy之间的相关性

表1-6 7名糖尿病患者胰岛素和血糖水平

首先根据下列公式计算相关系数r

计算r=-0.956,说明它们之间存在负相关。应该特别注意,不能仅根据相关系数的大小来判断相关程度,一定还要进行假设检验及区间估计,以推断两变量间是否存在总体相关关系。

八、回归分析

(一)概念

回归分析(regression analysis)是研究一个随机变量Y对另一个(X)或一组(X1X2,…,Xn)变量的相依关系的统计分析方法。可分为线性回归分析和非线性回归分析。常用的是一元线性回归,只有一个自变量的直线回归。其目的是找到一条回归直线,使得所有的实验点间偏差的二次方和达到最小。一般采用最小二乘法原理求出回归直线的斜率和截距,最后写成直线方程即为回归方程。常用于测量精密度较差的标准曲线的绘制。

(二)标准曲线

标准曲线(standard curve)也称工作曲线,是以标准溶液及介质组成的标准系列,标绘出来的曲线。通常是一条直线。标准曲线的横坐标(X)表示可以精确测量的变量(如标准溶液的浓度),称为普通变量,纵坐标(Y)表示仪器的响应值(也称测量值,如吸光度、电极电位等),称为随机变量。当X取值为X1X2,……Xn时,仪器测得的Y值分别为Y1Y2,……Yn。将这些测量点XiYi描绘在坐标系中,绘出一条直线表示XY之间的直线线性关系,这就是常用的标准曲线法。用作绘制标准曲线的标准物质,它的含量范围应包括测试样品中被测物质的含量,标准曲线不能任意延长。

在精密度很好的检测中,代表数据对的坐标点(XY),一般都能落在一条直线上,偏差很小。此时,以各坐标点为依据,直接判断,用尺子画出一条直线代表标准曲线,被测组分的含量可以从标准曲线上直接查得。

当测量精密度较差时,各数据对的坐标点(XY)往往不在一条直线上。由于数据分散,画线时任意性比较大,要画出一条对所有实验数据点偏差都小的直线很困难。此时,最好进行回归分析。

九、统计分析方法的选择

统计方法的选择对正确研究结果的取得至关重要。用错了统计方法,会影响研究的真实性,甚至得到错误的结论。在临床研究中,要正确使用统计方法,应充分考虑研究目的、设计方案、数据类型以及统计方法的应用条件等因素,避免统计方法的误用与滥用。

(一)根据研究目的和分析目的进行选择

1.根据研究目的选择

(1)分析两种或多种干预措施间的效果有无差别:常用的统计方法有t检验、方差分析、卡方检验、秩和检验等。

(2)研究两个或多个因素间的关系,进行关联分析时,可选用相关分析来衡量各因素间的密切程度和方向,用回归分析来揭示某个因素与一个或多个因素间的依存关系或因果关系。

2.根据分析目的选择

临床研究中的单向有序分类变量资料,如临床试验的疗效,按照痊愈、显效、有效、无效等分类汇总,如果采用卡方检验,则只能回答两组在疗效分类构成上有无差别,而不能回答两组中何者的疗效更好,要达到此目的,只能采用秩和检验。

(二)根据数据类型和变量个数进行选择

1.根据数据类型选择

例如同样是组间差异比较,数值变量资料采用t检验或方差分析,而分类变量资料则用卡方检验。

2.根据变量个数选择

(1)如果只有一个自变量与一个应变量,可选择表1-7中的方法。例如应变量为数值变量,选用t检验与单因素方差分析。应变量为分类变量资料时,选用卡方检验。

(2)对于多个自变量与一个应变量,可选择表1-8中的统计学方法。例如应变量是数值变量,可选择多元线性回归,如果应变量为分类变量资料,可选用Logistic回归分析。

表1-7 涉及两变量的主要统计分析方法

表1-8 涉及三个或三个以上变量的统计分析方法

(三)根据设计方案选择

不同的设计方案,采用不同的统计方法。例如数值变量资料中,配对设计的两组差别的比较,应选用配对设计t检验,如果选用成组t检验则会降低检验效能。

(四)根据应用条件选择

统计分析方法是基于数理统计与概率论,并在一定假设条件下推导建立的。只有满足了这些条件,数理推导才成立。例如,许多方法的应用条件都与样本含量有关,如成组t检验要求样本含量不小于30例,四格表卡方检验要求样本量大于40,而且最小的理论频数大于5。

十、统计分析结果的正确解释与评价

(一)统计分析结果的正确表达

应同时包括假设检验与区间估计结果,即将P值与置信区间相结合,两者同时报告。

(二)正确解释统计结果

统计结论具有概率性,不能绝对肯定或否定;无统计学意义的结果(即阴性结果)与有统计学意义的结果(即阳性结果)同样重要。

(三)统计学意义与临床意义的综合评价

临床研究的最终目的是创造最佳研究证据,为临床实践服务。因此,一个临床研究仅有统计学意义是不够的,还应结合临床专业知识,考察其临床价值。统计学意义上的差异有时与临床意义上的差异并不完全一致(表1-9)。有时,差异有临床价值,即使没有统计学意义,也应重点关注,必要时可以扩大样本量,进一步研究。

(四)统计分析结果的真实性评价原则

(1)研究方案的设计应该科学合理:

比如对照设置、组间均衡性、随机等问题。

(2)统计分析结果应该全面:

临床研究中的利弊结果应同时报告,不能只包括疗效,而不报告副作用或不良反应与费用问题。此外还应对失访、未纳入分析的研究对象与原因进行分析。

表1-9 临床意义与统计学意义评价判断表

(3)选择合适的统计方法:

如数据资料应满足应用条件,选择的统计方法与分析目的应该匹配。

(4)应将混杂与偏倚因素进行分析:

混杂与偏倚直接影响结果的真实性,导致真实效应低估及假阴性结果。

(5)结果解释应综合考虑统计学意义与临床价值:

统计学分析结果实际反映的是效应的平均水平,个体效应可能高于或低于平均水平,因此在临床应用时应特别注意。

(黄 玥)