第二节 综合评价的一般步骤

对某事件进行多因素综合评价的过程,实质上就是一个科学研究与决策的过程,原则上应当包括设计、收集资料、整理资料和分析资料几个基本阶段,在实施中应着重注意以下几个基本环节:

1.定义决策问题,明确评价目标

清晰明了地阐述决策问题,准确清楚地定义评价目标是确保综合评价后续步骤顺利进行的关键环节。综合评价方法是解决多准则决策(multiple criteria decision analysis,MCDA)问题的有效途径。MCDA最早由法国经济学家Pareto于1896年从政治经济学角度提出,是决策理论的扩展,涵盖了任何具有多个目标的决策。将多个评价标准,通常是相互冲突的标准,组合成一个整体评估,来评估备选方案,辅助决策。

根据评价目标,可以明确决策者和利益相关者。决策者指在各个备选方案之间作出选择的组织或个人。利益相关者是对各备选方案提供偏好信息的相关人员。利益相关者的确定应基于评价目标,可包括临床医护人员、患者、医疗支付方(如:医疗保险机构、患者等)、相关专业人员和一般人群,利益相关者亦可是决策者本身(例如,参与共同决策的患者)。基于决策问题,也可以确定各可能的备选方案。

2.选择评价指标

综合评价指标(evaluation indicator)可以是定量、定性、或等级的。根据评价目的,评价指标可以来源于文献回顾、核心工作组讨论、专家咨询等多种途径。研究者亦可以采用目标树图(详见第七章)的思路将评价目标逐级分解,得到各级评价指标。进而,应对可选指标进行筛选,力图分清主次,抓住主要指标,剔除次要指标。一方面使得建立的评价模型简单化,能就事件的主流或本质进行评价;另一方面,还可以节省计算量,并有利于提高评价模型的精度与准确度。

目前,筛选评价指标主要根据有关的专业理论和实践,来分析各评价指标对结果的影响,挑选那些代表性、确定性好,有一定区别能力又互相独立的指标组成评价指标体系,体系应具有完整性。所谓代表性,指各层次的指标对所选的各层次特征能最好地表达;所谓确定性,即指标值确定,而且其高低在评价中有确切的含义;所谓区别能力,或灵敏性,即指标值有一定的波动范围,不同评价等级间有一定的差距;所谓独立性,即选入的指标各有所用,相互不能替代。所谓完整性,是指评价指标体系全面,能很好地契合评价目标,回答决策问题,没有重要的方面被遗漏。

3.评价数据的获取与预处理

为保证评价的科学与客观,应采用严谨的方法采集评价数据并进行预处理(详见本章第一节)。

4.各备选方案评估指标赋值

选定的评价指标应给予明确的定义,按照指标的实际意义分为高优(指标取值越高越优,如:治愈率)、低优(指标取值越低越优,如:病死率)和中优(指标取值为某个区间较优,越靠近这个区间越优,如:患者自付比例)等类别,并给出具体的评分规则。基于评价指标各备选方案的实测情况,按照评分规则进行赋值。若需要,可合理确定各单个指标的评价等级(evaluation grade)及其界限。

5.确定评价指标的权重

评价指标权重(weight)是指利益相关者对于各评价指标的偏好。权重代表利益相关者在各评价指标之间的“权衡”,即根据评价目的,确定诸评价指标在对某事物评价中的相对重要性。

权重的确定,归纳起来有主观定权法和客观定权法两类,前者主要包括专家评分法、成对比较法、Saaty权重法等;后者主要包括模糊定权法、秩和比法、熵权法、相关系数法等。不同方法确定的权重分配,可能不尽一致,这将导致权重分配的不确定性,最终可能导致评价结果的不确定性。因而在实际工作中,不论用哪种方法确定权重分配,都应当依赖于较为合理的专业解释。

6.建立综合评价模型

根据评价目的,数据特征,选择适当的综合评价办法,建立综合评价模型(evaluation model),计算综合指标。

广义来说,目前常用的多种医学统计学方法及其衍生的方法似乎都可用于进行综合评价。因为任何统计指标都综合了一定的有关信息,例如,期望寿命这个统计指标,就综合了某地某年居民健康状况、卫生状况、环境状况、经济文化状况以及社会政治因素等多方面的信息,或者说,这个指标可用于对某人群上述几方面的状况进行综合评价。此外,如多维列联表分析方法、析因试验设计分析方法、正交试验设计分析方法等,都可综合多个因素对某一结果进行综合评价。

近年来随着电子计算机的发展而发展起来的多元统计分析方法,如多元回归和逐步回归分析、判别分析、logistic回归分析、因子分析与主成分分析、聚类分析、时间序列分析、广义线性混合效应模型等,已经在很多疾病的诊断、治疗、预后估计、危险因素分析以及少年儿童生长发育分析等方面得到成功应用,无疑可作为综合评价的方法加以运用。20世纪60年代以来,随着模糊数学的发展而发展起来的模糊多元分析方法,如模糊聚类、模糊判别、模糊综合评价等方法,也大大丰富了综合评价方法学的内容。当然,鉴于评价通常服务于决策,因而诸多决策分析方法也可用来进行评价,例如决策树法等。

此外,在医疗卫生工作实践中,人们还采用了一些较为简单、快速、实用而具有非参数色彩的综合评价方法,如综合指数法、综合评分法、秩和比法、包络分析法、TOPSIS法、密切值法、功效系数法、交叉积差法、综合图形法、优序法、普通相关法、灰色模型法、层次分析法等。这些方法已经广泛应用于医疗卫生的各个领域。在模型建立后的应用实践中,应对选用的评价模型进行考察,并不断修改补充,使之具有一定的科学性、实用性与先进性,然后推广应用。

7.不确定性分析

在综合评价的过程中,选择不同评价指标、指标权重和利益相关者,都可能影响备选方案的排序,即使得评价结果具有不确定性。如前文所述,指标和权重的选择应以较好的专业解释为依据。即便如此,了解这种不确定性对综合评价结果的影响,以评估决策结果的稳健性仍尤为重要。参数不确定性(例如:指标权重赋值的不确定性)可以使用概率敏感性分析技术来解决,结构不确定性(例如:评价指标的选择)可以通过情景分析来解决,例如:可以使用不同的评价指标集来分析综合评价结果是否不同。在综合评价模型中,亦可以使用从不同利益相关者群体获得的权重得分来研究亚组间偏好的异质性。

8.报告结果与辅助决策

综合评价结果可以表格或图形的形式呈现。通常按照综合指标对各备选方案进行优劣排序,为决策提供信息,并指导后续实践。在前述步骤中,成本数据亦可作为评价指标之一,来进行经济学综合评价,以支持资源分配决策。

上述各步骤操作建议详见表1-1。

表1-1 综合评价操作步骤建议

续表

需要说明两点:

其一,上述步骤建议为读者提供了一个进行综合评价的范式,但并不意味着每一个评价都需要按清单里的所有步骤,或清单步骤的特定顺序进行。研究者可以根据实际情况,进行选择。例如:在某些研究中,提出决策问题、明确评价目标、筛选评价指标、获取评价数据、确定权重(例如:各指标等权),并计算综合指标,就足以很好地指导实践工作。

例如:评估新生儿缺氧状况的Apgar评分方法,就是综合评价方法成功应用的例证之一。20世纪30年代新生儿死亡率居高不下,美国麻醉科医生Virginia Apgar发现医生们没有办法判断那些先天不足新生儿的状况,从而无法进行合理救治,更多选择放弃,是导致新生儿死亡率持续高位的主要原因。

Apgar守着产房,记录救助婴儿的数据,琢磨如何对新生儿缺氧状况进行评价,判断哪些孩子能救得活。就在这些成堆的数据中,Apgar找到了规律,并将其简化,总结成评估新生儿缺氧状况的Apgar评分,通过五个方面快速打分判断婴儿的情况辅助临床决策,一个有经验的医生完成一次评分甚至不需要一分钟。首先根据医学理论与临床经验,选择肌张力(activity)、脉搏(pulse)、皱眉动作即对刺激的反应(grimace)、外貌(肤色)(appearance)、呼吸(respiration)5个体征作为评价指标,并赋予相等的权重;然后依据理论与实践,确定各单指标三个评价等级的界限及0、1、2三个分值的评分标准,建立如表1-2所示的评价模型;最后确定以累加法累计某评估对象各指标评分,并确定正常、轻度缺氧、重度缺氧三个等级的数量界限。Apgar采集了更多数据,开始结合评分制定对应的救助方案。

表1-2 新生儿Apgar评分标准*

*以累加法累计总分:8~10分为正常;4~7分为轻度缺氧;0~3分为重度缺氧

通过实践检验,该模型仍然是产科临床用以判断新生儿有无窒息及窒息程度的常用方法。“患者将生命交给你,你应该明白怎么做。”是Virginia Apgar一生所恪守的原则,这也体现了评价与决策在医疗卫生实践中极其重要的作用。

其二,综合评价方法亦有其局限性,主要表现为:①综合评价目前仍是一个不断发展和完善的分析过程,本书所介绍的相关方法很多只涉及统计描述,无法进行统计推断;②可以采用多种客观或主观的方法筛选评价指标、确定指标权重,用不同的方法确定的指标或权重分配可能不一致,这将导致分析结果的不确定性;③不同的综合评价方法对同一批对象评价的结果亦可能不一致。对于②和③所产生的评价结果的不确定性可根据专业知识、不确定性分析结果与实践经验加以解释和决策。