秩和比综合评价法
1. 模型概览
1.1 学科分属
基本学科归属: 统计分析方法
需要背景知识: 回归方程,计算秩和比,编秩
1.2 历史发展
1.2.1 背景介绍
秩和比法,是我国统计学家田凤调教授于1988年提出的一种综合评价方法,是利用秩和比(RSR,
Rank-sum
ratio)进行统计分析的一种方法。它不仅适用于四格表资料的综合评价,也适用于n行m列资料的综合评价,同时也适用于计量资料和分类资料的综合评价。
该方法在医疗卫生、科技、经济等领域的多指标综合评价、统计预测预报、统计质量控制、鉴别分类等方面已得到广泛的应用。
1.2.2 研究历史
秩和比(Rank-sum
ratio,RSR)指的是表中行(或列)秩次合计的平均值或加权平均值,是一个非参数计量的综合指数,具有0~1区间连续变量的特征,其所有比较组秩和比之和为(n+1)/2;如果编秩不按照经典的秩变换方法,各组秩和比的合计可能不为(n+1)/2。其基本思想是在一个n行(n评价对象)m列(m个评价指标或等级)矩阵中,通过秩转换,获得无量纲的统计量RSR,以RSR值对评价对象的优劣进行排序,进而根据比较组数的多少,进行分档处理(比较组数较多)或进行RSR平方根反正弦变换值可信区间处理(比较组数较少)。
该法经过二十余年的发展,在广大学者的共同支持和努力下,此法已日渐完善,广泛地应用于医疗卫生领域的多指标综合评价、统计预测预报、统计质量控制等方面。
秩和比(Rank-sum
ratio,RSR)法,它是一组全新的统计信息分析方法,是数量方法中一种广谱的方法,针对性强,操作简便,使用效果明显。非常适合于医学背景的广大用户。本法从理论上讲,融古典的参数统计与近代的非参数统计于一体,兼及描述性与推断性。
2. 模型介绍
2.1 具体模型介绍
设
x1, x2, ……,xn
是从一元总体抽取的容量为n的样本,并按从小到大的顺序排列,设其统计量为
x(1), x(2), ……,x(n)
若
xi = x(k)
则称k是xi在样本中的秩,记作Ri,对每一个i=1,2,…,n,称Ri是第i个秩统计量。R1, R2, ...Rn总称为秩统计量。
2.1.1编秩
编秩方法有整次秩和比法和非整次秩和比法。二者在于计算秩的时候公式不一样。一般使用整次和比法。
2.1.1.1整次秩和比法
设有n个评价对象,m个评价指标的样本数据(n行m列),分别对每个指标列的数据编秩:正向指标(值越大越好)从小到大编秩,负向指标(值越小越好)从大到小编秩,当数据的值相同时编平均秩。得到秩矩阵R = (Rij)n × m.
注:编秩即对数据排序,其顺序号作为秩。
2.1.1.2非整次秩和比法
用类似于线性插值的方式对指标值进行编秩,以改进RSR法编秩方法的不足,所以编秩次与原指标值之间存在定量的线性对应关系。
对于正向指标:
对于负向指标:
$${R_{ij}=1+(n-1)\frac
{max(X_{1j},X_{2j},……X_{nj})-X_{ij}}
{max(X_{1j},X_{2j},……X_{nj})-min(X_{1j},X_{2j},……X_{nj})}}$$
2.1.1.3计算SRS、WRSR
在一个 n 行( n 个评价对象)m 列(
m个评价指标)矩阵中,RSR的计算公式为:
$${RSR_{i}=\frac{1}{nm}\sum_{j=1}^{m}R_{ij}}$$
上式中,i = 1, 2, ..., n; j = 1, 2, ..., m, Rij表示第
i 行 第 j 列元素的秩。
当个评价指标的权重不同时,计算加权秩和比为WRSR,其计算公式为:
$${WRSR_{i}=\frac{1}{n}\sum_{j=1}^{m}w_{j}R_{ij}}$$
上式中,wj为第j个指标的权重,且$\sum_{j=1}^{m}w_{j}=1$
2.1.1.4计算概率单位
按小到大的顺序编制RSR或者WRSR频率分布表,列出各组频数fi,计算各组累计频数Fi,计算累计频率pi=Fi/n,将pi转换为概率单位probiti。
2.1.1.5计算回归方程
以累计频率所对应的概率单位值 Probit
为自变量,以RSRi或者WRSRi值为因变量,计算回归方程:
RSR(WRSR) = a + b × probit
可利用最小二乘法求出相当应参数。
2.1.1.6分档排序
按回归方程计算的RSR/WRSR估计值,对评价对象进行分档排序。分档数由研究者根据实际情况决定。一般档次数量为
3档 ,也可以是 4挡、5挡。
2.2 原理及优缺点
2.2.1原理
秩和比综合评价法基本原理是在一个n行m列,通过秩的转换,获得无量纲统计量RSR;然后运用参数统计分析的概念与方法、研究RSR的分布;以RSR值对评价对象的优劣进行分档排序,从而对评价对象做出综合评价。
2.2.2优点
是非参数统计分析,对指标的选择无特殊要求,适于各种评价对象;由于计算用的数值是秩次,可以消除异常值的干扰,它融合了参数分析的方法,结果比单纯采用非参数法更为精确,既可以直接排序,又可以分档排序,使用范围广泛。
2.2.3缺点
是排序的主要依据是利用原始数据的秩次,最终算得的RSR值反映的是综合秩次的差距,而与原始数据的顺位间的差距程度大小无关,这样在指标转化为秩次是会失去一些原始数据的信息,如原始数据的大小差别等。
当RSR值实际说不满足正态分布时,分档归类的结果与实际情况会有偏差,且只能回答分级程度是否有差别,不能进一步回答具体的差别情况。
3. 模型应用
3.1 常见应用场景
- 自然科学中广泛应用于各种事物的特征和性质的评价。比如,环境监测综合评价、药物临床试验综合评价、地质灾害综合评价、气候特征综合评价、产品质量综合评价等等;
- 社会科学中广泛应用于总体特征和个体特征的综合评价。比如,社会治安综合评价,生活质量综合评价、社会发展综合评价、教学水平综合评价、人居环境综合评价等等。
- 经济学学科领域更为普遍。如,综合经济效益评价、小康建设进程评价、经济预警评价分析、生产方式综合评价、房地产市场景气程度综合评价等等。
3.2 数模竞赛应用
2021亚太数学建模C题
原题(第一问)
塞罕坝在抵御风沙、保护环境、维护生态平衡和稳定等方面具有重要作用,请选择适当的指标,收集相关数据,建立塞罕坝对生态环境影响的评价模型,以定量评价塞罕坝恢复后对环境的影响,即对塞罕坝恢复前后的环境状况进行比较分析。
问题分析
本题的主要难点在收集数据,收集足够的数据之后可以用RSR综合评价法对不同年份进行分档排序,实现比较分析。这里使用的数据是2002-2020年塞罕坝森林覆盖率、覆盖面积、林木蓄积、涵养水量、二氧化碳吸收量、氧气释放量。
模型建立
- 编秩. 将n个评价对象们m个评价揸标排列成n行m列的数据表,相对应的值为各指标对象的秩,可用秩矩阵表示,记作(Rij)n × m
- 计算秩和比. 根据公式计算加权秩和比WRSR: $${WRSR_{i}=\frac{1}{n}\sum_{j=1}^{m}w_{j}R_{ij}}$$ 上式中,wj为第j个指标的权重,且 $$\sum_{j=1}^{m}w_{j}=1$$ 通过熵权法求出指标的信息熵及权重,如下表所示 | 项 | 信息熵值e | 信息效用值d | 权重 | |:———-:|:———–:|:———–:|:———–:| | 森林覆盖率 | 0.877966995 | 0.122033005 | 0.230414734 | | 覆盖面积/万亩 | 0.877964026 | 0.122035974 | 0.230420339 | | 林木蓄积/万立方米 | 0.948840694 | 0.051159306 | 0.096595652 | | 涵养水量/亿立方米 | 0.867919766 | 0.132080234 | 0.249385253 | | 二氧化碳吸收量/万吨 | 0.948842269 | 0.051157731 | 0.09659268 | | 氧气释放量/万吨 | 0.948842977 | 0.051157023 | 0.096591342 |
- 计算概率单位 按从小到大的顺序编制WRSR频率分布表,列出各组频数fi,计算各组累计频数Fi,计算累计频率$p_i=\frac{F_i}n$,将pi转换为概率单位probiti。
4.计算线性回归方程 以probiti为自变量,WRSR为因变量,计算线性回归方程WRSR = a + b × probit
得到如下公式 y = − 0.9687 + 0.2922 × probit
5.按回归方程计算对应的的WRSR估计值,对评价对象进行分档排序。此处分3档,见下表
| Rank | Probit | WRSR Regression | Level | |:—-:|:——:|:—————:|:—–:| |
2002 | 3.380 | 0.019 | 3 | | 2003 | 3.748 | 0.126 | 3 | | 2004 | 3.997 |
0.199 | 3 | | 2005 | 4.195 | 0.257 | 2 | | 2006 | 4.366 | 0.307 | 2 | |
2007 | 4.520 | 0.352 | 2 | | 2008 | 4.664 | 0.394 | 2 | | 2009 | 4.801 |
0.434 | 2 | | 2010 | 4.934 | 0.473 | 2 | | 2011 | 5.066 | 0.511 | 2 | |
2012 | 5.199 | 0.550 | 2 | | 2013 | 5.336 | 0.590 | 2 | | 2014 | 5.480 |
0.632 | 2 | | 2015 | 5.634 | 0.677 | 2 | | 2016 | 5.805 | 0.727 | 2 | |
2017 | 6.003 | 0.785 | 1 | | 2018 | 6.252 | 0.858 | 1 | | 2019 | 6.620 |
0.965 | 1 | | 2020 | 7.221 | 1.141 | 1 |
根据结果可以推断塞罕坝的恢复时间为2004年,恢复后生态环境逐年变好。
参考资料
4. 程序/软件介绍
4.1 matlab
在进行秩和比综合评价方法时一般采取以下步骤:
- 数据预处理
凡是评价方法中,都需要面对效益型、区间型、成本型等指标。一般的情况都是将非效益型指标转换为效益型指标,因为这样能够直接通过数值大小进行指标优劣的评判,方便后续工作的展开。
- 编秩
(1)整次秩和比法:将 n 个评价对象的 m 个评价指标排列成 n 行 m
列的原始数据表。编出每个指标各评价对象的秩,其中效益型指标从小到大编秩,成本型指标从大到小编秩,同一指标数据相同者编平均秩。得到秩矩阵,记
R = (Rij)m × n
(2)非整次秩和比法:为了改进 RSR
法编秩方法的不足,所编秩次与原指标值之间存在定量的线性对应关系,从而克服了
RSR 法秩次化时易损失原指标值定量信息的缺点。 对于效益型指标:
$${R_{ij}=1+(n-1)\frac
{X_{ij}-min(X_{1j},X_{2j},……X_{nj})}
{max(X_{1j},X_{2j},……X_{nj})-min(X_{1j},X_{2j},……X_{nj})}}$$
对于成本型指标:
$${R_{ij}=1+(n-1)\frac
{max(X_{1j},X_{2j},……X_{nj})-X_{ij}}
{max(X_{1j},X_{2j},……X_{nj})-min(X_{1j},X_{2j},……X_{nj})}}$$
- 确定权重,计算秩和比。
权重的确立可以通过熵权法或者层次分析法等获得。
- 计算概率单位
编秩得到 RSR(或 WRSR)频率分布表,列出各组频数
f,计算各组的累计频数$ cf$
和累计频率 p,将转换为概率单位
probit。
- 计算直线回归方程
以$ probit$ 值为自变量,以 RSR
为因变量,计算直线回归方程。
- 分档排序,按照回归方程推算得到的$ RSR(WRSR$)估计值对评价对象进行分档排序。
结果见mat文件
4.2 SPSSpro
SPSSPRO
是一款集成专业统计方法与数据算法于一体的在线式数据处理与分析平台
。可广泛运用于科研、商业、数据挖掘、问卷调查等领域。
下面将用SPSSpro进行秩和比综合评价:
- 新建分析并导入数据
- 选择对应数据打开后进行预览,确认无误后点击开始分析
选择【秩和比综合评价法】
查看对应的数据数据格式,【秩和比综合评价法】要求特征序列为定量变量,分为正向指标变量和负向指标变量,且正向指标变量和负向指标变量的个数之和大于等于两项。
设置编秩方式(非整秩方法、整秩方法、无处理)、分档数量(3 档、4 档、5 档
)、变量权重(熵权法、不设置权重、自定义权重)
- 点击【开始分析】,完成全部操作。
结果见秩和比综合评价法_(产前检查率)(孕妇死亡率-围产儿死亡率)(省份)
(非整秩方法).pdf秩和比综合评价法_(产前检查率)(孕妇死亡率-围产儿死亡率)(省份)(整秩方法).pdf
- 2022-09-12,杨伟程校对语法
- 2022-09-07,陈冠宇、许琳怡、汪蕊完成写作
- 2021-08-10,郑鸿晓更新模板
- 2021-08-04,张嘉乐建立模板