两个相关系数的比较皮尔逊Pearson相关系数总体和样本总体皮尔逊Pearson相关系数样本皮尔逊Pearson相关系数皮尔逊相关系数的理解与误解对相关系数大小的解释使用皮尔逊Pearson相关系数的步骤第一步 描述性统计第二步 正态性检验第三步 绘制矩阵散点图,观察线性关系第四步 计算皮尔逊Pearson相关系数第五步 判断皮尔逊Pearson相关系数是否显著斯皮尔曼spearman相关系数定义定义一定义二SPSS计算斯皮尔曼相关系数并进行显著性检验MATLAB中计算斯皮尔曼相关系数斯皮尔曼相关系数的假设检验
两个相关系数的比较
斯皮尔曼相关系数和皮尔逊相关系数选择:
1.连续数据,正态分布,线性关系,用pearson相关系数是最恰当,当然用spearman相关系数也可以, 就是效率没有pearson相关系数高。
2.上述任一条件不满足,就用spearman相关系数,不能用pearson相关系数。
3.两个定序数据之间也用spearman相关系数,不能用pearson相关系数。
定序数据是指仅仅反映观测对象等级、顺序关系的数据,是由定序尺度计量形成的,表现为类别,可以进行排序,属于品质数据。
例如:优、良、差;我们可以用1表示差、2表示良、3表示优,但请注意,用2除以1得出的2并不代表任何含义。定序数据最重要的意义代表了一组数据中的某种逻辑顺序。
注:斯皮尔曼相关系数的适用条件比皮尔逊相关系数要广,只要数据满足单调关系(例如线性函数、指数函数、对数函数等)就能够使用。
皮尔逊Pearson相关系数
总体和样本
总体——所要考察对象的全部个体叫做总体.我们总是希望得到总体数据的一些特征(例如均值方差等)
样本——从总体中所抽取的一部分个体叫做总体的一个样本
计算这些抽取的样本的统计量来估计总体的统计量:例如使用样本均值、样本标准差来估计总体的均值(平均水平)和总体的标准差(偏离程度)
总体皮尔逊Pearson相关系数
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F8c4c6d08-0955-4ad7-b0f2-65980a1c6223%2FUntitled.png?table=block&id=dd29061b-da62-4d97-8eb4-0dc5e5b7b6a3&t=dd29061b-da62-4d97-8eb4-0dc5e5b7b6a3&width=880&cache=v2)
直观理解协方差:如果X、Y变化方向相同,即当X大于(小于)其均值时,Y也大于(小于)其均值,在这两种情况下,乘积为正。如果X、Y的变化方向一直保持相同,则协方差为正;同理,如果X、Y变化方向一直相反,则协方差为负;如果X、Y变化方向之间相互无规律,即分子中有的项为正,有的项为负,那么累加后正负抵消。
注意:协方差的大小和两个变量的量纲有关,因此不适合做比较
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2Fa2f6f830-13e5-4bbe-ad9a-4eedfd63c45f%2FUntitled.png?table=block&id=6b686a24-eb18-4b8b-bfee-9af1bfd11005&t=6b686a24-eb18-4b8b-bfee-9af1bfd11005&width=740&cache=v2)
皮尔逊相关系数也可以看成是剔除了两个变量量纲影响,即将X
和Y标准化后的协方差。
样本皮尔逊Pearson相关系数
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F76376a26-f873-4bed-b5e4-f9e41866b37d%2FUntitled.png?table=block&id=edbbc694-4378-4e03-be97-9a82999747e2&t=edbbc694-4378-4e03-be97-9a82999747e2&width=875&cache=v2)
皮尔逊相关系数的理解与误解
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F2bbbc3a7-2b21-4529-acf3-f1ceafeb1d2b%2FUntitled.png?table=block&id=5fc99732-deec-46ac-b3e1-60fbdf946e31&t=5fc99732-deec-46ac-b3e1-60fbdf946e31&width=1214&cache=v2)
(1)非线性相关也会导致线性相关系数很大,例如图2。
(2)离群点对相关系数的影响很大,例如图3,去掉离群点后,相关系数为0.98。
(3)如果两个变量的相关系数很大也不能说明两者相关,例如图4,可能是受到了异常值的影响。
(4)相关系数计算结果为0,只能说不是线性相关,但说不定会有更复杂的相关关系(非线性相关),例如图5。
这里的相关系数只是用来衡量两个变量线性相关程度的指标;
必须先确认这两个变量是线性相关的,然后这个相关系数才能说明相关程度如何。
如果两个变量本身就是线性的关系,那么皮尔逊相关系数绝对值大的就是相关性强,小的就是相关性弱;
在不确定两个变量是什么关系的情况下,即使算出皮尔逊相关系数,发现很大,也不能说明那两个变量线性相关,甚至不能说他们相关,我们一定要画出散点图来看才行
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2Fd605698d-cc8d-4f57-93e8-a555b0dc71de%2FUntitled.png?table=block&id=1a8636d1-8b41-4c32-ac1b-e473e5d367aa&t=1a8636d1-8b41-4c32-ac1b-e473e5d367aa&width=480&cache=v2)
对相关系数大小的解释
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F7207d229-9ae4-439e-baa1-9b44751d7720%2FUntitled.png?table=block&id=d4d0d35f-df48-4572-bb5a-a83d4219becd&t=d4d0d35f-df48-4572-bb5a-a83d4219becd&width=288&cache=v2)
上表所定的标准从某种意义上说是武断的和不严格的。
对相关系数的解释是依赖于具体的应用背景和目的的。
事实上,比起相关系数的大小,我们往往更关注的是显著性。(假设检验)
使用皮尔逊Pearson相关系数的步骤
第一步 描述性统计
描述性统计第二步 正态性检验
正态性检验第三步 绘制矩阵散点图,观察线性关系
使用SPSS比较方便: 图形 ‐ 旧对话框 ‐ 散点图/点图 ‐ 矩阵散点图
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F3dc8515b-9aa3-4e82-ba80-099568f5458e%2FUntitled.png?table=block&id=c9b47135-5cb8-41b8-a7e6-17e1d54fc130&t=c9b47135-5cb8-41b8-a7e6-17e1d54fc130&width=629&cache=v2)
第四步 计算皮尔逊Pearson相关系数
使用MATLAB
corrcoef函数: correlation coefficient相关系数
R = corrcoef(A)
返回 A 的相关系数的矩阵,其中 A 的列表示随机变量(指标),行表示观测值(样本)。
R = corrcoef(A,B)
返回两个随机变量 A 和 B (两个向量)之间的系数。
我们要计算体测的六个指标之间的相关系数,只需要使用下面这个语句:
R = corrcoef(Test);
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F1c02ae5c-e6e9-403b-97a9-a436567650d8%2FUntitled.png?table=block&id=2c488811-2a28-4a21-b8c8-2db8e85188f7&t=2c488811-2a28-4a21-b8c8-2db8e85188f7&width=432&cache=v2)
第五步 判断皮尔逊Pearson相关系数是否显著
对皮尔逊相关系数进行假设检验斯皮尔曼spearman相关系数
定义
定义一
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2Fedae1d45-3f59-4de6-a13b-55935c843960%2FUntitled.png?table=block&id=dccc9b0b-c7f1-46d4-96f9-36b297372cb4&t=dccc9b0b-c7f1-46d4-96f9-36b297372cb4&width=689&cache=v2)
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F9781b923-cf7c-458b-870e-ac2abe2e509f%2FUntitled.png?table=block&id=5420ba66-3597-407a-9bfb-c7a041c97525&t=5420ba66-3597-407a-9bfb-c7a041c97525&width=614&cache=v2)
注:数值相同,取位置的算术平均
![notion image](https://www.notion.so/image/https%3A%2F%2Fprod-files-secure.s3.us-west-2.amazonaws.com%2F0eb038aa-e59f-4a66-8d15-13f844f12d04%2F3c38f665-283b-42c3-b350-dd76a0ed7919%2FUntitled.png?table=block&id=81c6ea0a-b324-43db-b479-a0da51945ad2&t=81c6ea0a-b324-43db-b479-a0da51945ad2&width=591&cache=v2)
定义二
斯皮尔曼相关系数被定义成等级之间的皮尔逊相关系数。
(和之前的结果有微小差别,来自取算术平均值的步骤)
SPSS计算斯皮尔曼相关系数并进行显著性检验
MATLAB中计算斯皮尔曼相关系数
两种用法
(1)
这里的X和Y必须是列向量
(2)
这时计算X矩阵各列之间的斯皮尔曼相关系数
(3)