Checking the Pulse and Temperature of Higher Education
1 问题的综述
检查高等教育的脉搏和温度
1.1 问题描述
一个国家拥有一个健康、可持续的高等教育系统意味着什么?
什么问题重要?它是成本、机会、公平、资金、学位的价值、教育质量、研究水平、世界上最聪明的头脑的思想交流、上述的一些、所有的,还是其他的东西?高等教育制度是一个国家努力进一步教育其公民而不是所需的初等和中等教育的一个重要因素,因此,它既是一个行业本身,也是国家经济受过培训和教育的公民的来源。当我们环顾世界,从德国到美国,从日本到澳大利亚,我们看到各种国家的高等教育方法,这些国家不仅教育自己的学生,而且每年吸引大量的国际学生。这些国家的高等教育体系各有其长处和短处,在当前大流行病所需要的调整之后,各国有机会思考什么是可行的,什么是更好的。然而,改变往往是困难的。推进任何制度所需的体制改革都需要长期执行政策,以便建立一个更加健康和可持续的制度。在这个问题上,你将开发一个模型来衡量和评估国家一级高等教育系统的健康状况,以确定一个健康和可持续的状态考虑到国家的高等教育制度,并提出和分析一套政策,将一个国家从目前的状态迁移到你提议的健康和可持续的状态。具体来说,你被要求:
- 开发和验证一个模型或一套模型,使您能够评估任何国家的高等教育系统的健康状况;
- 将您的模型应用于几个国家,然后根据您的分析,选择一个其高等教育系统有改进空间的国家;
- 为你选定的国家的制度提出一个可实现和合理的愿景,以支持一个健康和可持续的高等教育系统;
- 使用您的模型来衡量当前系统的健康状况,以及为您选定的国家提出的、健康的、可持续的系统;
- 提出有针对性的政策和实施时间表,以支持从当前状态迁移到您提议的状态;
- 使用您的模型来塑造和/或评估您的政策的有效性;
- 讨论在过渡期间和最终状态下实施你的计划对现实世界的影响(例如对学生、教师、学校、社区、国家),承认改变是困难的现实。
1.2 参赛状况
2021年参赛队伍数量依然保持增长趋势,2021年美赛共有参赛队伍26112个,2020年参赛队伍19122个,比较起来增加了6990个队伍。2021MCM与ICM的参加情况:10053个队伍参加MCM(38.5%),16059个队伍参加ICM(61.5%)。
美赛选题情况为:4487个队伍选A题(45%),3105个队伍选B题(31%),2461个队伍选C题(24%),5551个队伍选D题(35%),3521个队伍选E题(22%),6987个队伍选F题(43%)。
2 问题的背景资料
2.1问题应用背景
信息学、统计学
这道题要用到很多的国家的权威数据,建议可以使用谷歌浏览器+谷歌浏览助手,就可以访问外网,数据主要来自各个国家的数据库和联合国教科文组织、世界银行这些权威的数据组织。
下面这几个网站是查数据可能用到的:
2.2问题技术背景
构建评价类模型
需要构建一个评价类模型,利用正比反比并拟合、 模糊数学评价体系、因子分析法、 主成分分析法、 神经网络类的算法、 层次分析法、灰色关联分析均可以对系统做出评价
两类要素
第一要素是评价指标, 哪些指标可以作为评价指标需要进行考量.
除了必要的数据统计, 论文之中也要详细地说明指标的含义, 选择指标的原因,甚至是如何量化指标. 定完指标后, 数据的搜集会成为一个非常大的挑战,研究水平, 资金,学位价值等数据通过何种方式量化?(统计累加?行为锚定?强制百分比?)
第二要素是评价模型, 根据题目意思, 我们应该需要两个评价模型,一个是国家高等教育的健康状况, 一个是国家高等教育的可持续性.
第一步,过多的指标会导致冗余数据, 噪声数据等问题,接下来的问题需要进行数据的降维, 主成分分析或是因子分析,会大大减少评价类模型的输入指标, 甚至可以利用他们直接得到评价结果.
第二步, 国家高等教育的健康状况着眼于现在,只需要现在的指标就可以构建评价模型, 而可持续的评价则着眼于未来.除了模型的建立, 还需要对未来数据的预测.
3 本问题的常用建模思路
3.1 概述
首先根据权威文献及相关研究数据,得到影响高校发展、高等教育可持续性的24个指标
然后从24个指标中提取出4个关键因素,即教育资源、科研水平、政策环境和国际联系。可以采用层次分析法(AHP),通过Matlab分析上述四个因素对高等教育体系健康的影响权重。采用熵权法(EWM)进行修正,得到这四个指标的最终权重,并计算国家高等教育系统得分。根据得分,选择分数低的国家作为改进对象。
接着结合高等教育改进愿景及政策实施时间表和高等教育系统的4个影响因素的数据,利用BIC准则确定最优的模型参数,使用ARIMA模型对数据进行拟合和预测
- 基于层次分析法的高等教育健康状况评估模型
- 基于熵权赋值法的权重修正模型
- 基于ARIMA的时间序列预测模型
- 提出政策并进行语文建模
- 政策评估系统
- 敏感性分析
3.2 数据处理
- 拉格朗日插值法处理缺失数据 因为搜集到的数据存在缺失(很多国家的最新数据都是无的),这里就需要用到数据填充来弥补缺失的数据。 使用该方法画图如下:
源代码如下:
- Max-Min 标准化处理数据(Normalization)
公式如下:
4 模型的相关介绍
4.1 建模假设
F题基于现实问题与数据,不需要做额外假设。
4.2模型的解释与分析
4.2.1 CIPP评价模型
这一问要求我们建立一个高等教育评价模型,我们根据CIPP模型,通过建立“基础
- 投入 - 过程 - 绩效”分析框架,确立了13评价个指标。
根据搜素到的的13个数据指标,我们对数据进行一定的预处理。同时,在对高等教育占GDP比重、毕业率、就业率等重要指标定性描述的基础上,建立高等教育评价系统,定性定量探究影响这些指标的重要因素,以及这些指标之间的内在联系。
4.2.2 基于熵权法的Topsis评价模型
据算出的评分,GER、GBR、USA这三个国家的排名前三,并且确定了GDP、顶尖学校占比(前1000名)这两个关键指标。
4.2.3 因子分析
因子析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
4.3.4时间序列滑动平均模型
因为变量、因变量与各自变量的“过去”和“现在”都可能存在统计依赖关系。所以采取基于时间序列滑动平均模型对印度未来五年数据进行预测。
4.3可视化
一些常用的可视化工具:
- Plotly :一款用来做数据分析和可视化的在线平台,可以在线绘制很多图形比如条形图、散点图、饼图、直方图等等。它在python中使用也很简单,直接用pip install plotly就可以了。推荐最好在jupyter notebook中使用,pycharm操作不是很方便。
- Infogr.am :另一个基于Web的工具,有一些很不错的主题和界面,用于创建简单的信息图表。Infogr.am还允许使用真实数据来创建图表,有31个图表选项提供,如放射状的长条图,散点图,气泡图,图和地图等等,也可以添加自己的图片和视频。
- Tableau Public :是一个免费平台,拥有全球范围内规模极大的数据可视化库,可供用户参考学习。
- matplotlib :它像大多数编程语言的标准库一样,读写、显示、子图、常见图形,可以满足大多数需求常见。
5 对于模型优劣的分析
5.1 模型的优势
- 初始数据搜索齐全(或拿到我们的完整数据)之后,利用主成分分析法、因子分析法对数据进行处理, 实现降维的过程。
- 对数据进行归一化,去除异常值,空白数据的补充。之后就是套各种综合评价方法把多维指标降到一维去做,成为一个评价指标
5.2 模型的不足
1、神经网络的训练过程需要原始数据集,
标准数据集的训练可能会造成比较严重的误差, 所以,
神经网络的阈值确定方式还需要进行改进。经查询,遗传算法, 粒子群算法,
蚁群算法等方式可以大大加快神经网络的收敛性和精度. 2、
不同学科所需的社会支持并不完全相同,
所以在最后一步提出具体意见时,还需要抓典型, 对理学, 工学,
医学中某一类做细致分析, 使结果更加细化
6.可以继续讨论的问题
问题求解的思想补充
高等教育体系可以理解为高于初中等教育的更高阶教育发展体系,其面向人群主要为青少年,由于高等教育体系的发展会受到很多因素的影响,因此本文中根据亚太经合组织成员国大体发展现状抽取几个最主要直接的影响指标,而在本文中认为评判国家高等教育体系的发展程度最直观可判的三大影响指标是大学毕业率、学生综合素质水平和教师水平,从这三方面可以大概判断一个国家高等教育的上限水平,而学生的综合素质本文认为主要可从科学水平能力、数学能力和阅读能力这三方面进行评判。
根据这五大评判影响因素,对亚太经合组织23个成员国的高等教育体系的相关数据资料进行收集,并对集成数据进行聚类分析,如下图所示。
需要分别找发达,发展,落后国家的高等教育数据,这是一个思路。系统点的话,先定义什么是高等教育健康度,这里可以直接以那些大学排行计算的因子作为高等教育健康度的因素,但是这里的题目讲的是国家层面的,所以还需要加上数量,地域分布(教育资源分布是否均匀)等等
可以参考大学排名参考的因素,如青塔公众号,泰晤士,QS等官网。教育资源分布情况可以根据该大学的排前列的大学分布在该国的地区为依据。建立一个评价模型(层次分析、模糊评价、综合评价模型),可以加点花里胡哨的东西,例如决策树结合AHP,神经网络模糊评价之类的。此外模型应用到具体国家,这里也可以加点深度,例如先判断国家的经济情况,对发达、发展中、落后国家弄个权重,因为落后国家没办法和发达国家相比,但是如果落后国家的教育水平是处于一个持续发展的状态,那么也可以称之为相对健康。最后,可以根据不同经济情况的国家的情况具体分析(语言建模),给出针对国家的改善建议,确定调整哪些指标可以改善国家的教育健康程度。
后面部分同样偏建议分析,需要控制侧重点。