1 问题的综述1.1 问题描述1.2 参赛状况1.2.1 选题情况1.2.2 获奖情况2 问题的背景资料2.1 问题应用背景2.2问题技术背景3 本问题的常用建模思路4 模型的相关介绍4.1 建模假设4.2模型的解释与分析4.2.1世界范围语言转换模型4.2.2国内语言转换模型4.2.3移民模型4.2.4地理语言转化模型4.3实验结果4.3.1获取未知参数4.3.2预测未来五十年全世界各语言使用者数量4.3.3预测未来五十年各国各语言使用者数量4.3.4决定不同地区员工掌握语言种类数目的最佳值4.4可视化5 灵敏度分析6 对于模型优劣的分析6.1 模型的优势6.2 模型的不足7 可以继续讨论的问题8 参考文献
1 问题的综述
1.1 问题描述
英文赛题:How Many Languages?
中文赛题:存在多少种语言?
Background:
背景:
There are currently about 6,900 languages spoken on Earth. About half the world's population claim one of the following ten languages (in order of most speakers) as a native language: Mandarin (incl. Standard Chinese), Spanish, English, Hindi, Arabic, Bengali, Portuguese, Russian, Punjabi, and Japanese. However, much of the world's population also speaks a second language. When considering total numbers of speakers of a particular language (native speakers plus second or third, etc. language speakers), the languages and their order change from the native language list provided. The total number of speakers of a language may increase or decrease over time because of a variety of influences to include, but not limited to, the language(s) used and/or promoted by the government in a country, the language(s) used in schools, social pressures, migration and assimilation of cultural groups, and immigration and emigration with countries that speak other languages. Moreover, in our globalized, interconnected world there are additional factors that allow languages that are geographically distant to interact. These factors include international business relations, increased global tourism, the use of electronic communication and social media, and the use of technology to assist in quick and easy language translation.
目前地球上大约有6900种语言。世界上大约有一半的人把下列十种语言中的一种(按使用人数排序)作为母语:普通话(包括标准中文),西班牙语,英语,印度语,阿拉伯语,孟加拉语,葡萄牙语,俄语,旁遮普语和日语。然而,世界上很多人还会讲第二语言。当考虑说某种语言的总人数时(将这种语言作为母语、第二语言、第三语言等的总人数),这些语言和它们的排名将会和之前提供的母语排名不同。一门语言的使用者的总数可能会随着时间的推移而增加或减少,这是由于各种各样的影响,包括但不限于:一个国家的政府使用和/或推广一些语言的影响、学校使用的语言、社会压力的影响、文化群体的迁移和同化、外国移民和移民外国说其它的语言。此外,在我们这个全球化、相互联系的世界里,还有一些额外的因素使得能够使用地理位置相距遥远的语言相互交流。这些因素包括国际商务关系、全球旅游业的增长、电子通信和社交媒体的使用,以及在技术的帮助下快速简单的翻译语言。
Problem: A large multinational service company, with offices in New York City in the United States and Shanghai in China, is continuing to expand to become truly international. This company is investigating opening additional international offices and desires to have the employees of each office speak both in English and one or more additional languages. The Chief Operating Officer of the company has hired your team to investigate trends of global languages and location options for new offices.
问题: 一家大型的跨国服务公司,在美国的纽约和中国的上海都设有办事处,正继续向真正的国际化发展。该公司正在研究开设更多的国际办事处,并希望每个办事处的员工都能说英语和一种或多种额外的语言。公司的首席运营官已经雇佣了您的团队来调查全球语言的趋势,并选择新办事处的地点。
Part I:
第一部分
- A. Consider the influences and factors described in the background paragraph above, as well as other factors your group may identify. Based on projected trends, and some or all of these influences and factors, model the distribution of various language speakers over time.
- A. 考虑上述背景段落中描述的影响和因素,以及您的团队认为的其他可能因素。根据预测的趋势,以及一些或所有这些影响和因素,建立模型描述各种语言使用者的分布随时间的变化。
- B. Use your model to predict what will happen to the numbers of native speakers and total language speakers in the next 50 years. Do you predict that any of the languages in the current top-ten lists (either native speakers or total speakers) will be replaced by another language? Explain.
- B. 使用您的模型来预测:在未来50年,以英语为母语的人数和英语使用者的总人数会发生什么变化。您能预测出目前排名前十(母语者人数或总使用人数都可以)的语言中有哪种语言会被另一种语言取代吗? 说明原因。
- C. Given the global population and human migration patterns predicted for the next 50 years, do the geographic distributions of these languages change over this same period of time? If so, describe the change.
- C. 如果考虑未来50年全球人口和人类的迁移模式,这些语言的地理分布在同一时期会发生变化吗? 如果是,描述一下变化。
Part II:
第二部分:
- A. Based on your modeling from Part I, and assuming your client company wants to open six new international offices, where might you locate these offices and what languages would be spoken in the offices? Would your recommendations be different in the short term versus the long term? Explain your choices.
- A. 基于您在第一部分建立的模型,假设您的客户公司想要开设6个新的国际办事处,您会把这些办事处设在哪里? 这些办事处使用什么语言? 相比于长期,您的建议在短期内会有所不同吗?解释您这样选择的原因。
- B. Considering the changing nature of global communications, and in an effort to save your client company resources, might you suggest that the company open less than six international offices? Indicate what additional information you would need and describe how you would analyze this option in order to advise your client.
- B. 考虑到全球通信的变化,为了节省客户公司的资源,您是否建议公司开设少于六个国际办事处? 指出您需要哪些额外的信息,并描述您将如何分析这个选择,以便为您的客户提供建议。
Part III:
第三部分:
Write a 1-2 page memo to the Chief Operating Officer of the service company summarizing your results and recommendations.
Note: In your analysis, ignore unpredictable or high-impact, low probability events such as asteroid collisions that would cause a catastrophic jump in evolutionary trends over time, and possibly render all languages extinct.
给服务公司的首席运营官写一份1-2页的备忘录,总结您的结果和建议。
注意: 在您的分析中,忽略不可预测或高影响、低概率的事件,如小行星碰撞,这将导致进化趋势的灾难性跳跃,并可能导致所有语言灭绝。
Your submission should consist of:
- One-page Summary Sheet,
- Two-page memo,
- Your solution of no more than 20 pages, for a maximum of 23 pages with your summary and memo.
- Note: Reference list and any appendices do not count toward the 23-page limit and should appearafter your completed solution
您提交的作品应该包括:
一页摘要表;
两页的备忘录;
您的解决方案不超过20页,加上您的总结和概要最多23页。
注意:参考文献和任何附录不计入23页的限制,并应出现在解决方案之后。
References:
- Lane, J. (2017). The 10 Most Spoken Languages in the World. Babbel Magazine. Retrieved from https://www.babbel.com/en/magazine/the-10-most-spoken-languages-in-the-world
- Noack, R. and Gamio, L. (April 23, 2015). The World‘s Languages in 7 Maps and Charts. The Washington Post. Retrieved from https://www.washingtonpost.com/news/worldviews/wp/2015/04/23/the-worlds-languages-in-7-maps-and-charts/?utm_term=.a993dc2a15cb
- List of Languages by Total Numbers of Speakers https://en.wikipedia.org/wiki/List_of_languages_by_total_number_of_speakers
1.2 参赛状况
1.2.1 选题情况
2018年的美国大学生数学建模竞赛(MCM),一共有10670支队伍参赛,有3408支队伍选择了B题,占总参赛队的32%
1.2.2 获奖情况
3408支队伍中共计5支队伍获得O奖
以下是O奖获得者:
Beihang University, China — COMAP Scholarship Award
Beijing Normal University, China — Frank Giordano Award
Peking University, China — SIAM Award
Shanghai Jiao Tong University, China — INFORMS Award
University of International Business and Economics, China
2 问题的背景资料
2.1 问题应用背景
目前地球上大约有6900种语言。世界上大约有一半的人把下列十种语言中的一种(按使用人数排序)作为母语:普通话(包括标准中文),西班牙语,英语,印度语,阿拉伯语,孟加拉语,葡萄牙语,俄语,旁遮普语和日语。然而,世界上很多人还会讲第二语言。当考虑说某种语言的总人数时(将这种语言作为母语、第二语言、第三语言等的总人数),这些语言和它们的排名将会和之前提供的母语排名不同。一门语言的使用者的总数可能会随着时间的推移而增加或减少,这是由于各种各样的影响,包括但不限于:一个国家的政府使用和/或推广一些语言的影响、学校使用的语言、社会压力的影响、文化群体的迁移和同化、外国移民和移民外国说其它的语言。此外,在我们这个全球化、相互联系的世界里,还有一些额外的因素使得能够使用地理位置相距遥远的语言相互交流。这些因素包括国际商务关系、全球旅游业的增长、电子通信和社交媒体的使用,以及在技术的帮助下快速简单的翻译语言。
今年的问题B侧重于确定必要的因素和指标,以理解全球语言的变化趋势及其对服务公司未来办公地点和员工语言的影响。该问题要求根据这些已识别的因素开发建模方法,以解决多个必需的问题。今年的重点是提供了公司业绩,并就办公地点和员工语言进行探究。
2.2问题技术背景
语言在历史发展中经历着变化,这些变化离不开社会、文化的浸染。早在十八世纪末,一位英国学者发现印度和欧洲的语言似乎有共同的来源。从那时起,语言学家便开始关注语言的历史发展,其中十九世纪发现的语言谱系树(family tree)揭示了不同语言间的联系。有人认为世界上约有30个语言谱系,进而演变出四千多种语言。
社会语言学和很多学科领域联系紧密,如与人类学研究语言和文化之间的关系、与社会学结合研究社会群体和机构、与心理学结合研究人们如何表达态度和感知。在现代语言变体研究中,主要通过调查问卷的方法对说话人的社会背景细节进行调查,可以探索出由于社会阶级、教育程度、年龄、性别等因素的影响,某一群体使用自己的语言变体,这种变体叫社会方言(social dialect)。有的社会方言带有显性优势(overt prestige),被看作更受人尊重的说话方式;有些带有隐性优势(covert prestige),由非标准形式和表达组成,在一些特定群体中使用,如一些中学生使用不文明的话。
3 本问题的常用建模思路
O奖模型概览:微分方程模型,ANOVA方差分析,时间序列模型,本利分析,层次分析法,模糊聚类算法,p-中值模型,主成分分析法,马尔可夫模型,MODM模型,模拟退火算法
4 模型的相关介绍
本文的模型基于Mcmahon和Mufwene提出的一种语言转换机制。该机制描述了在某一地区存在着一种以上的语言,该地区的成员舍弃他们最初的语言而选择使用另一种语言,其动机是为了获取另一种语言带来的更好的生存条件。Abrams-Strogatz (A-S)模型是描述两种语言社区之间语言转换的最普遍的数学模型。
其中和表示A语言和B语言占该地区总人口的比例,表示B语言到A语言的转换率。其具体表示为
其中,c表示最大转换率,是表示A语言社区规模和A语言的吸引力的综合因素,则表示相对于B语言社会提供给使用者的社交和经济机遇。Pinasco and Pomanelli 在A-S模型基础上添加了对语言群落人口自然增长的考虑,语言A的自然增长率为
4.1 建模假设
- 使用26种语言作为代表:这26种语言使用人数超过5000万,对世界语言的影响作用较大。
- 使用36个国家作为代表: 考虑到该服务公司选址对该地方人口和经济水平的综合考量,选择人口总数排名前三十的国家或GDP排名前三十的国家。认为这些国家是全球语言变化和语言交流的主要影响着,也是全球经济的主要参与者。此外还需删除缺乏相关数据的国家(如朝鲜民主主义人民共和国)。
4.2模型的解释与分析
4.2.1世界范围语言转换模型
考虑政府支持、旅游业、国际贸易、科技发展四个因素的影响,建立世界范围内的语言转换模型。
数据预处理过程包括:
收集26种语言在全球范围内母语、第二语言、第三语言的使用者人数(2014~2017)
统计每种语言作为官方语言的国家数量占国家总数的比例,以此衡量政府对该语言的支持程度:
统计每个国家2014~2017年的出境人口:
统计2014-2016年间,36个国家进出口贸易数据:
在 facebook 上查找某语言学习群的数量,以衡量社交媒体对该语言的贡献。
将上述两种语言的竞争模式扩展到多种语言,并以语言使用者数量作为语言发展的衡量标准,用表示在t年说l语言的全球总人数,则世界范围语言转换模型表示为:
该表达式第一项表示全球其他语言转变为l语言的期望值之和(导致说l语的人数增加),第二项表示l语言转变为其它语言的期望值之和(导致说l语的人数减少),最后一项表示由于人口自然增长带来的数量变化。
其中语言转换可能性
这里用到的所有超参数由以下表达式说明:
阻力水平:
语言状态:
以上未说明的所有超参数,包括是由收集到的数据拟合得来。
模型可由下图解释。
4.2.2国内语言转换模型
基于世界范围内语言转换模型,我们将模型扩展到国内的语言竞争。对于每个国家,可以计算语言使用者随时间的变化:
与上一模型不同的地方在于:
- 指每个国家的最大人口容纳量,假设该值为2016年该国家人口总数的1.5倍
- 表示l是否为该国家的官方语言,若是,,否则为0
- ,式中表示该国家游客的人数占全国总人数的比例,表示该国家进出口额占总GDP的比例。
4.2.3移民模型
认为未来世界人口迁移趋势不会产生较大变化,故假设未来的移民率和1991至2017年间的平均移民率相同。
数据预处理:为得到平均移民率,将1991至2017年之间的数据每五年分为一个区间,分别计算第k个区间的移民率,即用这五年内从i国家迁移到j国家的净迁移人口之和除以这五年每年总人口之和,用表示,并求出所有区间的平均值
经过以上处理可以预测在t年年末在i国家说l语言的人数:
其中表示由于人口自然增长带来的l语言使用者的增加,可由计算得来。
4.2.4地理语言转化模型
随着全球化的加速,由移民引起的跨境语言竞争也更加普遍。我们建立一个地理语言转化模型来探索不同语言使用者的变化。
模型所考虑的影响因素有:
- 移民(国家之间)
- 语言竞争(国家内)
结合国内语言转化模型和移民模型来讨论国家之间的语言迁移,组合模型如下:
模型可由下图解释。
4.3实验结果
4.3.1获取未知参数
使用梯度下降法,利用已有的数据训练世界范围语言转换模型中的未知参数,直至参数达到最优解:
4.3.2预测未来五十年全世界各语言使用者数量
使用世界范围语言转换模型来进行预测,所使用到的人口自然增长模型为:,实际上由于低水平的人口自然增长率,人口自然增长模型的选择对最终结果并没有明显影响。预测结果主要体现为两个指标:每种语言的使用人数和人数比例。为了解排名前十的语言在五十年内如何变化,我们预测了50年内排名前15的语言的母语使用者和总使用者人数是如何变化的。最终结果显示母语使用者人数中只有排名第十的旁遮普语被吴汉语取代,总使用者人数中只有排名第十的法语被吴汉语取代。两种排名的前十名都有一些内部顺序变化。
4.3.3预测未来五十年各国各语言使用者数量
使用地理语言转换模型预测未来五十年内每个国家内每种语言的使用者数量。为了观察语言的地理分布是否发生变化,使用单因素方差分析(ANOVA)来测试2018年每种语言的使用者人数,并预测2068年的使用者人数,结果如下:
英语的地理分布图如下,可观察到五十年后并未发生明显变化。
4.3.4决定不同地区员工掌握语言种类数目的最佳值
假设一名员工每学会一种新语言,公司需要为他支付薪水C,用Q(n)/P_{i,t}表示该掌握了n种语言的员工在一年内为公司带来的商机,用F表示单位商机带来的利润。最终每名员工为公司带来的净利润为:
当关于n的偏导等于0时,我们可以得到n的最优解。当n或者该国家前种语言中不包括英语时,认为在该国建设分公司是不经济的。删除这些不合适的国家后,根据全球化和世界城市研究网络提供的2016年城市分类排名,我们对剩下国家的城市进行排名,以下为最适合作为新办事处的六个城市。
4.4可视化
模型示意图
对于文中模型,建立简洁美观的示意图,使得说理更加清晰。
语言人数和比例预测
采用堆叠图表示未来50年使用不同语言的本土人数(比例)和总人数(比例)。
2068年使用各语言的本土人数
2068年使用各语言的总人数
- 语言排名
采用折线图来表示未来50年内不同语言的排名。
本土语言使用人数排名
各语言使用总人数排名
- 语言分布图
绘制了说英语的人数的地理分布密度图。
- 灵敏度分析
采用堆叠图来分析参数改变对预测未来使用语言人数的影响。
5 灵敏度分析
- 国家承载人数
根据ANOVA分析,语言人数和比例均对的改变不敏感
- 国内语言分布
根据ANOVA分析,语言人数和比例均对国内语言分布不敏感
- 拟合模型参数
- 是基础阻力水平
- 是基础语言状态
- 是最大位移速度
模型对a和s的改变不敏感,对c的微小改变不敏感。对于c的正增长非常敏感,当 c 变低时,主要语言将继续增加,因为它的基数很大。 然而,这种增强的趋势也将在足够长的一段时间后开始下降。
6 对于模型优劣的分析
6.1 模型的优势
- 首创了多语言竞争模型,并将其与全球移民模型相结合。
- 这种复合模型有较好的可解释性,适用于世界内或一个国家内的语言转化。
- 模型建立后会自发运行,可以预测任何时间任何国家任何语言的使用人数,且能平滑粗糙数据所带来的误差。
- 还建立了另一个模型,从语言使用的成本和收益角度来衡量经济边际效应。
6.2 模型的不足
- 由于对语言数据的访问有限,在某种程度上简化了模型,例如,假设不同语言之间的最大转化速率相同。
- 使用梯度下降法寻找参数的最佳组合前,需要大量的人工推导和计算。
- 改模型需要拟合的参数较多,拟合时间较长。
7 可以继续讨论的问题
- 将为每个国家寻找更多更早的语言数据来支持模型的拟合,并恢复模型所简化的部分。
- 讨论在保证精度的情况下是否可以减少参数。
- 发布新数据时,用统计数据评估预测结果并改进模型。
8 参考文献
[1] 2017_MCM_Problem_B.pdf, https://www.comap.com/undergraduate/contests/mcm/contests/2018/problems/.
[2] Team#91566, Forecasting the Language Distribution.