3分钟让你快速理解正态分布_正态散布_成分
从身高分布到马太效应
正态分布无处不在
上一年超模君在高考的前一天,押中了高考作文题。
现在间隔紧张又刺激的高考,只剩下2天了。
看样子又到超模君蒙题的时候,以下内容有可能是考试重点,请做好条记:
某位不愿透露姓名的考生问到超模君,他现在考上清华还有希望吗?
超模君看了看他的近期成绩,Emmm...
这位考生近期仿照考的分数分别为580,600,680,620,四次考试的均匀值为620分,标准差为37.4,而一个学生的成绩可以近似看做正态分布。
清华大学的分数线是680分,把它在上图标出来:
上图阴影的面积为0.03,也便是说考上清华大学的概率为3%。
以是超模君的建议是:
实在除了高考成绩外,我们的生活中还有许多这样的例子,比如:
身高
人的IQ分布
正态分布的前世今生
正态分布观点是由德国的数学家和天文学家棣莫弗(Moivre)于1733岁首年月次提出,但当时他并没有正态分布更多的运用成果,以是并没有什么名气。
后来,德国数学家高斯(Gauss)率先将其运用于天文学家研究,这时候正态分布才引起了人们的广泛重视,因此正态分布又叫高斯分布。
左:棣莫弗 右:高斯
到了19世纪,高尔顿和凯特勒把正态分布用在了其他学科上,他们用实际的行动开拓了运用统计学,为数理统计学的产生奠定了根本。
在他们两人的影响下,正态分布得到了普遍认可和广泛运用(乃至是滥用)。
左:高尔顿 右:凯特勒
那么这么厉害的正态分布到底讲的是什么呢?别急,我们先来看看高尔顿是怎么研究的。
1877 年,高尔顿设计了一个叫高尔顿钉板的实验,仿照正态分布的性子:
实验***只需14秒!
高尔顿钉板试验内容:
有一块贴在墙上的木板,木板上有一些水平钉子,它们彼此的间隔均相等。让一些小球从木板上方的入口处自由落体,经由一次次碰撞后,这些小球终极掉落到下方的竖槽中。
知道了实验内容后,我们来看看高尔顿钉板实验的细节:
弹珠往下滚的时候,撞到钉子就会随机选择往左边走,还是往右边走:
这些小球终极的分布位置如下图:
像这种旁边对称,两头低,中间高的曲线我们称它为正态分布,又因其曲线呈钟形,人们又常常叫它钟形曲线。
为什么正态分布会如此常见呢?
咳咳,接下来便是本日内容的重点了(敲黑板)!
这个问题可以用中央定理(central limit theorem)来回答:在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。
中央极限定理提出者——棣莫弗
这个定理可以这么理解:
生活中各种各样的成分就像高尔顿钉板实验中的钉子一样,对我们各个方面产生了大大小小的影响,使得末了的结果分布趋近于正态分布;
但中央定理并不是万能的,他拥有两个很主要的条件:
首先,第一个条件便是取样须要随机。
这个条件相信大家可以很好地理解,如果我们抽取的人的时候,只抽抽长的高的或者只抽取长得矮的人,那么结果自然不符合正态分布。
第二,影响结果的成分是相互独立或者是相互影响比较小的。
也便是说,如果影响结果的成分之间并没有太大的关系,那么这些成分可以算作是相互独立的,这样结果才能符合正态分布。
以身高为例,影响一个人长高的成分有很多,例如:
父母长得高还是矮
营养是否跟得上
是否热爱运动
......
等等
父母长得高还是矮对营养的补充没有很大的关系,跟是否热爱运动也没有关系,以是可以算作是相互独立的成分,以是身高的人群分布曲线自然就符合正态分布。
这时候可能有人会问,如果这些成分不独立,乃至是有紧密的联系会怎么样呢?
我们来看看下面这个例子:人均财富分布(马太效应)。
从下图可以创造:富人的有钱程度(可以一贯向x轴右端延伸)远远超出穷汉的贫穷程度,即财富分布曲线有右侧的长尾。
人均财富分布图
这是由于导致财富差距的成分比如教诲资源,家庭背景,事情单位相互影响,并不独立。
如果一个人家庭背景不错,那么他大有机会得到好的教诲资源,从而选择更好的事情。
这么来看的话,家庭,教诲,事情3个成分产生了1+1+1>3的结果;而相互独立的成分该当是1+1+1=3(加法)。
这就导致图像并没有涌现正态分布。
但是后来统计学家们创造,既然这些成分相互影响,那么完备可以把这些相互影响的成分看做乘法,接下来我们通过对数把乘法转换为加法。
这里须要补一点高中的数学识:
大家在高中的时候都学过对数,对数有一个独特的性子——可以把乘法变成加法。(如下图所示)
把乘法变成加法后,不就可以算作结果是是由一个个独立的成分影响的吗?
因此我们对之前的数据取自然对数,结果就靠近于正态分布了:
这便是正态分布的一个衍生——对数正态分布。
总的来说,正态分布阐明了自然界中大部分常见的分布问题,但事情的结果每每还是由自己决定的。
3%离100%的成功还差了32倍的汗水和付出。
如果想在高考(或者考研,国考)这个沙场上取得更好的成绩,走进更好的学术殿堂,那么还是须要不断地提升自己,减小随机性(标准差)。
本文系作者个人观点,不代表本站立场,转载请注明出处!