编程学习网 > 数据库 > 职场打工人都应该知道的统计学基本概念
2022
09-28

职场打工人都应该知道的统计学基本概念


是否希望,有人能用简单的语言告诉你统计学的意义是什么,以及统计学专业术语的含义?那么现在,你将在最短的时间里,理清统计学中最重要的观点。

什么是统计学?统计学就是把我们的数据混合在一起的任何方法,从学术角度来讲,这是一个百分之百正确的定义。那么,现在让我们看看统计学到底是一门怎样的学科。

统计学是改变你想法的科学

根据事实(参数/parameter)做出决定已经很困难了,但是有时我们会发现,我们甚至缺少我们需要的事实。比如,我们所知道的(样本数据/sample)与我们希望知道的(总体数据/population)是不同的,这就是统计学中“不确定性”的含义。


统计学是一门即便存在不确定性也能改变你的想法的科学。你是否想过,什么东西可以用来设定你的思想?可能是一个行动,或者一个已经存在的信念。但是,如果你的头脑本身是一块白板呢?那就请接着往下读吧!

「贝叶斯学派统计学」Bayesians —— 改变了人们对信念的看法

贝叶斯统计学通常会用到概率和随机性,贝叶斯法主义者喜欢用可信区间(confidence intervals)来解释结果。(可信区间:两个数字被解释为“我相信答案就在这两个数字之间”)

「频率学派」Frequentists —— 改变了人们对行动的看法

在频率统计学中,你不需要得知数据的真实值,你可以通过抽样的方式对数据进行估值。频率统计学是你在生活中和基础统计学课堂上更有可能遇到的,所以在后文会以这个学派的概念为主。


「假设」是对世界上一切可能出现的现象的描述

原假设(null hypothesis)描述了一个世界上所有可能出现的现象,而备择假设(alternative hypothesis)则代表了所有其他世界。

举个例子:我们在同一所学校上课,而现在我刚好路过你家门口。如果你可以在15分钟以内做好准备(原假设),那么我们可以一起走路去上课。但如果有证据表明你需要比15分钟更长的准备时间(替代假设),那么我就不能等你一起了。


「假设检验」:我们的证据是否使原假设看起来很不合理?

所有的假设检验都是在问:我们的证据是否使原假设看起来很不合理?拒绝原假设意味着我们学到了一些东西,我们应该改变我们的想法。不拒绝原假设只意味着我们没有学到任何有趣的新知识。比如,在一片森林里没有发现人类并不能代表地球上没有人类,它只是意味着我们在这片森林里没有学到任何关于人类存在的有趣的东西。如果你什么都没学到,你就没有理由改变你的想法,而是继续探索下去。

那么,我们如何知道我们是否学到了有趣的东西,也就是与原假设的世界不一致的东西呢?为了得到答案,我们可以看一下p值或置信区间。


「P值」是令人惊奇的元素

P值说:“如果我生活在一个我应该遵循原假设的世界里,那么说明证据并不会使人感到惊讶。” 但是,P值越低,那么证据就越是在大喊:"这太令人惊讶了,或许你应该改变想法。"

为了进行检验,我们将该P值与一个叫做显著性水平(significance level)的阈值进行比较。你可以把它看作一个旋钮,用来控制你想容忍多少风险。如果你把显著性水平设置为0,这意味着你拒绝犯错,拒绝容忍任何风险。这也意味着你只会遵循原假设,同时这也意味着你可能会一直遵循一个错误的原假设。

置信区间是用来描述检验结果的一种方式。要使用它,请检查它是否与你的原假设重叠。如果确实重叠,那么就继续遵循原假设。如果不重叠,就改变你的想法。数据分析师通常认为置信区间对于描述数据结果很有帮助,原因有两个:(1)最佳猜测总是包含在区间当中(2)当数据样本变多时,置信区间的范围会变窄。


「统计功效」Power的衡量标准

我们是否做足了功课,以确保我们确实收集了足够的证据,给自己一个改变想法的机会呢?这就是统计功效所衡量的。统计功效越大,就越有机会改变你的想法。如果统计功效几乎为零,那么我们并不会有任何机会改变想法。

统计功效(Power Analysis)分析可以用来确定,你在给定的数据量下统计功效大概是多少。因此,你可以在开始你的数据分析之前用它来做一个计划。


「不确定性」Uncertainty意味着你可能得出错误的结论

在统计学中,我们通常从不确定性中获得确定性,所以这也代表着你仍然会犯错误。说到错误,这里有两个在频率统计学中可能犯的错误:

第一类错误 (Type I error) 指的是,在原假设正确的情况下,你却认为它是错误的。第二类错误 (Type II error) 指的是,在原假设错误的情况下,你却认为它是正确的。换句话说,第一类错误是在你不应该改变想法的时候改变你的想法,第二类错误则是在你应该改变想法时没有改变想法。

第一类错误就像是给一个无辜的人定罪,第二类错误就像是没能给一个有罪的人定罪。然而,如果你得到更多的证据(数据),两种错误的概率都变得更小,那么一切都将会变得更好,这就是为什么统计学家希望你有尽可能多的数据。


总结

统计学是一门改变思想的科学,其中包含两个学派的思想。比较流行的一种——频率统计学派——是关于检验你是否应该遵守或者拒绝你的原假设。贝叶斯统计学派是关于有一个先前存在的观点,并通过数据更新这个观点。如果你在开始数据分析之前脑子里真的是一片空白,那就看看你的数据,跟着你的直觉走吧。

以上就是“职场打工人都应该知道的统计学基本概念”的详细内容,想要了解更多IT圈内资讯欢迎持续关注编程学习

扫码二维码 获取免费视频学习资料

Python编程学习

查 看2022高级编程视频教程免费获取