数据分析入门之:三类数据统计分析策略(下)
上期,我们跟大家分享了了数据统计分析策略中的描述性统计分析,和部分探索性统计分析的相关内容,今天,我们接着为大家分享探索性统计分析的内容和推断性统计分析的内容。
接下来,我们继续讲探索性统计分析策略的案例。
案例3:探索某电商的交易量,在PC端和移动端之间的比例变化
为了清晰的展现交易量在PC端和移动端之间的比例变化,我们可以选择百分比堆叠条形图,将所有条形高度都标准化到100%,来展示数据占比。
通过整理电商企业各端口的数据,我们可以得到上图这样的堆叠条形图。其中,横轴代表2014-2016年的各个季度,纵轴代表占比,图形的上半部分代表移动端,下半部分代表PC端。
通过图片,我们可以直观的看到,移动端的交易量在迅速扩张,PC端的数据量则是呈现逐年递减的趋势。由此我们不难发现,自2014年到2016年3年间,电商行业的交易方式,逐渐由电脑操作过渡到了手机交易。
03
推断性统计分析
1)释义
按照百度词条的解释:推断统计学是指,以概率论为基础,用随机样本的数量特征信息,来推断总体的数量特征,作出具有一定可靠性保证的估计或检验。
推断性统计分析非常经典,但操作起来相对较难。相比探索性统计分析,它更加侧重于寻找定量的答案,通常是计算统计量和对应的概率P值。
一般情况下,如果概率P值:
- P<0.05,则需要拒绝原假设;
- P≥0.05,则需要接受原假设。
(注:0.05为默认的对比值。原假设即假设事件成立的情况,如样本均值等于某个值,两属性之间不相关,则样本服从正态分布,需要拒绝原假设;反之则需要接受原假设)
2)案例
为了便于大家理解,我们还是通过小例子,给大家阐述相关的内容。案例如下
(1)通过t检验,推断两样本间的均值,是否存在差异;
(2)通过卡方检验和Pearso相关性检验,推断样本的两个属性是否不相关;
(3)通过Shapiro正态性检验,推断样本是否服从正态性分布。
下面,我们逐一给大家做相应的介绍。
(1)t检验
t检验也称为均值检验。该方法主要是通过验证样本的均值,从而判断样本是否满足某个常数;或者判断两样本之间的均值,是否存在差异。
举个栗子:假设某品牌充电宝电容量标注的是数据是5000毫安。那么,我们应该如何验证这一说法的真实性呢?这就要用到t检验了。我们可以通过借助t检验的工具(基于Python),得到如下的电容量数据:
接下来,我们就需要通过数据来做验证了。
①提出原假设与备择假设。
- H0:样本均值为5000毫安(原假设)。
- H1:样本均值不为5000毫安(备择假设)。
②计算统计量。
通过计算,我们可以发现,所得的统计量为-0.694。从数据来看,我们不能直接说,该样本是否满足均值为5000毫安。由此,我们还需要对P值进行计算。
③对比概率P值,下结论。
P=0.5019915686890506
结果显示,P>0.05,说明不能拒绝原假设。也就是说,样本均值为5000毫安的说法是正确的。这也说明,该商品不存在虚假宣传的问题。
(2)卡方检验和Pearson相关性检验
我们都知道,卡方检验主要用于验证两个离散型变量之间的独立性;而Pearson相关性检验,则是用于验证两个数值型变量之间的独立性。这二者既是相互独立的,也是互为补充的。下面,我们通过两组数据来给大家具体解释他们的特点。
下面,我们来逐一解释这两种检验。下图是:三某班级学生的性别与其是否被大学录取的数据图。我们通过卡方检验来做验证。
接下来,我们还是通过数据计算,来得出进一步的结论。
①提出原假设与备择假设。
- H0:学生的性别与其是否被录取相互独立。
- H1:学生的性别与其是否被录取不相互独立。
②计算统计量。
从下图我们能看到,卡方检验的统计量为4.86。接下来,我们借助P值来判断结果。
③对比概率P值,下结论。
P=0.02750150730030855
由此,我们发现,P<0.05,说明我们应该拒绝原假设,换句话说,我们认为学生的性别与其是否被录取是相关的。
紧接着,我们通过Pearson相关性检验,来判断汽车速度与刹车距离是否呈现的相关性。
具体步骤如下:
1)提出原假设与备择假设。
- H0:汽车速度与刹车距离不相关。
- H1:汽车速度与刹车距离相关。
2)计算统计量。
结果显示,汽车速度与刹车距离之间的Pearson相关系数为0.807,说明两者之间存在很强的相关性,为进一步验证这个结论,可以计算概率P值。
3)对比概率P值,下结论。
P=1.4898364962950702e-12
通过计算,我们可以发现,P<0.05,说明我们应该拒绝原假设,换句话说,我们认为汽车速度与刹车距离之间强相关性是正确的。
(3)Shapiro正态性检验
接下来,我们来说说Shapiro检验。对于正态性的样本,我们在做检验时,可以使用Shapiro检验方法。当然,我们通常要求样本数量在5000以内,如果样本量在5000以上,可以使用KS检验方法。
下面,我们以Titanic乘客的年龄数据为例,来验证其是否服从正态性分布。
1)提出原假设与备择假设。
- H0:乘客的年龄数据服从正态性分布。
- H1:乘客的年龄数据不服从正态性分布。
2)计算统计量。
通过计算,我们可以得出Shapiro检验的统计量为0.981。接下来,我们就需要通过计算,来得出明确的结论。
3)对比概率P值,下结论。
P=7.322165629375377e-08
通过计算,我们可以发现,P<0.05。所以我们应该拒绝原假设,换句话说,我们认为Titanic乘客的年龄并不服从正态性分布。
写在最后
综上,我们给大家分享了三类数据统计分析策略。结合案例分析,我们不难发现,在数据分析过程中,我们不仅要通过探索方法,对数据结论或者业务走向,做到心中有“数;还要通过深入研究,让数据背后的隐藏价值,客观、直接的展现在从业者的面前,为我们后续给企业,给领导层提出相应的决策,提供有力地支撑。