在数据分析中,对于一个庞大的数据集,我们无法对其中的所有数据进行分析,这个时候可以选取合适的指标来反映这个数据集的特征。最常用的指标就是平均数,也可以用它对不同数据集进行比较。统计学上的平均数有数值平均数和位置平均数,日常应用中多以“平均数”指代数值平均数,而把位置平均称为“中位数”。
平均数的计算方法
设一组数据为 X1, X2,...,Xn,简单算术平均数的计算公式为:
中位数的计算方法
将一组数据进行排序,如果数据的个数是奇数,则中间那个数据就是这群数据的中位数;如果数据的个数是偶数,则中间两个数据的算术平均值就是这群数据的中位数。
平均数与中位数的特点
在实际应用中,平均数容易受到一些极端值的影响。比如一个品牌有5家门店,某日这些店铺的业绩分别是 1100,1000,1300,1200,10000。这个时候,5家门店业绩的中位数为1200,而平均业绩则是2920。如果第二天,最高业绩的店铺下降为5000,这些店铺的业绩中位数仍然为1200,而平均业绩则下降到1920,下降幅度超过30%。
当然,中位数也有它的局限性,同样以前面的例子来说,业绩最高的店铺业绩已经下降了,但是中位数仍然不变,说明中位数在评估总量和结构方面不太擅长,如果我们想了解数据集总量的变化,应该采用平均值更为合适。
平均数和中位数的应用
平均数和中位数除了前面介绍的特别,我们还可以进一步深挖,结合平均数和中位数两个指标对整体数据做一个评估。平均数、中位数与数据集的分布有如下的关系:
1)当数列是正态分布, 中位数与平均数具有相同的值;
2)当数列是正偏态分布,中位数位于平均数的左侧, 小于平均数;
3)当数列是负偏态分布时,中位数位于平均数的右侧,大于平均数。
可以用图表表示如下:
正偏态分布指在一个不对称或偏斜的分布中,分布的高峰偏左,而长尾则从左侧逐渐延伸于右端。以连锁品牌的店铺业绩为例,若店铺业绩的数据集呈正偏态分布,则表明大部分店铺业绩都小于平均业绩,业绩较好的店铺为品牌贡献了大部分的业绩。
负偏态分布指在一个不对称或偏斜的分布中,分布的高峰偏右,而长尾则从右侧逐渐延伸于左端。以连锁品牌的店铺业绩为例,若店铺业绩的数据集呈负偏态分布,则表明大部分店铺业绩都高于平均业绩,业绩较差的店铺对品牌的拖累效果较为明显,这个时候需要重点分析这些绩差店铺的问题在哪里。