样本均值之差的公式,样本均值计算公式推导

首页 > 企业招商 > 作者:YD1662023-07-31 01:20:36

样本均值之差的公式,样本均值计算公式推导(1)

在实际工作和研究中,往往只能获得数据的一部分,通常指这个数据为样本,而通过样本对整体的估计被称为假设检验。

样本是从整体中选取的较小集合,

样本均值之差的公式,样本均值计算公式推导(2)

中心极限定律:

样本的均值约等于总体的均值;

不管整体什么分布,任意一个总体的样本均值都会围绕在总体的均值周围,且呈正太分布。

关键信息:

样本的均值等于总体的均值;

样本的均值方差等于总体均值的方差除以样本数

中心极限定律就是通过样本预测整体均值的理论基础。

S= σ /√n,样本均值标准差=总体均值标准差/√样本数。

假设检验

分析思路

为了得到用户的年龄情况,

参数估计,基于用户样本数据估计整体用户年龄。

假设检验思路

根据经验或者其他方面的信息假设一个总体用户的年龄的可能值,在根据样本情况,使用工

具来验证假设是否正确。

例子:我们的用户年龄在32岁,但第三方显示该行业用户年龄为29岁,年龄相差3岁,那我

们的用户群体与该行业用户是否有显著差异?

假设检验的主要步骤

设定初始假设

初始假设:用户的平均年龄32

验证结果:接受或者拒绝这个假设

双尾检验:

默认假设=,对应假设为>或<

有2个默认拒绝假设的空间。

单尾检验:

默认≥,对应假设<

有一个拒绝默认假设的空间

计算检验的统计量

用户数80

平均年龄32

年龄标准差12

Z=(32-29)/12/√80=2.236

评估假设所用的临界值

临界值的2个因素:

假设类型、

显著性水平,判断在什么范围内的错误我们可接受,

临界值比作考试及格的分数,显著性水平是控制多少学生几个

显著性水平越底,考试难度越大,原假设难被否定

显著性水平越高,考试难度越低,原假设容易被否定

显著性水平定义区间通常为0.01-0.1之间。

在本例中:

默认假设=29

显著性水平0.05

双尾检验,概率水平均分,0.05/2=0.025

查表可知,0.025临界值为±1.96

做出决策判断

结论:Z=2.24

临界值±1.96

结论:拒绝,即我们的用户平均年龄不在29岁

实际业务中也可以用来验证两个不同样本之间的问题:

方差分析,用于两个即两个以上的样本间的显著性分析。

做出两组之间无差异的假设,且服从正态分布;

计算杨振之间平均值的差异,构建我们需要检验的统计量,Z评分。

选择合适的显著性水平,和临界值。

比较两者之间的大小,判断是否接受默认假设。

将我们看到的数据差,分解为不同组之间的差异和各个组之间的内部所产生的差异,

如果组之间的差异大到某一个特定的比例,可以认为是我们所关注的变量产生了足够大的影

响。

案例:

某店铺的裤子评分为8.6分,标准差为1,某一牛仔裤的100位用户的评分均值为9.5,这

一牛仔裤与其他裤子存在显著性差异么?

提出假设:

样本平均分数再总体评分内

计算Z评分:

Z=(9.5-8.6)/ (1/√100) = 9

选择显著性水平:

选择95%置信水平,临界值为±1.96

提示业务结论:

9 > 1.96,拒绝原假设,样本均值不在总体均值内。因此本服饰的满意度

与整体存在差异,可以研究下发生了什么。

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 m.360kss.com., All Rights Reserved.