。
quartile(四分位数)主要有upper quartile(上四分位数)和lower quartile(下四分位数)。upper quartile用Q3来表示,对应的是 ¾n 的位置,lower quartile用Q1来表示,对应的是 ¼n 的位置,算法和median是一样的,如果是ungrouped data,不是整数就往前进一位,找这个数对应的数值,是整数就找这个和下一个数值的平均数。
如果是continuous data,就用linear interpolation,步骤和median的步骤一样。percentile(百分位数)方法和步骤也是一样的,如果找P30,就是0.3n对应的位置。
Measure of spread包括range,interquartile range,interpercentile range,variance和standard deviation。
range:一组数据里最大的数减去最小的数
interquartile range(四分位距):difference between upper quartile and lower quartile,Q3-Q1
interpercentile range:difference between two given percentiles
variance(方差):每一个数据和平均数的偏离程度
standard deviation(标准差)是方差的平方根,用σ来表示。
公式为:
ungrouped:
grouped:
这一块还有一个重要内容是coding。
如果原来的数据特别大不方便计算的话,我们可以用coded data来做,y=(x-a)/b。y代表coded data,x代表original data,我们就可以通过先计算y的mean再去计算x的mean,
。
因为standard deviation是测量数据的偏离程度,如果coding是加减法,那么数据的偏离程度没有变化,所以加减法对于standard deviation没有影响,因此我们计算standard deviation的时候不需要去考虑 a/b 的部分,只需要考虑x的系数 1/b,