全距_标准差_四分位距
这是本文档旧的修订版!
全距(range)
- 定义:指分布分数最大值X的精确上限和分布分数最小值X的精确下限的差值,用符号R表示,又叫极差
- 注意:如果分数是连续型,必须用精确上下限
- 例子:若X是离散型,range=10-5=5;若X是连续型,range=10.5-4.5=6
- 全距的代表性较差,只依据两个极端值
标准差(standard deviation)
- 定义:描述了分布中每一个个体与某一标准偏移的距离,这个标准就是均值
- 最重要最常用的差异量数
- 包含所有的信息,代表性强
- 离差
- 定义:某数据点到均值的距离
- 离差=X-μ
- 离差由正负符号和数值组成,如果分数的值大于均值,离差是正数;如果分数的值小于均值,离差是负数
- 任何一个分布中所有个体的离差值之和必然为零
- 和方
- 定义:SS=∑(X-μ)²=ΣX²-(∑X)²/N
- 解决了正负符号的问题
- 总体的方差和标准差
- 定义:总体的方差是和方除以总体的容量,也被称为均方;总体的标准差是总体方差的平方根
- 总体方差=σ²=SS/N
- 总体标准差=σ=√(SS/N)
- 样本的方差和标准差
- 样本是从总体中抽取出的一部分,变异程度应该小于总体
- 如果样本统计量高估或低估了总体参数,就称为有偏估计。如果用样本统计量作总体方差,就低估了总体方差,是有偏估计
- 样本方差的分母是n-1,即s²=SS/n-1,标准差s=√(SS/n-1)
- 用n-1作分母是用自由度来校正样本离差,以利于对总体参数的无偏差估计
- 标准差
- 拇指原则:对于对称分布,均值常常在分布的中点,标准差常常在全距的1/4左右
- 对分布中每一个分数加上一个常数不会改变其标准差
- 对分布中每一个分数乘上一个常数,所得分布的标准差是原分布的标准差乘上这个常数
四分位距(interquartile range)
- 定义:数据中间50%数据的全距,常常使用在用中数作为集中量数的情况下
- IQR=Q3-Q1
- Q1是第一四分位数或者下四分位数,即比Q1小的数据占数据总数的25%;Q3是第三四分位数或者上四分位数,即比Q3小的数据占数据总数的75%,四分位距就是指25%和75%之间的距离(2Q)
- 半四分位距又叫四分差,是四分位距的一半,即SIQR=(Q3-Q1)/2
- 四分位距不易受极端分数的影响,适用于有不确定值的数据
全距_标准差_四分位距.1678103278.txt.gz · 最后更改: 2023/03/06 11:47 由 wisture