,MAD定义为数据点到中位数的绝对偏差的中位数:
MAD=median(∣Xi−median(X)∣) MAD = median(|X_i-median(X)|)
MAD=median(∣X
i
−median(X)∣)
也就是说,先计算出数据与它们的中位数之间的残差(偏差),MAD就是这些偏差的绝对值的中位数。
示例
考虑数据集(1, 1, 2, 2, 4, 6, 9),它的中位数为2。数据点到2的绝对偏差为(1, 1, 0, 0, 2, 4, 7),该偏差列表的中位数为1(因为排序后的绝对偏差为(0, 0, 1, 1, 2, 4, 7))。所以该数据的绝对中位差为1。
用途
绝对中位差是一种统计离差的测量。而且,MAD是一种鲁棒统计量,比标准差更能适应数据集中的异常值。对于标准差,使用的是数据到均值的距离平方,所以大的偏差权重更大,异常值对结果也会产生重要影响。对于MAD,少量的异常值不会影响最终的结果。
由于MAD是一个比样本方差或者标准差更鲁棒的度量,它对于不存在均值或者方差的分布效果更好,比如柯西分布。
MAD与标准差的关系
为了能将MAD当作标准差σ \sigmaσ估计的一种一致估计量,使用
σˆ=k⋅MAD \hat\sigma = k \cdot MAD
σ
^
=k⋅MAD
其中 k 为比例因子常量,值取决于分布类型。
对于正态分布数据,k的值为:
k=1/(Φ−1(3/4))≈1.4826 k = 1/(\Phi^{-1}(3/4)) \approx 1.4826
k=1/(Φ
−1
(3/4))≈1.4826
也就是标准正态分布Z=X/σ Z = X/\sigmaZ=X/σ的分位函数的倒数(也称为逆累积分布函数)。数值3/4是为了±MAD \pm MAD±MAD包含标准正态累积分布函数的50%(从1/4到3/4的范围值),也就是:
12=P(∣X−μ∣≤MAD)=P(∣X−μσ∣≤MADσ)=P(∣Z∣≤MADσ). {1 \over 2} = P(|X-\mu| \le MAD) = P(|{X-\mu \over \sigma}| \le {MAD \over \sigma}) = P(|Z| \le {MAD \over \sigma}).
2
1
=P(∣X−μ∣≤MAD)=P(∣
σ
X−μ
∣≤
σ
MAD
)=P(∣Z∣≤
σ
MAD
).
所以,必须有:
Φ(MAD/σ)−Φ(−MAD/σ)=1/2 \Phi(MAD/\sigma) - \Phi(-MAD/\sigma) = 1/2
Φ(MAD/σ)−Φ(−MAD/σ)=1/2
而
Φ(−MAD/σ)=1−Φ(MAD/σ) \Phi(-MAD/\sigma) = 1 - \Phi(MAD/\sigma)
Φ(−MAD/σ)=1−Φ(MAD/σ)
得到MAD/σ=Φ−1(3/4)=0.67449 MAD/\sigma = \Phi^{-1}(3/4) = 0.67449MAD/σ=Φ
−1
(3/4)=0.67449,从而比例因子k=1/Φ−1(3/4)=1.4826 k = 1/\Phi^{-1}(3/4) = 1.4826k=1/Φ
−1
(3/4)=1.4826。
另一种计算方法是MAD等于半正态分布的中位数:
MAD=σ2–√erf−1(1/2) MAD = \sigma \sqrt 2 erf^{-1}(1/2)
MAD=σ
2
erf
−1
(1/2)
这种形式可以用于概然误差的计算。
总体MAD
总体的MAD与样本MAD的定义类似,但是它是基于完全分布而不是样本执行的计算。对于均值为零的对称分布,总体MAD是分布的75%分位点。
均值有可能是无限值,或者不存在的值;然而总体MAD永远都是一个有限值。例如,标准柯西分布的方差不存在,但是它的MAD等于1。
已知最早提出MAD概念的是约翰·卡尔·弗里德里希·高斯。
---------------------
作者:董旭阳TonyDong
来源:CSDN
原文:https://blog.csdn.net/horses/article/details/78749485
联系客服