绝对中位差

，MAD定义为数据点到中位数的绝对偏差的中位数：

MAD=median(∣Xi−median(X)∣) MAD = median(|X_i-median(X)|)

MAD=median(∣X

−median(X)∣)

也就是说，先计算出数据与它们的中位数之间的残差（偏差），MAD就是这些偏差的绝对值的中位数。

示例

考虑数据集(1, 1, 2, 2, 4, 6, 9)，它的中位数为2。数据点到2的绝对偏差为(1, 1, 0, 0, 2, 4, 7)，该偏差列表的中位数为1（因为排序后的绝对偏差为(0, 0, 1, 1, 2, 4, 7)）。所以该数据的绝对中位差为1。

用途

绝对中位差是一种统计离差的测量。而且，MAD是一种鲁棒统计量，比标准差更能适应数据集中的异常值。对于标准差，使用的是数据到均值的距离平方，所以大的偏差权重更大，异常值对结果也会产生重要影响。对于MAD，少量的异常值不会影响最终的结果。

由于MAD是一个比样本方差或者标准差更鲁棒的度量，它对于不存在均值或者方差的分布效果更好，比如柯西分布。

MAD与标准差的关系

为了能将MAD当作标准差σ \sigmaσ估计的一种一致估计量，使用

σˆ=k⋅MAD \hat\sigma = k \cdot MAD

=k⋅MAD

其中 k 为比例因子常量，值取决于分布类型。

对于正态分布数据，k的值为：

k=1/(Φ−1(3/4))≈1.4826 k = 1/(\Phi^{-1}(3/4)) \approx 1.4826

k=1/(Φ

−1

(3/4))≈1.4826

也就是标准正态分布Z=X/σ Z = X/\sigmaZ=X/σ的分位函数的倒数（也称为逆累积分布函数）。数值3/4是为了±MAD \pm MAD±MAD包含标准正态累积分布函数的50%（从1/4到3/4的范围值），也就是：

12=P(∣X−μ∣≤MAD)=P(∣X−μσ∣≤MADσ)=P(∣Z∣≤MADσ). {1 \over 2} = P(|X-\mu| \le MAD) = P(|{X-\mu \over \sigma}| \le {MAD \over \sigma}) = P(|Z| \le {MAD \over \sigma}).

=P(∣X−μ∣≤MAD)=P(∣

X−μ

∣≤

MAD

)=P(∣Z∣≤

MAD

所以，必须有：

Φ(MAD/σ)−Φ(−MAD/σ)=1/2 \Phi(MAD/\sigma) - \Phi(-MAD/\sigma) = 1/2

Φ(MAD/σ)−Φ(−MAD/σ)=1/2

而

Φ(−MAD/σ)=1−Φ(MAD/σ) \Phi(-MAD/\sigma) = 1 - \Phi(MAD/\sigma)

Φ(−MAD/σ)=1−Φ(MAD/σ)

得到MAD/σ=Φ−1(3/4)=0.67449 MAD/\sigma = \Phi^{-1}(3/4) = 0.67449MAD/σ=Φ

−1

(3/4)=0.67449，从而比例因子k=1/Φ−1(3/4)=1.4826 k = 1/\Phi^{-1}(3/4) = 1.4826k=1/Φ

−1

(3/4)=1.4826。

另一种计算方法是MAD等于半正态分布的中位数：

MAD=σ2–√erf−1(1/2) MAD = \sigma \sqrt 2 erf^{-1}(1/2)

MAD=σ

erf

−1

(1/2)

这种形式可以用于概然误差的计算。

总体MAD

总体的MAD与样本MAD的定义类似，但是它是基于完全分布而不是样本执行的计算。对于均值为零的对称分布，总体MAD是分布的75%分位点。

均值有可能是无限值，或者不存在的值；然而总体MAD永远都是一个有限值。例如，标准柯西分布的方差不存在，但是它的MAD等于1。

已知最早提出MAD概念的是约翰·卡尔·弗里德里希·高斯。

---------------------

作者：董旭阳TonyDong

来源：CSDN

原文：https://blog.csdn.net/horses/article/details/78749485

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。