【思想篇】决定论 - 六西格玛的核心思想

1月17日的文章《敏感度分析》中提到了蒙特卡罗分析中的敏感度分析五类指标，在文末拓展部分谈到了方差分析、回归分析、试验设计以及MSA中似乎也有敏感度分析的影子。这篇文章中谈到今天的文章理清这几个统计应用中的敏感度分析中的五类指标的情况。计划不如变化，今天在查找相关资料时，却发现，事情没有那么简单。所以今天先谈谈六西格玛的核心思想：决定论。

一、固定效应与随机效应

Minitab中单因子方差分析、回归分析与试验设计中并没有出现方差分量贡献度，这是为何？经溯源发现，单因子方差分析与试验设计的因子对响应的效应都是固定效应，而MSA中的因子效应时随机效应。为什么单因子方差分析中的因子效应是固定效应呢，因为因子所取的各个水平就是全部水平，而MSA中的测量员这个因子的水平是从所有测量员中随机抽取的，也就是因子的水平本身是否随机。读者可以阅读张自达老师的公众号文章《GR&R中的ANOVA问题答案》，以获取更多关于MSA中的方差分析的内容。

单因子方差分析时，因子每个水平下的响应的n次实际观察值并不相同，怎么能说因子某水平下的效应是固定的呢？这是因为n次观察或试验只是这个水平下的抽样，而不能代表这个水平下的响应的总体。因子在这个水平下对应的平均总体响应是确定的，是固定的。为了更好的理解效应，我们详细探讨下。

因子某水平下的效应等于该因子水平下对应的平均响应与该因子所影响的响应总均值的差。举个例子，假设温度对烧碱得率有影响，温度为60℃时做了五次试验，得到了五个烧碱得率，其平均值为90.2，在65℃时也做了五次试验，得到了五个烧碱得率，其平均值为93.2，温度在70℃和75℃下也分别做了五次试验，得到的平均烧碱得率分别为95和90.2，烧碱得率总均值为92.15。那么因子在60℃水平下的效应估计就是90.2-92.15=-1.85，在65℃、70℃以及75℃这三个水平下的效应估计分别为：1.15，2.85以及-1.15。此处为效应估计而不是各水平下的总体效应，因为五次试验只是抽样。统计分析时存在三种误差：一是抽样随机误差，二是受温度之外的因素影响的随机误差。但分析模型中不对这两种误差进行区分，三是因子水平误差导致的响应的随机误差。三者加总形成总的随机误差，在单因子方差分析时，我们不区别这三类误差，而是做打包处理。

为什么还存在其他因素的影响，这要从六西格玛的核心思想谈起。

二、因果函数（决定论/因果论）

决定论是六西格玛的核心思想。大多数人认为科学性是这一观点的基础，并主张每一个现有现象都是由另一个或多个现有现象造成的。例如，我们知道“答案”源于“问题”。反过来，我们可以说“问题”是“思考”的结果。因此，许多人认为，我们的日常现实可以由一系列相互交叉的因果关系来定义。当然，我们可以影响一些因果链，而其他的则超出了我们的控制范围。尽管如此，我们也会努力挖掘、理解并利用决定论的力量。

为了更为简单的交流这一想法，我们提出了理想模型Y = f（X）的概念，Y是因变量，X是因果关系中的独立解释变量，f是将Y与X联系起来的函数。这个关系告诉我们，在函数f有效可靠的情况下，必须先得到X的性能，才能通过f得到Y的性能。因此，可以说（在任何时刻）输出变量Y受输入变量X的制约。

某种原因使得X不能完全解释Y，或X不是导致Y变化的唯一因素，这时，我们必须采用误差模型Y=f（X）+ε，其中ε是其他因素对Y的贡献，是其他因素对Y预测的扰动，是导致Y预测不确定性的来源。从这个角度来看，科学概念中的误差与不确定性是同义词。误差（本身）不是“犯错”，而是人们对“偏离或不同”的科学理解。误差是客观实在，而犯错是主观判断。

在这样的背景之下，我们懂得了不确定性（风险）来源于Y或X的变异，无关乎变异的种类。因此，变异的概念密切相关于可再现和可重复的概念，而后两个概念又关联于仿行误差的概念。为了更好的解释误差，我们来比较Y的性能观测与对应的模型预测ζ。如果观测值Yi不等于ζ，就可以说Y的观测值与模型（预期）预测不同（偏离），因此|δi |>0。

一般而言，ζ可以是特性的名义值（如T）、也可以是中心趋势的度量（如µ），甚至可以是规定的其他Y（如Yk）。当考虑差值δi=Yi–µ时，我们发现误差δi是一种特殊的“平均偏差”。据此，我们可能会试图根据偏差的具体大小、方向、在某时间段的情况和在某时刻点的情况对其进行分类描述。当然，这种刻画研究的结果将使我们能够更好地定义或以其他方式描述潜在的因果系统，唯有如此，Y才能在科学上与x联系起来。误差的逐步分类是现代问题解决和六西格玛实践的核心。

三、函数的多元拓展

遗憾的是单个自变量不能来充分描述自然界中的大多数现象，因为大多数现象比较复杂。某种程度上来说，单变量情况的研究基本表明ε>0。为了完全消除这种不确定性（误差），有必要阻断所有其他原因（自变量）。随后需要检查因变量之间的独立性以及因子的交互效应 — 瞬时和长时。只有当这些效应已知或假设合理时，才能得出Y=f（X1，…，XN）。如前所述，我们认为Y是因变量，f是传递函数（因果机制），X是自变量，N是最后一个可能的X。

只有确定了或以有效可靠的方式定义了所有影响Y的X时，才能说自变量的集合是完备的或“详尽的”。这意味着对掌握了或以其他方式说明了所有影响Y的自变量。简而言之，从逻辑上可以断言，当数量N接近其自然上限时，Y中的固有误差必然会接近于零，也就是说没有误差。

然而，在实践中，几乎不可能在所有的X定义域内建立可行的联系Y与X的函数，所以很难发现N是完全详尽的并且函数f是绝对有效和可靠的。所以我们得承认，至少从某种统计和实用的程度上来讲，Y的预测与实际值之间是不相等的，亦即存在误差。所以，我们必须修改上述函数关系，等到新的模型，也就是Y=f（X1，…，XN）+ε。和单变量情况一下，此处的ε也是其他因素对Y的贡献，是其他因素对Y预测的扰动，是导致Y预测不确定性的来源。只有在给定有效可靠的传递函数f和一组详尽的因变量时，我们才有可能合理地宣称ε=0。总之，我们通常被迫处理ε>0的情况，因此，一直存在着对数理统计的需求。

对于任何因变量Y，相应因果关系系统中的每个X都会产生独特的影响贡献（W）。当然，每个X的权重都是在0.0<Wi<1.0的范围内，其中Wi是第i个自变量的贡献权重。

基于如上讨论这一知识、f的充分合理性以及N是完备的声明，可以合理地断言通过Xs来完美无误的描述Y。换言之，我们对Y的描述不会有任何固有的“误差”，因为这是根据有效且完全可靠的传递函数f得到的Y的数值。也就是说，对于任何一组独特的瞬时或纵向条件，都有可能100%确定地预测或以其他方式描述Y的性质。

参考文献：

[1] 马逢时. 六西格玛管理统计指南[M], 第三版. 中国人民出版社，2018

[2] Mikel, Harry. Resolving the mysteries of Six Sigma. Palladyne, 2003

扫码加好友，群聊更精彩

本站仅提供存储服务，所有内容均由用户发布，如发现有害或侵权内容，请点击举报。