14._卡方分布χ²-前世今生-Part5 - 概率论与数理统计

如《深入理解χ2分布》的几个例子，χ2值的计算很简单，就是用(观测值频数-理论值频数)^2之后，除以理论值频数，然后再求和Σ，就计算出来了。

我们现在很多统计应用的书籍中，关于χ2值的计算都是这样。

那到底χ2是如何与观测值频数与理论值的频数相扯上关系的？

此时我们回到《深入理解χ2分布(上)》文中最初的式子。

$图片$

它是χ2值一般的形式。

在这里插一嘴：

其实刚看到（1.2）式的时候，我总觉得好像哪里见过

比方说有点儿像中学学的和平方公式

(a+b+c+……n)^2 =a^2+b^2+c^2+……+n^2+2ab+2ac+……2an

只不过上式套一个Σ而已

或者说已故的经济学诺奖得主哈利·马克思·马科维茨（Harry Max Markowitz），他的经典资产组合理论中有这么一条关于投资组合的方差表达式：

$图片$

上式中，w代表每种资产的配置权重，r代表不同的资产收益率。

也正因为看着比较眼熟，所以才激发了我持续对这个经典理论的微考古的兴趣和动力。

下面言归正传

要对一般形式进行计算得到χ2值，这里面有几个元素就必须要计算出来。

它们分别是：行列式R，余子式Rpp和Rpq，以及σp，σq

下面就是关于它们的计算。

如果有N次的观测值，分了n个组，那么就会有n个观测频数 m1’,m2’……mn’，同时也存在n个理论频数m1,m2……mn，

令e=m’-m，那么就会有n个观测和理论差异产生的误差，e1,e2,……en。

I. 令p∈{n}，ep的标准差由二项式分布的方差开方得

$图片$

II. 如果rpq是ep和eq的相关系数，那么根据2组变量的相关系数

rpq=cov (p,q)/σpσq，得：

$图片$

在这里Pearson给相关系数 $r_{pq}$ 加了个负号。

III. 引入一个辅助角β，构建ep的概率为mq/N=sin2βq，代入（2.1）于是可以得到

$图片$

（2.3）代入到（2.2），得到

$图片$

因此，（1.2）式中的R，也就是相关系数矩阵行列式，把(2.4)式代入后，可以表示为

$图片$

接下来进行的推导和简化R：

这里Pearson没有显性化他的推导过程，直接就给了结论。我在此补充下

第1列提取公因子-tanβ1，第2列提取公因子-tanβ2，第3列提取公因子-tanβ3

依此类推，会得到过渡行列式的公因式(-1)ntanβ1tanβ2tanβ3…tanβn

接下来，再在这个过渡行列式中，

第1行提取公因子tanβ1，第2行提取公因子tanβ2，第3行提取公因子tanβ3.....依次类推，

最后会得到R的公因子式：(-1)ntan2β1tan2β2tan2β3…tan2βn，于是整个行列式R就会变型成如下：

$图片$

基于这种变换，上式中蓝色部分，可以用于表示（1.2）式中Rpq代表的余子式，并依次类推。

$图片$

那么问题又来了，如何去简化计算这个R和它的这些余子式呢？

IV. 此时，根据III. 中的mq/N=sin2βq构建

$图片$

那么，在III.中的蓝色部分式子中的J，将（2.5）代入，就可以表示成

$图片$

J的代数余子式，例如J12，根据代数余子式定义可以表示成

$图片$

此时，用第1行×（-1）与第2行相加，第1行×（-1）与第3行相加……，一直加到最后一行，就构成了个一个上三角行列式，就很容易求得到J12的值

J12=(-1)n-1(η3+1) (η4+1)……(ηn+1)

特别的，令

λ=(η1+1) (η2+1) (η3+1)……(ηn+1)，

那么就有

$图片$

注意，此时必须是p≠q，因为以J11为例，就不是(2.6)能够表示的。

所以，必须补齐J11场景下的表达式。

在这里，我没有用Pearson原文的过程

$图片$

主要是这个过程从第一步开始，我思考了很久，也检索了很多线性代数的知识，还是没找到背后的原理。

于是我直接通过行列式的代数余子式外加基本的行列式计算规则，也得到了这个相同的结果。

不过这个J11的推导过程很考验读者的线性代数基本功底。

我是用了1页多A4纸才完整的推导出来。

由于中间过程要很仔细，因此我没有拿笔算，而是用公式编辑器来推导。

用公式编辑器推导的好处，就是一旦发现有错可以立刻原地修改，里面的元素位置对正、行列调整等等的操作很规范，非常容易检查。

我把J11的推导过程放到了本文的最后部分，有兴趣的读者可以自行阅读。

在这里得到：

$图片$

也非常感谢自己，趟了一次完整的(2.7)推导，我能够比较轻松地通过这个推导过程，得到J的值 $图片$

于是设定n∈{N}，可以通过（2.5）得到 $图片$

将上面的过程代入到(2.8)，得到 $图片$

类似的，将之代入到(2.7) 以及其他主对角线元素的Jpp也会得到

$图片$

知道了J和Jpp后，回代入由之前的

$图片$

和Rpq代表的余子式 $图片$ 得到：

$图片$

以及 $图片$

将（2.9）和（2.10）最终跨过太平洋代回到最早的（1.2）式

$图片$

在这里，又出现一个隐藏的，不容易让人看懂的一点，就是上面式子最后一步中的蓝色部分

巧妙之处在哪里呢？

I: p和q都在[1,n]中，由于p≠q，它们分别对不同的观测误差e进行标识；

II: ΣΣepeq代表了n个观测误差e中，任意2个不同的观测误差相乘，然后求和

III: 这样，上式的蓝色部分刚好就是n个ep之和的平方展开，也就是

（ep1+ep2+ep3……+epn）2，尽管里面没有q再出现了。

这样上式就会变化成这样

$图片$

此时要处理掉mn+1项，于是请出上一文章就讲到的自由度的概念：

因为Σen+en+1=0→Σen=-en+1

因此得到了终极答案：

$图片$

(2.11）也就是我们经常在教科书里介绍的那个公式

$图片$

最后回顾

I: 卡方χ2值，无论是一般场景还是独立同标准正态分布，都可以由 $图片$

进行计算

II: 如果总的分组n是奇数，n去掉自由度后为偶数，那么P值的计算为

$图片$

III：如果n总的分组是偶数，n去掉自由度后为奇数，那么P值的计算 $图片$

附：J11的推导过程

$图片$

本文摘自微信公众号，点击 https://mp.weixin.qq.com/s/acr1Jm8Y0iJkkaib2V6MIw 查看原文