14._卡方分布χ²-前世今生-Part5

如《深入理解χ2分布》的几个例子,χ2值的计算很简单,就是用(观测值频数-理论值频数)^2之后,除以理论值频数,然后再求和Σ,就计算出来了。

我们现在很多统计应用的书籍中,关于χ2值的计算都是这样。

那到底χ2是如何与观测值频数与理论值的频数相扯上关系的?

此时我们回到《深入理解χ2分布(上)》文中最初的式子。

图片

它是χ2值一般的形式。

在这里插一嘴:

其实刚看到(1.2)式的时候,我总觉得好像哪里见过

比方说有点儿像中学学的和平方公式

(a+b+c+n)2=a2+b2+c2++n2+2ab+2ac+2an(a+b+c+……n)^2 =a^2+b^2+c^2+……+n^2+2ab+2ac+……2an

只不过上式套一个Σ而已

或者说已故的经济学诺奖得主 哈利·马克思·马科维茨(Harry Max Markowitz),他的经典资产组合理论中有这么一条关于投资组合的方差表达式:

图片

上式中,w代表每种资产的配置权重,r代表不同的资产收益率。

也正因为看着比较眼熟,所以才激发了我持续对这个经典理论的微考古的兴趣和动力。

下面言归正传

要对一般形式进行计算得到χ2值,这里面有几个元素就必须要计算出来。

它们分别是:行列式R,余子式Rpp和Rpq,以及σp,σq

下面就是关于它们的计算。

如果有N次的观测值,分了n个组,那么就会有n个观测频数 m1’,m2’……mn’,同时也存在n个理论频数m1,m2……mn,

令e=m’-m,那么就会有n个观测和理论差异产生的误差,e1,e2,……en。

I. 令p∈{n},ep的标准差由二项式分布的方差开方得

图片

II. 如果rpq是ep和eq的相关系数,那么根据2组变量的相关系数

rpq=cov (p,q)/σpσq,得:

图片

在这里Pearson给相关系数rpqr_{pq}加了个负号。

III. 引入一个辅助角β,构建ep的概率为mq/N=sin2βq,代入(2.1)于是可以得到

图片

(2.3)代入到(2.2),得到

图片

因此,(1.2)式中的R,也就是相关系数矩阵行列式,把(2.4)式代入后,可以表示为

图片

接下来进行的推导和简化R:

这里Pearson没有显性化他的推导过程,直接就给了结论。我在此补充下

第1列提取公因子-tanβ1,第2列提取公因子-tanβ2,第3列提取公因子-tanβ3

依此类推,会得到过渡行列式的公因式(-1)ntanβ1tanβ2tanβ3…tanβn

接下来,再在这个过渡行列式中,

第1行提取公因子tanβ1,第2行提取公因子tanβ2,第3行提取公因子tanβ3.....依次类推,

最后会得到R的公因子式:(-1)ntan2β1tan2β2tan2β3…tan2βn,于是整个行列式R就会变型成如下:

图片

基于这种变换,上式中蓝色部分,可以用于表示(1.2)式中Rpq代表的余子式,并依次类推。

图片

那么问题又来了,如何去简化计算这个R和它的这些余子式呢?

IV. 此时,根据III. 中的mq/N=sin2βq构建

图片

那么,在III.中的蓝色部分式子中的J,将(2.5)代入,就可以表示成

图片

J的代数余子式,例如J12,根据代数余子式定义可以表示成

图片

此时,用第1行×(-1)与第2行相加,第1行×(-1)与第3行相加……,一直加到最后一行,就构成了个一个上三角行列式,就很容易求得到J12的值

J12=(-1)n-1(η3+1) (η4+1)……(ηn+1)

特别的,令

λ=(η1+1) (η2+1) (η3+1)……(ηn+1),

那么就有

图片

注意,此时必须是p≠q,因为以J11为例,就不是(2.6)能够表示的。

所以,必须补齐J11场景下的表达式。

在这里,我没有用Pearson原文的过程

图片

主要是这个过程从第一步开始,我思考了很久,也检索了很多线性代数的知识,还是没找到背后的原理。

于是我直接通过行列式的代数余子式外加基本的行列式计算规则,也得到了这个相同的结果。

不过这个J11的推导过程很考验读者的线性代数基本功底。

我是用了1页多A4纸才完整的推导出来。

由于中间过程要很仔细,因此我没有拿笔算,而是用公式编辑器来推导。

用公式编辑器推导的好处,就是一旦发现有错可以立刻原地修改,里面的元素位置对正、行列调整等等的操作很规范,非常容易检查。

我把J11的推导过程放到了本文的最后部分,有兴趣的读者可以自行阅读。

在这里得到:

图片

也非常感谢自己,趟了一次完整的(2.7)推导,我能够比较轻松地通过这个推导过程,得到J的值 图片

于是设定n∈{N},可以通过(2.5)得到 图片

将上面的过程代入到(2.8),得到 图片

类似的,将之代入到(2.7) 以及其他主对角线元素的Jpp也会得到

图片

知道了J和Jpp后,回代入由之前的

图片

和Rpq代表的余子式 图片 得到:

图片

以及 图片

将(2.9)和(2.10)最终跨过太平洋代回到最早的(1.2)式

图片

在这里,又出现一个隐藏的,不容易让人看懂的一点,就是上面式子最后一步中的蓝色部分

巧妙之处在哪里呢?

I: p和q都在[1,n]中,由于p≠q,它们分别对不同的观测误差e进行标识;

II: ΣΣepeq代表了n个观测误差e中,任意2个不同的观测误差相乘,然后求和

III: 这样,上式的蓝色部分刚好就是n个ep之和的平方展开,也就是

(ep1+ep2+ep3……+epn)2,尽管里面没有q再出现了。

这样上式就会变化成这样

图片

此时要处理掉mn+1项,于是请出上一文章就讲到的自由度的概念:

因为Σen+en+1=0→Σen=-en+1

因此得到了终极答案:

图片

(2.11)也就是我们经常在教科书里介绍的那个公式

图片

最后回顾

I: 卡方χ2值,无论是一般场景还是独立同标准正态分布,都可以由 图片

进行计算

II: 如果总的分组n是奇数,n去掉自由度后为偶数,那么P值的计算为

图片

III: 如果n总的分组是偶数,n去掉自由度后为奇数,那么P值的计算 图片

附:J11的推导过程

图片

本文摘自微信公众号,点击 https://mp.weixin.qq.com/s/acr1Jm8Y0iJkkaib2V6MIw 查看原文