4._点估计_极大似然估计

引言

引例1: 设有外形完全相同的两个箱子,甲箱中有 99 个白球和 1 个黑球,乙箱中有 99 个黑球和 1 个白球,今随机地抽取一箱,并从中随机抽取一球,结果取得白球,问这球是从哪一个箱子中取出?

解 不管是哪一个箱子,从箱子中任取一球都有两个可能的结果:AA 表示"取出白球",BB 表示"取出黑球"。如果我们取出的是甲箱,则 AA 发生的概率为 0.99 ,而如果取出的是乙箱,则 AA 发生的概率为 0.01 .现在一次试验中结果 AA 发生了,人们的第一印象就是:"此白球 (A)(A) 最像从甲箱取出的",或者说,应该认为试验条件对结果 AA 出现有利,从而可以推断这球是从甲箱中取出的。这个推断很符合人们的经验事实,这里"最像"就是"最大似然"之意。这种想法常称为"最大似然原理"。

引例2: 我与一位猎人外出打猎,一只野鸡从前方飞过,只听一声枪响,野鸡应声落下.问:是谁打中的呢? 答:极有可能是猎人. 显然,候选人就两个,我和猎人.若选我,则事件“野鸡被打中”发生的概率很小,可能为0.01%,若选猎人,则事件“野鸡被打中”发生的概率很大,可能为99%,而事件已经发生,因此猎人最可能。

极大似然估计通俗理解

引入

设袋中放有很多的白球和黑球,已知两种球的比例为1∶9,但不知道哪种颜色的球多,现从中有放回地抽取3次,每次一球,发现前两次为黑球,第三次为白球,试判断哪种颜色的球多.

解:根据抽取结果,我们的直观感觉是黑球多,下面给出理论依据. 设 θ\theta 表示黑球所占比例,由题意知 θ\theta 的值为0.9或0.1,设X表示每次抽球中黑球出现的次数,则X服从(0−1)分布,其分布律如下 图片

有放回地抽取 3 次,前两次为黑球,第三次为白球,相当于在总体 XX 中抽取了一组样本 X1,X2,X3X_1, X_2, X_3 ,样本观测值为 X1=1,X2=1,X3=0X_1=1, X_2=1, X_3=0 ,判断哪种颜色的球多,相当于在事件 A={X1=1,X2=1,X3=0}A=\left\{X_1=1, X_2=1, X_3=0\right\} 发生的前提下,判断 θ\theta 的值是 0.9 还是 0.1.

P(A)=P{X1=1,X2=1,X3=0}=P{X1=1}P{X2=1}P{X3=0}=θ2(1θ)P(A)=P\left\{X_1=1, X_2=1, X_3=0\right\}=P\left\{X_1=1\right\} P\left\{X_2=1\right\} P\left\{X_3=0\right\}=\theta^2(1-\theta)

θ=0.9\theta=0.9 时,P(A)=0.92×0.1=0.081P(A)=0.9^2 \times 0.1=0.081

θ=0.1\theta=0.1 时,P(A)=0.12×0.9=0.009P(A)=0.1^2 \times 0.9=0.009

根据最大似然估计法的基本原理,θ=0.9\theta=0.9 应该有利于 A={X1=1,X2=1,X3=0}A=\left\{X_1=1, X_2=1, X_3=0\right\} 的发生,即黑球多.

引申1

假设车间送来一盒螺丝,他们认为产品都是合格的,但是做为质检部门的我却不这么认为,我们总是默认里面有不合格的,但是不合格有多少我不知道(或者说不知道合格概率 pp 为多少),我能做的只能抽查。

图片{width=300px}

现在我随机的有放回的从这盒螺丝抽取一个产品,然后记录他是否合格,一共抽查十次,假设随机变量为:

X= "抽查10次合格产品的次数" X=\text { "抽查10次合格产品的次数" }

那么该随机变量服从 pp 未知的二项分布:

Xb(10,p)X \sim b(10, p)

我们把螺丝抽查了10次,假设得到8个合格的,也就是得到了一个该二项分布的样本(此样本的容量为 1 ),要借此推断未知参数 pp 为多少。首先列出得到8次合格的概率:

P(X=8)=C108p8(1p)2...(1)P(X=8)=C_{10}^8 p^8(1-p)^2 ...(1)

①假如说 p=0.7p=0.7 ,那么上述概率为:

P(X=8)=C1080.78(10.7)20.23P(X=8)=C_{10}^8 * 0.7^8 * (1-0.7)^2 \approx 0.23

②假如说 p=0.8p=0.8 ,上述概率为:

P(X=8)=C1080.88(10.8)20.30P(X=8)=C_{10}^8 * 0.8^8 * (1-0.8)^2 \approx 0.30

③假如说 p=0.9p=0.9 ,那么上述概率为:

P(X=8)=C1080.98(10.9)20.19P(X=8)=C_{10}^8 * 0.9^8 * (1-0.9)^2 \approx 0.19

根据最大似然的思想,p=0.8p=0.8 的可能性更大,所以应该认为 p=0.8p=0.8 更接近于事实,即产品合格率在 80%80 \%

在上面计算过程中,可以看到所谓求最大似然的值,其实就是求函数(1)的最值(常数项可以忽略),设

L(p)=p8(1p)2...(2)L(p)=p^8(1-p)^2 ...(2)

方法1 只要对(2)求导并令导数为零即可,即

L=2p7(1p)(45p)=0...(3)L'= 2p^7(1-p)(4-5p)=0 ...(3)

可得p=0,p=1,p=0.8p=0,p=1,p=0.8 舍去不可能的值,所以p=0.8p=0.8时,似然函数取得最大值。

方法2 对(2)两边取对数,这样会把右侧的乘法变成加法

LnL=8lnp+2ln(1p)...(4)Ln L= 8 \ln p + 2 \ln(1-p) ...(4)

再求导并令导数为零得

8p21p=0\frac{8}{p}-\frac{2}{1-p}=0

可以解的 p=0.8p=0.8

假设车间说他们合格率为90%,但是我就可以利用数据来证明他们产品最大可能性为合格率为 80%

引申2

对于连续型的,以均匀分布为例,假设雨点均匀落在 [0,a][0,a] 之间,那么他的密度函数是 (注意:a未知,是我们要求的变量)

p(x)={1a,xa0,elsep(x)= \left\{ \begin{array}{l} \frac{1}{a}, \quad x \in a \\ 0 , \quad else \end{array} \right.

现在观察雨点实际落的位置是 0.1,0.4,0.4,0.3,0.60.1,0.4,0.4,0.3,0.6,怎么估算aa的值?因为对连续性而言,每点的密度概率都是0的,为此,在这种情况下,我们使用联合概率密度函数计算他的最值,即

L(a)=1anL(a)=\frac{1}{a^n}

上面求L(a)L(a)的最大值,如果不可微,直接求是计算不了的,此时需要转换思维。

其实取 aamax{x1,x2,..xn}\max \{x_1,x_2,..x_n\},具体参考下面视频解释。

下面视频介绍了取数的意义(视频来B站《小崔说数》) <video width=600px height="500px"; controls>

极大似然估计定义

设总体有分布 f(X;θ1,,θk),X1,,Xnf\left(X ; \theta_1, \cdots, \theta_k\right), X_1, \cdots, X_n 为自这总体中抽出的样本, 则样本 (X1,,Xn)\left(X_1, \cdots, X_n\right) 的分布 (即其概率密度函数或概率函数)为f(X1;θ1,,θk)f(X2;θ1,,θk)f(Xn;θ1,,θk)f\left(X_1 ; \theta_1, \cdots, \theta_k\right) f\left(X_2 ; \theta_1, \cdots, \theta_k\right) \cdots f\left(X_n ; \theta_1, \cdots, \theta_k\right)

记之为 L(X1,,Xn;θ1,,θk)L\left(X_1, \cdots, X_n ; \theta_1, \cdots, \theta_k\right)

固定 θ1,,θk\theta_1, \cdots, \theta_k 而看作是 X1,,XnX_1, \cdots, X_n 的函数时, LL 是一个概率密度函数或概率函数,可以这样理解: 若 L(Y1,,Yn;θ1,,θk)L\left(Y_1, \cdots, Y_n ; \theta_1, \cdots, \theta_k\right) >L(X1,,Xn;θ1,,θk)>L\left(X_1, \cdots, X_n ; \theta_1, \cdots, \theta_k\right), 则在观察时出现 (Y1,,Yn)\left(Y_1, \cdots, Y_n\right) 这个点的可能性, 要比出现 (X1,,Xn)\left(X_1, \cdots, X_n\right) 这个点的可能性大.

把这件事反过来说,可以这样想:当已观察到 X1,,XnX_1, \cdots, X_n 时,若 L(X1,,XnL\left(X_1, \cdots, X_n\right.θ1,,θk)>L(X1,,Xn;θ1,,θk)\left.\theta_1^{\prime}, \cdots, \theta_k^{\prime}\right) > L\left(X_1, \cdots, X_n ; \theta_1^{\prime \prime}, \cdots, \theta_k^{\prime \prime}\right) ,则被估计的参数 (θ1\left(\theta_1\right., ,θk\cdots, \theta_k ) 是 (θ1,,θk)\left(\theta_1^{\prime}, \cdots, \theta_k^{\prime}\right) 的可能性,要比它是 (θ1,,θk)\left(\theta_1^{\prime \prime}, \cdots, \theta_k^{\prime \prime}\right) 的可能性大. (这里比较绕,可以参考上面引例理解

X1,,XnX_1, \cdots, X_n 固定而把 LL 看作 θ1,,θk\theta_1, \cdots, \theta_k 的函数时, 它称为 "似然函数". 这名称的意义, 可根据上述分析得到理解: 这函数对不同的 (θ1,,θk)\left(\theta_1, \cdots, \theta_k\right) 的取值,反映了在观察结果 (X1,,Xn)\left(X_1, \cdots, X_n\right) 已知的条件下, (θ1,,θk)\left(\theta_1, \cdots, \theta_k\right) 的各种值的"似然程度".

在 1821 年, 德国数学家高斯针对正态分布首先提出极(最)大似然估计(Maximum Likelihood Estimation, MLE)。英国统计学家费希尔于1922年再次提出了这种想法并证明了它的一些性质,使得最大似然估计法得到了广泛的应用。极大似然估计法只能在已知总体分布的前提下进行.

似然估计构造

构造步骤

上例的讨论可以推广到一般的离散型或连续型总体,具体步骤如下。 (1)构造似然函数 若总体 XX 为离散型,其分布律为

P{X=xi}=p(xi;θ),θΘ,P\left\{X=x_i\right\}=p\left(x_i ; \theta\right), \quad \theta \in \Theta,

这里 θ\theta 为待估参数,Θ\Thetaθ\theta 可能取值的范围,对给定的样本观测值 x1,x2,,xnx_1, x_2, \cdots, x_n ,令

L(θ)=L(x1,x2,,xn;θ)=i=1np(xi;θ)L(\theta)=L\left(x_1, x_2, \cdots, x_n ; \theta\right)=\prod_{i=1}^n p\left(x_i ; \theta\right)

若总体 XX 为连续型,其概率密度为

f(x;θ),θΘf(x ; \theta), \quad \theta \in \Theta

这里 θ\theta 为待估参数,Θ\Thetaθ\theta 可能取值的范围,对给定的样本观测值 x1,x2,,xnx_1, x_2, \cdots, x_n ,令

L(θ)=L(x1,x2,,xn;θ)=i=1nf(xi;θ)L(\theta)=L\left(x_1, x_2, \cdots, x_n ; \theta\right)=\prod_{i=1}^n f\left(x_i ; \theta\right)

L(θ)L(\theta)θ\theta 的取值而变化,它是 θ\theta 的函数,我们称 L(θ)L(\theta) 为样本的似然函数. 似然函数实质上就是样本的联合分布,由上面的讨论可知,求待估参数的最大似然估计,实际上就是求似然函数的最大值点。

(2)求似然函数的最大值点 若有 θ^(x1,x2,,xn)\hat{\theta}\left(x_1, x_2, \cdots, x_n\right) ,使

L(θ^)=maxθΘ{L(θ)}L(\hat{\theta})=\max _{\theta \in \Theta}\{L(\theta)\}

则称 θ^=θ^(x1,x2,,xn)\hat{\theta}=\hat{\theta}\left(x_1, x_2, \cdots, x_n\right) 为参数 θ\theta最大似然估计值,相应地,称 θ^=θ^(X1,X2,,Xn)\hat{\theta}=\hat{\theta}\left(X_1, X_2, \cdots, X_n\right)θ\theta最大似然估计量

若似然函数可微,则似然函数的最大值点可以利用微积分方法求得,具体方法如下. 解似然方程

dLdθ=0\frac{d L}{d \theta}=0

得到参数 θ\theta 的最大似然估计. 又因为 lnL(θ)\ln L(\theta)L(θ)L(\theta) 在同一点处取得极值,故可用对 lnL(θ)\ln L(\theta) 求最大值的方法得到参数 θ\theta 的最大似然估计,即先对似然函数 L(θ)L(\theta) 取对数,然后解对数似然方程

dlnLdθ=0\frac{d \ln L}{d \theta}=0

当然,方程的解是否为最大值点,有时需进一步验证. 一般地,若总体 XX 的分布中含有 kk 个未知待估参数 θ1,θ2,,θk\theta_1, \theta_2, \cdots, \theta_k ,则似然函数为

L(θ1,θ2,,θk)=i=1nf(xi;θ1,θ2,,θk)L\left(\theta_1, \theta_2, \cdots, \theta_k\right)=\prod_{i=1}^n f\left(x_i ; \theta_1, \theta_2, \cdots, \theta_k\right)

此时只需要解似然方程组

Lθi=0(i=1,2,,k)\frac{\partial L}{\partial \theta_i}=0(i=1,2, \cdots, k)

或对数似然方程组

lnLθi=0(i=1,2,,k)\frac{\partial \ln L}{\partial \theta_i}=0(i=1,2, \cdots, k)

即可得到参数的最大似然估计 θ^1,θ^2,,θ^k\hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_k

Xb(1,p),X1,X2,,XnX \sim b(1, p), X_1, X_2, \cdots, X_n 是取自总体 XX 的一个样本,试求参数 pp 的最大似然估计。

解(1)写出似然函数. 设 x1,x2,,xnx_1, x_2, \cdots, x_nX1,X2,,XnX_1, X_2, \cdots, X_n 的一个样本值,XX 的分布律为

P{X=x}=px(1p)1x,x=0,1P\{X=x\}=p^x(1-p)^{1-x}, \quad x=0,1

故似然函数为

L(p)=i=1npxi(1p)1xi=pi=1nxi(1p)ni=1nxiL(p)=\prod_{i=1}^n p^{x_i}(1-p)^{1-x_i}=p^{\sum_{i=1}^n x_i}(1-p)^{n-\sum_{i=1}^n x_i}

(2)求出驻点. 令

ddplnL(p)=(i=1nxi)/p(ni=1nxi)/(1p)=0\frac{d}{d p} \ln L(p)=\left(\sum_{i=1}^n x_i\right) / p-\left(n-\sum_{i=1}^n x_i\right) /(1-p)=0

解得

p^=1ni=1nxi=xˉ\hat{p}=\frac{1}{n} \sum_{i=1}^n x_i=\bar{x}

(3)即参数 pp 的最大似然估计为

p^=1ni=1nXi=Xˉ\hat{p}=\frac{1}{n} \sum_{i=1}^n X_i=\bar{X}

注意:这一估计量与矩估计量是相同的.

似然函数取对数

θ=(θ1,θ2,,θk)\theta=\left(\theta_1, \theta_2, \cdots, \theta_k\right) 的似然函数

L(θ)=L(θ1,θ2,,θk)L(\theta)=L\left(\theta_1, \theta_2, \cdots, \theta_k\right)

从似然函数可以看出,他是L=f(1)f(2)f(3)...f(n)L=f(1)*f(2)*f(3)...f(n) 这种连乘的形式,这计算起来非常麻烦,所以可以取对出,利用对数的性质把乘法变成加法,即 lnL=ln(f(1)f(2)f(3)...f(n))=ln(f(1))+ln(f(2))...+lnf(n)ln L=ln(f(1)*f(2)*f(3)...f(n))=ln(f(1))+ln(f(2))...+lnf(n)

因此,当可微函数时,则将似然函数取对数:

lnL(θ1,θ2,,θk)=i=1nlnf(xi,θ1,θ2,,θk)\ln L\left(\theta_1, \theta_2, \cdots, \theta_k\right)=\sum_{i=1}^n \ln f\left(x_i, \theta_1, \theta_2, \cdots, \theta_k\right)

建立并求解似然方程组:

lnL(θ1,θ2,,θk)θi=0,i=1,2,,k\frac{\partial \ln L\left(\theta_1, \theta_2, \cdots, \theta_k\right)}{\partial \theta_i}=0, \quad i=1,2, \cdots, k

设总体 XX 的密度函数为 f(x)={λ2xeλx,x>00, 其他 f(x)=\left\{\begin{array}{l}\lambda^2 x e^{-\lambda x}, x>0 \\ 0, \text { 其他 }\end{array}\right. ,其中 λ(λ>0)\lambda(\lambda>0) 未知, (X1,,Xn)\left(X_1, \ldots, X_n\right) 是来自总体 XX 的一个样本.求 λ\lambda 的极大似然估计量.

解 似然函数

L(λ)=i=1nf(xi;λ)=λ2ni=1nxieλi=1nxiL(\lambda)=\prod_{i=1}^n f\left(x_i ; \lambda\right)=\lambda^{2 n} \cdot \prod_{i=1}^n x_i \cdot e^{-\lambda \sum_{i=1}^n x_i}

取对数似然函数为

lnL=2nlnλ+i=1nlnxiλi=1nxi\ln L=2 n \ln \lambda+\sum_{i=1}^n \ln x_i-\lambda \sum_{i=1}^n x_i

对数似然方程为

dlnLdλ=2nλi=1nxi=0\frac{d \ln L}{d \lambda}=\frac{2 n}{\lambda}-\sum_{i=1}^n x_i=0

解得

λ=2ni=1nxi=21ni=1nxi\lambda=\frac{2 n}{\sum_{i=1}^n x_i}=\frac{2}{\frac{1}{n} \sum_{i=1}^n x_i}

λ\lambda 的极大似然估计量为 λ^=2Xˉ\hat{\lambda}=\frac{2}{\bar{X}}.

设某种元件的使用寿命 XX 的概率密度为

f(x)={2e2(xθ),xθ,0, 其他, f(x)= \begin{cases}2 e^{-2(x-\theta)}, & x \geqslant \theta, \\ 0, & \text { 其他, }\end{cases}

其中 θ>0\theta>0 ,且 θ\theta 是末知参数.设 x1,x2,,xnx_1, x_2, \cdots, x_n 是样本观测值,求 θ\theta 的最大似然估计值. 解 似然函数为

L(θ)=i=1nf(xi)=i=1n[2e2(xiθ)]=2ne2i=1n(xiθ),xiθ,L(\theta)=\prod_{i=1}^n f\left(x_i\right)=\prod_{i=1}^n\left[2 e^{-2\left(x_i-\theta\right)}\right]=2^n e^{-2 \sum_{i=1}^n\left(x_i-\theta\right)}, x_i \geqslant \theta,

取对数得

lnL(θ)=nln22i=1n(xiθ)\ln L(\theta)=n \ln 2-2 \sum_{i=1}^n\left(x_i-\theta\right)

因为 dlnL(θ)dθ=2n>0\frac{ d \ln L(\theta)}{ d \theta}=2 n>0 ,所以 L(θ)L(\theta) 单调增加.而

θxi(i=1,2,,n)\theta \leqslant x_i(i=1,2, \cdots, n)

θ\theta 的最大似然估计值为

θ^=min{x1,x2,,xn}\hat{\theta}=\min \left\{x_1, x_2, \cdots, x_n\right\}

设某工厂生产的手机屏幕分为不同的等级,其中一级品率为 pp ,如果从生产线上抽取了 20 件产品,发现其中有 3 件为一级品,求: (1)pp 的最大似然估计值; (2)接着再抽取 5 件产品都不是一级品的概率的最大似然估计值. 解(1)因为每件产品有两种可能,即要么是一级品,要么不是一级品,所以总体 XX 服从 (0-1)分布,其分布律为

p(x)=P{X=x}=px(1p)1x,x=0,1.p(x)=P\{X=x\}=p^x(1-p)^{1-x}, \quad x=0,1 .

20 件产品中有 3 件为一级品,相当于样本观测值 x1,x2,,x20x_1, x_2, \cdots, x_{20} 中有 3 个为 1 ,有 17 个为 0 ,故似然函数为

L(p)=i=1np(xi)=p3(1p)17.L(p)=\prod_{i=1}^n p\left(x_i\right)=p^3(1-p)^{17} .

取对数得

lnL(p)=3lnp+17ln(1p)\ln L(p)=3 \ln p+17 \ln (1-p)

pp 求导得

dlnL(p)dp=3p171p\frac{d \ln L(p)}{d p}=\frac{3}{p}-\frac{17}{1-p}

dlnL(p)dp=0\frac{d \ln L(p)}{d p}=0

可得 p=320p=\frac{3}{20} .故 pp 的最大似然估计值为 p^=320\hat{p}=\frac{3}{20} . (2)因为一级品率为 pp ,所以再抽取 5 件产品都不是一级品的概率为 (1p)5(1-p)^5 . 既然 20 件产品中有 3 件为一级品,此时得到的 pp 的最大似然估计值为 p^=320\hat{p}=\frac{3}{20} ,那么

(1p)5(1-p)^5 的最大似然估计值为 (1p^)5=(1320)5=0.4437(1-\hat{p})^5=\left(1-\frac{3}{20}\right)^5=0.4437 . 注意,这里我们用到了"最大似然估计不变性",即以下定理.

最大似然估计不变性

定理 若 θ^\hat{\theta} 为参数 θ\theta 的最大似然估计,g(θ)g(\theta) 为参数 θ\theta 的函数,则 g(θ^)g(\hat{\theta})g(θ)g(\theta) 的最大似然估计。

有了最大似然估计不变性,求某些复杂结构的参数的最大似然估计就变得容易了.

设总体 XN(μ,σ2)(X1,,Xn)X \sim N\left(\mu, \sigma^2\right) ,\left(X_1, \cdots, X_n\right) 是取自该总体的一个样本,参数 μR,σ>0\mu \in R, \sigma>0 未知试求(1) μ,σ2\mu, \sigma^2 的极大似然估计量;(2) θP(X2)\theta \doteq P(X \geq 2) 的极大似然估计量。

解 (1)①写出似然函数

L(μ,σ2)=(2πσ2)n2e12σ2i=1n(xiμ)2<xi<+,i=1,2,,nL\left(\mu, \sigma^2\right)=\left(2 \pi \sigma^2\right)^{-\frac{n}{2}} e^{-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)^2}-\infty<x_i<+\infty, i=1,2, \cdots, n

②对似然函数取对数:

lnL(μ,σ2)=n2ln2πn2lnσ212σ2i=1n(xiμ)2\ln L\left(\mu, \sigma^2\right)=-\frac{n}{2} \ln 2 \pi-\frac{n}{2} \ln \sigma^2-\frac{1}{2 \sigma^2} \sum_{i=1}^n\left(x_i-\mu\right)^2

③建立似然方程组:

{lnLμ=1σ2i=1n(xiμ)=^0lnLσ2=n2σ2+12σ4i=1n(xiμ)2=0^\left\{\begin{array}{l} \frac{\partial \ln L}{\partial \mu}=\frac{1}{\sigma^2} \sum_{i=1}^n\left(x_i-\mu\right) \hat{=} 0 \\ \frac{\partial \ln L}{\partial \sigma^2}=-\frac{n}{2 \sigma^2}+\frac{1}{2 \sigma^4} \sum_{i=1}^n\left(x_i-\mu\right)^2 \hat{=0} \end{array}\right.

解方程组得

{μ=1ni=1nxi=xˉσ2=1ni=1n(xiμ)2=1ni=1n(xixˉ)2\left\{\begin{array}{l} \mu=\frac{1}{n} \sum_{i=1}^n x_i=\bar{x} \\ \sigma^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\mu\right)^2=\frac{1}{n} \sum_{i=1}^n\left(x_i-\bar{x}\right)^2 \end{array}\right.

④由此即得未知参数的极大似然估计量为

μ^=Xˉ,σ^2=1ni=1n(XiXˉ)2=Sn2\begin{aligned} \hat{\mu}=\bar{X}, \hat{\sigma}^2=\frac{1}{n} \sum_{i=1}^n\left(X_i-\bar{X}\right)^2=S_n^2 \end{aligned}

(2)已经求得 μ^=Xˉ,σ^=Sn\hat{\mu}=\bar{X}, \hat{\sigma}=S_n, 又

θ=^P(X2)=1Φ(2μσ)\theta \hat{=} P(X \geq 2)=1-\Phi\left(\frac{2-\mu}{\sigma}\right)

μ^,σ^\hat{\mu}, \hat{\sigma} 替代 μ,σ\mu, \sigma 即得 θ\theta 的极大似然估计量为

θ^=1Φ(2μ^σ^)=1Φ(2XˉSn)\hat{\theta}=1-\Phi\left(\frac{2-\hat{\mu}}{\hat{\sigma}}\right)=1-\Phi\left(\frac{2-\bar{X}}{S_n}\right)

第(2)问的解题过程用到了极大似然估计的不变性:如果 θ^\hat{\theta}θ\theta 的极大似然估计,则对任一函数 g(θ)g(\theta) ,满足当 θΘ\theta \in \Theta 时,具有单值反函数,则其极大似然估计为 g(θ^)g(\hat{\theta})

解法总结

如果随机抽样得到的样本观测值为 x1,x2,,xnx_1, x_2, \cdots, x_n, 我们选取未知参数 θ\theta 的值应使得出现该样本值的可能性最大,即使得似然函数 L(θ)L(\theta) 取最大值,从而,求参数 θ\theta 的极大似然估计的问题就转化为求似然函数 L(θ)L(\theta) 的最大值点的问题,当似然函数关于未知参数可微时,可利用微分学中求最大值的方法求解. 其主要步骤如下: (1)写出似然函数 L(θ)=L(θ;x1,x2,,xn)L(\theta)=L\left(\theta ; x_1, x_2, \cdots, x_n\right); (2)令 dL(θ)dθ=0\frac{ d L(\theta)}{ d \theta}=0dlnL(θ)dθ=0\frac{ d \ln L(\theta)}{ d \theta}=0 ,求出驻点; (3)判断并求出最大值点,在最大值点的表达式中,用样本值代入就得参数的最大似然估计值。

注意:(1)因函数 lnL(θ)\ln L(\theta)L(θ)L(\theta) 的单调增加函数,且函数 lnL(θ)\ln L(\theta) 与函数 L(θ)L(\theta) 有相同的极值点,故转化为求函数 lnL(θ)\ln L(\theta) 的最大值点较方便。 (2)当似然函数关于未知参数不可微时,只能按最大似然估计法的基本思想及定义求出最大值点。 (3)从最大似然估计的定义可以看出,若 L(θ)L(\theta) 与联合概率函数相差一个与 θ\theta 无关的比例因子, 则不会影响最大似然估计, 可以在 L(θ)L(\theta) 中剔去与 θ\theta 无关的因子。

设总体 XX 服从 [0,θ][0, \theta] 上的均匀分布, θ\theta 末知. X1,,XnX_1, \cdots, X_nXX 的样本, x1,,xnx_1, \cdots, x_n为样本值. 试求 θ\theta 的最大似然估计.

解 似然函数 L(θ)={1θn,0x1,,xnθ0, 其他 L(\theta)=\left\{\begin{array}{ll}\frac{1}{\theta^n}, & 0 \leqslant x_1, \cdots, x_n \leqslant \theta \\ 0, & \text { 其他 }\end{array}\right.. 因 L(θ)L(\theta) 不可导, 可按最大似然法的基本思想确定 θ^\hat{\theta} 。欲使 L(θ)L(\theta) 最大, θ\theta 应尽量小但又不能太小, 它必须同时满足 θxi(i=1,,n)\theta \geqslant x_i(i=1, \cdots, n), 即 θmax(x1,,xn)\theta \geqslant \max \left(x_1, \cdots, x_n\right), 否则 L(θ)=0L(\theta)=0, 而 0 不可能是 L(θ)L(\theta) 的最大值. 因此, 当 θ=max{x1,,xn}\theta=\max \left\{x_1, \cdots, x_n\right\} 时, L(θ)L(\theta) 可达最大. 所以 θ\theta 的最大似然估计为 θ^=max{X1,,Xn}\hat{\theta}=\max \left\{X_1, \cdots, X_n\right\}.