首页 IT技术

参数估计和最大似然估计

时间:2019-11-01 23:46:03 分类:IT技术

参数估计

点估计

设总体XXX的分布函数的形式已知,但它的一个或多个参数未知,借助于总体XXX的一个样本来估计总体未知参数的值得问题称为参数的点估计问题。

举例:

某炸药厂,一天中发生着火现象的次数XXX是一个随机变量,假设XXX服从λ>0\lambda>0λ>0泊松分布,即Xπ(λ)X \sim \pi(\lambda)X∼π(λ)。根据现有的样本量估计参数λ\lambdaλ

着火次数k 0 1 2 3 4 5 6 >=7
发生k次着火的天数 75 90 54 22 6 2 1 0

根据λ=E(X)\lambda=E(X)λ=E(X),以上的数据表示X=0X=0X=0出现了75次,X=1X=1X=1出现了90次…,一共有250个样本

E(X)=0×75+1×90+2×54+3×22+4×6+5×2+6×1250=1.22E(X)=\frac{0 \times 75+1 \times 90 +2 \times 54+3 \times 22 +4 \times 6 + 5 \times 2+ 6 \times 1}{250}=1.22E(X)=2500×75+1×90+2×54+3×22+4×6+5×2+6×1​=1.22

所以估计参数λ=1.22\lambda=1.22λ=1.22

点估计:设总体XXX的分布函数F(x;θ)F(x;\theta)F(x;θ)的形式为已知,θ\thetaθ是待估参数,X1,X2,...,XnX_{1},X_{2},...,X_{n}X1​,X2​,...,Xn​是XXX的一个样本,x1,x2,...,xnx_{1},x_{2},...,x_{n}x1​,x2​,...,xn​是对应的样本值。点估计问题是构造出一个适当的统计量θ^(X1,X2,...,Xn)\hat{\theta}(X_{1},X_{2},...,X_{n})θ^(X1​,X2​,...,Xn​),用它的观察值θ^(x1,x2,...,xn)\hat{\theta}(x_{1},x_{2},...,x_{n})θ^(x1​,x2​,...,xn​)作为未知参数θ\thetaθ的近似值,称θ^(X1,X2,...,Xn)\hat{\theta}(X_{1},X_{2},...,X_{n})θ^(X1​,X2​,...,Xn​)为θ\thetaθ的估计量,θ^(x1,x2,...,xn)\hat{\theta}(x_{1},x_{2},...,x_{n})θ^(x1​,x2​,...,xn​)为θ\thetaθ的估计值。

下面介绍两种常用的构造估计量的方法:矩估计和最大似然估计

##矩估计法

XXX为连续型随机变量,其概率密度为f(x:θ1,θ2,...,θk)f(x:\theta_{1}, \theta_{2},...,\theta_{k})f(x:θ1​,θ2​,...,θk​);或XXX为离散型随机变量,其概率密度为P{X=x}=p(x;θ1,θ2,...,θk)P\{X=x\}=p(x;\theta_{1}, \theta_{2},...,\theta_{k})P{X=x}=p(x;θ1​,θ2​,...,θk​),其其中θ1,θ2,...,θk\theta_{1}, \theta_{2},...,\theta_{k}θ1​,θ2​,...,θk​为待估参数。假设总体XXX前kkk阶矩为:

μl=E(Xl)=xlf(x:θ1,θ2,...,θk)dx,(X)\mu_{l}=E(X^{l})=\int_{-\infty}^{\infty}x^{l}f(x:\theta_{1}, \theta_{2},...,\theta_{k}) dx,(X是连续型)μl​=E(Xl)=∫−∞∞​xlf(x:θ1​,θ2​,...,θk​)dx,(X是连续型)

μl=E(Xl)=xRxxlp(x;θ1,θ2,...,θk),(X)\mu_{l}=E(X^{l})=\sum_{x \in R_{x}}x^{l}p(x;\theta_{1}, \theta_{2},...,\theta_{k}),(X是离散型)μl​=E(Xl)=x∈Rx​∑​xlp(x;θ1​,θ2​,...,θk​),(X是离散型)

l=1,2, ,kl=1,2,\cdots,kl=1,2,⋯,k

其中,RxR_{x}Rx​是xxx可能取值的范围。

X1,X2,...,XnX_{1},X_{2},...,X_{n}X1​,X2​,...,Xn​是来自XXX的样本,样本矩为Al=1ni=1nXilA_{l}=\frac{1}{n}\sum_{i=1}^{n}X_{i}^{l}Al​=n1​i=1∑n​Xil​

样本矩依概率收敛于相应的总体矩ulu_{l}ul​,样本矩的连续函数依概率收敛于相应的总体矩的连续函数。因此,可以使用样本矩作为相应的总体矩的估计量,样本矩的连续函数作为相应的总体矩的连续函数的估计量,此估计法被称为矩估计法。具体做法如下:

{μ1=μ1(θ1,θ2, ,θk)μ2=μ2(θ1,θ2, ,θk)μk=μk(θ1,θ2, ,θk)\left\{\begin{matrix} \mu_{1}=\mu_{1}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \mu_{2}=\mu_{2}(\theta_{1},\theta_{2},\cdots ,\theta_{k})\\ \cdots\\ \mu_{k}=\mu_{k}(\theta_{1},\theta_{2},\cdots ,\theta_{k}) \end{matrix}\right.⎩⎪⎪⎨⎪⎪⎧​μ1​=μ1​(θ1​,θ2​,⋯,θk​)μ2​=μ2​(θ1​,θ2​,⋯,θk​)⋯μk​=μk​(θ1​,θ2​,⋯,θk​)​

这是包含kkk个未知数θ1,θ2, ,θk\theta_{1},\theta_{2},\cdots ,\theta_{k}θ1​,θ2​,⋯,θk​的联立方程组。一般来说,可以得到:

{θ1=θ1(μ1,μ2, ,μk)θ2=θ2(μ1,μ2, ,μk)θk=θk(μ1,μ2, ,μk)\left\{\begin{matrix} \theta_{1}=\theta_{1}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \theta_{2}=\theta_{2}(\mu_{1},\mu_{2},\cdots ,\mu_{k})\\ \cdots\\ \theta_{k}=\theta_{k}(\mu_{1},\mu_{2},\cdots ,\mu_{k}) \end{matrix}\right.⎩⎪⎪⎨⎪⎪⎧​θ1​=θ1​(μ1​,μ2​,⋯,μk​)θ2​=θ2​(μ1​,μ2​,⋯,μk​)⋯θk​=θk​(μ1​,μ2​,⋯,μk​)​

AiA_{i}Ai​代替上述中的μii=1,2, ,k\mu_{i},i=1,2,\cdots,kμi​,i=1,2,⋯,k,可得:

θi^=θi(A1,A2, ,Ak),i=1,2, ,k\hat{\theta_{i}}=\theta_{i}(A_{1},A_{2},\cdots, A_{k}),i=1,2,\cdots,kθi​^​=θi​(A1​,A2​,⋯,Ak​),i=1,2,⋯,k

分别作为θii=1,2, ,k\theta_{i},i=1,2,\cdots,kθi​,i=1,2,⋯,k的估计量,称为矩估计量,观察值称为矩估计值。

最大似然估计

离散型

设总体XXX属于离散型,分布律P{X=x}=p(x;θ),θΘP\{X=x\}=p(x;\theta),\theta \in \ThetaP{X=x}=p(x;θ),θ∈Θ的形式为已知,θ\thetaθ为待估参数,Θ\ThetaΘ为θ\thetaθ可能取值的范围。设X1,X2, ,XnX_{1},X_{2},\cdots,X_{n}X1​,X2​,⋯,Xn​为来自XXX的样本,x1,x2, ,xnx_{1},x_{2},\cdots,x_{n}x1​,x2​,⋯,xn​为对应的样本值,它们都是已知的常数。易知样本X1,X2, ,XnX_{1},X_{2},\cdots,X_{n}X1​,X2​,⋯,Xn​取到x1,x2, ,xnx_{1},x_{2},\cdots,x_{n}x1​,x2​,⋯,xn​的概率,即事件{X1=x1,X2=x2, ,Xn=xn}\{X_{1}=x_{1},X_{2}=x_{2},\cdots,X_{n}=x_{n}\}{X1​=x1​,X2​=x2​,⋯,Xn​=xn​}发生的概率为:

L(θ)=L(x1,x2, ,xn;θ)=i=1np(xi;θ),θΘL(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}p(x_{i};\theta),\theta \in \ThetaL(θ)=L(x1​,x2​,⋯,xn​;θ)=i=1∏n​p(xi​;θ),θ∈Θ

概率值随θ\thetaθ的取值而变化,是θ\thetaθ的函数,L(θ)L(\theta)L(θ)称为样本的似然函数。

现在我们已经取到了样本值x1,x2, ,xnx_{1},x_{2},\cdots,x_{n}x1​,x2​,⋯,xn​,表明取到这一样本值的概率L(θ)L(\theta)L(θ)比较大。当θ=θ0Θ\theta=\theta_{0} \in \Thetaθ=θ0​∈Θ时L(θ)L(\theta)L(θ)取得最大值,而Θ\ThetaΘ中的其他值使得L(θ)L(\theta)L(θ)取得较小的值,所以认为取θ0\theta_{0}θ0​为未知参数θ\thetaθ的估计值最为合理,这就是最大似然估计,即:

L(x1,x2, ,xn;θ^)=maxθΘL(x1,x2, ,xn;θ)L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)L(x1​,x2​,⋯,xn​;θ^)=θ∈Θmax​L(x1​,x2​,⋯,xn​;θ)

这样的得到的θ^\hat{\theta}θ^与样本值x1,x2, ,xnx_{1},x_{2},\cdots,x_{n}x1​,x2​,⋯,xn​有关,常被记为θ^(x1,x2, ,xn)\hat{\theta}(x_{1},x_{2},\cdots,x_{n})θ^(x1​,x2​,⋯,xn​),称为参数θ\thetaθ的最大似然估计值,统计量θ^(X1,X2, ,Xn)\hat{\theta}(X_{1},X_{2},\cdots,X_{n})θ^(X1​,X2​,⋯,Xn​)称为参数θ\thetaθ的最大似然估计量。

连续型

设总体XXX属于连续型,概率密度f(x;θ),θΘf(x;\theta),\theta \in \Thetaf(x;θ),θ∈Θ的形式为已知,θ\thetaθ为待估参数,Θ\ThetaΘ为θ\thetaθ可能取值的范围。设X1,X2, ,XnX_{1},X_{2},\cdots,X_{n}X1​,X2​,⋯,Xn​为来自XXX的样本,x1,x2, ,xnx_{1},x_{2},\cdots,x_{n}x1​,x2​,⋯,xn​为对应的样本值,它们都是已知的常数。易知样本X1,X2, ,XnX_{1},X_{2},\cdots,X_{n}X1​,X2​,⋯,Xn​取到x1,x2, ,xnx_{1},x_{2},\cdots,x_{n}x1​,x2​,⋯,xn​的概率,即为随机点(X1,X2, ,Xn)(X_{1},X_{2},\cdots,X_{n})(X1​,X2​,⋯,Xn​)落在点(x1,x2, ,xn)(x_{1},x_{2},\cdots,x_{n})(x1​,x2​,⋯,xn​)的邻域(边长分别为dx1,dx2, ,dxndx_{1},dx_{2},\cdots,dx_{n}dx1​,dx2​,⋯,dxn​的nnn维立方体)内的概率近似为:

i=1nf(xi;θ)dxi\prod_{i=1}^{n}f(x_{i};\theta)dx_{i}i=1∏n​f(xi​;θ)dxi​

其值随θ\thetaθ的变化而变化,取θ\thetaθ的估计值θ^\hat{\theta}θ^使得概率取得最大值,但因子i=1ndxi\prod_{i=1}^{n}dx_{i}∏i=1n​dxi​与θ\thetaθ无关,故只需要考虑函数:

L(θ)=L(x1,x2, ,xn;θ)=i=1nf(xi;θ)L(\theta)=L(x_{1},x_{2},\cdots,x_{n};\theta)=\prod_{i=1}^{n}f(x_{i};\theta)L(θ)=L(x1​,x2​,⋯,xn​;θ)=i=1∏n​f(xi​;θ)

的最大值,L(θ)L(\theta)L(θ)称为样本的似然函数,若L(x1,x2, ,xn;θ^)=maxθΘL(x1,x2, ,xn;θ)L(x_{1},x_{2},\cdots,x_{n};\hat{\theta})=\max_{\theta \in \Theta} L(x_{1},x_{2},\cdots,x_{n};\theta)L(x1​,x2​,⋯,xn​;θ^)=θ∈Θmax​L(x1​,x2​,⋯,xn​;θ)

θ^(x1,x2, ,xn)\hat{\theta}(x_{1},x_{2},\cdots,x_{n})θ^(x1​,x2​,⋯,xn​),称为参数θ\thetaθ的最大似然估计值,统计量θ^(X1,X2, ,Xn)\hat{\theta}(X_{1},X_{2},\cdots,X_{n})θ^(X1​,X2​,⋯,Xn​)称为参数θ\thetaθ的最大似然估计量。

对数似然方程

似然函数中的连乘操作容易造成下溢,取对数之后可以变为相加的形式:logL(θ)=i=1nf(xi;θ)\log L(\theta)=\sum_{i=1}^{n}f(x_{i};\theta)logL(θ)=i=1∑n​f(xi​;θ)

确定最大似然估计量的问题归结为求L(θ)L(\theta)L(θ)的最大值问题。很多情况下,p(x;θ)p(x;\theta)p(x;θ)和f(x;θ)f(x;\theta)f(x;θ)关于θ\thetaθ可微,这时θ^\hat{\theta}θ^可从方程:dL(θ)dθ=0\frac{\mathrm{d} L(\theta)}{\mathrm{d} \theta}=0dθdL(θ)​=0解得。又因为L(θ)L(\theta)L(θ)和lnL(θ)\ln L(\theta)lnL(θ)在同一θ\thetaθ处取得极值,因此θ\thetaθ的最大似然估计θ\thetaθ也可以从方程dlnL(θ)dθ=0\frac{ \mathrm{d} \ln L(\theta)}{\mathrm{d} \theta}=0dθdlnL(θ)​=0求的,而使用对数方程求解比较方便,称为对数似然方程。

#无偏估计量

对于待估参数,不同的样本值就会得到不同的估计值。要确定一个估计量的好坏,就不能仅仅依据某次抽样的结果来衡量,而必须由大量抽样的结果来衡量。对此,一个自然而基本的衡量标准是要求估计量无系统偏差。也就是说,尽管在一次抽样中得到的估计值不一定恰好等于待估参数的真值,但在大量重复抽样时,所得到的估计值平均起来应与待估参数的真值相同,换句话说,估计量的均值(数学期望)应等于未知参数的真值。若估计量θ^=θ^(X1,X2, ,Xn)\hat{\theta}=\hat{\theta}(X_{1},X_{2},\cdots,X_{n})θ^=θ^(X1​,X2​,⋯,Xn​)的数学期望E(θ^)E(\hat{\theta})E(θ^)存在,则有E(θ^)=θE(\hat{\theta})=\thetaE(θ^)=θ

无偏估计的实际意义为无系统偏差。

文章最后发布于: 2018-05-12 19:37:52

推荐文章

重点栏目推荐