置信区间
设X_1,\dots,X_n\sim U(\theta-\frac12,\theta+\frac12),要做\theta的区间估计,取置信系数1-\alpha=0.95.
关于\theta的充分完备统计量为(X_{(1)},X_{(n)}).
令\hat\theta_n=\frac{X_{(1)}+X_{(n)}}{2},又令Y=2(\hat\theta_n-\theta+\frac12)=X_{(1)}-\theta+\frac12+X_{(n)}-\theta+\frac12,而
X_1-\theta+\frac12,\dots,X_n-\theta+\frac12\sim U(0,1),故(X_{(1)}-\theta+\frac12,X_{(n)}-\theta+\frac12)联合分布的密度为
f(r,s)=n(n-1)(s-r)^{n-2}\mathbf{1}(0<r<s<1).
当0\leqslant y<1时,
\begin{aligned}
\mathbb{P}(Y\leqslant y)&=\int_0^{y/2}\mathrm{d}r\int_{r}^{y-r}f(r,s) \mathrm{d}s\\
&=n\int_0^{y/2}\mathrm{d}r\int_{r}^{y-r}(n-1)(s-r)^{n-2} \mathrm{d}s\\
&=\int_0^{y/2}n(y-2r)^{n-1} \mathrm{d}r\\
&=-\frac{1}{2}\int_0^{y/2}n(y-2r)^{n-1} \mathrm{d}(y-2r)\\
&=\frac{1}{2}y^n.
\end{aligned}
就有f_Y(y)=\frac{n}{2}y^{n-1}\, (0\leqslant y<1),同样可得f_Y(y)=\frac{n}{2}(2-y)^{n-1}\, (1\leqslant y\leqslant2),这样Y的密度就可以写成f_Y(y)=\frac{n}{2}(1-|y-1|)^{n-1}\, (0\leqslant y\leqslant2).
令U=Y-1=2(\hat\theta_n-\theta)=X_{(1)}+X_{(n)}-2\theta,其密度为f_U(u)=\frac{n}{2}(1-|u|)^{n-1}\, (-1\leqslant u\leqslant1).
U的分布与\theta无关,存在正常数c_n使\mathbb{P}(-c_n\leqslant U\leqslant c_n)=1-\alpha,此即
2\int_{c_n}^1\frac{n}{2}(1-u)^{n-1}=\alpha\Leftrightarrow (1-c_n)^n=\alpha\Leftrightarrow c_n=1-\sqrt[n]{\alpha}.
于是,基于U=2(\hat\theta_n-\theta)构造的置信系数1-\alpha的置信区间为:
\left[\hat\theta_n-\frac{1-\sqrt[n]{\alpha}}{2},\; \hat\theta_n+\frac{1-\sqrt[n]{\alpha}}{2} \right].
区间估计
设样本量n=25,此时\frac{1-\sqrt[n]{\alpha}}{2}\approx0.056,上述置信区间的长度就约等于0.112.
现考虑两种情况的样本,一种是比较集中的样本,设一组样本:
X_{(25)}=0.278,\quad X_{(1)}=0.275.
在这组样本的基础上,未知参数必定大于X_{(n)}-\frac{1}{2},又小于X_{(1)}+\frac{1}{2},这就是说\theta必定落在区间[0.278-0.5,\, 0.275+0.5]=[-0.222,0.775]内,这是一个长为0.997的区间;于是,虽然逻辑上未知参数\theta百分百在一个长为0.997的区间内,但是置信区间却可以把区间长度压缩在11.2%(=\frac{0.112}{0.997}),而有着95%的置信度。
第二种情况是比较分散的样本,设另一组样本:
X_{(25)}=2.256,\quad X_{(1)}=1.261.
在它的基础上,我们可以百分百地确定未知参数\theta不会超出区间[2.256-0.5,\, 1.261+0.5]=[1.756,1.761],长度只有0.03,而上面的置信区间给出的是[1.703,1.815],这个区间包含了前面的区间,长度是几倍,但可靠度只有0.95.
发表回复