studyssmart -一体化学习应用程序。
4.8•+11k收视率
下载量超过300万次
免费的
想象一下,有一天早上,你决定做一些吐司作为早餐。你把面包放进烤面包机,但决定上楼穿衣服。不幸的是,你忘了烤面包,烤面包机着火了。
现在,对你来说不幸的是,火警没有响,在你知道之前,火焰已经蔓延到整个厨房,你现在无法下楼拨打999。
这是II型错误的一个例子,也被称为假阴性。着火了,但警报器没有响。类似地,在假设检验中,当您不拒绝零假设,但零假设实际上是错误的时候,就会发生第二类错误。
假设你已经进行了假设检验,你没有拒绝零假设H_0。
当零假设为假或备择假设\(H_1\)为真时,发生第二类错误。
这与I型错误不同,I型错误发生在你拒绝零假设时,但零假设实际上是正确的。
这两个误差可以用下表表示:
\ (H_0 \) |
\ (H_1 \) |
|
拒绝\ (H_0 \) |
第一类错误 |
没有错误 |
不拒绝\(H_0\) |
没有错误 |
第二类错误 |
II型错误也被称为假阴性。
类型II错误(假阴性)是当您没有拒绝\(H_0\),但\(H_0\)实际上是假的。
假阴性的一个例子是,当某人检测冠状病毒时,得到的结果说他们没有被感染,但他们实际上被感染了。
II类错误的概率表示为\(\beta\),为了找到II类错误的概率,你需要知道被测试参数的真实值,这通常会在问题中给你。
第二类错误的概率是当零假设为假时接受它的概率.
也可以看作是假设零假设为假,不在临界区域的概率,由下式给出:
\[\begin{align} \mathbb{P}(\text{Type II error})&=\mathbb{P}(\text{accept} H_0 \text{when} H_0 \text{为false}) \\ &=\mathbb{P}(\text{不在关键区域}\ mid H_0 \text{为false}) \end{align}\]
考虑一个具有泊松分布的变量X。取一个样本,统计学家想要在5%显著性水平上进行以下假设检验,\(H_0: \lambda=9\) vs .s. \(H_1:\lambda\neq9\)。
a)找到这个测试的关键区域。
b)假设后来发现\(\lambda\)的真值为8,计算II类错误的概率。
解决方案
a)由于\(H_0: \lambda=9\) vs .s. \(H_1:\lambda\neq9\),我们处理的是双尾检验。
假设\(H_0\)为真,即假设\(X\sim Poi(9)\)。
设(X=c_1)为下临界区域的上界。我们想求出\(c_1\)使得\(\mathbb{P}(X \leq c_1)<0.0025\)
从统计表中,
\[开始\{对齐}\ mathbb {P} (X \ leq 4) & = 0.0550 > 0.0025 \ \ \ mathbb {P} (X \ leq 3) & = 0.0212 < 0.0025 \{对齐}结束\]
因此,\ \)(c₁= 3。
设X=c_2为上临界区域的下界。我们想求出\(c_2\)使得\(\mathbb{P}(X \geq c_2)<0.0025\)。
从统计表中,
\[{对齐}\ \小{\开始mathbb {P} (X \组15)& = 1 - \ mathbb {P} (X \ leq 14) = 1 - 0.9585 = 0.0415 > 0.0025 \ \ \ mathbb {P} (X \组16)& = 1 - \ mathbb {P} (X \ leq 15) = 1 - 0.9780 = 0.0220 < 0.0025 \{对齐}}结束\]
因此,\ (c₂= 16 \)。
所以这个测试的临界区域是\({X\leq3})和\({X\ geq 16})。
b)因为我们有真值\(\lambda=8\),我们知道零假设是假的,所以我们可以计算出II型错误的概率。
\(\begin{align} \mathbb{P}(\text{Type II错误})&=\mathbb{P}(\text{accept} H_0 \text{when} H_0 \text{为false}) \\ &=\mathbb{P}(4\leq X\geq 15 \mid H_0 \text{为false}) \end{align}\)
给定\(\lambda=8\)的真值,
\(\begin{align} \mathbb{P}(\text{Type II error})&=\mathbb{P}(4 \leq X \geq 15\mid \lambda=8) \\ &=\mathbb{P}(X \geq 15\mid \lambda=8)-\mathbb{P}(X \leq 3 \mid \lambda=8) \\ &=0.9918-0.0424=0.9494结束\{对齐}\)
现在我们再举一个例子。
假设有人声称美国男性的平均身高是正态分布,平均值为70英寸,标准差为3英寸。
一位统计学家决定从美国人口中随机抽取36名男性样本来检验这一说法。
设随机变量X表示男性的身高。
a)使用显著性水平为5%,找到该测试的关键区域。
b)假设平均身高实际上是65英寸,找出这个人的说法被错误接受的概率。
解决方案
a)我们定义零假设
\[H_0: \mu=70 \quad \text{v.s.;} H_1: \mu\neq70.\]
假设\(H_0\),则由于\(X\)表示男性的身高,因此美国男性的平均身高分布为\(\bar{X} \sim N(70,3 ^2/36)\)。
因为我们想用正态随机变量的均值来检验,为了简化,我们可以用结果,
如果\ \酒吧{X} \ sim N(\μ、σ^ 2)\),然后\ (Z = \压裂{\酒吧{X} - \μ}{\压裂{\σ}{\√6 N}} \ sim N(0,1) \)。
标准化这\ ({X} \ \酒吧)变量:\ (Z = \压裂{\棒{X} -70}{\压裂{3}{\ sqrt(36)}} = \压裂{\棒{X} -70}{\压裂{1}{2}}= 2(\酒吧{X} -70) \)的随机变量\ (Z \ sim N(0,1) \)。
对于5%的显著性水平,因为我们有一个双尾假设检验,所以我们需要每条尾巴都有2.5%的显著性水平。
从统计表中,\(Z\)的临界区域为
\(Z > 1.9600\)或\(Z<-1.9600\)
所以(\bar{X})的临界值由
\[2(\酒吧{X} -70) = \ pm 1.96 \]
\[\因此\bar{X} = 69.02 \quad \text{and} \quad \bar{X} = 70.98\]
酒吧的临界区\ (\ {X} \) \(\酒吧{X} < 69.02 \)或\(\ \酒吧{X} > 70.98)
b)如果这个人对男性平均身高的说法被接受,尽管实际的平均身高是不同的,那就是第二类错误。
\[开始\{对齐}\ mathbb {P} {II型错误})(\文本& = \ mathbb {P} (69.02 \ leq \酒吧{X} \中\ \ leq 70.98μ= 65)\ \ & = \ mathbb {P} ({X} \酒吧\中\ \ leq 70.98μ= 65)- \ mathbb {P} ({X} \酒吧\中\ \ leq 69.02μ= 65)\ \ & = 0.9769 - -0.9099 \ \ & = 0.067。结束\{对齐}\]
假设检验的幂是拒绝错误原假设的概率。
这是概率统计学家感兴趣的,因为功率越高,测试越好。因此,统计学家的目标是最小化第二类错误的概率,以最大化测试的能力。
通过更新前面所示的表,
\ (H_0 \) |
\ (H_1 \) |
|
拒绝\ (H_0 \) |
第一类错误 |
\ \(文本{权力} = 1 - \mathbb{P}(\text{Type II error})\) |
不拒绝\(H_0\) |
没有错误 |
第二类错误 |
的权力当\(H_0\)为假并且做出正确的决定时,是测试的最佳状态。
它的概率由,
\[开始\{对齐}\文本{权力}&=1-\mathbb{P}(\text{Type II错误})=1-\beta \\ &=\mathbb{P}(\text{处于关键区域时}H_0 \text{为假})\end{align}\]
假设随机变量X具有几何分布。统计学家想要检验假设\[H_0: p=0.05\quad \text{v.s。} \quad H_1: p\neq0.05\]使用1%的显著性水平。
a)找到这个测试的关键区域。
b)现在,给定p=0.03,求出这个检验的幂。
解决方案
a)假设我们在零假设下,\(H_0\),因此\(X \sim Geo(0.05)\)。由于这是1%显著性水平下的双尾检验,如果\(X=c_1\)是上临界区域的下界,那么我们需要找到\(c_1\)使得\[\mathbb{P}(X \geq c_1)<0.005。
根据几何随机变量的分布,我们有
\[开始\{对齐}(1 - 0.05)^ {c_1} & < 0.005 \ \ c_1 > \压裂{ln (0.005)} {ln (0.95)} \ \ c₁> 104.29454 \{对齐}结束\]
所以\(c_1=104\)给出了上临界区域\(X \geq 104\)
如果\(X=c_2\)是下临界区域的上界,那么我们需要求出\(c_2\)使得\[\mathbb{P}(X \leq c_2)<0.005。
\[开始\{对齐}1 -(1 - 0.05)^{₂}& < 0.005 \ \ 0.95 ^₂> < \ 0.995 \ \ c₂压裂{ln (0.995)} {ln (0.95)} \ \ c₂< 0.0977 \{对齐}结束\]
所以\(c_2=0.1\)给出了一个较低的临界区域\(X \leq 0.01 \)
b)测试的功率可以通过以下方式计算:\[\begin{align} \text{power}&= \mathbb{P}(H_0 \text{被拒绝}\ mid P =0.03) \\ &=\mathbb{P}(X \leq 0.1 \mid P =0.03)+\mathbb{P}(X \geq 104 \mid P =0.03) \\ &=1-(1-0.03)^{104}=0.04513 \end{align}\]
第二类误差的主要决定因素是样本量。样本量越小,二类错误的概率就越高。
换句话说,测试的期望功率越大,所需的样本量就越大。
在确定测试的正确样本量时可能会有困难,因为统计学家想要最小化第二类错误的可能性,但增加样本量会增加成本。然而,t使第二类误差最小化的最重要方法是增加样本量。
II型错误也称为假阴性,用\(\beta\)表示。
\[\begin{align} \mathbb{P}(\text{Type II error})&=\mathbb{P}(\text{accept} H_0 \text{when} H_0 \text{为false}) \\ &=\mathbb{P}(\text{不在关键区域}\ mid H_0 \text{为false}) \end{align}\]
假设检验的威力是你正确拒绝零假设而假设为假的概率。
II型误差与假设检验的幂成反比关系,\(\text{power}=1-\beta\)。
要计算类型II错误的概率,您将需要感兴趣的参数的真实值和测试的临界区域。
第二类错误是指您没有拒绝原假设,但原假设为假。
P(类型II错误)= P(不在给定H0是假的)
在统计检验中,当您错误地没有拒绝H时,会发生II型错误0当它实际上是错误的。
做好充分的准备,按时制定个人计划。
用游戏化的小测验测试你的知识。
在创纪录的时间内创建和查找抽认卡。
创造美丽的音符比以往任何时候都快。
把所有的学习材料放在一个地方。
上传无限的文件并在线保存。
确定你的学习优势和劣势。
设定个人学习目标,达到目标就能获得积分。
不要再用学习提醒来拖延时间。
赚取积分,解锁徽章和水平,同时学习。
在笔记中完全自动创建抽认卡。
使用我们的模板创建最漂亮的学习材料。
注册标记并做笔记。100%免费。