Teste de Hipóteses

Hipóteses

Damos o nome de hipótese estatística a qualquer conjetura sobre um dado estatístico, como por exemplo a distribuição de uma VA de interesse, um parâmetro desconhecido, ou outro. A uma conjetura sobre um parâmetro damos o nome de hipótese paramétrica.
Este capítulo centra-se no estudo da confiança que podemos dar a uma hipótese paramétrica.
Normalmente, isto é feito através da confrontação de duas hipóteses paramétricas:

  • hipótese nula: H0Θ0H_0 \in \Theta_0 Θ\subset \Theta que consiste na hipótese principal;
  • hipótese alternativa: H1Θ1H_1 \in \Theta_1 Θ\Θ0\subset \Theta \backslash \Theta_0 que consiste na hipótese que é confrontada com a hipótese nula. Normalmente consideramos 3 tipos de hipóteses alternativas:
    • unilateral inferior se Θ1{xΘ:x<H0}\Theta_1 \subset \{ x \in \Theta: x < H_0 \}, isto é, se todos os valores da hipótese alternativa forem inferiores aos da hipótese nula;
    • unilateral superior se Θ1{xΘ:x>H0}\Theta_1 \subset \{ x \in \Theta: x > H_0 \}, isto é, se todos os valores da hipótese alternativa forem superiores aos da hipótese nula;
    • bilateral caso enquadre valores para ambos os lados de H0H_0. Um exemplo comum de uma hipótese alternativa bilateral é
      H0:μ=μ0 e H1:μμ0H_0: \mu = \mu_0 \text{ e } H_1: \mu \neq \mu_0

Uma hipótese paramétrica diz-se ainda simples se especificar um único valor para o parâmetro em caso, dizendo-se composta caso contrário.

Exemplo

Considere-se que queremos analisar a altura da população portuguesa. Assumimos que a distribuição da altura dos portugueses é normal. Sendo assim, é do nosso interesse saber qual é, por exemplo, o valor esperado da altura de um português. Seja este parâmetro μ\mu.

Um exemplo de uma hipótese paramétrica é:

A média das alturas dos portugueses é 1,75m1,75m.

Esta hipótese paramétrica é simples pois especifica um só valor para o parâmetro desconhecido. Uma hipótese paramétrica composta seria, por exemplo:

A média das alturas dos portugueses está algures entre 1,70m1,70m e 1,80m1,80m.

Se considerarmos a primeira hipótese apresentada como a hipótese nula - H0:μ=1,70H_0: \mu = 1,70 - temos que a hipótese alternativa é bilateral - H1:μ1,70H_1: \mu \neq 1,70.

Temos que a hipótese nula H0:μ1,70H_0: \mu \geq 1,70:

A média das alturas dos portugueses é no mínimo 1,70m1,70m.

Tem uma hipótese alternativa unilateral inferior: H1:μ<1,70H_1: \mu < 1,70.

Deve agora ser fácil imaginar uma hipótese nula cuja hipótese alternativa seja unilateral superior.

Testar um Hipótese

Testar uma hipótese consiste num processo estatístico que leva à aceitação/rejeição da hipótese nula em prol da alternativa. Esta decisão pode ou não estar correta: o teste permite-nos atribuir um valor de probabilidade a uma certa hipótese, mas nunca nos permite calcular sem margem de dúvida o valor de um parâmetro.

Dizemos que ocorreu um:

  • erro de primeira espécie se H0H_0 for verdadeira mas for rejeitada pelo teste. Designamos por α\alpha como a probabilidade de ocorrer um erro destes;
  • erro de segunda espécie se H0H_0 for falsa mas for aceite pelo teste. Designamos por β\beta como a probabilidade de ocorrer um erro destes;

Quando fazemos um teste, queremos que a probabilidade de ocorrer um erro seja o menor possível. É, então, normal colocar um limite superior para a probabilidade de ocorrência de erro de primeira espécie. A este limite dá-se o nome de nível de significância (n.s.) e representa-se por α0\alpha_0 ]0,1[\in ]0,1[.
Para calcular a probabilidade de erro, definimos uma estatística de teste como uma estatística a utilizar no confronto entre um par de hipóteses sobre o parâmetro θ\theta. Esta estatística:

  • reflete a discrepância entre o estimador de θ\theta e o valor conjeturado para o mesmo em H0H_0 (θ0\theta_0);
  • tem distribuição (exata ou aproximada) conhecida, sob a validade de H0H_0;
  • obtém-se, normalmente, à custa de uma certa VA fulcral, substituindo θ\theta por θ0\theta_0 na sua expressão.

A partir desta estatística TT, fica então a faltar definir o conjunto de valores que deverão levar à rejeição de H0H_0. A estes valores damos o nome de valores críticos e a este conjunto região de rejeição ou rejeição crítica de H0H_0. Esta região é designada por ω\omega e é tal que P(Tω)=αα0P(T \in \omega) = \alpha \leq \alpha_0, dependendo também da hipótese alternativa.

A decisão em relação a H0H_0 é então a seguinte, para uma estatística teste TT:

  • TωT \in \omega \Rightarrow rejeição;
  • T∉ωT \not\in \omega \Rightarrow aceitação.

Mais uma vez, relembra-se que aceitação não significa que H0H_0 seja verdadeira: pode ocorrer um erro de primeira ou segunda espécie. Podemos, no entanto, concluir, em caso de aceitação da hipótese nula, que a probabilidade de um erro destes acontecer é inferior ao nível de significância α0\alpha_0. Desta forma, quanto menor α0\alpha_0, maior o conjunto de valores rejeitados.

Observamos ainda que, se H0H_0 for uma hipótese nula H0:θ=θ0H_0: \theta = \theta_0 com alternativa bilateral H1:θθ0H_1: \theta \neq \theta_0, averiguar H0H_0 com n.s. α0\alpha_0 equivale a averiguar se o valor θ0\theta_0 proposto por H0H_0 pertence ao intervalo de confiança 1α01-\alpha_0. Temos então que θ0IC1α0(θ)\theta_0 \in IC_{1-\alpha_0}(\theta) leva à aceitação de θ0\theta_0 com n.s. α0\alpha_0 e θ0∉IC1α0(θ)\theta_0 \not\in IC_{1-\alpha_0}(\theta) leva à rejeição com esse mesmo n.s.

Procedimentos para Testar uma Hipótese

Para testar uma hipótese seguimos, então, o seguinte procedimento:

  1. Escolhemos a VA de interesse XX;
  2. Identificamos a situação: qual a distribuição de XX, o parâmetro em questão, outros parâmetros em causa, etc;
  3. Especificamos as hipóteses: nula (H0H_0) e alternativa (H1H_1);
  4. Escolhemos o nível de significância α0\alpha_0;
  5. Escolhemos a estatística de teste TT e identificamos a sua distribuição sob a validade de H0H_0;
  6. Obtemos a região de rejeição ω\omega
  7. Calculamos o valor observado tt da estatística TT e decidimos pela rejeição ou não de H0H_0 com n.s. α0\alpha_0.

Função Potência

Por vezes, além da probabilidade de rejeição para uma hipótese verdadeira, podemos querer essa probabilidade para uma hipótese falsa. Definimos a função potência de um teste como a probabilidade de rejeição da hipótese nula. Temos que

α=P(Tωθ),θΘ0β=P(T∉ωθ),θΘ1\alpha = P(T \in \omega | \theta), \theta \in \Theta_0 \\ \beta = P(T \not\in \omega | \theta), \theta \in \Theta_1

pelo que

p(θ)=P(Rejeitar H0θ)={α,θΘ01β,θΘ1p(\theta) = P(\text{Rejeitar } H_0 | \theta) = \begin{cases} \alpha, &\theta \in \Theta_0 \\ 1-\beta, &\theta \in \Theta_1 \end{cases}

pp-value

Até agora, temos estudado a decisão sobre uma hipótese para um n.s. fixo. No entanto, podemos seguir o sentido contrário: dado o valor observado tt de uma estatística, determinar para que níveis de significância é que rejeitamos/aceitamos a hipótese nula. Definimos, então, o p-value como o maior nível de significância que leva à aceitação de H0H_0. Nomeadamente, se tivermos um teste:

  • unilateral inferior, ω=],c[\omega = ]-\infty, c[, então c=P(T<tH0)=FTH0(t)c = P(T<t | H_0) = F_{T|H_0}(t);
  • unilateral superior, ω=]c,[\omega = ]c, \infty[, então c=P(T>tH0)=1FTH0(t)c = P(T>t | H_0) = 1 - F_{T|H_0}(t);
  • bilateral, ω=],c[]c,[\omega = ]-\infty, c[ \cup ]c, \infty[ em que TH0T | H_0 tem distribuição simétrica em relação à origem, então c=P(T<tT>tH0)=2(1FTH0(t))c = P(T<-|t| \vee T>|t| | H_0) = 2\left(1 - F_{T|H_0}(|t|) \right)

Testes de Hipóteses Paramétricas

Determinação de μ\mu para σ2\sigma^2 conhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao valor esperado de uma VA arbitrária XX cuja variância já conhecemos.

Consideramos, então, a hipótese nula H0:μ=μ0H_0: \mu = \mu_0.

Se Xnormal(μ,σ2)X \sim \op{normal}(\mu, \sigma^2), temos então que

Z=Xμ0σnH0normal(0,1)Z = \frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \sim_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é exatamente

  • ω= ],Φ1(1α2)[  ]Φ1(1α2),[\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Φ1(1α),[\omega = \space]\Phi^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Φ1(1α)[\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se XX não seguir uma distribuição normal, invocamos o TLC para obter que

Xμ0σnaH0normal(0,1)\frac{\overline{X} - \mu_0}{\frac{\sigma}{\sqrt{n}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de μ1μ2\mu_1 - \mu_2 para σ12,σ22\sigma_1^2, \sigma_2^2 conhecidos

Esta determinação não é lecionada no programa de 2021/22.

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à diferença entre os valores esperados de duas VA arbitrárias X1X_1 e X2X_2 cuja variância já conhecemos.

Consideramos, então, a hipótese nula H0:μ1μ2=μ0H_0: \mu_1 - \mu_2 = \mu_0.

Se Xinormal(μi,σi2)X_i \sim \op{normal}(\mu_i, \sigma_i^2) (i{1,2}i \in \{1,2\}), temos que

Z=(X1X2)(μ1μ2)σ12n1+σ22n2H0normal(0,1)Z = \frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é exatamente

  • ω= ],Φ1(1α2)[  ]Φ1(1α2),[\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Φ1(1α),[\omega = \space]\Phi^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Φ1(1α)[\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se XX não seguir uma distribuição normal, invocamos o TLC para obter que

(X1X2)(μ1μ2)σ12n1+σ22n2aH0normal(0,1)\frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de μ\mu para σ2\sigma^2 desconhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao valor esperado de uma VA arbitrária XX cuja variância não conhecemos.

Consideramos, então, a hipótese nula H0:μ=μ0H_0: \mu = \mu_0.

Se Xnormal(μ,σ2)X \sim \op{normal}(\mu, \sigma^2), temos que

Z=XμsnH0t(n1)Z = \frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sim_{H_0} t_{(n-1)}

em que ss é um estimador para a variância - a variância corrigida.

Sendo assim, a região de rejeição é exatamente

  • ω= ],Ft(n1)1(1α2)[  ]Ft(n1)1(1α2),[\omega = \space]-\infty, -F_{t_{(n-1)}}^{-1}(1-\frac{\alpha}{2})[\space \cup \space]F_{t_{(n-1)}}^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Ft(n1)1(1α),[\omega = \space]F_{t_{(n-1)}}^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Ft(n1)1(1α)[\omega = \space]-\infty, -F_{t_{(n-1)}}^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se XX não seguir uma distribuição normal, invocamos o TLC para obter que

XμsnaH0normal(0,1)\frac{\overline{X} - \mu}{\frac{s}{\sqrt{n}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de μ1μ2\mu_1 - \mu_2 para σ12,σ22\sigma_1^2, \sigma_2^2 desconhecidos

Esta determinação não é lecionada no programa de 2021/22.

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à diferença entre os valores esperados de duas VA arbitrárias X1X_1 e X2X_2 cuja variância não conhecemos.

Consideramos, então, a hipótese nula H0:μ1μ2=μ0H_0: \mu_1 - \mu_2 = \mu_0.

Se Xinormal(μi,σi2)X_i \sim \op{normal}(\mu_i, \sigma_i^2) (i{1,2}i \in \{1,2\}), temos que

Z=(X1X2)(μ1μ2)(n11)s12+(n21)s22n1+n22(1n1+1n2)H0t(n1+n21)Z = \frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{(n_1-1)s_1^2 + (n_2-1)s_2^2}{n_1+n_2-2}\left(\frac{1}{n_1} + \frac{1}{n_2} \right)}} \sim_{H_0} t_{(n_1+n_2-1)}

em que ss é um estimador para a variância - a variância corrigida.

Sendo assim, a região de rejeição é exatamente

  • ω= ],Ft(n1+n21)1(1α2)[  ]Ft(n1+n21)1(1α2),[\omega = \space]-\infty, -F_{t_{(n_1+n_2-1)}}^{-1}(1-\frac{\alpha}{2})[\space \cup \space]F_{t_{(n_1+n_2-1)}}^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:μμ0H_1: \mu \neq \mu_0;
  • ω= ]Ft(n1+n21)1(1α),[\omega = \space]F_{t_{(n_1+n_2-1)}}^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:μ>μ0H_1: \mu > \mu_0;
  • ω= ],Ft(n1+n21)1(1α)[\omega = \space]-\infty, -F_{t_{(n_1+n_2-1)}}^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:μ<μ0H_1: \mu < \mu_0;

Se X1X_1 e X2X_2 não seguirem uma distribuição normal, invocamos o TLC para obter que

(X1X2)(μ1μ2)s12n1+s22n2aH0normal(0,1)\frac{(\overline{X_1} - \overline{X_2}) - (\mu_1 - \mu_2)}{\sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}} \sima_{H_0} \op{normal}(0,1)

e portanto podemos obter as mesmas regiões de rejeição indicadas acima, desta vez com nível de significância aproximado.

Determinação de σ2\sigma^2 para μ\mu desconhecido

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação à variância de uma VA XX com distribuição normal cujo valor esperado não conhecemos.

Consideramos, então, a hipótese nula H0:σ2=σ02H_0: \sigma^2 = \sigma_0^2.

Como Xnormal(μ,σ2)X \sim \op{normal}(\mu, \sigma^2), temos que

Z=(n1)s2σ2H0χ(n1)2Z = \frac{(n-1)s^2}{\sigma^2} \sim_{H_0} \chi_{(n-1)}^2

Sendo assim, a região de rejeição é exatamente

  • ω= ],χ(n1)21(1α2)[  ]χ(n1)21(1α2),[\omega = \space]-\infty, -{\chi_{(n-1)}^2}^{-1}(1-\frac{\alpha}{2})[\space \cup \space]{\chi_{(n-1)}^2}^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:σ2σ02H_1: \sigma^2 \neq \sigma_0^2;
  • ω= ]χ(n1)21(1α),[\omega = \space]{\chi_{(n-1)}^2}^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:σ2>σ02H_1: \sigma^2 > \sigma_0^2;
  • ω= ],χ(n1)21(1α)[\omega = \space]-\infty, -{\chi_{(n-1)}^2}^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:σ2<σ02H_1: \sigma^2 < \sigma_0^2;

Determinação de pp numa Prova de Bernoulli

Neste caso, estamos interessados em determinar a zona de rejeição para uma hipótese paramétrica em relação ao parâmetro de uma Prova de Bernoulli.

Consideramos, então, a hipótese nula H0:p=p0H_0: p = p_0.

Como XBernoulli(p)X \sim Bernoulli(p), temos, segundo o TLC, que para n>>n>>

Z=Xpp(1p)naH0normal(0,1)Z = \frac{\overline{X} - p}{\sqrt{\frac{p(1-p)}{n}}} \sima_{H_0} \op{normal}(0,1)

Sendo assim, a região de rejeição é aproximadamente

  • ω= ],Φ1(1α2)[  ]Φ1(1α2),[\omega = \space]-\infty, -\Phi^{-1}(1-\frac{\alpha}{2})[\space \cup \space]\Phi^{-1}(1-\frac{\alpha}{2}), \infty[
    para uma hipótese alternativa bilateral H1:pp0H_1: p \neq p_0;
  • ω= ]Φ1(1α),[\omega = \space]\Phi^{-1}(1-\alpha), \infty[
    para uma hipótese alternativa unilateral superior H1:p>p0H_1: p > p_0;
  • ω= ],Φ1(1α)[\omega = \space]-\infty, -\Phi^{-1}(1-\alpha)[
    para uma hipótese alternativa unilateral inferior H1:p<p0H_1: p < p_0;

Exemplos

Exemplo

// TODO