Questão 1 - Para o modelo \(Y_i = \beta_0 + \beta_1 X_i + \epsilon_i\):

  1. Derive manualmente os estimadores de mínimos quadrados (MQ) para os parâmetros \(\beta_0\) e \(\beta_1\) para o modelo abaixo:

  2. Para o modelo acima, apresente os estimadores de máxima verossimilhança (MV). Que condições são necessárias para que os estimadores de MV sejam idênticos aos de MQ?

  3. Apresente analiticamente os estimadores para a variância residual e para as variâncias dos parâmetros da reta.

Questão 2 - Responda Verdadeiro ou Falso, apresentando justificativas e contra-exemplos para todos os itens.

  1. Um coeficiente de determinação, \(R^2\), igual a zero indica que as variáveis preditora e resposta não são associadas.
  2. Um coeficiente de determinação, \(R^2\), muito alto indica que o modelo é adequado.
  3. Em um modelo de regressão linear simples, como o da Questão 1, a reta de regressão sempre passa pelo ponto \((\bar{X}, \bar{Y})\). Apresente uma prova analítica para a sua resposta.
  4. Em um modelo de regressão linear simples, como o da Questão 1, centralizar a variáveis resposta e preditora é suficiente para que o estimador de \(\beta_1\) seja o coeficiente de correlação de Pearson. Apresente uma prova analítica para a sua resposta.
  5. Em um modelo de regressão linear simples, como o da Questão 1, se o p-valor associado ao parâmetro \(\beta_1\) for \(p\), então o p-valor do teste F da mesma regressão será exatamente o mesmo valor. Apresente uma prova analítica para a sua resposta.
  6. Conjuntos de dados diferentes, tendo sempre o mesmo número de observações (por exemplo, \(n=100\)), podem apresentar diferentes graus de liberdade para a variância residual.
  7. Mudar a escala dos dados (por exemplo, de milhas para quilômetros), a significância da regressão (medida pelo teste F) também muda.

Questão 3 - Interpretação de Modelo de Regressão

Um modelo de regressão linear simples foi ajustado com o R, conforme apresentado abaixo:

data(cars)
fit = lm(dist ~ speed, data=cars)
summary(fit)
## 
## Call:
## lm(formula = dist ~ speed, data = cars)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -29.069  -9.525  -2.272   9.215  43.201 
## 
## Coefficients:
##             Estimate Std. Error t value Pr(>|t|)    
## (Intercept) -17.5791     6.7584  -2.601   0.0123 *  
## speed         3.9324     0.4155   9.464 1.49e-12 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 15.38 on 48 degrees of freedom
## Multiple R-squared:  0.6511, Adjusted R-squared:  0.6438 
## F-statistic: 89.57 on 1 and 48 DF,  p-value: 1.49e-12

Responda às seguintes perguntas, apresentando justificativas em todos os casos:

  1. Qual é o valor do teste-t para o coeficiente da variável speed?
  2. Utilizando um tamanho de teste de 1%, podemos dizer este coeficiente é igual a zero?
  3. Demonstre, analiticamente, como calcular um estimador para a variância residual. Qual é esta estimativa? Coincide com aquela apresentada pelo sumário do modelo?
  4. Demonstre, analiticamente, como calcular o intervalo de confiança para o intercepto. Apresente o IC de 95% de confiança para este parâmetro.
  5. Demonstra, analiticamente, como calcular o intervalo de confiança para o coeficiente angular. Apresente o IC de 95% de confiança para este parâmetro.
  6. Interprete cada um dos parâmetros ajustados.
  7. Analisando criticamente os gráficos de diagnóstico apresentados abaixo, qual é o seu parecer acerca da qualidade do modelo proposto? Quais são as hipóteses acerca dos resíduos que devem ser analisadas? Que pontos devem ser tratados imediatamente com o objetivo de melhorá-lo? (ignore o gráfico de resíduos vs. leverage)

Questão 4 - Análise de Dados

O conjunto de dados cancer.xlsx possui três colunas:

  1. Suspeita-se que o número de divisões celulares possa se associar ao risco de desenvolvimento de câncer. Realize uma análise de dados, incluindo descritiva, culminando na proposição de um modelo de regressão que mostre a existência (ou não) de associação entre estas duas variáveis (risco de câncer deve ser a variável resposta). Apresente gráficos, intervalos de confiança, testes de hipótese e qualquer outro recurso estatístico para justificar suas decisões.

  2. Leia a reportagem da BBC e escreva um parecer técnico a respeito da reportagem.