terça-feira, 5 de outubro de 2010

Regressão

Regressão é uma técnica que permite explorar e inferir a relação de uma variável dependente (variável de resposta) com variáveis independentes específicas (variáveis explicatórias). A análise da regressão pode ser usada como um método descritivo da análise de dados (como, por exemplo, o ajustamento de curvas) sem serem necessárias quaisquer suposições acerca dos processos que permitiram gerar os dados. Regressão designa também uma equação matemática que descreva a relação entre duas ou mais variáveis.


Regressão linear

Em estatística ou Econometria, regressão linear é um método para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.
A regressão, em geral, trata da questão de se estimar um valor condicional esperado. A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear.

Exemplo de regressão linear.

Variância populacional e amostral

Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado.


Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).
A variância da população yi onde i = 1, 2, ...., N é dada por
\sigma^2 = \frac{1}{N} \sum_{i=1}^N
 \left( y_i - \mu \right) ^ 2,
onde μ é a média da população. Na prática, quando lidando com grandes populações, é quase sempre impossível achar o valor exacto da variância da população, devido ao tempo, custo e outras restrições aos recursos.
Um método comum de estimar a variância da população é através da tomada de amostras. Quando estimando a variância da população usando n amostras aleatórias xi onde i = 1, 2, ..., n, a fórmula seguinte é um estimador não enviesado:
s^2 = \frac{1}{n-1} \sum_{i=1}^n
 \left( x_i - \overline{x} \right) ^ 2,
onde \overline{x} é a média da amostra.
Notar que o denominador n-1 acima contrasta com a equação para a variância da população. Uma fonte de confusão comum é que o termo variância da amostra e a notação s2 pode referir-se quer ao estimador não enviesado da variância da população acima como também àquilo que é em termos estritos, a variância da amostra, calculada usando n em vez de n-1.
Intuitivamente, o cálculo da variância pela divisão por n em vez de n-1 dá uma subestimativa da variância da população. Isto porque usamos a média da amostra \overline{x} como uma estimativa da média da população μ, o que não conhecemos. Na prática, porém, para grandes n, esta distinção é geralmente muito pequena.

Pouca vergonha!

Medidas de dispersão: variância e desvio-padrão

 Medidas de dispersãoUm aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra. Supondo ser a média, a medida de localização mais importante, será relativamente a ela que se define a principal medida de dispersão.


 Variância Define-se a variância, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um.

 


Desvio-padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio padrão será maior, quanta mais variabilidade houver entre os dados.

Será!