A Estatística das Coisas: outubro 2010

Regressão

Regressão é uma técnica que permite explorar e inferir a relação de uma variável dependente (variável de resposta) com variáveis independentes específicas (variáveis explicatórias). A análise da regressão pode ser usada como um método descritivo da análise de dados (como, por exemplo, o ajustamento de curvas) sem serem necessárias quaisquer suposições acerca dos processos que permitiram gerar os dados. Regressão designa também uma equação matemática que descreva a relação entre duas ou mais variáveis.

Regressão linear

Em estatística ou Econometria, regressão linear é um método para se estimar a condicional (valor esperado) de uma variável y, dados os valores de algumas outras variáveis x.

A regressão, em geral, trata da questão de se estimar um valor condicional esperado. A regressão linear é chamada "linear" porque se considera que a relação da resposta às variáveis é uma função linear de alguns parâmetros. Os modelos de regressão que não são uma função linear dos parâmetros se chamam modelos de regressão não-linear.

Exemplo de regressão linear.

Variância populacional e amostral

Na teoria da probabilidade e na estatística, a variância de uma variável aleatória é uma medida da sua dispersão estatística, indicando quão longe em geral os seus valores se encontram do valor esperado.

Em estatística, o conceito de variância também pode ser usado para descrever um conjunto de observações. Quando o conjunto das observações é uma população, é chamada de variância da população. Se o conjunto das observações é (apenas) uma amostra estatística, chamamos-lhe de variância amostral (ou variância da amostra).
A variância da população y_i onde i = 1, 2, ...., N é dada por

$\sigma^2 = \frac{1}{N} \sum_{i=1}^N \left( y_i - \mu \right) ^ 2,$

onde

μ

é a média da população. Na prática, quando lidando com grandes populações, é quase sempre impossível achar o valor exacto da variância da população, devido ao tempo, custo e outras restrições aos recursos.
Um método comum de estimar a variância da população é através da tomada de amostras. Quando estimando a variância da população usando n amostras aleatórias x_i onde i = 1, 2, ..., n, a fórmula seguinte é um estimador não enviesado:

$s^2 = \frac{1}{n-1} \sum_{i=1}^n \left( x_i - \overline{x} \right) ^ 2,$

onde $\overline{x}$ é a média da amostra.
Notar que o denominador n-1 acima contrasta com a equação para a variância da população. Uma fonte de confusão comum é que o termo variância da amostra e a notação s² pode referir-se quer ao estimador não enviesado da variância da população acima como também àquilo que é em termos estritos, a variância da amostra, calculada usando n em vez de n-1.
Intuitivamente, o cálculo da variância pela divisão por n em vez de n-1 dá uma subestimativa da variância da população. Isto porque usamos a média da amostra $\overline{x}$ como uma estimativa da média da população

μ

, o que não conhecemos. Na prática, porém, para grandes n, esta distinção é geralmente muito pequena.

Pouca vergonha!

Medidas de dispersão: variância e desvio-padrão

Medidas de dispersãoUm aspecto importante no estudo descritivo de um conjunto de dados, é o da determinação da variabilidade ou dispersão desses dados, relativamente à medida de localização do centro da amostra. Supondo ser a média, a medida de localização mais importante, será relativamente a ela que se define a principal medida de dispersão.

Variância Define-se a variância, como sendo a medida que se obtém somando os quadrados dos desvios das observações da amostra, relativamente à sua média, e dividindo pelo número de observações da amostra menos um.

Desvio-padrão
Uma vez que a variância envolve a soma de quadrados, a unidade em que se exprime não é a mesma que a dos dados. Assim, para obter uma medida da variabilidade ou dispersão com as mesmas unidades que os dados, tomamos a raiz quadrada da variância e obtemos o desvio padrão:
O desvio padrão é uma medida que só pode assumir valores não negativos e quanto maior for, maior será a dispersão dos dados.
Algumas propriedades do desvio padrão, que resultam imediatamente da definição, são: o desvio padrão será maior, quanta mais variabilidade houver entre os dados.

Será!

Mediana

A mediana é uma medida de tendência central, um número que caracteriza as observações de uma determinada variável de tal forma que este número (a mediana) de um grupo de dados ordenados separa a metade inferior da amostra, população ou distribuição de probabilidade, da metade superior. Mais concretamente, 1/2 da população terá valores inferiores ou iguais à mediana e 1/2 da população terá valores superiores ou iguais à mediana.
A mediana pode ser calculada para um conjunto de observações ou para funções de distribuição de probabilidade.

Cálculo da mediana para dados ordenados:
No caso de dados ordenados de amostras de tamanho n, se n for ímpar, a mediana será o elemento central $\frac{(n+1)}{2}$ . Se n for par, a mediana será o resultado da média simples entre os elementos $\frac{n}{2}$ e $\frac{n}{2}+1$ .

Exemplos

Para a seguinte população:
1, 3, 5, 7, 9
A mediana é 5 (igual à média)
No entanto, para a população:
1, 2, 4, 10, 13
A mediana é 4 (enquanto a média é 6)
Para populações pares:
1, 2, 4, 7, 9, 10
A mediana é (4+7)/2, que é 5.5.

Cálculo da mediana para dados classificados

Quando se trata de um conjunto de dados classificados, o cálculo da mediana é feito através do histograma, ou através da função cumulativa de frequências relativas. A mediana é o ponto do eixo das abcissas correspondente a 50% da frequência relativa acumulada.
No caso de variáveis contínuas, a mediana é calculada pela solução da equação $\int_{-\infty}^m f(x) dx = \frac{1}{2}\,$ ou, equivalentemente, $\int_{m}^{\infty} f(x) dx = \frac{1}{2}\,$ .
No caso de variáveis discretas, e quando as frequências estão calculadas por unidade, a mediana é o ponto do eixo das abcissas para o qual a frequência relativa acumulada é inferior ou igual a 50% e superior ou igual a 50% para o ponto imediatamente a seguir.

Moda em estatística

Em estatística descritiva, a moda é o valor que detém o maior número de observações, ou seja, o valor ou valores mais frequentes. A moda não é necessariamente única, ao contrário da média ou da mediana. É especialmente útil quando os valores ou observações não são numéricos, uma vez que a média e a mediana podem não ser bem definidas.
A moda de {maçã, banana, laranja, laranja, laranja, pêssego} é laranja.
A série {1, 3, 5, 5, 6, 6} apresenta duas modas (bimodal): 5 e 6.
A série {1, 3, 2, 5, 8, 7, 9} não apresenta moda. Bimodal: possui dois valores modais Amodal: não possui moda.

terça-feira, 5 de outubro de 2010

Exemplos

Cálculo da mediana para dados classificados