5.2 Correlação
A Correlação é útil para medir a relação linear entre duas variáveis x e y, denotada por \(\rho_{xy}\).
\[\rho_xy = \frac{cov(x,Y)}{\sqrt(V(x)V(Y))}\]
Sendo assim, duas variáveis podem estar relacionadas das seguintes formas:
- Positivamente relacionadas. Ou seja, se x aumenta, y aumenta. E o mesmo ocorre para caso X diminua (Y diminui) - Correlação positiva;
- Negativamente relacionadas. Ou seja, se x aumenta, y diminui. E o mesmo ocorre para caso x diminua (Y aumenta) - Correlação negativa;
- Não há relação entre as duas variáveis.
Uma forma gráfica de visualizar a correlação das variáveis que apresenta grande utilidade é a partir do Diagrama de Dispersão. O diagrama traz informações importantes porque mostra se a relação entre as variáveis é linear ou não, se existem outliers no conjunto de dados e traz uma ideia de quão forte é o relacionamento entre as variáveis.
É importante afirmar que o valor não implica causalidade, mas quantifica a relação entre as variáveis selecionadas.
5.2.1 Coeficiente de Pearson (r)
O Coeficiente de Pearson, também chamado de coeficiente de correlação da amostra \(r_{xy}\), mede a força da relação linear entre duas variáveis aleatórias x e y. Se duas variáveis relacionarem-se perfeitamente com inclinação positiva, \(r_{xy}=1\); com inclinação negativa, \(r_{xy}=-1\); se \(r_{xy}=0\), não há relação entre as variáveis.
De acordo com Filho and Silva Júnior (2009), existem métricas diferentes de acordo com cada autor:
Cohen (1998) considera valores entre 0,10 e 0,29 pequenos; entre 0,30 e 0,49, médios; e entre 0,50 e 1, grandes.
Dancey e Reidy (2005) considera valores entre 0,10 e 0,30 pequenos; entre 0,40 e 0,60 moderados; e de 0,70 até 1, grandes.
O consenso é que quanto mais próximo de 1, maior a força da relação linear entre as variáveis, independente do sinal.