Categorias
Artigos

Análise de Correlação

Correlação de Pearson

Em estatística, podemos definir como correlação a medida estatística usada para avaliar se o valor de uma variável impacta no valor de outra variável, isto é, se existe um relacionamento linear entre ambas as variáveis.

A figura a seguir apresenta vários exemplos de ilustrações de correlações entre vários valores de duas varáveis: presentes no eixo X e no eixo Y.

Exemplo de gráficos de dispersão de vários conjuntos de dados com vários coeficientes de correlação. Fonte: Laerd Statistics (CC BY-SA 4.0). 

A correlação entre duas variáveis pode ser indicada pelo coeficiente de correlação (r), que representa ainda a força e direção do relacionamento.

Força

Podemos dizer que a correlação varia de 0 a 1 (positivo ou negativo), sendo de:

  • 0 a 0,3: correlação desprezível
  • 0,3 a 0,5: correlação fraca
  • 0,5 a 0,7: correlação moderada
  • 0,7 a 0,9: correlação forte
  • 0,9 a 1: correlação muito forte

Direção

Verifica se o valor de correlação é positivo ou negativo. Se positivo, a correlação de uma variável x impacta diretamente na variável y. Se negativo, uma variável impacta negativamente a outra.

Por exemplo, se você trabalha em uma loja:

Quanto mais vendas, mais dinheiro você receberá.

Logo vendas e dinheiro estão positivamente correlacionados.

Ou se você é piloto de fórmula 1:

Quanto mais rápido você dirigir, menos tempo levará para percorrer toda a pista.

Logo velocidade e tempo possuem uma correlação negativa.

Observe a seguinte tabela:

x

y

1

1

2

1

3

2

4

3

5

5

6

8

7

13

8

21

9

34

10

55

Neste exemplo, a variável x possui uma correlação com y de 0,871303964. Logo, podemos concluir que a correlação entre x e y é forte.

Podemos confirmar isso, plotando um gráfico de dispersão:

Gráfico de dispersão. Linha tracejada representa a linha de tendência. Fonte: próprio autor.

Dica: no Excel podemos calcular a correlação entre duas colunas usando a função =CORREL(). Para este exemplo usamos:

=CORREL(A2:A11;B2:B11)

Correlação no Excel. Fonte: próprio autor.

Por Diego Mariano

Doutor em Bioinformática pela Universidade Federal de Minas Gerais com atuação na área de ciência de dados e aprendizado de máquina aplicados ao aperfeiçoamento de enzimas usadas na produção de biocombustíveis. Mestre em Bioinformática, também pela UFMG, atuando na área de desenvolvimento de sistemas Web para montagem de genomas. Atualmente realiza estágio pós-doutoral no Departamento de Ciência da Computação da UFMG com foco em desenvolvimento de sistemas Web para Bioinformática, análise exploratória e visualização de dados. Tem conhecimentos nas linguagens: PHP, JavaScript, Python, R, Perl, HTML, CSS e SQL.

error

Compartilhe este post!

Facebook
YouTube
LinkedIn
Instagram