Qual é o coeficiente de determinação?
O coeficiente de determinação é uma medida usada na análise estatística que avalia quão bem um modelo explica e prevê resultados futuros. É indicativo do nível de variabilidade explicada no conjunto de dados. O coeficiente de determinação, também conhecido como "R-quadrado", é usado como orientação para medir a precisão do modelo.
Uma maneira de interpretar essa figura é dizer que as variáveis incluídas em um determinado modelo explicam aproximadamente x% da variação observada. Portanto, se R 2 = 0, 50, aproximadamente metade da variação observada pode ser explicada pelo modelo.
R-quadrado
Principais Takeaways
- O coeficiente de determinação é uma idéia complexa, centrada na análise estatística de um futuro modelo de dados. O coeficiente de determinação é usado para explicar quanta variabilidade de um fator pode ser causada por sua relação com outro fator.
Compreendendo o coeficiente de determinação
O coeficiente de determinação é usado para explicar quanta variabilidade de um fator pode ser causada por sua relação com outro fator. É amplamente utilizado na análise de tendências e é representado como um valor entre 0 e 1.
Quanto mais próximo o valor estiver de 1, melhor o ajuste ou o relacionamento entre os dois fatores. O coeficiente de determinação é o quadrado do coeficiente de correlação, também conhecido como "R", que permite exibir o grau de correlação linear entre duas variáveis.
Essa correlação é conhecida como "bondade do ajuste". Um valor de 1, 0 indica um ajuste perfeito e, portanto, é um modelo muito confiável para previsões futuras, indicando que o modelo explica todas as variações observadas. Um valor 0, por outro lado, indicaria que o modelo falha ao modelar com precisão os dados. Para um modelo com várias variáveis, como um modelo de regressão múltipla, o R2 ajustado é um melhor coeficiente de determinação. Em economia, um valor de R 2 acima de 0, 60 é visto como útil.
Vantagens de analisar o coeficiente de determinação
O coeficiente de determinação é o quadrado da correlação entre as pontuações previstas em um conjunto de dados versus o conjunto real de pontuações. Também pode ser expresso como o quadrado da correlação entre os escores X e Y, com o X sendo a variável independente e o Y sendo a variável dependente.
Independentemente da representação, um R ao quadrado igual a 0 significa que a variável dependente não pode ser prevista usando a variável independente. Por outro lado, se for igual a 1, significa que o dependente de uma variável é sempre previsto pela variável independente.
Um coeficiente de determinação que se enquadra nesse intervalo mede a extensão em que a variável dependente é prevista pela variável independente. Um R-quadrado de 0, 20, por exemplo, significa que 20% da variável dependente é prevista pela variável independente.
A qualidade do ajuste, ou o grau de correlação linear, mede a distância entre uma linha ajustada em um gráfico e todos os pontos de dados espalhados pelo gráfico. O conjunto restrito de dados terá uma linha de regressão muito próxima dos pontos e um alto nível de ajuste, o que significa que a distância entre a linha e os dados é muito pequena. Um bom ajuste tem um quadrado R próximo a 1.
No entanto, o quadrado R não consegue determinar se os pontos ou previsões de dados são tendenciosos. Também não informa ao analista ou usuário se o valor do coeficiente de determinação é bom ou não. Um baixo quadrado R não é ruim, por exemplo, e cabe à pessoa tomar uma decisão com base no número quadrado R.
O coeficiente de determinação não deve ser interpretado ingenuamente. Por exemplo, se o quadrado R de um modelo é relatado em 75%, a variação de seus erros é 75% menor que a variação da variável dependente e o desvio padrão de seus erros é 50% menor que o desvio padrão da dependente variável. O desvio padrão dos erros do modelo é de cerca de um terço do tamanho do desvio padrão dos erros que você obteria com um modelo de constante constante.
Finalmente, mesmo que o valor do quadrado R seja grande, pode não haver significância estatística das variáveis explicativas em um modelo, ou o tamanho efetivo dessas variáveis pode ser muito pequeno em termos práticos.
