O que é regressão linear múltipla - MLR?
A regressão linear múltipla (MLR), também conhecida simplesmente como regressão múltipla, é uma técnica estatística que usa várias variáveis explicativas para prever o resultado de uma variável de resposta. O objetivo da regressão linear múltipla (MLR) é modelar a relação linear entre as variáveis explicativas (independentes) e a variável resposta (dependente).
Em essência, a regressão múltipla é a extensão da regressão de mínimos quadrados ordinários (OLS) que envolve mais de uma variável explicativa.
A fórmula para regressão linear múltipla é
O que outras pessoas estão dizendo Yi = β0 + β1 xi1 + β2 xi2 +… + βp xip + ϵ onde, para i = n observações: yi = variáveis dependentes = variáveis expanatóriasβ0 = interceptação em y (constante termo) βp = coeficientes de inclinação para cada variável explicativaϵ = termo de erro do modelo (também conhecido como resíduos)
Explicando a regressão linear múltipla
Uma regressão linear simples é uma função que permite que um analista ou estatístico faça previsões sobre uma variável com base nas informações conhecidas sobre outra variável. A regressão linear só pode ser usada quando se tem duas variáveis contínuas - uma variável independente e uma variável dependente. A variável independente é o parâmetro usado para calcular a variável dependente ou resultado. Um modelo de regressão múltipla se estende a várias variáveis explicativas.
O modelo de regressão múltipla é baseado nas seguintes suposições:
- O objetivo do presente trabalho é analisar a relação entre as variáveis dependentes e as variáveis independentes. As variáveis independentes não são muito correlacionadas entre si. Yi as observações são selecionadas de forma independente e aleatória na população. Os residentes devem ser normalmente distribuídos com média de 0 e variância σ.
O coeficiente de determinação (R-quadrado) é uma métrica estatística usada para medir quanto da variação no resultado pode ser explicada pela variação nas variáveis independentes. R2 sempre aumenta à medida que mais preditores são adicionados ao modelo de MLR, mesmo que os preditores possam não estar relacionados à variável de resultado.
O R2 por si só não pode, portanto, ser usado para identificar quais preditores devem ser incluídos em um modelo e quais devem ser excluídos. R2 pode estar apenas entre 0 e 1, onde 0 indica que o resultado não pode ser previsto por nenhuma das variáveis independentes e 1 indica que o resultado pode ser previsto sem erro das variáveis independentes.
Ao interpretar os resultados de uma regressão múltipla, os coeficientes beta são válidos enquanto mantêm todas as outras variáveis constantes ("todas as demais são iguais"). A saída de uma regressão múltipla pode ser exibida horizontalmente como uma equação ou verticalmente na forma de tabela.
Exemplo usando regressão linear múltipla
Por exemplo, um analista pode querer saber como o movimento do mercado afeta o preço da Exxon Mobil (XOM). Nesse caso, sua equação linear terá o valor do índice S&P 500 como variável independente, ou preditor, e o preço do XOM como variável dependente.
Na realidade, existem vários fatores que prevêem o resultado de um evento. O movimento de preços da Exxon Mobil, por exemplo, depende mais do que apenas o desempenho do mercado em geral. Outros preditores, como o preço do petróleo, as taxas de juros e o movimento dos preços dos futuros do petróleo, podem afetar o preço do XOM e os preços das ações de outras empresas de petróleo. Para entender um relacionamento em que mais de duas variáveis estão presentes, uma regressão linear múltipla é usada.
A regressão linear múltipla (MLR) é usada para determinar uma relação matemática entre várias variáveis aleatórias. Em outros termos, a MLR examina como várias variáveis independentes estão relacionadas a uma variável dependente. Uma vez que cada um dos fatores independentes tenha sido determinado para prever a variável dependente, as informações sobre as múltiplas variáveis podem ser usadas para criar uma previsão precisa do nível de efeito que elas têm na variável de resultado. O modelo cria um relacionamento na forma de uma linha reta (linear) que melhor se aproxima de todos os pontos de dados individuais.
Referindo-se à equação MLR acima, em nosso exemplo:
- y i = variável dependente: preço de XOMx i1 = taxas de jurosx i2 = preço do petróleox i3 = valor do índice S&P 500x i4 = preço dos futuros de petróleoB 0 = interceptação em y no tempo zeroB 1 = coeficiente de regressão que mede uma mudança unitária na dependência variável quando x i1 muda - a mudança no preço do XOM quando as taxas de juros mudamB 2 = valor do coeficiente que mede uma mudança unitária na variável dependente quando x i2 muda - a mudança no preço do XOM quando os preços do petróleo mudam
As estimativas de mínimos quadrados, B 0, B 1, B 2… B p, são geralmente calculadas por software estatístico. Tantas variáveis podem ser incluídas no modelo de regressão em que cada variável independente é diferenciada com um número - 1, 2, 3, 4… p. O modelo de regressão múltipla permite que um analista preveja um resultado com base nas informações fornecidas em várias variáveis explicativas.
Ainda assim, o modelo nem sempre é perfeitamente preciso, pois cada ponto de dados pode diferir um pouco do resultado previsto pelo modelo. O valor residual E, que é a diferença entre o resultado real e o previsto, é incluído no modelo para contabilizar essas pequenas variações.
Supondo que executamos nosso modelo de regressão de preços XOM por meio de um software de computação estatística, que retorna essa saída:
Um analista interpretaria esse resultado como se outras variáveis fossem mantidas constantes, o preço do XOM aumentará 7, 8% se o preço do petróleo nos mercados aumentar 1%. O modelo também mostra que o preço do XOM diminuirá 1, 5% após um aumento de 1% nas taxas de juros. R2 indica que 86, 5% das variações no preço das ações da Exxon Mobil podem ser explicadas por alterações na taxa de juros, preço do petróleo, futuros do petróleo e índice S&P 500.
Principais Takeaways
- A regressão linear múltipla (MLR), também conhecida simplesmente como regressão múltipla, é uma técnica estatística que usa várias variáveis explicativas para prever o resultado de uma variável de resposta.A regressão múltipla é uma extensão da regressão linear (OLS) que usa apenas uma variável explicativa. A MLR é amplamente utilizada em econometria e inferência financeira.
A diferença entre regressão linear e múltipla
A regressão linear (OLS) compara a resposta de uma variável dependente, dada uma alteração em alguma variável explicativa. No entanto, é raro que uma variável dependente seja explicada por apenas uma variável. Nesse caso, um analista usa regressão múltipla, que tenta explicar uma variável dependente usando mais de uma variável independente. Regressões múltiplas podem ser lineares e não lineares.
Regressões múltiplas são baseadas no pressuposto de que existe uma relação linear entre as variáveis dependentes e independentes. Também não assume nenhuma correlação principal entre as variáveis independentes.
