Regressão Linear Simples

Um pouco sobre Regressão Linear.

por Morvana Bonin 13/02/2019 Comentários ~ 3 min. / 587 palavras

Regressão Linear é um modelo de Supervised Learning e provavelmente um dos mais conhecidos e um dos mais populares modelos em Machine Learning (para saber mais sobre Supervised Learning e Machine Learning, leia esse post introdutório.

A Regressão Linear tenta modelar, assumindo uma relação linear entre a variável de entrada (nesse caso o x) com a variável de saída (nesse caso o y), ou seja, a variável y pode ser calculada a partir da combinação linear da variável de entrada x.

y é a predição numérica de saída, baseando-se no valor de entra χi

Modelo de representação

Regressão Linear é um dos modelos mais atrativos devido a sua representação entendível, no caso da regressão linear simples sua utilização é mais para aprendizado, já que na prática ela não é muito aplicada, visto que, em muitos casos a gama de variáveis de entradas é maior, fazendo-se uso da Regressão Linear Multivariável, ao qual não adentraremos nesse post. O modelo de representação da regressão linear simples é a tradicional equação conhecida como equação da reta ou em inglês slope-intercept form, usaremos a notação mais utilizada em exemplos de Machine Learning e não da matemática, mas você pode saber mais sobre a própria equação neste link.

Temos o y a variável dependente que representa a predição, as letras gregas β (Beta), também conhecidos como coeficientes, que são a representação das variáveis que o algoritmo irá utilizar para “aprender” a produzir as previsões mais precisas e o x a variável independente que representa o dado de entrada. As letras gregas β também são conhecidas como inclinação e interceptação ou em inglês intercept-slope.

Função de custo

Função de custo, no inglês cost function ou ainda ordinary least squares é uma função utilizada para medir o quão errado o modelo está, os chamados resíduos. Isto é, consiste no cálculo da distância de cada ponto (distância essa entre as variáveis x e y) em relação a reta de regressão, esse valor é elevado ao quadrado e somado, o total é a quantidade média de erro do modelo.

A MSE (Mean squared error) é uma função frequentemente usada para efetuar esse cálculo. O objetivo da função de custo é medir o desempenho do modelo, pois o custo é maior quando o modelo está com desempenho ruim, dessa forma mede-se os parâmetros que dão o mínimo custo possível.

Gradient Descent

Com a função de custo tem-se o cálculo da média do erro, para minimizar esse erro e ajustar o modelo, usamos a operação Gradient Descent.

A operação Gradient Descent é utilizada para otimizar os valores coeficientes, assim, minimizando iterativamente o erro do modelo em seus dados de treinamento (training data). Na prática, a operação Gradient Descent é útil em uma larga quantidade de dados, principalmente em Regressão Linear Multivariável onde se tem uma grande quantidade tanto de linhas, como colunas de dados e que podem não caber na memória.

Conclusão

Foi dado um conceito mais teórico sobre Regressão Linear Simples, e não entrando muito em suas funções matemáticas. Essa é uma parte inicial, como um “Hello World”, no campo de Machine Learning, pertencente a Supervised Learning , muitas nomenclaturas foram mantidas em inglês devido a sua facilidade em buscas por materiais de estudos e por algumas palavras não terem sido encontradas uma tradução oficial em português. As referências são materiais que não só foram utilizados como forma de pesquisa nesse post, mas também para melhor aprofundamento sobre o conteúdo, todos são em inglês.

Fontes de pesquisas:

Agradecemos o patrocínio da empresa por nos ajudar a manter o site, sempre cuidando para que possamos publicar conteúdo de qualidade para a comunidade.