Regressio-tilastomallin määrittely

Regressio analysoi muuttujien välisiä suhteita

Regressio on tiedonlouhintatekniikka, jota käytetään ennustamaan joukko numeerisia arvoja (kutsutaan myös jatkuviksi arvoiksi ) tietyn datasarjan ansiosta. Esimerkiksi regressiota voidaan käyttää ennustamaan tuotteen tai palvelun kustannukset, kun otetaan huomioon muut muuttujat.

Regressiota käytetään useilla toimialoilla liiketoiminnan ja markkinoinnin suunnitteluun, taloudelliseen ennusteeseen, ympäristömallinnukseen ja trendien analysointiin.

Regression Vs. Luokittelu

Regressio ja luokittelu ovat samankaltaisten ongelmien ratkaisemiseen käytettäviä tiedonlouhintatekniikoita, mutta ne ovat usein hämmentyneitä. Molempia käytetään ennusteanalyysissä, mutta regressiota käytetään ennakoimaan numeerista tai jatkuvaa arvoa, kun taas luokitus antaa datan erillisiksi luokiksi.

Esimerkiksi regressiota käytetään ennustamaan kodin arvoa sen sijainnin, neliöjalan, viimeisimmän hinnan, samankaltaisten asuntojen hinnan ja muiden tekijöiden perusteella. Luokittelu olisi järkevää, jos haluat sen sijaan järjestää talot luokkiin, kuten kävelykyvyn, erän koon tai rikollisuuden määrän.

Regressiotekniikan tyypit

Yksinkertaisin ja vanhin regressiomuoto on lineaarinen regressio, jota käytetään arvioimaan kahden muuttujan välinen suhde. Tämä tekniikka käyttää matemaattista kaavaa (y = mx + b). Yksinkertaisesti sanottuna tämä tarkoittaa yksinkertaisesti, että graafin, jossa on Y ja X-akseli, X: n ja Y: n välinen suhde on suora viiva, jossa on harvoja poikkeamia. Voimme esimerkiksi olettaa, että väestönkasvun ansiosta elintarviketuotanto kasvaisi samalla nopeudella - tämä edellyttää vahvaa, lineaarista suhdetta näiden kahden luvun välillä. Tarkastelemalla tätä harkitse kaaviota, jossa Y-akseli seuraa väestön kasvua ja X-akseli seuraa elintarviketuotantoa. Y-arvon kasvaessa X-arvo kasvaa samalla nopeudella, jolloin niiden välinen suhde on suora.

Kehittyneillä tekniikoilla, kuten moninkertaisella regressiolla, ennustaa suhdetta useiden muuttujien välillä. Esimerkiksi, onko tulon, koulutuksen ja kenen elinkaaren välinen korrelaatio? Useampien muuttujien lisääminen lisää huomattavasti ennustuksen monimutkaisuutta. Monen regressiotekniikan tyyppejä on useita, mukaan lukien vakio, hierarkkinen, sitaatti ja vaiheittain, joista jokaisella on oma sovellus.

Tässä vaiheessa on tärkeää ymmärtää, mitä yritämme ennustaa (riippuvainen tai ennustettu muuttuja) ja tietoja, joita käytämme ennakoinnin tekemiseen (riippumattomat tai ennustaja- muuttujat). Esimerkissämme haluamme ennustaa paikan, jossa joku asuu ( ennustettu muuttuja) ansiotulosta ja koulutuksesta (sekä ennustaja- muuttujat).