Regressio analysoi muuttujien välisiä suhteita
Regressio on tiedonlouhintatekniikka, jota käytetään ennustamaan joukko numeerisia arvoja (kutsutaan myös jatkuviksi arvoiksi ) tietyn datasarjan ansiosta. Esimerkiksi regressiota voidaan käyttää ennustamaan tuotteen tai palvelun kustannukset, kun otetaan huomioon muut muuttujat.
Regressiota käytetään useilla toimialoilla liiketoiminnan ja markkinoinnin suunnitteluun, taloudelliseen ennusteeseen, ympäristömallinnukseen ja trendien analysointiin.
Regression Vs. Luokittelu
Regressio ja luokittelu ovat samankaltaisten ongelmien ratkaisemiseen käytettäviä tiedonlouhintatekniikoita, mutta ne ovat usein hämmentyneitä. Molempia käytetään ennusteanalyysissä, mutta regressiota käytetään ennakoimaan numeerista tai jatkuvaa arvoa, kun taas luokitus antaa datan erillisiksi luokiksi.
Esimerkiksi regressiota käytetään ennustamaan kodin arvoa sen sijainnin, neliöjalan, viimeisimmän hinnan, samankaltaisten asuntojen hinnan ja muiden tekijöiden perusteella. Luokittelu olisi järkevää, jos haluat sen sijaan järjestää talot luokkiin, kuten kävelykyvyn, erän koon tai rikollisuuden määrän.
Regressiotekniikan tyypit
Yksinkertaisin ja vanhin regressiomuoto on lineaarinen regressio, jota käytetään arvioimaan kahden muuttujan välinen suhde. Tämä tekniikka käyttää matemaattista kaavaa (y = mx + b). Yksinkertaisesti sanottuna tämä tarkoittaa yksinkertaisesti, että graafin, jossa on Y ja X-akseli, X: n ja Y: n välinen suhde on suora viiva, jossa on harvoja poikkeamia. Voimme esimerkiksi olettaa, että väestönkasvun ansiosta elintarviketuotanto kasvaisi samalla nopeudella - tämä edellyttää vahvaa, lineaarista suhdetta näiden kahden luvun välillä. Tarkastelemalla tätä harkitse kaaviota, jossa Y-akseli seuraa väestön kasvua ja X-akseli seuraa elintarviketuotantoa. Y-arvon kasvaessa X-arvo kasvaa samalla nopeudella, jolloin niiden välinen suhde on suora.
Kehittyneillä tekniikoilla, kuten moninkertaisella regressiolla, ennustaa suhdetta useiden muuttujien välillä. Esimerkiksi, onko tulon, koulutuksen ja kenen elinkaaren välinen korrelaatio? Useampien muuttujien lisääminen lisää huomattavasti ennustuksen monimutkaisuutta. Monen regressiotekniikan tyyppejä on useita, mukaan lukien vakio, hierarkkinen, sitaatti ja vaiheittain, joista jokaisella on oma sovellus.
Tässä vaiheessa on tärkeää ymmärtää, mitä yritämme ennustaa (riippuvainen tai ennustettu muuttuja) ja tietoja, joita käytämme ennakoinnin tekemiseen (riippumattomat tai ennustaja- muuttujat). Esimerkissämme haluamme ennustaa paikan, jossa joku asuu ( ennustettu muuttuja) ansiotulosta ja koulutuksesta (sekä ennustaja- muuttujat).
- Standardi moninkertainen regressio pitää kaikkia ennustaja muuttujia samanaikaisesti. Esimerkiksi 1) mikä on tulon ja koulutuksen välinen suhde (ennustajat) ja naapuruston valinta (ennustettu); ja 2) missä määrin jokainen yksittäinen ennustaja vaikuttaa siihen?
- Vaiheittainen moninkertainen regressio vastaa täysin erilaiseen kysymykseen. Vaiheittainen regressioalgoritmi analysoi, millaisia ennustajia käytetään parhaiten naapuruston valintaan - mikä tarkoittaa, että vaiheittainen malli arvioi ennustusmuuttujien tärkeyden järjestyksen ja valitsee sitten osajoukon. Tämän tyyppinen regressio-ongelma käyttää vaiheita kehittääkseen regressioyhtälön. Tämän tyyppisen regressiodin vuoksi kaikki ennustajat eivät ehkä edes näy lopullisessa regressioyhtälössä.
- Hierarkkinen regressio , kuten vaiheittainen, on peräkkäinen prosessi, mutta ennustavat muuttujat syötetään malliin etukäteen määritetyllä ennalta määritellyllä järjestykses- sä, eli algoritmissa ei ole sisäänrakennettua yhtälöryhmää sen määrittämiseksi, missä järjestyksessä syötä ennustajat. Tätä käytetään useimmiten silloin, kun yksilöllä, jolla luodaan regressioyhtälö, on alan asiantuntemus.
- Samanlainen regressio on myös samankaltainen kuin vaiheittain, mutta analysoi muuttujaryhmät pikemmin kuin yksittäiset muuttujat.