Luokittelu on tiedonlouhintatekniikka, joka jakaa luokkia tietojoukkoon tarkempien ennusteiden ja analyysien antamiseksi. Kutsutaan myös joskus kutsutaan päätöksentekoksi , luokittelu on yksi useista menetelmistä, joiden tarkoituksena on tehdä hyvin suurien datasetien analyysi tehokkaaksi.
Miksi luokitus?
Hyvin suuret tietokannat ovat tulossa normiksi nykypäivän "suuria tietoja" koskevassa maailmassa. Kuvittele tietokanta, jossa on useita teratavuja tietoja - teratavu on yksi triljoona tavua.
Facebook yksin kerää 600 teratavua uutta dataa jokaisena päivänä (vuodesta 2014, viimeksi kun se ilmoitti nämä tiedot). Suurten tietojen ensisijainen haaste on sen ymmärtäminen.
Ja yksiselitteinen äänenvoimakkuus ei ole ainoa ongelma: suuret tiedot pyrkivät myös olemaan monimuotoisia, rakenteettomia ja nopeasti muuttuvia. Harkitse audio- ja videotiedostoja, sosiaalisen median viestiä, 3D-tietoja tai paikkatietoaineistoja. Tällaisia tietoja ei ole helppo luokitella tai organisoida.
Haasteeseen vastaamiseksi on kehitetty joukko automaattisia menetelmiä hyödyllisten tietojen poistamiseksi, muun muassa luokittelusta .
Miten luokittelu toimii
Jos vaarana on liikkua liian pitkälle tech-puhuu, keskustellaan siitä, miten luokittelu toimii. Tavoitteena on luoda joukko luokittelusääntöjä, jotka vastaavat kysymykseen, tekevät päätöksensä tai ennakoivat käyttäytymistä. Aloitettaessa kehitetään joukko harjoittelutietoja, jotka sisältävät tiettyjä attribuutteja ja todennäköisiä tuloksia.
Luokittelualgoritmin tehtävänä on selvittää, miten tämä attribuuttijoukko saavuttaa päätelmänsä.
Skenaario : Ehkä luottokorttiyhtiö yrittää selvittää, mitkä mahdollisuudet saavat luottokorttitiedot.
Tämä saattaa olla sen joukko koulutustietoja:
| Nimi | Ikä | sukupuoli | Vuositulot | Luottokorttimaksu |
|---|---|---|---|---|
| John Doe | 25 | M | $ 39.500 | Ei |
| Jane Doe | 56 | F | $ 125,000 | Joo |
"Predictor" -sarakkeet Ikä , sukupuoli ja vuosittaiset tulot määrittävät "ennustajaattribuutin" luottokorttitarjouksen arvon . Koulutusjoukossa ennustemääritelmä tunnetaan. Luokittelualgoritmi yrittää sitten määrittää, kuinka ennustajan ominaisuuden arvo saavutettiin: mitä suhteita ennustajien ja päätöksen välillä on? Se kehittää joukon ennustussääntöjä, yleensä IF / THEN-lausetta, esimerkiksi:
IF (Ikä> 18 tai Ikä <75) JA vuotuiset tulot> 40 000 THEN luottokorttimaksu = kyllä
On selvää, että tämä on yksinkertainen esimerkki, ja algoritmille tarvitaan paljon suurempi näytteenotto kuin näissä kahdessa tallessa. Lisäksi ennustussäännöt ovat todennäköisesti paljon monimutkaisempia, mukaan lukien alisäännöt attribuuttien yksityiskohtien saamiseksi.
Seuraavaksi algoritmille annetaan "ennustejoukko" analysoitaville tiedoille, mutta tällä asetuksella ei ole ennustemääritettä (tai päätöstä):
| Nimi | Ikä | sukupuoli | Vuositulot | Luottokorttimaksu |
|---|---|---|---|---|
| Jack Frost | 42 | M | $ 88,000 | |
| Mary Murray | 16 | F | $ 0 |
Tämä ennustetieto auttaa arvioimaan ennustussääntöjen oikeellisuuden ja sääntöjä sitten nipistetään, kunnes kehittäjä pitää ennusteita tehokkaana ja hyödyllisenä.
Päivittäiset esimerkit luokittelusta
Luokittelu ja muut datanlouhintatekniikat, ovat kuluttajien jokapäiväisen kokemuksen takana.
Sääennusteet saattavat käyttää luokitusta ilmoittamaan, onko päivä sateinen, aurinkoinen tai pilvinen. Lääkäri voi analysoida terveydentilaa ennustaakseen lääketieteellisiä tuloksia. Luokittelumenetelmä, Naive Bayesian, käyttää ehdollista todennäköisyyttä luokitella roskapostiviestejä. Petosten havaitsemisesta tuote-tarjouksiin luokittelu on kulissien takana joka päivä analysoimalla tietoja ja tuottamaan ennusteita.