Mikä on k-means klusterointi?

Tiedonlaskenta k-väline-algoritmilla

K-klusterointialgoritmi on tiedonlouhinta ja konekielen oppimistyökalu, jota käytetään klusteroimaan havaintoja ryhmiin liittyvistä havainnoista ilman minkäänlaista ennakkotietoa näistä suhteista. Näytteenoton avulla algoritmi yrittää näyttää, missä luokassa tai klusterissa tiedot kuuluvat, ja klusterien määrä määritellään arvoon k.

K-väline-algoritmi on yksi yksinkertaisimmista klusterointitekniikoista, ja sitä käytetään yleisesti lääketieteellisessä kuvantamisessa, biometriikassa ja siihen liittyvillä aloilla. K-ryhmien klusteroinnin etuna on se, että se kertoo tietojasi (sen käyttämättömän muodon avulla) sen sijaan, että sinun tarvitsee ohjeistaa algoritmia datasta alussa (käyttäen algoritmin valvottua muotoa).

Sitä kutsutaan joskus Lloyd'sin algoritmiksi, erityisesti tietotekniikan piireissä, koska Stuart Lloyd ehdotti ensin standardin algoritmia vuonna 1957. James McQueen kehitti vuonna 1967 termi "k-mean".

Miten k-tarkoittaa algoritmitoimintoja

K-väline-algoritmi on evoluutioalgoritmi, joka saa sen nimen toimintatavaltaan. Algoritmi ryhmittelee havainnot k- ryhmiin, missä k annetaan syöttöparametriksi. Sitten se antaa jokaisen havainnon klustereiksi, jotka perustuvat havainnon läheisyyteen klusterin keskiarvoon. Klusterin keskiarvo lasketaan uudelleen ja prosessi alkaa uudelleen. Näin algoritmi toimii:

  1. Algoritmi valitsee mielivaltaisesti k- pisteen alkuklusterikeskuksiksi (välineet).
  2. Jokainen datasarjan kohta on osoitettu suljettuun klusteriin, joka perustuu pisteiden ja klusterikeskusten Euklidien väliseen etäisyyteen.
  3. Jokainen klusterikeskus lasketaan uudelleen klusterin pisteiden keskiarvoksi.
  4. Toimia 2 ja 3 toistetaan, kunnes klusterit lähestyvät. Lähentyminen voidaan määritellä toisistaan ​​riippuen toteutuksesta riippuen, mutta se tarkoittaa yleensä sitä, että joko huomautukset eivät muuta klustereita, kun vaiheet 2 ja 3 toistetaan tai että muutokset eivät ole merkittäviä eroja klustereiden määritelmässä.

Klusterien lukumäärän valinta

Yksi k- klusteroinnin tärkeimmistä haitoista on se, että sinun on määritettävä klusterien määrä syöttöalgoritmiksi. Kuten suunniteltu, algoritmi ei pysty määrittämään sopivaa klusterimäärää ja riippuu siitä, että käyttäjä tunnistaa tämän etukäteen.

Esimerkiksi jos sinulla olisi joukko ihmisiä, jotka on ryhmitelty binäärisen sukupuoli-identiteetin perusteella miehiksi tai naariksi, kutsutaan k- väline-algoritmi käyttäen tuloa k = 3 pakottaisi ihmiset kolmeen ryhmään, kun vain kaksi tai yksi syöttö k = 2, antaisi luonnollisemman sovituksen.

Samoin, jos ryhmä yksilöitä ryhmiteltiin helposti kotitilaan perustuen ja kutsuit k- väline-algoritmia tulolla k = 20, tulokset saattavat olla liian yleistettyjä, jotta ne olisivat tehokkaita.

Tästä syystä on usein hyvä kokeilla k: n eri arvoja tunnistettavaksi parhaiten sopivaan arvoon. Voit myös haluta tutkia muiden tiedonlouhintalgoritmien käyttöä konekielisesti oppimasi tiedon etsinnässä.