Mitä sinun tarvitsee tietää Bayesian roskapostisuodatuksesta

Selvitä, miten tilastot helpottavat postilaatikon puhdistamista

Bayesian roskapostisuodattimet laskevat sen todennäköisyyden, että sanoma on roskapostia sen sisällön perusteella. Toisin kuin yksinkertaiset sisältöperusteiset suodattimet, Bayesian roskapostisuodatus oppii roskapostilta ja hyvältä postilta, mikä johtaa erittäin kestävään, sopeutumiseen ja tehokkaaseen roskapostin vastaiseen lähestymistapaan, joka parhaimmillaan ei paljasta mitään vääriä positiivisia tietoja.

Kuinka tunnistan roskapostit?

Ajattele roskapostin havaitsemista. Nopea silmäys on usein tarpeeksi. Tiedät, mitä roskapostia näyttää, ja tiedät, mitä hyvää postia näyttää.

Epätavallisen roskapostin todennäköisyys on noin ... nolla.

Sisältöperusteisten suodattimien pisteytys ei sopeudu

Eikö olisi hienoa, jos automaattiset roskapostisuodattimet toimivat niin?

Sisällön perusteella luotujen roskapostisuodattimien pisteytys yrittää juuri sitä. He etsivät sanoja ja muita roskaposteille ominaisia ​​ominaisuuksia. Jokai- selle ominaiselle elementille on annettu pisteet, ja koko viestin roskapostitulos lasketaan yksittäisistä pisteistä. Jotkut pisteytyssuodattimet etsivät myös laillisen postin ominaisuuksia, vähentäen viestin loppupistemäärää.

Pisteytyssuodattimet toimivat, mutta niillä on myös useita haittoja:

Bayesian roskapostisuodattimet Tweak itse, paranevat ja parantavat

Bayesin roskapostisuodattimet ovat eräänlainen pisteytyspohjainen suodatin. Niiden lähestymistapa poistaa ongelmat yksinkertaisesti pisteytys roskapostisuodattimet kuitenkin, ja se tekee niin radikaalisti. Koska pisteytyssuodattimien heikkous on käsin rakennettu ominaisuusluettelo ja niiden tulokset, tämä luettelo on poistettu.

Sen sijaan Bayesian roskapostisuodattimet rakentavat luettelon itse. Ihannetapauksessa aloitat (suuri) joukko sähköpostiviestejä, jotka olet luokitellut roskapostiksi ja toinen joukko hyvää postia. Suodattimet tarkastelevat sekä analysoitaessa laillista postia että roskapostia laskien eri ominaisuuksien todennäköisyyttä, jotka näkyvät roskapostissa ja hyvässä postissa.

Miten bayesiläinen roskapostisuodatin tarkistaa sähköpostin

Bayes-roskapostisuodattimen ominaisuudet voivat olla:

Jos sana, esimerkiksi "Cartesian", ei koskaan näy roskapostissa, mutta usein laillisessa sähköpostissa, jonka olet saanut, todennäköisyys, että "Cartesian" tarkoittaa roskapostia, on lähellä nollaa. "Väriaine" puolestaan ​​esiintyy yksinomaan ja usein roskapostissa. "Väriaineella" on erittäin suuri todennäköisyys löytää roskapostia, ei paljon alle 1 (100%).

Kun uusi viesti saapuu, se analysoidaan Bayes-roskapostisuodattimella, ja koko sanoman roskapostisuodatustodennäköisyys lasketaan yksittäisten ominaisuuksien mukaan.

Oletetaan, että viesti sisältää sekä "karteesiläistä" että "väriainetta". Näistä sanoista yksin ei ole vielä selvää, onko meillä roskapostia vai legitiimiä postia. Muut ominaisuudet (toivottavasti ja todennäköisimmin) osoittavat todennäköisyyden, jonka avulla suodatin voi luokitella viestin joko roskapostiksi tai hyväksi postiksi.

Bayesian roskapostisuodattimet voivat oppia automaattisesti

Nyt, kun meillä on luokittelu, sanomaa voidaan käyttää suodattimen itsensä kehittämiseen edelleen. Tällöin joko "Cartesian" osoittavan hyvää postia osoittavaa todennäköisyyttä alennetaan (jos "Cartesian" ja "väriaineen" sisältävä viesti havaitaan roskapostiksi), tai roskapostia osoittavan "väriaineen" todennäköisyyttä on harkittava uudelleen.

Tämän automaattisen adaptiivisen tekniikan avulla Bayes-suodattimet voivat oppia sekä omasta että käyttäjän päätöksistä (jos hän käsittelee manuaalisesti suodattimien väärän päätöksen). Bayes-suodatuksen sopeutumiskyky varmistaa myös, että ne ovat tehokkaimpia yksittäiselle sähköpostiosoitteelle. Vaikka useimpien ihmisten roskapostista voi olla samanlaisia ​​ominaisuuksia, laillinen sähköposti on luonteenomaista erilainen kaikille.

Kuinka roskapostittajat voivat saada vanhat Bayes-suodattimet?

Laillisen postin ominaisuudet ovat yhtä tärkeitä Bayesin roskapostisuodatusprosessille kuin roskapostia. Jos suodattimet on koulutettu nimenomaan jokaiselle käyttäjälle, roskapostittajilla on entistä vaikeampi aika työskennellä kaikkien (tai jopa useimpien) roskapostisuodattimien ympärillä ja suodattimet voivat sopeutua lähes kaikkiin roskapostittajiin.

Roskapostittajat tekevät sen vain hyvin koulutetuista Bayes-suotimista, jos he tekevät roskapostiviestit näyttävät täysin tavallisilta sähköpostiviestiltä.

Roskapostittajat eivät yleensä lähetä tällaisia ​​tavallisia sähköpostiviestejä. Oletetaan, että tämä johtuu siitä, että nämä sähköpostit eivät toimi roskapostina. Joten, he eivät pysty tekemään sitä, kun tavalliset ja tylsät sähköpostit ovat ainoa tapa tehdä se aikaisemmin roskapostisuodattimilla.

Jos roskapostittajat vaihtavat useimmiten tavallisiin sähköpostiviesteihin, me kuitenkin saamme paljon roskapostia postilaatikoissamme uudelleen, ja sähköposti saattaa olla yhtä turhauttavaa kuin se oli ennen Bayesian päivää (tai vielä pahempaa). Se on myös tuhonnut markkinoiden useimmille roskapostityypeille, ja näin ollen se ei kestää kauan.

Vahvat indikaattorit voivat olla Bayesian roskapostisuodattimen Achilles & # 39; Kantapää

Yksi poikkeus voidaan havaita roskapostittajille, jotka voivat työskennellä Bayesian suodattimien avulla tavanomaisen sisällön tavoin. Bayes-tilastotietojen luonne on se, että yksi sana tai ominaisuus, joka esiintyy hyvin usein hyvänä postina, voi olla niin merkittävä, että minkä tahansa viestin katsominen roskapostilta katsottaisiin suodattimen kinkiksi.

Jos roskapostittajat löytävät tavan määritellä varmuuskopioidut hyvän sanoman sanat - käyttämällä esimerkiksi HTML-paluustodistuksia, jotta näet, mitkä avaat viestisi - esimerkiksi he voivat sisällyttää jonkin heistä roskapostiviestiin ja tavoittaa sinut jopa hyvin tunnettujen viestien kautta. koulutettu Bayesian suodatin.

John Graham-Cumming on yrittänyt tätä antamalla kaksi Bayesian suodatinta toimimaan toisiaan vastaan, "huono", joka sopeutuu siihen, mihin viesteihin löydetään "hyvä" suodatin. Hän sanoo, että se toimii, vaikka prosessi on aikaa vievää ja monimutkaista. Emme usko, että näemme paljon tästä tapahtuvasta, ainakin ei suuressa mittakaavassa, eikä räätälöity yksityishenkilöiden sähköpostiominaisuuksiin. Roskapostittajat voivat (yrittää) selvittää joitain avainsanoja organisaatioille (jotain "Almaden" joillekin IBM: n ihmisille?).

Yleensä roskaposti on aina (merkittävästi) erilainen kuin säännöllinen posti tai se ei kuitenkaan ole roskapostia.

Bottom Line: Bayesian suodatuksen vahvuus voi olla sen heikkous

Bayesin roskasisuodattimet ovat sisältöperusteisia suodattimia, jotka: