Mitä sinun tarvitsee tietää Bayesian roskapostisuodatuksesta

by Heinz Tschabitscher

Selvitä, miten tilastot helpottavat postilaatikon puhdistamista

Bayesian roskapostisuodattimet laskevat sen todennäköisyyden, että sanoma on roskapostia sen sisällön perusteella. Toisin kuin yksinkertaiset sisältöperusteiset suodattimet, Bayesian roskapostisuodatus oppii roskapostilta ja hyvältä postilta, mikä johtaa erittäin kestävään, sopeutumiseen ja tehokkaaseen roskapostin vastaiseen lähestymistapaan, joka parhaimmillaan ei paljasta mitään vääriä positiivisia tietoja.

Kuinka tunnistan roskapostit?

Ajattele roskapostin havaitsemista. Nopea silmäys on usein tarpeeksi. Tiedät, mitä roskapostia näyttää, ja tiedät, mitä hyvää postia näyttää.

Epätavallisen roskapostin todennäköisyys on noin ... nolla.

Sisältöperusteisten suodattimien pisteytys ei sopeudu

Eikö olisi hienoa, jos automaattiset roskapostisuodattimet toimivat niin?

Sisällön perusteella luotujen roskapostisuodattimien pisteytys yrittää juuri sitä. He etsivät sanoja ja muita roskaposteille ominaisia ominaisuuksia. Jokai- selle ominaiselle elementille on annettu pisteet, ja koko viestin roskapostitulos lasketaan yksittäisistä pisteistä. Jotkut pisteytyssuodattimet etsivät myös laillisen postin ominaisuuksia, vähentäen viestin loppupistemäärää.

Pisteytyssuodattimet toimivat, mutta niillä on myös useita haittoja:

Ominaisuuksien luettelo on rakennettu suodattimien insinööreiltä saatavasta roskapostista (ja hyvästä postista). Jotta saat hyvän käsityksen tyypillisestä roskapostista, joku saattaisi saada, posti on kerättävä satoihin sähköpostiosoitteisiin. Tämä heikentää suodattimien tehokkuutta erityisesti siksi, että hyvän viestin ominaisuudet ovat erilaiset jokaiselle henkilölle , mutta tätä ei oteta huomioon.
Etsitettävät ominaisuudet ovat enemmän tai vähemmän asetettu kiveen . Jos roskapostittajat pyrkivät sopeutumaan (ja tekevät roskapostin näyttävän hyvältä postilta suodattimiin), suodatusominaisuuksia on hienosäädettävä manuaalisesti - vieläkin suurempia ponnisteluja.
Kullekin sanalle osoitetut pisteet perustuvat luultavasti hyvään arvioon, mutta se on edelleen mielivaltainen. Ja kuten ominaisuuksien luettelo, se ei sovi yhteen roskapostin muuttuvassa maailmassa eikä yksittäisten käyttäjien tarpeiden kanssa.

Bayesian roskapostisuodattimet Tweak itse, paranevat ja parantavat

Bayesin roskapostisuodattimet ovat eräänlainen pisteytyspohjainen suodatin. Niiden lähestymistapa poistaa ongelmat yksinkertaisesti pisteytys roskapostisuodattimet kuitenkin, ja se tekee niin radikaalisti. Koska pisteytyssuodattimien heikkous on käsin rakennettu ominaisuusluettelo ja niiden tulokset, tämä luettelo on poistettu.

Sen sijaan Bayesian roskapostisuodattimet rakentavat luettelon itse. Ihannetapauksessa aloitat (suuri) joukko sähköpostiviestejä, jotka olet luokitellut roskapostiksi ja toinen joukko hyvää postia. Suodattimet tarkastelevat sekä analysoitaessa laillista postia että roskapostia laskien eri ominaisuuksien todennäköisyyttä, jotka näkyvät roskapostissa ja hyvässä postissa.

Miten bayesiläinen roskapostisuodatin tarkistaa sähköpostin

Bayes-roskapostisuodattimen ominaisuudet voivat olla:

sanat sanan ruumiissa , tietenkin, ja
sen otsikot (esim. lähettäjät ja viestipolut ), mutta myös
muita näkökohtia, kuten HTML / CSS-koodia (kuten värejä ja muuta muotoilua) tai jopa
sanaparit, lauseet ja
metatiedot (esimerkiksi tietyn lauseen ilmaantuminen).

Jos sana, esimerkiksi "Cartesian", ei koskaan näy roskapostissa, mutta usein laillisessa sähköpostissa, jonka olet saanut, todennäköisyys, että "Cartesian" tarkoittaa roskapostia, on lähellä nollaa. "Väriaine" puolestaan esiintyy yksinomaan ja usein roskapostissa. "Väriaineella" on erittäin suuri todennäköisyys löytää roskapostia, ei paljon alle 1 (100%).

Kun uusi viesti saapuu, se analysoidaan Bayes-roskapostisuodattimella, ja koko sanoman roskapostisuodatustodennäköisyys lasketaan yksittäisten ominaisuuksien mukaan.

Oletetaan, että viesti sisältää sekä "karteesiläistä" että "väriainetta". Näistä sanoista yksin ei ole vielä selvää, onko meillä roskapostia vai legitiimiä postia. Muut ominaisuudet (toivottavasti ja todennäköisimmin) osoittavat todennäköisyyden, jonka avulla suodatin voi luokitella viestin joko roskapostiksi tai hyväksi postiksi.

Bayesian roskapostisuodattimet voivat oppia automaattisesti

Nyt, kun meillä on luokittelu, sanomaa voidaan käyttää suodattimen itsensä kehittämiseen edelleen. Tällöin joko "Cartesian" osoittavan hyvää postia osoittavaa todennäköisyyttä alennetaan (jos "Cartesian" ja "väriaineen" sisältävä viesti havaitaan roskapostiksi), tai roskapostia osoittavan "väriaineen" todennäköisyyttä on harkittava uudelleen.

Tämän automaattisen adaptiivisen tekniikan avulla Bayes-suodattimet voivat oppia sekä omasta että käyttäjän päätöksistä (jos hän käsittelee manuaalisesti suodattimien väärän päätöksen). Bayes-suodatuksen sopeutumiskyky varmistaa myös, että ne ovat tehokkaimpia yksittäiselle sähköpostiosoitteelle. Vaikka useimpien ihmisten roskapostista voi olla samanlaisia ominaisuuksia, laillinen sähköposti on luonteenomaista erilainen kaikille.

Kuinka roskapostittajat voivat saada vanhat Bayes-suodattimet?

Laillisen postin ominaisuudet ovat yhtä tärkeitä Bayesin roskapostisuodatusprosessille kuin roskapostia. Jos suodattimet on koulutettu nimenomaan jokaiselle käyttäjälle, roskapostittajilla on entistä vaikeampi aika työskennellä kaikkien (tai jopa useimpien) roskapostisuodattimien ympärillä ja suodattimet voivat sopeutua lähes kaikkiin roskapostittajiin.

Roskapostittajat tekevät sen vain hyvin koulutetuista Bayes-suotimista, jos he tekevät roskapostiviestit näyttävät täysin tavallisilta sähköpostiviestiltä.

Roskapostittajat eivät yleensä lähetä tällaisia tavallisia sähköpostiviestejä. Oletetaan, että tämä johtuu siitä, että nämä sähköpostit eivät toimi roskapostina. Joten, he eivät pysty tekemään sitä, kun tavalliset ja tylsät sähköpostit ovat ainoa tapa tehdä se aikaisemmin roskapostisuodattimilla.

Jos roskapostittajat vaihtavat useimmiten tavallisiin sähköpostiviesteihin, me kuitenkin saamme paljon roskapostia postilaatikoissamme uudelleen, ja sähköposti saattaa olla yhtä turhauttavaa kuin se oli ennen Bayesian päivää (tai vielä pahempaa). Se on myös tuhonnut markkinoiden useimmille roskapostityypeille, ja näin ollen se ei kestää kauan.

Vahvat indikaattorit voivat olla Bayesian roskapostisuodattimen Achilles & # 39; Kantapää

Yksi poikkeus voidaan havaita roskapostittajille, jotka voivat työskennellä Bayesian suodattimien avulla tavanomaisen sisällön tavoin. Bayes-tilastotietojen luonne on se, että yksi sana tai ominaisuus, joka esiintyy hyvin usein hyvänä postina, voi olla niin merkittävä, että minkä tahansa viestin katsominen roskapostilta katsottaisiin suodattimen kinkiksi.

Jos roskapostittajat löytävät tavan määritellä varmuuskopioidut hyvän sanoman sanat - käyttämällä esimerkiksi HTML-paluustodistuksia, jotta näet, mitkä avaat viestisi - esimerkiksi he voivat sisällyttää jonkin heistä roskapostiviestiin ja tavoittaa sinut jopa hyvin tunnettujen viestien kautta. koulutettu Bayesian suodatin.

John Graham-Cumming on yrittänyt tätä antamalla kaksi Bayesian suodatinta toimimaan toisiaan vastaan, "huono", joka sopeutuu siihen, mihin viesteihin löydetään "hyvä" suodatin. Hän sanoo, että se toimii, vaikka prosessi on aikaa vievää ja monimutkaista. Emme usko, että näemme paljon tästä tapahtuvasta, ainakin ei suuressa mittakaavassa, eikä räätälöity yksityishenkilöiden sähköpostiominaisuuksiin. Roskapostittajat voivat (yrittää) selvittää joitain avainsanoja organisaatioille (jotain "Almaden" joillekin IBM: n ihmisille?).

Yleensä roskaposti on aina (merkittävästi) erilainen kuin säännöllinen posti tai se ei kuitenkaan ole roskapostia.

Bottom Line: Bayesian suodatuksen vahvuus voi olla sen heikkous

Bayesin roskasisuodattimet ovat sisältöperusteisia suodattimia, jotka:

ovat erityisesti koulutettuja tunnistamaan yksittäisen sähköpostin käyttäjän roskapostit ja hyvät postit , mikä tekee niistä erittäin tehokkaita ja vaikeita sopeutua roskapostittajiin.
voivat jatkuvasti ja ilman paljon työtä tai manuaalinen analyysi sopeutua roskapostittajien uusimpiin temppuja.
ottaa yksilöllisen käyttäjän hyvän postin huomioon ja sillä on hyvin alhainen väärä positiivinen määrä .
Valitettavasti, jos tämä aiheuttaa sokean luottamuksen Bayesian roskapostisuodattimille, se tekee satunnaisesta virheestä entistä vakavamman . Väärien negatiivisten vastausten päinvastainen vaikutus (roskapostia, joka näyttää täsmälleen tavalliselta postilta) voi häiritä ja torjua käyttäjiä.