ROSKAPOSTIEN TUNNISTUSMENETELMÄT

Avainsanoihin perustuva tunnistamismenetelmä tutkii koko viestin ja etsii tiettyjä avainsanoja, kuten "viagra", "university degree" tai "loan". Jos viestissä on näitä avainsanoja, viesti saatetaan tunnistaa roskapostiksi.

Avainsanatunnistuksen ongelma on, että sanojen kirjoitusasua voidaan muuttaa. Tietokone ei esimerkiksi tunnista sanoja "viagra" ja "v14gra" samoiksi sanoiksi, vaikka ihminen niitä lukiessaan eron ymmärtääkin. Avainsanatunnistusta on siis helppo huijata. Vielä vakavampi ongelma on se, että asialliset viestit luokitellaan helposti roskapostiksi, jos niissä käsitellään asioita ja sanoja, jotka ovat roskapostiavainsanalistalla.

Eräs sisällönsuodatuksen tehokas osajoukko on heuristinen skannaus, jossa tutkitaan viestin otsikkotietoja ja viestiosaa. Viesti pisteytetään erilaisin algoritmein ja tekniikoin. Viestistä voidaan tutkia esimerkiksi lähettäjän osoite ja domain, "kohde" ja "kopio" -kenttiä, viestin kirjoitusasua, avainsanoja, HTML-koodia ja -linkkejä ynnä muuta. Vasta kun viesti saa tarpeeksi pisteitä, se luokitellaan roskapostiksi.

Heuristiikan ongelma on, että tunnistamista tekevä ohjelma tulee ensin opettaa. Ohjelmalle pitää kertoa, mitkä viestit ovat roskapostia ja mitkä eivät. Näin ohjelma vähitellen oppii luotettavammaksi ja paremmaksi.

Mustat listat

Suosituin ja yleisesti ottaen helpoin tapa suodattaa roskapostia palvelintasolla ovat mustat listat. Jokin järjestö tai henkilö ylläpitää DNS-palvelinta, joka sisältää tietoa eri perustein: osa sisältää tunnettuja roskapostin lähettäjiä, osa taas avoimia välityspalvelimia. Sähköpostipalvelin tekee kyselyn DNS-palvelimelle jokaisen sisään tulevan postin kohdalla ja hylkää ne, jotka mustalta listalta löytyvät.

Bayesilainen suodatus

Parina viime vuotena on useisiin sähköpostiohjelmiin toteutettu ns. bayesilaiseen suodatukseen perustuva oppiva roskapostisuodatin. Idea pohjautuu Paul Grahamin artikkeliin A Plan for Spam vuodelta 2002, jonka taustalla ovat matemaatikko Thomas Bayesin 1700-luvulla kehittämät todennäköisyyslaskennan teoreemat. Kyseessä on avainsanatunnistusta astetta hienostuneempi menetelmä, joka yksinkertaistetusti sanottuna perustuu sanojen esiintymien tilastolliseen analyysiin.

Kun Bayes-suodatin on kunnolla "koulutettu", voi se parhaimmillaan tunnistaa varsin suuren osan (esim. 80–90 %) roskapostista. Bayes-menetelmään perustuva suodatin on vakiona mukana mm. Mozilla Thunderbirdissä (ja Mozilla Mailissa) sekä Apple Mailissa. Bayes-suodatus voidaan myös yhdistää perinteisiin heuristisiin menetelmiin, kuten on tehty esimerkiksi SpamAssassin-ohjelman uudemmissa versioissa.