Dokumenttien luokittelu

Dokumenttien luokittelun tarkoituksena on helpottaa dokumenttien löytymistä tai käsittelyä liittämällä kukin dokumentti yhteen tai useampaan luokkaan. Luokittelua tarvitsevat kirjastot, lehtiarkistot, uutistoimistot, hakupalvelut, suuryritykset ja muut suurten tekstikokoelmien käsittelijät. Dokumentit voivat olla esimerkiksi kirjoja, lehtiartikkeleita, WWW-sivuja, sähköpostiviestejä tai yrityksen sisäisiä dokumentteja.

Luokittelua käytetään tiedonhaun apuna, ja se on yksi dokumenttien sisällönkuvailun tapa. Kirjastoissa dokumenttien luokitus on ollut käytössä kirjastojen historian alusta asti. Uusimpia dokumenttien luokittelun sovellusalueita on roskapostin tunnistaminen.

Käsitteiden suhteita luokittelussa

Dokumentit sijoitetaan luokkiin dokumentissa esiintyvine käsitteiden ja asioiden perusteella. Usein valintaperuste on dokumentin aihe. Luokat ilmaisevat näiden käsiteiden erilaisa suhteita

Paradigmaattiset (tai semanttiset) suhteet

Paradigmaattiset suhteet ovat suhteellisen pysyviä, aina olemassa olevia suhteita.

- Geneeriset eli laji-alalaji-suhteet (lintu-varpunen)
- Partitiiviset suhteet eli kokonaisuus-osa-suhde (Suomi-Pohjanmaa)
- Assosiatiiviset suhteet, esimerkiksi valiintunnet tekeminen-väline-suhteet (kalastus-onki/katiska)

Syntagmaattiset suhteet

Syntagmaattiset suhteet ilmenevät tietyissä tilanteissa ja syntyvät asiayhteydessä.

- Funktionaaliset suhteet löytyvät esimerkiksi lauseen rakenteista: tekeminen-tekijä, tekeminen-väline, tekeminen-kohde, tapahtuma-syy (potkaista-potkaisija, potkaista-pallo, potkaista-uhri)

Luokittelun alalajit

Alun perin dokumentteja ovat luokitelleet tehtävään koulutetut asiantuntijat. Ihminen ymmärtää lukemansa ja tekee harvoin karkeita virheitä luokittelussa. Käsin luokitteleminen on kuitenkin hidasta. Haittana voi olla myös ihmisen subjektiivisuus. Dokumenttikokoelmien kasvaessa on alettu käyttää apuna tietokoneohjelmia.

Yksi vaihtoehto on asiantuntijajärjestelmä eli asiantuntijoiden tietämyksen mallintaminen sääntökokoelmaksi. Hyvin toimivien sääntöjen löytäminen voi kuitenkin osoittautua työlääksi, ja säännöstö saattaa paisua laajaksi ja vaikeasti ylläpidettäväksi.

Nopeamman ja joustavamman vaihtoehdon tarjoaa koneoppiminen eli luokittelusäännöstön tai -mallin automaattinen muodostaminen. Jos käytössä ei ole valmiiksi luokiteltua aineistoa tai jos dokumenttien väliset yhteydet halutaan selvittää ilman etukäteen määrättyjä luokkia, luokitteluohjelma voi perustua ohjaamattomaan oppimiseen ja vain pyrkiä liittämään yhteen toisiaan muistuttavat dokumentit. Tällöin puhutaan dokumenttien ryvästämisestä eli klusteroinnista.

Ohjatussa oppimisessa luokitteluohjelman käytössä on etukäteen luokiteltu opetusaineisto. Tarkoituksena on luoda aineiston pohjalta malli tai säännöstö, jonka avulla ohjelma voi luokitella uusia dokumentteja.