Mikä on tiedonhaku

Tiedonhaku (engl. information retrieval) on tietojenkäsittelytieteen osa-alue, jossa tutkitaan tiedon esittämisen, tallettamisen ja etsimisen prosesseja, joita tarvitaan, jotta haluttu tieto saadaan hakutehtävän esittäneen ihmisen käyttöön. Tietoa ja tiedonhakua tutkii myös informaatiotutkimus. Tiedonhaun tutkimuksen perimmäisenä tavoitteena on kehittää muun muassa järjestelmiä, joiden avulla tieto saadaan helposti sitä tarvitsevan ulottuville mahdollisimman hyödyllisessä muodossa.

Tiedonhakua suoritettaessa tiedonhakija esittää hakutehtävänsä kyselynä, joka laaditaan tiedonhakujärjestelmän kysely- tai hakukielen avulla. Tiedonhaun tavoitteena on tyydyttää tiedon tarve ja tiedonhaussa pyritään löytämään tiedontarpeen mahdollisimman hyvin tyydyttävä dokumentti tai dokumenttien joukko. Löydettävien dokumenttien tulee olla rakenteensa, sisältönsä ja ulkoasunsa puolesta tiedontarvitsijoille hyödyllisiä. Tähän tavoitteeseen on vielä mahdotonta päästä nykyisten tiedonhakujärjestelmien avulla. Tiedon tallennus- ja hakujärjestelmät ovatkin tällä hetkellä yksinkertaisia järjestelmiä, joiden tuloksellinen käyttö edellyttää älykkäitä käyttäjiä.

Tiedontallentamisen ja tiedonhaun tasoperiaate 

Tiedonhaussa hakukyselyt ja niiden kohteina olevat dokumentit voidaan esittää kolmella tasolla: käsitetasolla, ilmaisutasolla ja merkkijonotasolla. Ensinnäkin dokumentit koostuvat merkkijonoista, jotka esittävät luonnollisen kielen ilmaisuja. Nämä ilmaisut puolestaan edustavat dokumentin käsitteellistä sisältöä. Vastaavasti tiedonhakijan tiedontarpeella on käsitteellinen sisältö, joka voidaan ilmaista luonnollisella kielellä ja esittää hakukyselyssä kirjoitusmerkkien avulla.


Käsitetasolla tarkastellaan hakukyselyn ja kohdedokumenttien sisältämiä käsitteitä ja näiden välisiä suhteita. Tiedon tallennuksessa ja tiedonhaussa käsiteanalyysiä pidetään usein tarpeellisena välivaiheena ennen dokumentin tai hakukyselyn muotoilua indeksointitermeiksi tai lopulliseksi hakukyselyksi. Käsitteellistä sisältöä ei voida välittää suoraan, vaan tekijä ilmaisee sen aina luonnollisen kielen avulla. Ilmaisutasolla eli kielellisellä tasolla tarkastellaan käsitteiden muotoilua ilmaisuiksi luonnollisessa kielessä tai jossain keinotekoisessa erikoiskielessä, kuten dokumentaatiokielessä. Hakukyselyn käsitteiden esityksiä kutsutaan ilmaisutasolla hakuavaimiksi. Esiintymätaso on aina läsnä tiedonhaussa. Tietotekniikkaa hyödyntävä tiedonhaku tapahtuu aina esiintymätasolla, koska tietokoneet käsittelevät vain merkkijonoja eivätkä ne ymmärrä luonnollista kieltä.