Mikä on puhetiedonhaku

Puhetiedonhaku (engl. Speech retrieval) on kyseessä, kun puhuttua luonnollista kieltä sisältävistä sähköisistä arkistoista haetaan dokumentteja niiden puhutun sisällön perusteella. Puhetiedonhaun tavoitteena on saattaa puheena tallennettu tieto ihmisten käytettäväksi.


Puhe on aikasidonnainen tapa välittää informaatiota. Puhetta ei esimerkiksi voi silmäillä läpi niin kuin painettua tekstiä, vaan puheen ymmärtäminen edellyttää, että sitä kuunnellaan suunnilleen samalla nopeudella kuin se on tuotettu. Siksi puheen muodossa olevan tiedonhakuun keskittyvien järjestelmien kehittäminen on tärkeää. Puhehakuun on kaksi päälähestymistapaa: jatkuva puheentunnistus ja pienempien yksikköjen tunnistus. Ensimmäisessä tavassa voidaan tunnistaa luonnollinen puhe kirjoitetun kielen sanoiksi käyttäen jatkuvan puheen puheentunnistinta. Toinen lähestymistapa perustuu puolestaan sanaa pienempien yksikköjen tunnistamiseen, esimerkiksi foneemien tunnistamiseen.