XML-tiedonhaku

XML-tiedonhaku tarkoittaa tiedonhakua rakenteisista dokumenteista, jotka on kuvattu XML-kielellä. XML-tiedonhaussa pyritään hyödyntämään XML-dokumenttien rakenteista informaatiota niin, että käyttäjälle voidaan palauttaa kokonaisten dokumenttien sijaan vain käyttäjän haun kannalta olennaisia dokumentin osia. XML-tiedonhaku on periaatteessa vain yksi rakenteisten dokumenttien tiedonhaun osa-alue, mutta se on nykyisin niin hallitseva, että siitä on käytännössä tullut synonyymi rakenteisten dokumenttien tiedonhaulle.


XML-tiedonhaku perustuu siihen, että XML-dokumenteissa voidaan erotella otsikot, tekstikappaleet, luvut ja muut tekstin elementit tietokoneen ymmärtämään muotoon ja määrittelemään tämän pohjalta dokumentin osien semanttiset suhteet. Tämä semanttinen erottelu mahdollistaa hakujen tehokkaamman kohdistamisen dokumentin eri tarkkuustasoille ja tarkempien hakutulosten palauttamisen käyttäjälle. XML-tiedonhaku hyödyntää tästä semanttisten suhteiden erottelusta syntyvää hierarkkista puurakennetta, jossa koko dokumentti muodostaa ylimmän tason ja pienimmät indeksoidut tekstin osat alimman tason - niin sanotut ”lehdet”. Puuhierarkian jokaista yksittäistä solua kutsutaan elementiksi.

XML-tiedonhaku verrattuna perinteiseen tekstitiedonhakuun

XML-tiedonhaussa haku voidaan kohdistaa koko dokumentin sijaan dokumentin osiin ja palauttaa hakutuloksena vain haun kannalta olennaiset osat. Jos esimerkiksi koko dokumentti on relevantti haun kannalta, palautetaan hakutuloksena koko dokumentti, mutta jos vain joku dokumentin osa tai osat ovat relevantteja, palautetaan ne. Relevanttien elementtien etsimisen lisäksi tavoitteena on palauttaa XML-dokumenttien puurakennetta käyttämällä hyväksi haun kannalta mahdollisimman relevanttia informaatiota optimaaliselta tarkkuustasolta. Haku voidaan periaatteessa kohdistaa myös yhtä aikaa sekä sisältöön että rakenteeseen. Tosin tutkimuksissa on havaittu, että tällainen haun rajaaminen rakenteen avulla ei vielä nykyisillä menetelmillä tehosta hakua.


XML-tiedonhaku on erityisen hyödyllistä silloin, kun dokumentit ovat pitkiä tai ne sisältävät informaatiota monista erilaisista aihealueista. Tällöin käyttäjä joutuisi tavallisessa tiedonhaussa käyttämään huomattavasti aikaa tiedon etsimiseen palautetun dokumentin sisältä ja tätä työtä voidaan vähentää palauttamalla vain käyttäjän kannalta olennaiset dokumentin osat.