Mikä on XML?
XML (lyhenne sanoista eXtensible Markup Language) on merkintäkieli
tai standardi, jolla tiedon merkitys on kuvattavissa tiedon
sekaan. XML-kieltä käytetään sekä formaattina tiedonvälitykseen
järjestelmien välillä että formaattina dokumenttien
tallentamiseen. XML-kieli on rakenteellinen kuvauskieli, joka
auttaa jäsentämään laajoja tietomassoja selkeämmin. XML:n
kehittäjä on World Wide Web Consortium.
XML-dokumenttien käsittelyyn on tarjolla myös paljon erilaisia
työkaluja. Nämä työkalut toimivat samalla tavalla riippumatta
siitä kuvaako XML-dokumentti WWW-sivua tai muita tietoja.
XML on tekstimuotoista ja muistuttaa HTML-kieltä, jolla WWW-sivut
kirjoitetaan, ja ne kummatkin ovat SGML-kielen yksinkertaistettuja
osajoukkoja. XML-kieli ei kuitenkaan ole tarkoitettu
sivunkuvauskieleksi kuten HTML, vaan sillä kuvataan tiedon
rakenne ilman ennalta määrättyjä koodeja. XML-kielellä voi
muodostaa uusia koodeja, joiden avulla voidaan luoda dokumentteja
hyvinkin erilaisiin ja erityisiin tarkoituksiin. XHTML on
HTML-kielen versio, joka on siivottu puhtaaksi XML-kieleksi.
XML-dokumentin ulkoasu
XML-dokumentti on tekstiä; tavallisesti UTF-8-muotoista.
Standardi vaatii XML-käsittelijöitä tukemaan Unicoden UTF-8 ja
UTF-16-koodauksia. Muitakin koodauksia voidaan käyttää,
esimerkiksi ISO 8859-1:aa.
XML-dokumentti alkaa prologilla, joka sisältää XML-version, sekä
mahdollisesti dokumentin koodauksen ja muita tietoja.
DOCTYPE-määrityksellä dokumentille voidaan määrittää DTD
(Document Type Definition):
XML-dokumentti koostuu elementeistä. elementti kuvataan tagilla,
joka koostuu alkumerkistä ja loppumerkistä. Elementtejä voi
olla rajattomasti sisäkkäin.
Isot ja pienet kirjaimet katsotaan elementtien nimissä
erillisiksi merkeiksi. Esimerkiksi