1. Materjal ja metoodika

1.1. Valim

Uurimuse jaoks valiti Neti Eesti WWW serverite nimekirjast kõik aadressid, mis olid kujuga www.*.ee (näiteks www.host.ee, www.hk.host.ee, www.host.pri.ee jne).

Sarnaselt Veiko Sangi poolt teostatud uuringuga (2004) kasutati vaid www-ga algavad aadresse, sest väga paljudel juhtudel on identsed need leheküljed, mille aadressidest üks algab www-ga ja teine mitte, näiteks www.host.ee=host.ee. Ühtlasi pole aadressid, mis www-ga ei alga, tihtipeale asutuse veebi avalikuks osaks (intranet.host.ee, admin.host.ee, mail.host.ee, webmail.host.ee jne).

Kuna eesmärgiks oli just Eesti veebilehtede uuring, siis valiti vaid ee-lõpulised aadressid, sest need saavad olla vaid Eesti ettevõtetel, organisatsioonidel või eraisikutel. Erinevalt näiteks Veiko Sangi serverikeskkonna uuringust, oli oluline, et valimisse satuksid just Eesti lehed (seejuures mitte tingimata eesti keelsed lehed), mitte lihtsalt eesti serverites asuvad leheküljed (.com, .net, .org jne), mille omanikeks võivad olla ka välismaised ettevõtted.

Valideeriti vaid esilehti, kuna nendega peaksid autorid olema kõige rohkem vaeva näinud ning – võrdlemise eesmärgil – kuna ka varasemad valideerimise uuringud on piirdunud vaid esilehtedega. Pealegi oleks nii suure hulga alamlehekülgede valideerimine osutunud ajaliselt väga mahukaks.

Uurimuses kasutati 21 905 aadressi, mis võeti Neti Eesti serverite nimekirjast seisuga 11. veebruar 2005.

1.2. Massvalideerimise programm

Kuna tuhandete lehtede ükshaaval validaatorile ettesöötmine ja tulemuste kirjapanemine on ühe inimese jaoks kaugelt liialt suur ja vaevarikas töö, siis sai loodud programm, mis ilma kõrvalise sekkumiseta saaks hakkama selle massilise valideerimise protsessiga.

Nimetatud programm vaatas üksteise järel läbi kõik talle ette antud aadressid ning teostas kõigi puhul järgnevad toimingud.

Kõigepealt üritas programm lehekülge alla laadida. Kui see õnnestus, siis üritas programm veenduda, et tegemist on ikkagi veebilehega (otsides sealt üldlevinud HTML-i elemente). Lisaks kontrollis programm, et tegu poleks mõne veateate lehega (otsides <title> elemendist sõnu „Viga“ ja „Forbidden“), et tegu poleks suletud leheküljega (fraas „Teenus peatatud“), ning et tegu poleks leheküljega, mis suunab ümber teisele aadressile (otsides mustrit, mis oleks sarnane HTML-le: „<meta http-equiv="refresh" content="5; URL=http://foo" />“).

HTTP päistes leiduvat infot programm ei kontrollinud.

Seejärel loendas programm 38 levinuima HTML-i elemendi esinemissagedused antud dokumendis ning üritas saata lehekülje W3C validaatorile analüüsimiseks. Kui validaator ei saanud lehte valideerida vigase kodeeringu tõttu, siis saatis programm dokumendi uuesti validaatorile ning nõudis, et too kasutaks lehekülje valideerimisel ISO-8859-1 kodeeringut (reeglina seisneb probleem selles, et leheküljel on kodeering määramata jäetud ning validaator kasutab vaikimisi UTF-8 kodeeringut, mis aga ei luba teatud baidikombinatsioone).

Kui programmil oli õnnestunud validaatori käest kätte saada lehekülg, millel puudusid veateated tõrgete kohta valideerimise protsessi läbiviimisel, siis salvestas programm valideerimiseks kasutatud dokumenditüübi, ning kui dokument sellele ei vastanud, loendas kõikide veateadete esinemiste arvud.

Täpsema ülevaate programmist annab lisa 1.

1.3. Uurimuse läbiviimise aeg

Uurimus viidi läbi ajavahemikus 2005-02-11 17:37 kuni 2005-02-13 17:29 Eesti aja järgi.

Kirjutatud 22. aprillil 2005.

Eelmine Järgmine

1. Materjal ja metoodika

1.1. Valim

1.2. Massvalideerimise programm

1.3. Uurimuse läbiviimise aeg

Trinoloogialeht

Peamenüü

Sisukord