Uurimuse jaoks valiti Neti Eesti WWW serverite nimekirjast kõik aadressid,
mis olid kujuga www.*.ee
(näiteks www.host.ee
,
www.hk.host.ee
, www.host.pri.ee
jne).
Sarnaselt Veiko Sangi poolt
teostatud uuringuga (2004) kasutati vaid www
-ga algavad
aadresse, sest väga paljudel juhtudel on identsed need leheküljed, mille
aadressidest üks algab www
-ga ja teine mitte, näiteks
www.host.ee=host.ee
. Ühtlasi pole aadressid, mis
www
-ga ei alga, tihtipeale asutuse veebi avalikuks osaks
(intranet.host.ee
, admin.host.ee
,
mail.host.ee
, webmail.host.ee
jne).
Kuna eesmärgiks oli just Eesti veebilehtede uuring, siis valiti vaid
ee
-lõpulised aadressid, sest need saavad olla vaid Eesti
ettevõtetel, organisatsioonidel või eraisikutel. Erinevalt näiteks Veiko
Sangi serverikeskkonna uuringust, oli oluline, et valimisse satuksid just Eesti
lehed (seejuures mitte tingimata eesti keelsed lehed), mitte lihtsalt eesti
serverites asuvad leheküljed (.com
, .net
,
.org
jne), mille omanikeks võivad olla ka välismaised
ettevõtted.
Valideeriti vaid esilehti, kuna nendega peaksid autorid olema kõige rohkem vaeva näinud ning – võrdlemise eesmärgil – kuna ka varasemad valideerimise uuringud on piirdunud vaid esilehtedega. Pealegi oleks nii suure hulga alamlehekülgede valideerimine osutunud ajaliselt väga mahukaks.
Uurimuses kasutati 21 905 aadressi, mis võeti Neti Eesti serverite nimekirjast seisuga 11. veebruar 2005.
Kuna tuhandete lehtede ükshaaval validaatorile ettesöötmine ja tulemuste kirjapanemine on ühe inimese jaoks kaugelt liialt suur ja vaevarikas töö, siis sai loodud programm, mis ilma kõrvalise sekkumiseta saaks hakkama selle massilise valideerimise protsessiga.
Nimetatud programm vaatas üksteise järel läbi kõik talle ette antud aadressid ning teostas kõigi puhul järgnevad toimingud.
Kõigepealt üritas programm lehekülge alla laadida. Kui see õnnestus, siis
üritas programm veenduda, et tegemist on ikkagi veebilehega (otsides sealt
üldlevinud HTML-i elemente). Lisaks kontrollis programm, et tegu poleks mõne
veateate lehega (otsides <title>
elemendist sõnu „Viga“
ja „Forbidden“), et tegu poleks suletud leheküljega (fraas „Teenus
peatatud“), ning et tegu poleks leheküljega, mis suunab ümber teisele
aadressile (otsides mustrit, mis oleks sarnane HTML-le:
„<meta http-equiv="refresh" content="5; URL=http://foo" />
“).
HTTP päistes leiduvat infot programm ei kontrollinud.
Seejärel loendas programm 38 levinuima HTML-i elemendi esinemissagedused antud dokumendis ning üritas saata lehekülje W3C validaatorile analüüsimiseks. Kui validaator ei saanud lehte valideerida vigase kodeeringu tõttu, siis saatis programm dokumendi uuesti validaatorile ning nõudis, et too kasutaks lehekülje valideerimisel ISO-8859-1 kodeeringut (reeglina seisneb probleem selles, et leheküljel on kodeering määramata jäetud ning validaator kasutab vaikimisi UTF-8 kodeeringut, mis aga ei luba teatud baidikombinatsioone).
Kui programmil oli õnnestunud validaatori käest kätte saada lehekülg, millel puudusid veateated tõrgete kohta valideerimise protsessi läbiviimisel, siis salvestas programm valideerimiseks kasutatud dokumenditüübi, ning kui dokument sellele ei vastanud, loendas kõikide veateadete esinemiste arvud.
Täpsema ülevaate programmist annab lisa 1.
Uurimus viidi läbi ajavahemikus 2005-02-11 17:37 kuni 2005-02-13 17:29 Eesti aja järgi.
Kirjutatud 22. aprillil 2005.
RSS, RSS kommentaarid, XHTML, CSS, AA