Eesti riigile ei meeldi otsingumootorid

15.01.2009 @ 8:44:18 | Aarne Toompark | 13 kommentaari

robots.txtÜhel pĂ€eval rÀÀkis Peeter Marvet mulle niisugust asja, et mĂ”nede riigiasutuste kodulehekĂŒlgede indekseerimine on otsingurobotitele keelatud. Idee niisuguse asja taga olevat see, et inimene kĂŒlastagu ise lehte ja mitte Ă€rgu kasutagu Neti vĂ”i Google otsingut.

Minule tundus niisugune asi uskumatuna ja vĂ€ga jaburana. Me teeme endale kodulehe ja ei taha et kĂŒlastajad sinna otsingumootori kaudu tuleksid? Miks?

Tegin siis vÀikese kontrolli, et kuidas Eesti riigiasutuste lehtedel selle asjaga lood on, kas otsinguroboteid piiratakse  ning mida sisaldab robots.txt. Tulemused ei olegi kÔige hullemad ehki robots.txt protokolli valdavalt ei kasutata:

Asutus Pagerank Favicon robots.txt
President 7 ei Puudub, suunatakse esilehele ĂŒmber
Riigikogu 8 jah Paarile robotile on kÔik keelatud
Riigiportaal - jah Puudub, suunatakse esilehele ĂŒmber
KaitsevÀgi 7 jah Puudub
Valitsus 7 ei Puudub
Riigikantselei 7 jah Puudub, suunatakse mingile katkisele lehele ĂŒmber
Riigiteataja - ei KÔigile robotitele on kogu sisu indekseerimine keelatud
Riigikohus 7 jah KÔigile robotitele on kogu sisu indekseerimine keelatud. Failis mÀrkus "# ohh meid ei indekseerita # infot leiate otse meie lehelt".
Osalusveeb - jah Puudub, suunatakse vealehele ĂŒmber
Eesti Pank 7 ei MÀÀratud vaid "crawl delay"
Riigikontroll 7 ei Ühele kataloogile on kĂ”ikidel robotitele juurdepÀÀs keelatud
Finantsinspektsioon 6 ei Puudub
Õiguskantsler 7 ei Puudub
Kohtud 6 jah KÔigile robotitele on kohtulahendite indekseerimine keelatud
Prokuratuur 6 jah Puudub, suunatakse esilehele ĂŒmber
Politsei 8 ei Puudub
Haridus- ja Teadusministeerium 8 ei Puudub
Justiitsministeerium 8 jah Puudub
Kaitseministeerium 7 jah Paarile kataloogile on kÔikidel robotitele juurdepÀÀs keelatud
Keskkonnaministeerium 7 jah Puudub
Kultuuriministeerium 8 ei Puudub
Majandus- ja kommunikatsiooniministeerium 7 ei Puudub, suunatakse mingile katkisele lehele ĂŒmber
PÔllumajandusministeerium 7 jah Paarile kataloogile on kÔikidel robotitele juurdepÀÀs keelatud, olemas viide sitemap.xml failile
Rahandusministeerium 7 ei Paarile kataloogile on kÔikidel robotitele juurdepÀÀs keelatud
Siseministeerium 6 jah Paarile kataloogile on kÔikidel robotitele juurdepÀÀs keelatud
Sotsiaalministeerium 7 jah Puudub
VÀlisministeerium 8 jah Paarile kataloogile on kÔikidel robotitele juurdepÀÀs keelatud

PÀris Àra on oma saidi indekseerimise keelanud vaid Riigikohus ja Riigiteataja.

Ma ei viitsi standardist otsida, aga ma arvan, et robots.txt ĂŒmbersuunamine mingile lehele ei ole sellega kĂŒll kooskĂ”las. Parem oleks siis juba viisakalt 404 veateade vĂ€ljastada.

Au ja kuulsus PÔllumajandusministeeriumile, kes ainsana oma robots.txt failis ka XML formaadis sisukaardile viitab.

* * *

Google pageranki aitas leida Pagerank Status Extension.

  1. 13 kommentaari postitusele "Eesti riigile ei meeldi otsingumootorid"

  2. Asja köögipoolelt leiab “Disallow *” puhul mĂ”nikord selliseid dialooge:
    “isver-susver, klient kaebab, et meie uus veebisĂŒsteem kannatab jĂ”udlusprobleemide kĂ€es. Aeglane nagu tatt!”
    “Jah, vaatasin andmebaasist ja veebiserverist, meil on vĂ€ga palju pĂ€ringuid. Aga nĂ€e, palju pĂ€ringuid on tegelikult mingid robotid”
    “Oh issand, ega me nende jaoks seda sĂŒsteemi ei ehitanud. Dokumentatsioon nĂ€eb kasutajatena ette ametnikud ja kodanikud. Lahendame probleemi robotite keelamisega”

    robots.txt kaudu keelatakse “andmebaasimahukad” lehed maha (teadupĂ€rast on enamus veebilehti sisuliselt andmebaasi frontendid), serverite load normaliseerub, probleem lahendet.

    kirjutas Martin 15.01.2009 @ 11:52

  3. Seda saab ju robots.txt kaudu mÀÀrata, et kui tihedalt robotid pĂ€ringuid teha vĂ”ivad… Seda tean isegi mina, kes ma pole mingi eriline webmaster.

    Siit tekib veel kĂŒsimus, et miks tellivad riigiasutused oma veebilehed mingite amatööride kĂ€est, kes ei suuda pĂ€ringuid optimeerida ja selle asemel hoopis robotite ligipÀÀsu keelavad?

    kirjutas Aarne 15.01.2009 @ 12:12

  4. Avalikud lehed, mille laadimisel kohe tehakse koormav pĂ€ring on nii vĂ”i teisiti potentsiaalsed probleemiallikad. Mis siis, kui crawleri asemel nt mĂ”ni vend ise naljaviluks lihtsa taaslaadiva skripti sellele kallale laseb? Ma mĂ€letan kord ĂŒht juhtumit, kus ĂŒks murelik kodanik kirjutas skripti kontrollimaks, kas ĂŒks teatud veebileht on ĂŒleval ja kĂ€ttesaadav. Plaan oli hea, aga ĂŒlitihe avalehe pĂ€rimine tekitas mĂ”ttetut liiklust. Samas kavatsused olid tal head ju…

    kirjutas aabram 15.01.2009 @ 13:23

  5. Nii palju siis palju kiidetud e-riigist…

    kirjutas TÔnu 15.01.2009 @ 14:26

  6. Su nimekirjast puudub Andmekaitse inspektsioon, kes blokeerib hulga ĂŒksikuid lehekĂŒlgi, sealhulgas andmekaitsjate endi kontakti- ja haridusandmed. JĂ€rsku peaks selle asutuse Enesekaitseametiks ĂŒmber nimetama?

    NĂŒĂŒd ma vist saan linkimise eest menetluse kaela.

    kirjutas Larko 15.01.2009 @ 14:53

  7. Tundub, et aki.ee puhul on lihtsalt saidi struktuuri ja aadressi muudetud. Nende uud aadress on http://www.dp.gov.ee. Kontaktandmed ja haridused on nĂ€htaval blokeerimata lehekĂŒlgedel.

    kirjutas Aarne 15.01.2009 @ 15:03

  8. @larko – kusjuures nĂŒĂŒd on aki robotites hoopis viide sitemap’ile, mis on ju lausa progressiivne (Saurus muideks vastas kunagi mu ĂŒlekutsele ning tegi tasuta sitemap’i-mootori, kĂ”igil Saurust pruukivatel riigiveebidel seega vaid installimise vaev)

    @aarne – tegelikult on aki.ee uus ja dp.gov vana; rÀÀkisin nende vanast kĂ”ike keelavast robots.txt’ist nii endise kui praeguse peadirektoriga ning kutsusin uue suhtejuhi oma vikid-ajaveebid-jne kursale, loodetavasti saab neist asja; rÀÀkisime nendega ka sellest, et peaks tegema miski ĂŒldise soovituse, et mida keelata – neid isikunimesid lekkivaid saite on palju, samas tekitaks keelamine olukorra kus standardit mitte austavad nuhid omavad rohkem infot kui nĂ€iteks isik ise, kes ei leia Google’i abil ĂŒles seda enda kohta kĂ€ivat infot mida nt ÄP ajakirjanik vĂ”iks korporatiivse otsinguga omada… vaja arutada

    Rahaminis on mÔned URLid tÔesti blokeeritud ja taotluslikult (hetkel mitteaktiivsed veebiosad). Natuke aega tagasi oli kÔik disallow, Martini kirjeldatud pÔhjusel muideks (alternatiivne selgitus on muideks spÀmmi vÀhendamine).

    Riigikohus tegeleb asjaga, loodetavasti saab lÀhipÀevil korda.

    Lisaks Aarne viidatutele on keelav robots ka (neti.ee Kain Kalju tegi kiire grepi oma robots.txt cachele ĂŒkspĂ€ev, tĂ€nud):

    http://www.kapo.ee
    http://www.kra.ee
    http://www.konkurentsiamet.ee
    http://www.rha.gov.ee
    http://www.teabeamet.ee
    http://www.riigikohus.ee
    http://www.tarturk.just.ee
    rvr.fin.ee
    register.fin.ee

    (rahamini registrid on niikuinii sisselogimisega, tahetakse et kodaniku sattuksid kirjeldavale lehele; rahamini allasutustega rahamini IT loodetavasti juba tegeleb; justminile on lĂ€inud kiri; aasta lĂ”pus oli mĂ€letamist mööda ka EAS, aga vist jĂ”udis miski kaudselt lĂ€hetatud vihje kohale; kapo ja teabeameti puhul on nĂ€htavasti loomupĂ€rane ent Ă”igustamatu turva-paranoia; kra vĂ”iks rohkem mĂ”elda kuidas poisse vĂ€eteenistusse vĂ”tta ja vĂ€hem otsimootoritega luurekat mĂ€ngida, eks ma pingin kamina kontakte kah…)

    kirjutas Peeter Marvet 17.01.2009 @ 21:09

  9. Tegelikult pole alati kĂ”ik nii must-valge. PĂ”hjusi miks ĂŒhel vĂ”i teisel juhul on nii vĂ”i teisiti toimitud vĂ”ib olla mitmeid. Kuid alati saab seljuhul asjaosaliste endi kĂ€est ise kĂŒsida. Kahjuks valis Peeter selleks kĂ”ige pikema tee – nimelt justiitsministri. Kuigi riigikohus pole justiitsministeeriumi haldusalas, vaid on eraldiseisev pĂ”hiseaduslik institutsioon. Miks kommunikatsioon seda rada lĂ€ks eks teab tema ise (justiitsminister > riigikohtu esimees > riigikohtu direktor > IT osak). Miks aga sai juba aastaid (pakun, et 5 aastat) tagasi riigikohtu kodulehe indekseerimise keeld pandud on hoopis teised asja olud, kui nii Peeter kui blogi autor Aarne pĂ”hjustena vĂ€lja on toonud. Kus juures ma pole seda kunagi isegi nii mĂ”elnud, et see aitab spĂ€mmi tĂ”rjuda vĂ”i jĂ”udluse puudumisest ĂŒlesaada. Selleks kaitseks on teised vahendid ja meetodid. Peamine pĂ”hjus peitub infos mida rk koduleht sisaldab. Need on kohutlahendid, mis on arusaadavalt rk pĂ”hitegevuseks. Nendes (sel ajal pea kĂ”igis) lahendites aga sisaldusid nimed. Ja nii vĂ”is sattuda isiku nimi ja rk lahend ostimootoreisse esimese vastena. Isegi kui inimene pole sĂŒĂŒditunnistatud, on tahtmatult kaasatud kohtuteele vĂ”i on juba oma karistuse kandnud on see seal ikkagi olemas. Ka ei pruugi tavainimene, kes sellise juriidilise jutu otsa satub sellest isegi Ă”igesti aru saada. See aga vĂ”ib hakkata mĂ”jutama kodaniku edasist elukĂ€iku. Ta vĂ”ib isegi kaotada töökoha.
    Tegelikult oli ka reaalselt kogu selle asja taga konkreetne juhtum. Praegune Ă”igusruum on kĂŒll tollasest erinev, sest on olems nii avalikuteabe seadus kui ka isikuandmekaitse seadus. Minu ja mitte ainult minu seisukohalt on need aga ĂŒsna vastuolulised. NĂ€iteks http://74.125.77.132/search?q=cache:NSQPiiLnBSYJ:eky.just.ee/failid/Kohtud%2520ja%2520ajakirjandus%252016.10.2007.ppt+andmekaitseseadus&hl=et&ct=clnk&cd=3&gl=ee
    Aastaid tagasi, kui see robots.txt sai tekitatud, sisaldas see “ohh” seda olgem ausad emotsiooni, mis oli seotud selle otsimootorite ja lahendidte leidmise jandi ĂŒmber. Ei leidunud juristi, kes oleks öelnud kuidas toimida. Olin isegi kurb, et rk kodulehe ajalugu ja areng ei salvestu internetis ( wayback machine ). Vaidlesin siis ka ise, et ĂŒsna raske ja pea vĂ”imatu on keelata indekseerimist kasvĂ”i nende jaoks, kes ei mĂ€ngi kokulepete jĂ€rgi. NĂŒĂŒd ja tĂ€na tĂ”lgendatakse seda aga ristivastupidiselt. Eks tollane lĂ€henemine pĂ”hines paljuski tolle hetke teadmistel oskustel ja tuginedes vana kodulehe ĂŒlesehitusel. Uue kodulehe valmistajad selle tehnilise nĂŒansi vĂ”tsid lihtsalt kaasa. KĂŒll on minu arvamus, et see robots.txt asi on teemapĂŒstitajate poolt eksitavalt kallutatud, et see mehanism justkui keelaks (rĂ”hk ongi sĂ”nal keelama) kodulehe kĂ€ttesaadavust. Kirjutage google’see sĂ”na riigikohus – see on seal olemas ja esimeste vastetena. Tahetakse jĂ€tta muljet, et robots.txt oleks juskui saatanast. Muideks nii google’l ja ka neti’l on robots.txt (http://www.google.com/robots.txt, . Ka Pets’i enda lehel on see olemas http://tehnokratt.net/robots.txt. Jah see viimane tegelikult lubab kĂ”ike. SĂŒntaksi mitte tundev isik aga ei pruugi sellest arusaada ning viite korral nĂ€eb ta, et probleem on ju olemas. robots.txt ei ole lukk ukse ees vaid on pigem kui silt muuseumi sisspÀÀsu juures, kus on kirjas, et vĂ€lguga pildistada pole lubatud.
    LĂ”petuseks olen nĂ”us sellega, et selle robots.txt sĂŒntaksit vĂ”iks muuta leebemaks. Aga ma ei taha ka endale jalga tulistada. Veel vĂ€hem mĂ”jutada teiste elusid. Aga ma luban, et tegelen teemaga edasi ning leida lahendused, et veel rohkem infot oleks otsimootorite abil leitav.

    Argo

    kirjutas Argo 18.01.2009 @ 13:15

  10. @Argo – TĂ”epoolest, kett sai tiba pikk tingituna sellest, et olen juba mĂ”ned kuud teemat torkinud ning omades teatavat kogemust torkimise efektiivsusega eskaleerin pigem ĂŒle. Nagu ma aru saan on see robots.txt keelav juba Ă”ige mitu aastat ning ega ĂŒkski teema iseenesest prioriteetseks ei muutu (ja nĂŒĂŒd ei ole see enam Sinu mure, vaid on igal tasemel teadvustatud avalik huvi mida saab arnedusplaani sisse kirjutada).

    See “justnagu keelaks kodulehe kĂ€ttesaadavust” tuleks aga veidi sĂŒgavamalt lahti mĂ”elda, sest eeldus “kasutaja tuleb minu veebi ja otsib siit midagi” oli aktuaalne suurportaalide ajastul (ja kehtis ka siis ainult suurportaalide kohta). Kasutaja ei otsi Riigikohust vaid lahendust mingile probleemile, kusjuures Riigikohtu lahend vĂ”ib olla ĂŒks osa vastusest.

    Sisuliselt on meil tegu usability-probleemiga mis tingitud sellest, et IT on valinud nende ees seisvate ĂŒlesannete tĂ€itmiseks lahenduse mis on ITle mugav ja … who cares kasutaja ning avaliku teabe seaduse mĂ”te?

    Seega on vaja – nĂ€iteks AKI eestvedamisel – panna kokku avaliku teabe avalikustamise pĂ”himĂ”tted. Sellest tuleneb tehniline spekk praktiliste rakenduse jaoks ja siis on vĂ”imalik hakata neid kenasti ĂŒmber kirjutama vĂ”i vĂ”tta aluseks vahest hoopis midagi kusagil olemasolevat :-)

    kirjutas Peeter Marvet 19.01.2009 @ 16:28

  11. Arne:
    Rahandusministeeriumi haldusala (sh Statistikaameti) veeb elab Sauruse otsas. Sauruse poolne soovitus oli robot.txt abil veebi indekseerimine kinni keerata (vaidlesin RM adminnidega, miks seda teha ei tohi, ĂŒsna pikalt). Kas Sa vĂ€idad, et Sauruse tĂŒĂŒbid on amatöörid? :)

    Argo:
    Nii haiget selgitust pole ma veel enne nĂ€inud :( KĂ”ik kohtulahendid on avalik informatsioon ning nende indekseerimise keelamine on tegelikult vesi vaikiva ajastu sĂŒnnile. Muide mis takistab mind kirjutamast robotit, mis robots.txt faili ignoreerib? Sellised robotid on spĂ€mmerite hulgas vĂ€gagi levinud.

    Samuti, mis takistab mind kogu veebi kĂ”ige tĂ€ega allalaadimast? Muide, 2002 vĂ”i 2003 aastal pöörduti minu poole (ma töötasin siis AKI-s). Probleem oli selles, et keegi oli kola veebi tĂ€iega alla tĂ”mmanud ning sealsetest lahenditest andmebaasi tekitanud (nimi, isikukood, kohtumenetluse aeg, sĂŒĂŒdistus, karistus, + veel mĂ”ned detailid). Seda andmebaasi mĂŒĂŒdi CD-peal personalijuhtidele, hind oli mingi 600 eek tĂŒkk.

    kirjutas hillarp 22.02.2009 @ 15:47

  12. Mina vÀidan, et jÔudluseprobleemide lahendamine robots.txt abil on vale.

    kirjutas Aarne 22.02.2009 @ 18:22

  13. vale jah

    kirjutas margus 12.11.2009 @ 23:06

  14. Asja sest robotist. Julgeoleku postkast on selline: https://www.teabeamet.ee/

    kirjutas TÔnu Samuel 10.03.2013 @ 4:27

Kommenteeri postitust