Suured muutused netimaastikul

Olen juba mõnda aega mõningate otsingufraaside kohta uurinud, et palju neile erinevatest otsingumootoritest vastuseid tuleb. Nüüd, kus olen juba kaheksal korral oma tulemuste tabelit täitnud, on aeg väikeseks kokkuvõtteks.

Otsingumootoriteks valisin Google.com, Neti.ee, Technorati.com ja Blog.tr.ee. Otsingufraasid on alati ühesugused ja jutumärkides. Praegu kajastan siin ainult erinevate otsingufraaside tulemuste summasid ilma konkreetseid fraase välja toomata. Kokku otsisin igast otsingumootorist 43 erinevat fraasi.

Otsingud on tehtud iga 2 nädala tagant, alates 24.10.2007 kuni 30.01.2008. Kellaaeg on olnud 17:00 ja 20:00 vahel. Graafikute joonistamiseks kasutatud numbrid on ära toodud postituse lõpus.

Google.com

Google.com otsingutulemuste arv

Umbes 100 päeva jooksul on otsingutulemuste arv kukkunud 12 620 427 pealt 2 942 399 peale. Minimaalse ja maksimaalse tulemuse vahe on ~4.5 kordne. Kes seda seletada oskab, on lahkelt palutud kommentaari jätma.

Neti.ee

Neti.ee otsingutulemuste arv

Tundub, et viimasel ajal ei uuenda Neti.ee oma andmeid enam real-ajas. Muudmoodi ei oska ma küll seletada seda, et 19.12.2007 ja 02.01.2208 tulemused on täpselt samad. Samuti on samad 16.01.2008 ja 30.01.2008 tulemused. Muidu on graafik üsna tasane, juurdekasv perioodi algusest on ~64 400 tulemust. Nii palju võiks otsingufraase sisaldavate lehtede juurdekasv reaalselt olla küll. Minimaalse ja maksimaalse tulemuse vahe on ~1.1 kordne.

Technorati.com

Technorati.com otsingutulemuste arv

Jälle üks kena ja suhteliselt tasane graafik. Minimaalse ja maksimaalse tulemuse vahe on ~1.7 kordne. Ka niisugune tulemus peaks enam-vähem reaalsusega kooskõlas olema.

Blog.tr.ee

Blog.tr.ee otsingutulemuste arv

Tean, et Blog.tr.ee ei ole otsingumootor, aga mingil määral peaks ta Eesti blogimaastikul toimuvat kajastama ikka. Võib-olla visatakse otsingubaasist mingi aja tagant vanemad andmed välja... Minimaalse ja maksimaalse tulemuse vahe on ~28.2 kordne.

* * *

Kasutatud andmed:

ANDMED 24.10.2007 7.11.2007 21.11.2007 05.12.2007 19.12.2007 02.01.2008 16.01.2008 30.01.2008
Google 12 620 427 12 961 308 12 600 836 11 181 656 9 625 333 3 820 789 2 861 535 2 942 399
Neti 539 476 558 153 563 601 556 611 580 850 580 850 603 937 603 937
Technorati 1 101 1 044 997 879 1 472 1 415 1 395 1 469
Blog.tr.ee 630 761 296 359 80 27 93 209

Neti.ee ja Technorati tulemuste arv on enamvähem stabiilne. Millest tulevad Google ja Blog.tr.ee tulemustes niisugused suured vahe ei oska ma küll arvata.

Käesolev postitus on inspireeritud mu postitusele Liis Lass EI OLE vaese mehe Carmen Kass jäetud kommentaarist.

Sildid , , , , , , , ,
5 comments on “Suured muutused netimaastikul
  1. Kristo ütleb:

    blog.tr.ee suurem kalamine sattus samasse aega. Topelt postid jne jne. Pealegi blog.tr.ee otsib andmeid ainult nende kirjete seest, mis nende juurest on läbi käinud.
    Mis puutub google’sse, siis seal viimasel ajal päris tihti vistakse/võetakse kirjeid juurde. Enam ei ole nii, et mitme kuu tagant tehakse muudatusi (andmete indeskeerimiste valmites). Kohati käivad asjad üle päeviti. Samas võib süüdi olla ka see, et kõik google serverid ei ole 100% süncis. Nii võid saada näiteks kell 17:00 töölt minneks 3 000 vastest. Kodus samale päringile 2 500 vastest. Oleneb sellest, millise serveri otsa sind parasjagu pandi.

  2. Gunnar ütleb:

    Google’i puhul on asi lihtne:

    1) neil on palju servereid ning need ei pruugi olla sünkroonis
    2) Google’i serverid ei jooksuta kõik ühte ja sama versiooni otsingualgoritmist (seda juhtusin lugema Google’i blogidest)
    3) Google’il on olemas load-balancing ning seega puudub sul päris kindlasti info selle kohta, milline konkreetne server sulle sellel või tollel korral tulemused andis (see on minu oletus)
    4) Google “puhastab” oma indeksit nii käsitöö kui tehnika abil. Kui nüüd on leidnud aset mingile märksõnale vastavate lehekülgede arvu järsk kahanemine, siis võib arvata, et ühe pauguga kadus indeksist hulk spämmi (näiteks)

  3. andris ütleb:

    Blog.tr.ee puhul on samuti asi lihtne – otsing kajastab vaid uuemaid postitusi. Nimelt hakkas too indeks kole palju kettaruumi tahtma ja me pole siiski otsingusait. Nii et tuli vanade postituste sisu andmebaasis gzip-ga kokku lükata – selle seest aga väga kergelt otsida enam ei saa.

    1000 postitust pakitult võtab andmebaasis ruumi 1 MB, aga 1000 postitust FULLTEXT indeksiga võtab 5MB. Mingist hetkest annab see 5 kordne vahe päris tugevalt tunda.

  4. Aarne ütleb:

    OK. Blog.tr.ee’ga on asjad selged.

    Google tulemuste suurte erinevuste erinevate serverite või spämmi eemaldamise põhjendamist ei tahaks hästi uskuda. Otsingufraasid ei olnud niisugused, mida spämmis kahtlustada võiks.

    Näiteks Google otsing “Toomas Hendrik Ilves” andis 24.10.2007 77 100 vastet ja 30.01.2008
    225 000 vastet. Otsing “Eesti Keskerakond” andis 24.10.2007 1 810 000 vastet ja 30.01.2008 297 000 vastet.

  5. Gunnar ütleb:

    Otsingufraasid ei peagi midagi kahtlast olema. On terve ladu saite, mis käivad teistest saitidest sisu pumpamas, et muuta enda domeen võimalikult erinevate märksõnade alt leitavaks. Ei imesta, kui siingi sama probleem oli. Millegi pärast on neid saavutisi just viimase paari nädala jooksul kuidagi olematult väheks jäänud.

    See pole kindlasti ainus probleem, millega Google’il võidelda tuleb. Esikohal olijana on neil paraku suurim surve peal. Võitlus käib koguaeg ja seepärast muutuvad ka need numbrid.

Kommenteeri: