Mozna Vas prekvapi, ze s Vami budu souhlasit. Mate pravdu, ale ne vsechny HTML stranky jsou dobre napsane. A i ty, ktere jsou, maji casto nerelevantni ALT se svym skutecnym obsahem. Pokud pak stroj uvazi ALT stejne silne bez ohledu na "okolni text" (a tady s Vami nesouhlasim, ze tento problem je stejny jako relevance "textu" vuci "textu" dokumentu), je zmaten stejne jako napr. pri floodingu keywords.
Napr. bannery (ty jsou na vetsine komercnich serveru, ktere pokryvaji vice jak polovinu obsahu www) obsahuji u svych ALT nerelevantni slova. Nehlede na to, ze tataz slova jsou pak na velke vetsine z nich (to pak muze snizit jejich unikatnost).
Bud jde o slova recenzenta (viz svet.namodro.cz - cerveny banner blesk.cz ma v ALTu slovo blesk nesouvisejici s textem), nebo jde o standardni fraze (napr. nektere bannerove systemy doplnuji sve zvlastni identifikace kampani).
Indexujete-li akademickou sit, klidne muzete ALT pojmout do textu `'as-is`'. Ovsem pres cely www bych to bez uvazeni relevance vuci zbylemu textu stanky necinil.
Pozn.: neustale ale hovorim o systemu, ktery nedisponuje doprovodnymi technikami, ktere by byt neprimo redukovaly silu termu. napr. pokud na nej neodkazuji dalsi stranky s tymz termem atp.
Obávám se, že s vámi nemohu souhlasit. ALT není "atypická položka". ALT je standardní textová alternativa obrázku určená těm, kteří nejsou schopni obrázek vnímat. Kromě nevidomých a uživatelů textových prohlížečů se jedná právě o automatizované roboty.
Stránka zobrazená v textovém prohlížeči (tj. s ALTy) by měla dávat stejný smysl, jako tatáž stránka zobrazená s obrázky. Častým případem např. je, že jsou hlavní nadpisy stránek (pro SE velmi důležité) provedeny obrázkem a ALT pak obsahuje tentýž text, jako daný obrázek. Totéž se týká odkazů v hlavním menu, které jsou kvůli rollover efektu také často obrázkové.
U správně navržených HTML dokumentů tedy často nelze věrně a úplnně indexovat jejich obsah, pokud robot ALTy ignoruje. Nic na tom nemění ani to, že mnoho autorů stránek používá ALTy chybně a dává do nich informace, o kterých píšete. Kdybychom připustili, že je správné eliminovat při indexování všechny potenciální bláboly, pak by se nemělo indexovat nic, protože velmi často bývá nesmyslná většina normálního textu stránky ;-)
Tím odpovídám i na váš argument, že "neni znama kvalitni technika, ktera rozsoudi, zda je text z ALT v souvislosti s dokumentem". Je-li to pravda, pak ani nemůže být známa metoda, která rozsoudí, zda je v souvislosti s dokumentem cokoli v jeho normálním textu. Sám uvádíte příklad se slovem "Menu", ale to se přeci vyskytuje v textové podobě ještě častěji, než jako ALT.
Ten duvod vidim v naslednem semantickem vyznamu textu. Chvili budu muset nyni operovat s tvrzenimi, ktere zde nelze plne prokazat, ale snad se shodneme, ze:
1. ALT je atypicka polozka, ktera obsahuje atypicka slova, ba mnohdy i jiny slovnik nez vlastni text (zkratky, oznaceni od designera HTML, technicky popis obrazku od grafika atp.)
2. ALT casto skryva text, ktery se strankou nesouvisi (jde napr. o ALT od bannerove reklamy), a nemusi se tam vubec objevit, kdyz stranku hledac-osoba navstivi
3. neni znama kvalitni technika, ktera rozsoudi, zda je text z ALT v souvislosti s dokumentem (existuji sice jiste pokusy s entropii, ale neni znamo, co se stane, kdyz to aplikujete na velke corpusy)
Protoze pak seznam.cz zadnym zpusobem neprovadi analyzu vstupnich uzlu pro termy (jako napr. google), je do znacne miry zmaten z kazdeho textu, tedy i toho v ALT.
Za fatalni to pak povazuji ne jako metodu samu o sobe, ale jako metodu pouzitou v urcite implementaci. Proto take rozumim tomu, ze nektere vyhledavace metodu maji, jine ne. Zavisi na tom, co maji tyto stroje "okolo" za moduly.
Priklad IMG.ALT: http://www.volny.cz/atelierfgt/
V ALT je "MENU-CZ", ale menu je spise slovo vhodne k akceptovani, je-li stranka o gastronomii (nebo lepe kdyz je to nabidka kavarny, restaurace atp.), nikoliv o foto atelieru. Protoze by pri HITS analyze nas priklad spadl do skupiny "atelieru", nemohlo by se stat, ze by term nesouvisejici s ateliery (MENU) byl stejne relevantni jako text. Tim by doslo ke kompenzaci, kterou seznam neimplementuje, a proto jsem pouzil vyraz "fatalni".
Pane Pánku, mohu se zeptat, proč považujete indexování obsahu atributu ALT značky IMG a skutečnost, že je mu přikládána stejná váha jako běžnému textu, za fatální chybu?
Chápu, že odpověď na tuto otázku nemusí být jednoznačná -- některé významné vyhledavače ALTy respektují (Google, AltaVista), jiné ho ignorují (Excite, FAST, Inktomi) -- nicméně faktem zůstává, že z hlediska HTML, je ALT plnohodnotný text, zcela rovnocený ostatnímu textu na stránce.