Mozna bych se katalogu Klikni i zastal. Chyby tam jsou, stejne jako u ostatnich. Ale vetsina odkazu je imho dobre zarazena a slusne popsana.
Rozdil mezi tim, zda si popisek pise sam webmaster nebo nezavisly studentik, samozrejme je. Ale co NENI jednoznacne, je, ktery zaznam je lepsi. Osobne si myslim, ze kdyz popisek napise nekdo nezavisly, ktery svou vec ovlada, je to pro uzivatele katalogu lepsi (viz DMOZ.org, treba i ceska sekce).
A navic, tempo 14 odkazu za hodinu (1 za 5 minut) bych rozhodne nenazval vrazedne (to je spis ta cena, kterou za to zaplatili :) ). Meli by si radeji koupit/vyvinout fulltext...
"Meli by si radeji koupit/vyvinout fulltext..." ... koupit ten vas? ;-) Jenze me pripada, ze lide nejsou zatim tolik pokrocili, aby masivne pouzivali fulltext a dostavali pertinentni odkazy, byli spokojeni s tim, co jim fulltext vrati. U nas stezeji cast vyhledavani pripada na katalogy. Vzdyt se staci podivat na Seznam, ktery uz tri roku nehnul se svym Kompasem. Jedine Centrum ma dobry fulltext, dokonce druhy nejvetsi portal v Madarsku, index.hu, bude snad mit jejich technologii (pokud jsem spravne pochopil). Osobne se ale domivam, ze lokalni fulltexty jsou odsouzene k zaniku a ze globalni celosvetove fulltexty jako Google ci Fast jsou spravnym smerem, kam se bude obor ubirat. Plus specializovane celosvetove oborove fulltexty.
Sbirat kazdy tyden cesky web, ty obrovske desitky GB dat, aby pak hledalo par lidi, protoze kdo chce opravdu najit, nebude se omezovat na informace pouze .cz,potamzo informace v cestine.
Navic vyvinout a udrzovat _opravdu kvalitni_ fulltext je drazsi. A myslim, ze napr. kroky RedBoxu, ktery radeji outsourcuje, to dokazuji. RedBox je pro obycejne lidi, kteri treba ani neznaji Google anepoznaji, ze RedBox je jen jeho prevlek s nastavenym filtrem.
iDnes se neda uprit originalita v cleneni podle kraju, ktere ve clanku nezminuji. Nabizi se ale otazka - opravdu dokazi katalogizatori behem par minut zjistit i trhy, na kterych spolecnost pusobi, naprosto spravne? Zde se domnivam, ze nejde nez se te firmy dotazat primo.
S temi desitkami GB tydne to zas tak hrozne neni - odhadem 30GB celkem. Tydenni update take nikdo v Cechach nedela. S ostatnim v podstate bez vyhrad souhlasim. Akorat si myslim, ze opravdu kvalitni fulltext muze byt praktictejsi i pro laicke uzivatele - zvlast pokud je s katalogem dobre provazan, coz je take soucasny trend. Odkud mate tu informaci s madarskym portalem? Je to dohoda Martina Marese nebo Centra?
Vyplynulo mi to z vcerejsi prednasky Johna Gridleyho z NetCentra na konferenci "e-Business Strategies and Implementation". Jak je to ale uplne presne, kdo co a za kolik asi nikdo nerekne i kdyz si myslim, ze NetCentrum se chysta prozradit neco vice v nejblizsi dobe. Jinak o spolupraci vysel jiz clanek napriklad v Prague Business Journal. Podle vseho (a napr. podle teto informace z cervna 2000" :-))) ) je to diky Intelu, ktery v Index.hu ziskal podil.
Je videt, ze penize od Intelu byly opravdu "smart money".
Z naší zkušenosti: každý milion stránek je asi 10GB dat. Víc než 4-5 mil. stránek nemá smysl na českém internetu indexovat, indexovali byste balast generovaný různými skripty. Problém není v tom data každý týden stáhnout, problém je v tom, že pokud to budete dělat moc často, začnou vám majitelé rozsáhlejších serverů připojených placenými linkami do firem nadávat, že jim linku zbytečně zatěžujete nebo že vámi stahovaná data musejí platit.
Diky za odkazy (ten prvni sice ma o ceskem internetu dost zkreslene predstavy - pry pred centrem existovali jen dva portaly). Na index.hu to skutecne uz jede (centrum tak bude mit silnou motivaci vyvijet svuj fulltext dal - nektere posuny myslim uz pozoruji, o dalsich pripravovanych si prectete v zitrejsim clanku).
"...vám majitelé rozsáhlejších serverů připojených placenými linkami do firem nadávat..."
To je samozrejme nesmysl. Pokud ti uzivatele budou schopni zjistit, kdoze jim to loupe pernik, budou jiste schopni zajistit /robots.txt, ktere urcite dodrzujete (pokud snad nejaky fulltext ne, zaslouzi odstrelit).
Neni nutne indexovat kazdy tyden, muzete postupovat treba na zaklade frekvence zmen danych stranek, ale to uz je trochu umele inteligence :))
Co ovsem bude smrtonosne bude patrne pretezovani ci shazovani (M$) webu z duvodu session...
Co se tyce balastu, obecne se ma za to, ze databaze se vyznacuje "?" v URL (i kdyz to nemusi byt nutne pravda) a neindexuje se (av.com). Ale v ceskych pomerech je to jen otazka toho, zda na to mate kapacitu ci nemate... Zatim zda se mate...
Ohledne hledani - to je super. (kam se hrabou ostatni...)Jen trochu vice customizovat uzivatelsky interface...
A take, vedle vzorkovani textu, zobrazujte descriptions a berte v potaz Keywords a nebude to mit chybu.