Na fulltextu centrum je zajimave to, ze asi jako jediny indexuje i pdf
dokumenty.
Nevim, je-li to dobre nebo spatne.
V kazdem pripade to znamena, ze si administratori musi zapsat
do robots.txt pedeefka, ktera se nemaji indexovat - treba my mame
stovky megabajtu katalogovych listu, ktere nema smysl indexovat.
> Na fulltextu centrum je zajimave to, ze asi jako jediny
> indexuje i pdf dokumenty. Nevim, je-li to dobre nebo spatne.
> V kazdem pripade to znamena, ze si administratori musi zapsat do
> robots.txt pedeefka, ktera se nemaji indexovat - treba my mame
> stovky megabajtu katalogovych listu, ktere nema smysl indexovat.
Nemusi. Staci, kdyz u dokumentu bude uveden spravny Content-type.
Pokud neci server o PDF tvrdi, ze jsou typu text/html, pak
se nelze divit, ze je prohledavac naindexuje.
Davat do robots.txt PDF dokumenty je prinejmensim neprozirave,
protoze drive nebo pozdeji se objevi prohledavace, ktere budou
schopny indexovat i text v nich obsazeny. To, ze nektere prohledavace
indexuji nektera PDF jako text, je ovsem obvykle zpusobeno chybne
nakonfigurovanymi HTTP servery, ktere u PDF uvadeji content-type text/plain.
Tak ted jsem dokonale zmaten. Jednak nae pdf davaji Content-type: application/pdf
druhak pri dotazu mi bylo sdeleno, ze skutecne pdf jsou indexovana. Ale v clanku se
pise, ze Martin Mares je (spolu)autorem a ze by to nevedel?
A k tomu robots.txt - to zalezi, co v tech pdf je. Pokud to jsou katalogove listy elektronickych
soucastek, tak ty myslim opravdu nema cenu indexovat. Navody a manualy mozna ano.
Je pravdepodobne, ze jste v logu pozorovali stazeni .pdf souboru, ktere ve skutecnosti bylo jen prenesenim
hlavicky dokumentu -- indexovaci robot pote rozpoznal, ze se jedna o nepodporovany typ souboru a spojeni
ukoncil. Kazdopadne nyni jiz jsou pdf soubory filtrovany na urovni jmen, alespon do te doby nez je skutecne budeme
umet zpracovavat.
Za druhe: myslim si, ze i katalogove listy soucastek stoji za to indexovat -- nebo se snad necim vyrazne lisi od ostatnich
informaci na Internetu vystavovanych?