Pro prostorove dotazy: "Kde do 3 km od meho bydliste je hospoda?" existuji prostorove databaze, ktere se ruznym zpusobem (pomoci obdelniku, lichobezniku) snazi aproximovat Eukleidovsky prostor. Jednotlive oblasti pak lze seskupovat do vetsich a taky vytvaret vyhledavaci stromy (R-stromy, prostorove obdoby B-stromu)
... Alespon neco malo, co mi utkvelo v pameti ze skoly
Otazkou je, kdo bude takova data zadavat, resp. kde je dneska vezmeme. Ikdyz hospody by slo udelat asi automaticky: Zlute Stranky -> PSC -> Mapa CR.
Ad: Otazkou je, kdo bude takova data zadavat?
Správně položená otázka. A já bych rád naznačil, že nikdo. Všechny stránky, u kterých je prostorová či časová informace relevantní, ji totiž už dnes obsahují. Neznám aspoň ani jednu stránku hotelu či hospody, ze které by se nepoznalo, kde dotyčný podnik je. A pak je to o dotvoření logiky crawlerů, aby dokázaly časovou či prostorovou informaci identifikovat a zpracovat. Například pokud by našly něco, co vypadá jako adresa, porovnaly by ji s rejstříkem adres, který dnes už existuje, a ze kterého by se v případě shody vzaly geografické souřadnice.
Tady je podle mého velké místo na trhu a možnost vymyslet, jak by takový algoritmus mohl vypadat. Mohl by obsahovat i kontrolní mechanismus na základě P2P schématu - pokud nějaký uživatel zjistí, že se systém totálně spletl, bude mít možnost a hlavně i motivaci takovouto chybu ohlásit a napravit. Podobný mechanismus by už byl "neprůstřelný". Výsledná databáze prostorových informací by pak byla nenahraditelným zdrojem pro nejrůznější vyhledávací služby.
PS: Nevylučuji, že v budoucnu se ujme standard, jak označovat relevantní časovou či prostorovou informaci pro daný text přímo na dané stránce a přímo jejím tvůrcem. Ale ten se ujme právě proto, že se s touto informací začne ve vyhledávačích rutinně pracovat,právě díky zmíněným nástrojům pro "dolování" časoprostorové informace. Do té doby totiž nebudou mít tvůrci stránek motivaci takový standard používat.
I tato databáze by mohla být jedním ze zdrojů geografických dat pro případný "dolovací" mechanismus. Ale asi ničím více - jde o databázi, kam si tvůrci stránek mají zaregistrovat své stránky podle zeměpisné polohy. Nejde tedy o nic více a nic méně, než o jeden z možných standardů, jak naše stránky geograficky začlenit.
Chtělo by to však skok - dostat se k systému, který by byl používán opravdu masově a univerzálně. Těžko se najednou všichni uživatelé rozhodnou začít používat některý ze standardů hromadně. K tomu musí mít motivaci - například v silném vyhledávači, který s takovou informací úspěšně pracuje a který stránky s takovou informací zvýhodní. Ale takový vyhledávač nejprve potřebuje geograficky začlenit většinu internetového obsahu, kde to dává smysl, i bez aktivní účasti tvůrců stránek. A to je přesně služba, která zde dnes chybí.
Na VŠE se mimo jiné vyvíjí systém, který dokáže na WWW stránce identifikovat adresu - to je řešením, jak identifikovat polohu objektu. Další informace by se mohly hledat v metainformacích stránek - potřebné jazyky pro to určitě existují, ale nepoužívají se masově.
Co se týká vyhledávání podle názvu hl. města či oblasti - toto řeší tezaury. Pokud se do vyhledávání dosadí tezaurus, dokázal by udělat substituci ve vyhledávání - pokud zadám Praha, bude se hledat Praha OR Prague OR "hlavní město ČR" (použití vazby asociace tezauru) ... Podobně při hledání města ve středních Čechách by mohl hledat stránku s jakýmkoliv městem stř. Čech (použití vazby nadřazený/podřízený termín tezauru). Jde jen o to vytvořit/použít takovýto tezaurus.
Podobně by mohl vyhledávací stroj substituovat termín "včera" za včera or "12. 5. 2003" OR "2003/05/12" ...