Vlákno názorů k článku Nové paradigma internetových aplikací od Václav Dvořák - Aktuálnost indexu je jistě dobrá věc, ale jako...

  • Článek je starý, nové názory již nelze přidávat.
  • 5. 9. 2000 21:02

    Václav Dvořák (neregistrovaný)
    Aktuálnost indexu je jistě dobrá věc, ale jako podstatnější výhoda Napsteru & spol. mi připadá spíše to, že velmi usnadňuje "publikování" a "replikaci". Tj. uživatel, který si nainstaluje Napster, tak pravděpodobně činí především pro svůj prospěch (aby si stáhnul MP3ky), ale pokud nezmění nastavení, tak to, co si stáhne, zároveň poskytuje dále ostatním. Navíc triviálním nastavením (které je dost možná přímo součástí instalace?) poskytuje ostatním i ostatní svou hudbu. To mi připadá to podstatné: poskytování obsahu (a indexu) je víceméně automatické, bezproblémové, téměř bez vlastního přičinění, v podstatě jako "vedlejší efekt". Pravděpodobně právě díky tomu je databáze Napsteru tak bohatá.

    Udělat distribuovanou síť vzájemně spolupracujících, částečně redundantních vyhledávacích, indexovacích či jiných serverů mi připadá jako čistě technický problém, jistě již mnohokrát vyřešený. Zajímavější je vymyslet co konkrétně, proč, jak pro to lidi zaujmout, jak to ufinancovat, jak na tom případně i vydělat.

    Napadla mě zajímavá myšlenka: nejrozšířenějším webovým serverem je Apache. Apache je dostupný včetně zdrojáků. Kdyby k němu někdo napsal modul, který by, jsa triviálním způsobem nakonfigurován, automaticky indexoval svůj vlastní obsah a přispíval jím do sítě vyhledávačů zmíněné v předchozím odstavci... A v ideálním případě, kdyby tento modul byl časem zařazen do oficiální distribure Apache... Časem, kdyby se toto rozšířilo, bychom měli možná nejúplnější a nejaktuálnější možný index a vyhledávač.

    Navíc, každý takto přispívající server by měl pro indexování k dispozici daleko více kapacity, než centrální server, a mohl by tedy nad obsahem provádět složitější operace. Například... Dnes jsem (díky jiné diskusi zde na Lupě :-) ) narazil na Ústav českého národního korpusu, ucnk.ff.cuni.cz. Byl jsem fascinován zjištěním, co všechno to umožňuje - ve stručnosti, zadáte české slovo a dostanete jeho základní tvar, popis původního tvaru a několik různých významů s popisem. Zadáte slovo i s kontextem, a dostanete vybraný ten správný význam!

    BTW: Připojuji se k tomu "viz". Je to normální sloveso v přikazovacím způsobu, za ním se nepíše tečka ani první pád, nýbrž čtvrtý pád! (Viz koho/co, slyš koho/co.)

    Uf, to mělo být "narychlo"... :-)
  • 6. 9. 2000 0:25

    Libor Novacek (neregistrovaný)
    1. co se tyce "nejúplnějšího a nejaktuálnějšího možneho indexu a vyhledávače" - to je sen kazdeho, ktery se vam rozplyne, kdyz si prectete skvele clanky Dr. Lawrence ( http://www.neci.nj.nec.com/homepages/lawrence ), publikovane v casopise Science. Nejvetsi vyhledavace indexuji cca po 1/3 statickych stranek, k dynamickym se nedostanou vubec (tech je temer nekonecno a cim dal vice stranek se meni v aplikace s daty generovanymi z databazi - tezko je nekam poslete, kdyz jsou to mnohdy GB dat). Zatimco nic netusici majitel stranky ma tedy jistou sanci, dostat se prirozene diky nejakym odkazum z jinych stranek do fulltextove datbaze, kdyby toto byla starost lidi, kteri by museli nejaka data nechat zpracovat a odeslat kamsi "vyse", obavam se, ze by to moc dobre nedopadlo. A ze by se skoro nic neusetrilo - vyhazeni HTML prikazu nic neresi - nekde se bere v uvahu i jakym HTML kodem je text obklopen a zda to udela nejaky lokalni SW a pak se nekde budou data tlacit ve fronte - to stale vidim jako lepsi reseni,ze si robot sam urci kdy a co udela. Staci se podivat na vyuzivani META tagu ve strankach - tady bych bojoval za jejich vetsi rozsireni - treba popisek do Seznamu by si mohl Seznam prebirat sam pri tvorbe fulltextu prave diky META tagu. Nikdo jiny nez clovek sam (=majitel stranek) neprovede lepe obsahovou analyzu a popis svych stranek, ktere do seznamu pridava. Sam jsem nasel nami provozovane weby v katalozich, kde jejich prezentace byla znacne zkreslena - protoze ji provadel clovek, ktery mel minutu na to, aby mohl rychle vytvorit popis a sup na dalsi. Jako kdyby nekdo napsal, ze Lupa.cz je server pro optiky ;-) Lidskou praci pri tvorbe katalogu nelze (zatim?) vyradit. Mozna jednou budou stroje indexovat 99% webu, ale musi se zmenit i uzivatele. Pokud je dnes polovina dotazu do fulltextu pouhe jedine slovo nebo neznaji poradne rozdil mezi katalogem a fulltextem, co k tomu dodat? Projekty jako AskJeevs, ktere pracuji s prirozenym jazykem se zatim moc nevyznamenaly, navic pro cestinu je treba prvotnim predpokladem dokonale zpracovany jazykovy korpus - ten na FF UK je vazne skvely, u nich primo (ve sklepe v budove FF UK na Palachove namesti) se toho da provadet jeste mnohem vice, nez co muzou lidi delat pres web. Mam tam znameho a mozna by mohl neco na Lupu o korpusu napsat, pokud by to tu nekoho zajimalo - nebo se toho ujmu ja, az bude cas.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).