Vlákno názorů k článku Hledání nejlepšího hledače (4) od Vít Zvánovec - Možná se pořád nevyjadřuji dost jasně. Taky se...

  • Článek je starý, nové názory již nelze přidávat.
  • 26. 3. 2001 17:33

    Vít Zvánovec (neregistrovaný)
    Možná se pořád nevyjadřuji dost jasně. Taky se mi zdá, že naše debata sklouzává k otázce zobrazovaní znaků na webu, což zcela jistě není problém, který by měl řešit Váš vyhledávač.
    K zobrazení znaků. Jde jen o to, aby pohlížeč zvládl ZÁROVEŇ zobrazit è a e s háčkem (ě); ç a c s háčkem (č) apod. To MSIE umí, zatímco NN ne.
    Vaše řešení diakritiky proto nechci nijak kritisovat a mrzí mne, že se debata na to stočila. Jde totiž o něco úplně jiného: o české slovní kmeny, u nichž se při skloňování či časování mění hláska. A právě to Váš vyhledávač nezvládá.
  • 23. 3. 2001 11:29

    Michal Illich (neregistrovaný)
    Opera ma v tomhle dost co dohanet, nevim, proc jeji autori nezvolili stejne reseni jako NN, MSIE nebo Mozilla. Co se tyce vice kodovani na jedne strance, tak neexistuje zpusob, jak takovou stranku napsat, aby byla podle standardu HTML, neco takoveho podporovat je tedy zbytecne (a podle me nemozne).

    Odpovim: "Byt ci nebyt" je podle me u nas resen - my najdeme vsechna ruzna doplneni tech slov - jak bydleni, tak existenci. Z kontextu se podle me pak nejlepe pozna, co dany uzivatel myslel - u "byt ci nebyt" je to filosof ci literat, u "moderni byt" hleda neco o bydleni.

    Zatimco prisne drzeni se diakritiky neresi tyto tri problemy:

    - uzivatele diakritiku nepouzivaji
    - browser diakritiku neumi
    - dokumenty bez diakritiky (ale o Shakespearovi)

    Dlouho jsme zvazovali ruzna reseni a toto nam prislo nejspravnejsi, nebylo to tedy zadne "neumime naprogramovat diakritiku" (toto reseni bylo ve skutecnosti o neco obtiznejsi, spousta konvertovani).

  • 23. 3. 2001 9:50

    Vít Zvánovec (neregistrovaný)
    Četl jsem recensi v SWN, že Opera diakritiku umí, byť špatně (nejde přepínat mezi jednotlivými druhy kódování). To, že Lupa Vám zašle WWW stránku v kódování, v jakém chcete, považuji za řešení přes ucho. Správně by překódovat měl umět browser, který je hoden toho jména. Je zajímavé, že NN je v této oblasti horší než MSIE, protože nezvládne více kódování na jedné stránce.
    Ale na hlavní námitku jste mi neodpověděl. Když někdo napíše "byt ci nebyt", nemusí to nutně být shakespearolog, nýbrž člověk, který hledá "byt či nebyt[ový]" prostor. A právě podobné případy Váš engine nezvládá - to je ta skutečná čeština. (Uznávám však, že při používání diakritiky by tento problém nevznikl).
  • 23. 3. 2001 1:15

    Michal Illich (neregistrovaný)
    A abych nezapomnel!

    Planovane testy vyhledavacu samozrejme budou.
    Ale ja pro ne radsi nepohnu ani prstem, ostatni by po mne zacali hned strilet (a v tom pripade opravnene).

    Mym jedinym vstupem bylo vypracovani metodiky (prvni dil). K testum se uz prihlasilo par dobrovolniku, konecnou koordinaci prenecham Lupe.
  • 23. 3. 2001 1:09

    Michal Illich (neregistrovaný)
    Ne, prekvapeni nebylo skutecne planovane, v podstate to takto vyslo samo od sebe -- ve skutecnosti prave ted na vyhledavaci jeste pracujeme (a celou noc budeme), prave v tuto chvili generujeme novou db (chteli jsme ji mit uz minulou stredu, ale nevyslo to). Kdyby to zalezelo pouze na nas, predstavili bychom vyhledavac uz drive pripadne o tyden pozdeji, zrovna tohle datum se nam moc nehodilo :)

    Co bych chtel zduraznit, je, ze jsem z "autorstvi" clanku nemel zadnou vyhodu. Kdyz si clanky pozorne proctete, zjistite, ze v ramci tohoto serialu avizovalo novy fulltext vice firem :) :

    Katedrala - vypustila novy fulltext; pan Smycka dlouho neodpovidal, pak to zrejme konecne odladili, a tak poslali nazor do clanku

    Yo.cz - avizovalo svuj fulltext na dobu 2-3 tydnu od ted

    Centrum - avizovalo novou major verzi, z diskuse vyplynula jejich zajimava spoluprace na index.hu

    ted na Rootu vysla PR zprava o nejakem hledaci UFFO, jeji nacasovani myslim take nebylo nahodne

    Tedy celkem 5 novych fulltextu, to je uroda, ze?

    Vim, ze se autorstvi clanku a spoluautorstvi na vyhledavaci kryje, ale podminky byly rovne.
  • 22. 3. 2001 23:05

    PK202 (neregistrovaný)
    Zdravim.
    To bych se hadal. Cela serie "prekvapive zakoncena" zverejnenim existence empyrea byla jednoznacne PR.
    Zduraznim vsak ze to bylo PR nanejvys "ukaznene" a vubec mne na rozdil od jinych PR zprav nerozcililo z jednoducheho duvodu. Neobsahuje lzi a to je podstatne.

    Jenom mne mrzi, ze z puvodne avizovanych testu (viz prvni dil) vlastne nakonec nic nebylo. Mozna by Lupa mohla pozadat o nejake podobne testy nekoho nestranneho.



  • 22. 3. 2001 20:05

    Michal Illich (neregistrovaný)
    Ja pouzivam Operu, takze zadne hacky ani carky nevidim. Dekuji zaroven Lupe, ze posila stranky v kodovani, o ktere si browser pozada. Tedy vas priklad s "mej se" versus "mej se" prilis neocenim.

    Jak rikate, ostatni pisatele (ti lemplove jedni) nepisi s diakritikou. To my prave vime a MUSIME to nejak resit - proto take konvertujeme diakritiku, abychom byli schopni uzivatelum najit, co hledaji, at uz oni maji zvyky jakekoliv. Kdyz proste uzivatel zada "byt ci nebyt" (bez diakritiky), verte mi, ze nehleda reseni problemu bydleni. Snazime se mu najit co nejpresnejsi odkazy (treba o Hamletovi).

    Co se frames tyka, muj nazor je stejny :)
    Design je ale vec sluzby a ne technologie. Tato technologie zatim na implementaci do sluzeb ceka. Design sluzby je veci provozovatele sluzby, my zatim vlastni sluzbu s timto fulltextem neplanujeme (nechceme konkurovat nasim klientum).
  • 22. 3. 2001 18:17

    Vít Zvánovec (neregistrovaný)
    Ten vyhledávač nepodporuje češtinu, protože sice najde "teplické kašny", ale už nenajde "teplických kašen". Rovněž tak nerozliší mezi "měj se" a "mej se". Používání rámečků (frames) je odporné. A chtěl bych poprosit přispěvatele, aby si uvědomili, že čeština má bohužel (bohudík?) háčky a čárky.
  • 22. 3. 2001 16:14

    Lukáš Mižoch (neregistrovaný)
    Třeba měl autor na mysli, že když zadá vyhledat slova např. "František Novák", tak se převedou na "frantisek novak". :-)
  • 22. 3. 2001 16:11

    Lukáš Mižoch (neregistrovaný)
    Já si dovolím se autora zastat. Celá série mi přijde nanejvýš objektivní a rozhodně nebyla pojata jako reklamní akce. To, že se autor na konci zmínil i o fulltextu, který vyvíjí jeho firma, nepovažuji za nic špatného. Koneckonců, proč by právě tento fulltext měl být vyjmut ze seznamu ostatních?
  • 22. 3. 2001 14:06

    Michal Illich (neregistrovaný)
    Do zadneho shrnuti (nebo zodpovezeni "kdo je tedy nejlepsi") jsem se nepoustel zamerne, PRAVE PROTO, ze nechci vyuzit sve pozice. Pri psani cele serie clanku jsem se prisne snazit zatlacovat veskerou vlastni subjektivitu do pozadi.

    Proto dostali VSICHNI stejne podminky - podtrhuji i to slovo STEJNE, protoze je mozna nejdulezitejsi. Tedy jsem si jako autor clanku "neurval" zadnou specialni vyhodu.

    Pojdme tedy diskutovat objektivne - vytykate subjektivni hodnoceni a pouzivate termin PR. Muzete zcela konkretne rict, kde jsem se dopustil nejakeho kriveho tvrzeni nebo zda jsem tam ci onde nekomu stranil? Prosim o priklady, ne vykriky.

    Co se tyce naseho vyhledavace, co myslite tim "nepodporuje cesky jazyk"? - vyhledavac ma vse potrebne: podporu nekolika znakovych sad, vzajemnou konverzi mezi nimi, moznost oboustranne doplnovat diakritiku, vyhyba se server-side konvertorum. Co tedy mate na mysli, opet konkretne a bez vykricniku?
  • 22. 3. 2001 13:44

    smal (neregistrovaný)
    To zakonceni me vylozene zklamalo. Cekal bych ponekud vyvazenejsi shrnuti vyhledavacu, ale kdyz z konce clanku vidim, ze sami fulltext tvorite, nelze se divit vasim subjektivnim hodnocenim. Otazkou je spise, proc vam Lupa otiskuje takovehle PR jako standardni clanek!

    Na vas fulltext jsem se dival a musim rict ze to neni spatne. Ale vzdyt to nepodporuje cesky jazyk, coz je to nejmensi, co by normalni fulltext mel umet!?!?!?!
  • 22. 3. 2001 8:49

    Michal Illich (neregistrovaný)
    Diky za pochvalu (od konkurence prekvapi :) ).

    Co se obchodniho modelu tyce, jsme skutecne optimisticti. IMHO je urcite lepsi nez prodej reklamy (na to dojizdi vetsina sluzeb, nejprve v americe, brzy i tady). Vyvoj technologii, zvlast pokud jsou tak siroce koncipovane jako vyhledavac, je cesta, kterou se chceme ubirat. U Empyreum Crawleru a Empyreum Fulltextu uz mame rozjednana zajimava partnerstvi.

    Srovnani s Googlem pomerne sedi - cenu mame ale nizsi, vyhledavac je lepe prizpusoben ceskemu prostredi, mame vetsi databazi a aktualizujeme ji casteji, umoznujeme vice operatoru, specializovane vyhledavani, atd.
  • 22. 3. 2001 8:29

    Sustek (neregistrovaný)
    Po technické stránce to nevypadá špatně, váš obchodní model je ale, podle mého názoru, na dnešní dobu až překvapivě optimistický. Zvláště pokud Centrum uvolní zdrojové kódy svého připravovaného fulltextu (jak na tomto místě slíbil jeho autor). Také, pokud se podíváte, jaké částky si za podobné služby účtuje Google, je jasné, že na nějaké velké zbohatnutí to moc není, na českém trhu už vůbec ne.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).