Sémantické vyhledávání je samozřejmě v této podobě pouze masírka od Google. Oni sémantiku používají již dlouhodobě v souvislosti s lidmi, filmy,nově také s místy (muzea mají otevíračky díky places apod) a je pravdou, že koupením Metawebu/Freebase si trochu nabili databázi.
Je ale na místně si připomenout pár základních faktů směrem ke Google. Jestliže se bavíme o sémantickém vyhledávání, bylo by vhodné připomenout, kdo ta data tvoří. Milý Google (včetně českého), netvoří je tvých 10, 100, 1000 inženýrů. Ti se starají pouze o efektivní vykrádání informací z jiných webů, což je hodně důležitá, ale pořád je část celé věci. Stejné je to s Freebase - ten projekt vzešel primárně z vykradení (tedy, abstrahování) faktů z infotabulek Wikipedie. Nebo si snad myslíte, že inženýři v americe vědí všechny informace o .... evropských místech?
Ono se tak děje od vzniku Google, ale zásadní rozdíl, pokud to naše milovaná rozpínajícící se chobotnice myslí vážně, je právě ve způsobu prezentace informací. Zatímco dříve ty informace Google kradl (indexoval) z důvodů, aby mohl kromě obalení výsledků reklamou vést lidi na výsledky, těmito PR zprávami v podstatě jasně říká - makejte makejte blbečci, ať máme co ,,sémanticky extrahovat", udržíme lidi co nejdéle u nás (odpověď najdete na Google, ne Wikipedii) a inzerenti budou radši (a naše účty taky). Problém je v tom, že z procesu jaksi mizí benefit pro toho, kdo ty UNIKÁTNÍ informace na web dodal. Měli by se chytit za nos především wikipedisti, kteří celá léta po večerech dodávají informace,přepisují to z knížek a loví po všech čertech, aby si na jejich práci smlsnuli kluci od Silikonu. Právě na největší znalostní bázi, jejich informacích, tohle začalo a skončí.
Pro uživatele je to jistě přínosné, ale se sémantikou by taky měla přijít další věc, a to platba Googlu za používání informací odjinud, a to libovolnou formou (wikipedii zejména). Ve svých pravidlech webům nařizují co není fér (scraping, tedy vykrádání dat), jak mají weby vypadat (žádná reklama, uživatele musí být spokojen) a.... podívejte se na dnešní Google a kam to směřuje. Ač původně fanoušek Google, dnes pevně věřím, že lidé nakonec pochopí pravý smysl ,,Don't be evil", minimálně se rozprostřou k Bingu, u nás zůstanou u Seznamu, a státní aparáty jim pravidelně nakouří takové pokuty, že se i za oceánem budou někomu kroutit rypáky.
Jako wikipedista jsem zpracování informací pro Wikipedii věnoval stovky hodin. Pokud s nimi Google dokáže naložit lépe než Wikipedie (o čemž zatím pochybuji) budu jen rád. Jde pouze o kvalitu informací a o přístup k nim. Každý projekt jednou skončí. I Google a Wikipedie. Zatím se však oba projekty tváří velmi životaschopně.
Myslím, že pokud něco opravdu přispěje tomu aby Google někdy mohl fungovat tak jak je nastíněno v článku, bude to zejména služba Google Translator.
Já osobně tedy narážím docela často na to, že Google se mi snaží předhodit jiné výsledky hledání než co mne zajímají. Naprosto záměrně přitom zaměňuje moje klíčová slova za jiná, naprosto odlišná i když někdy fonetisky podobná, pravděpodobně častěji hledaná a to co mne zajímá je někdy až na "moctém" místě.
Poslední dva roky se to děje intenzivně, navíc jsou úplně ignorovány logické operátory.
Obávám se, že Google by se rád stal dalším z vyhledávačů který na základě jen jednoho jediného klíčového slova dodá požadovaný výsledek. Blbé je, že může opravdu nabídnout nejeden zajímavý odkaz... a v dnešním světě reklamy, kde jde hlavně o to kliknout a v době, kdy managerům stačí říci, že hledající si z předložené nabídky vybral...
To máte samozřejmě pravdu, otázkou ovšem je, kdo koho potřebuje víc :)))
Všiml jste si politiky facebooku? Všechno bere a nic nedává, agreguje v sobě všechno a snaží se udržet uživatele v sobě, aby nemusel jinam... a s googlem je to podobné.... postupně vše agregoval a teď když už potřebuje růst dál, tak to co je výhodné začne absorbovat....
Weby co nebudou indexovány google budou neviditelné.... a umřou.... ano jsou v nevýhodě... potřebují google.. ale google přestává potřebovat je.....
To máte tak, dneska se firmy rvou o to, aby byly v google na prvních místech... proč by jim google měl platit, když naopak ty firmy to chtějí? :))
Co brání wikipedii dát si do hlavičky zákaz robotům? :) Nejspíš to nechce ne?
Pokud jsou informace volně dostupné na webu bez omezení, pak na jejich kumulaci a agregaci není formálně právně nic špatného, to je přece princip svobodné licence, samozřejmě by bylo od google slušné, aby uváděl zdroj. Ale jak rozpoznáte kdy zdrojem je wiki a kdy vlastní databáze google?
A proč to ty firmy chtějí? Protože umístění na prvních místech v Googlu jim přivádí návštěvníky. Což samozřejmě přestane platit, pokud Google do větší míry začne místo odkazů dávat rovnou výsledky.
A jak rozpoznám, kdy je zdrojem wiki (nebo cokoli jiného) a kdy databáze Google? Snadno - vždycky. Je opravdu nutné vysvětlovat proč? Není to naprosto zjevné z toho, jakým způsobem Google svoje databáze buduje - tj. výhradně z databází jiných?
Google se pustil do velmi nebezpečných míst. Celý jeho byznys je založený na symbióze mezi vyhledávačem a weby. Jestli Google začne jenom brát a přestane dávat zpět, weby přestanou mít jakoukoli motivaci Googlu umožňovat indexování a naopak začnou mít veškerou motivaci, proč se snažit Google zničit a data poskytovat jen vyhledávačům, které nenabízí výsledky samy, ale přivádí jim lidi prostřednictvím odkazů.
Zkuste https://duckduckgo.com/ . Taky jsem měl problém že Google předhazuje jiné výsledky zejména v technických věcech, tento vyhledávač poskytuje jiné výsledky a po dlouhodobém používání bych možná řekl užitečnější.
V naší malé české kotlině to není se sémantickým webem zas až tak beznadějné. Připomněl bych projekt české DBpedie (http://cs.dbpedia.org/) - nezávislá obdoba zmiňovaného Freebase vznikající na Fakultě informačních technologií ČVUT - krátké info na http://blogspot.i-lasek.cz/internet/ceska-dbpedia-semanticky-web-prichazi-do-cech/.
A pak třeba projekt OpenData.cz (http://opendata.cz/).
"V rámci nového vyhledávání by mohl zprostředkovat i řadu dalších užitečných informací, včetně těch, které by mohly vést k prodeji obsahu či zboží..."
Čti: místo výsledků v podobě odkazů na jiné stránky a po straně s reklamou Gůgl, jako je tomu dnes, už se napříště bude zobrazovat jen a jen reklama na celé stránce, bez odkazů.
Logicke operatory funguji stale stejne. Uzavrenim slova do uvozovek zakazete Google nahradit ho synonymy nebo automatickou opravou. Vice slov mezi uvozovkami vyhledava celou frazi presne tak, jak je napsana. Pomlckou mezi slovy s mezerou na kazde strane (napr.: "hledane - slovo") date Google najevo, ze mezi temito dvema klicovymi slovy je silnejsi vazba. Pokud vam to nestaci, mate k dispozici jeste celou radku operatoru upresnejici pozici hledanych klicovych slov ve strance (inanchor:, intext:, intitle:, inurl: a jejich all*: alternativy).
Nic z toho se v poslednich letech nezmenilo, takze smysl vasi kritiky mi z velke casti unika.
Tady máte odpověď, zda má smysl ztrácet čas tagováním webovek klientů, případně řešit sémantiku tak, aby jí roboti rozuměli
http://www.seobook.com/instant-answers-rich-snippets-poor-webmasters
Pro ty co nechtějí číst - krátkodobě 10 procent nárůst traffiku, dlouhodobě vytapetování ,,jejich" daty a 50 procent mínus. Osobně zastávám názor, že sémantika směrem k schema.org je největší prasečina od vyhledávačů od vzniku internetu a tohle víceméně dokazuje, jak se budou chovat k vašim datům, až jim budou rozumět.
Nemáte pravdu. Zaprvé ještě nedávno Google žádné automatické "opravy" typu "chtěl jsi hledat auto, ale vyhledal jsem pro tebe raději pohorky, protože jsi tlustej na to, abys jezdil autem" neměl.
Nebo zrušil operátor plus, je to půl roku zpět a článků jako http://www.wired.com/epicenter/2011/10/google-kills-its-other-plus-and-how-to-bring-it-back/ okolo toho najdete hafo.
Ale jistě, pro někoho se "v posledních letech nic nezměnilo" :-D
Kromě toho, když Googlem prohledávám konkrétní doménu na výskyt konkrétního slova - docela často se v poslední době stává, že nenajde to co má.
Přitom víte, že hledaná web-stránka existuje, není zakázáno web prohledávat, a sám ji ručně najdete. Při pozdějším hledání (bohužel mám zkušenost jen s časem v řádu den a více) ji často už nejde.
Zdá se, že někdy Google předhodí jen to co má už zaindexováno a není schopný okamžitě prohledat ani málo rozsáhlý web. Přežiji to, ale měl by mne alespoň informovat... včetně data vytvoření indexu.
Podobně, se také děje, že odkazuje na stránky které už neexistují. Často mám pocit, že k tomu nějak přispěl, protože přestože se tváří že nabízí historickou kopii ve své cache, tak už vám ji v hodnotné podobě nezobrazí. Ona cache je u Google v poslední době kapitola sama pro sebe.
Díky, DuckDuckGo vypadá velmi použitelně. I na běžné hledání - jako hlavní vyhledavač. Již při prvním seznámení se mi líbí více než Bing.
Bylo na čase, že zase něco použitelného vzniklo. Jyxo umřelo dávno. Google jde do kopru, zvláštními cestami se zvláštními projevy, ale pro mé hledání zcela nepochybně...
Předřečník to celkem vystihnul, Google se začíná posouvat nedobrým směrem. Zatímco současný stav tak nějak vyhovuje všem, trend je jasně v neprospěch "dodavatelů".
Aneb je jedna věc zdigitalizovat staré knihy a nechat na YT jasně identifikovatelná videa třeba - každý ví kdo je autor a může si zakoupit originál - vlastník může obsah z YT vymazat kdy se mu zachce.
Ale úplně jiná věc je používat bez vědomí původního vlastníka data k "výrobě" komerčního produktu. Tohle je morálně mnohem horší, než nějaký upirátěný film, google si chce přivlastnit duševní práci celé planety - intenetu aniž by se dalo nějakým způsobem dohledat co bylo "originál".
Kdyby poskytoval své informace zdarma, případně jako teď by k zjištění původu stačilo kliknout, nejednalo by se o žádný problém, takhle je to trochu zvrácené.
Také děkuji. Škoda, že to musí fungovat jako Scriptlet (Bookmarklet), docela často funguji při vypnutém JS.
Třeba doplněk časem někdo vyrobí - stačilo by otevřít odkaz, kopírovat odkaz.
Třeba také časem zůstanu u doporučeného DuckDuckGo a tak mne už Google nebude trápit... děkuji.
P.S.
Divím se že Lupa neudělala anketu jak se Češi postavili ke změně podmínek u Google.
Za mne - účet jsem zrušil. Pokud znovu účty vytvořím (bude jich vícero, pro různé služby ale spíše) budu striktně oddělovat jejich provoz, a ne jen pouhým odhlášením z účtu Google.
Zrovna včera jsem těžce bojoval s Google Search. Děsně mi vadí ty jejich odkazy q=URL + identifikátor (snad používané jen kvůli SEO). Chtělo by to doplněk pro browsery, který by ten jejich řetězec automaticky pročistil a nechal jen původní URL adresu. Takový doplněk jsem ale nenašel a ruční náprava je nepraktická.
Kdyby se Google naštval a odkazy uváděl jen jako změtí znaků, které by interně překládal (odkazoval by na ně ze svých webů, třeba zkracovače), třeba podobně jako překládají odkazy anonymizéry - tak se na Google okamžitě vykašlu a radši přestanu na webu pomocí Google vyhledávat. Podobné identifikátory se původně používaly v "Google SSL Search" a ani tam nebudily mnoho důvěry.
Myslím jsem se unáhlil, ale určitě DuckDuckGo zkusím používat.
Aby ukazoval u výsledků hledání (alespoň některých - jako Google) datum vytvoření web-stránky není nějak možné zařídit? Funkce sort:date zatím prakticky nefunguje (http://help.duckduckgo.com/customer/portal/articles/215622).
Předpokládám, že proto, že stránku nemají pravidelně indexovanou, a to se nezlepší dokud nebude vyhledávač masivně používán...
V tomto kontextu mi prisel zajimavy blog post byvaleho zamestnance Googlu:
http://blogs.msdn.com/b/jw_on_tech/archive/2012/03/13/why-i-left-google.aspx
On topic: ano, taky mam problemy s tim, ze mi Google vyhledava cim dal vic veci ktere si mysli ze potrebuju, namisto tech ktere jsem fakt napsal, a ktere bych fakt chtel vyhledat - mnohdy na strance ani neni nektere ze slov ktere jsem tam zadal.
-Yenya
Nesmysl. a) Freebase uziva Wikipedii v souladu s jejimi pravidly, a na kazde strance, kde vyuziva jeji data, ji uvadi jako zdroj. Slova o kradeni jsou tedy neadekvatni.
b) Google, krome toho, ze vydelava na reklamach poskytuje lidem vysledky hledani, ktere jim nikdo jiny neni schopen dodat. Jaky vyhledavac pouzivate? (a jen tak na okraj, nepochybuju o tom, ze nejvice navstev ma Wikipedia z Google)
c) Wikipedisti to "...přepisují to z knížek..." Nejsou tedy temi zlotrilci v posledni instanci Wikipedisti a biti jsou autori knizek :-)? A wikipedisti vedi, kam prispivaji a jake to tam ma podminky
a) Ale tady přece nejde o Freebase, ten je v pořádku. Uvádí zdroj, to je samozřejmé. Ale jaksi zapomínáte, že Freebase patří Google, a ten na některé dotazy uvádí přímou odpověď v serpu (díky Freebase) už teď. A bude hůře
b) poskytuje výsledky - ano, ale jako mezikrok k pravdpodobně jediné odpovědi. Kterou, jak uvádíte, vytvořil buď autor knížky, nebo wikipedista, nebo někdo jiný. V každém případě, v konečném důsledku s tím bude mít Google nejméně práce a jako jediný příjmy.
c) = b
Ano, Google mi leze na nervy tím, jak kripluje vyhledávání. Nejprve se holedbal, že zrušil operátory jako AND s tím, že ten je implicitní. Uváděl to jako výhodu oproti konkurenčním vyhledávačům.
Najednou jsem zjistil to , co Yenya, ze výsledky z Google často vůbec hledané slovo neobsahují a to dokonce ani v archivu. Tak jsem začal používat operátor plus, který Google zavedl místo AND.
Pak se stalo, že operátor + Google zrušil a nyní chce slovo, které ve vyhledání opravdu být musí, psát do uvozovek, což je opruz na entou.
Vzpomínám, že přesně takhle šla to kytek AltaVista. Začínala vymýšlet hovadiny, hledat ne to, co uživatel chtěl hledat, ale co si algoritmus AltaVisty MYSLEL, že vlastně uživatel chtěl hledat. V té době šel Google raketově nahoru - hledal rychle, dobře a přesně to, co lidi chtěli hledat.