Vlákno názorů k článku Nové trendy ve vyhledávání (2) od Ladislav Zajicek - Byl bych rad, kdyby se vic rozebraly veci...

Článek je starý, nové názory již nelze přidávat.

Podle hodnocení
Podle vláken
Nejnovější

22. 12. 2000 13:20

Ladislav Zajicek (neregistrovaný)

Byl bych rad, kdyby se vic rozebraly veci kolem prohledavani. Protoze vim jenom neco, ptam se tech, kteri vedi vic.

Gatherer (smatrac v obsahu serveru) stahuje data a uklada je na disky podle urcitych pravidel (napr. nemusi stahovat zdaleka vsechen text). Kazda webovska stranka je v gathereru nejak prezentovana (provazne indexovane male soubory s ruznymi informacemi).

Pokud se takhle stahne 500 milionu stranek (dejme tomu, ze na kazdou padne po ostrouhani zbytecnych informaci a rozdeleni do nekolika malych souboru v prumeru 5 KB), pak gatherer na ulozeni potrebuje 2,500 GB, tedy 2,5 TB. Po stazeni dat z Inetu nastava stavba indexu brokeru. Jaka je jeho vysledna velikost pri pouziti ruznych postupu, nevim. Ale vim, ze muze byt i priblizne stejna, jako rozsah nasmatranych dat (i pri pouziti hashingu).

Moje prvni otazka zni - pro Page Rank se pripravuje pole uz v gathereru (coz bych docela predpokladal) a pak se z gathereru nasledne vytahuji data pro Page Rank (coby mezifaze), nebo se vsechno pusti az na sestaveny index brokeru, nebo jinak?

Druha otazka - jak dlouho muze trvat prevedeni onech nejakych 2,5 TB nasmatranych dat do indexu, bezicim na spouste diskovych poli? Podotykam, ze vim, ze doba stavby indexu treba ze 4 GB muze trvat nekolik hodin na stredne rychlem pocitaci se SCSI.

Predem diky za odpovedi.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 12. 2000 15:12

Michal Illich (neregistrovaný)

Zpracovavani dat je vyhodne delat co nejvic davkove - tedy vzdy pro co nejvic dat najednou. Z toho duvodu pouzivaji mne zname vyhledavace postup, ze nejdriv vse stahnou, pak vse zpracuji.

K prvni otazce: Podle me je vhodne generovat databaze s linkovou strukturou uz za behu crawleru (gathereru), protoze crawler ji ke svemu behu beztak potrebuje. A PageRank bych pocital az nakonec, stejne jako reverzni databaze.

A k druhe: Stavba indexu (pokud myslite to, cemu rikam reverzni databaze, tedy prirazeni jednotlivym slovum seznam dokumentu) je take vec pomerne jednoducha a muzete pouzit stejny postup vypoctu jako ja v clanku: 4GB se prectou z disku za 4 minuty, pak totez musite zapsat, a nejspis bude vypocet tak na 2 pruchody, vynasobite tremi aby se nereklo... dohromady to podle me bude asi pulhodina. (diskove pole jsem neresil, vyse uvedene se tyka spis mensiho indexu, napr. ceskeho).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 12. 2000 16:03

Ladislav Zajicek (neregistrovaný)

Pokud mate na mysli stavbu indexu s obri RAM (tedy s mensim naporem na vypocty na disku), pak budiz. Bez takove RAM je vsechno ponekud jinak (muj priklad se 4 GB dat se tykal cca 128 MB RAM, coz jsem zapomnel uvest).

Je tady nekdo, kdo by neco rekl k rozdelovani nasmatranych dat do indexu s velkym poctem diskovym poli?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
22. 12. 2000 17:10

Michal Illich (neregistrovaný)

Muj vypocet nejake obri velikosti RAM nevyzadoval, pro prakticke vyuziti tak 256MB a vic.

Pouzitim diskovych poli se podle me nic nezmeni. Pod unixy si jednotlive pocitace namapujete jako NFS a pristupujete k nim jako k jedinemu. Rozlozit databazi na vic souboru jste musel i v prikladu s 4GB (protoze FS mivaji omezeni na 2GB na soubor), takze kdyz nektere z rozlozenym souboru budou symlinky na uplne jiny stroj, algoritmus to ani nepozna.

Aktuality

Za sobotním kolapsem na železnici může selhání databáze na serveru v systému GSM-R, řekl ministr

Šéf ČT: Kromě zpravodajství jsme šetřili i jinde, zmrazili jsme 50 milionů

Akademie věd spustila nový web o změně klimatu. Ukazuje, jak se do konce století změní počasí v Česku

Vlákno názorů k článku Nové trendy ve vyhledávání (2) od Ladislav Zajicek - Byl bych rad, kdyby se vic rozebraly veci...

Aktuality

Za sobotním kolapsem na železnici může selhání databáze na serveru v systému GSM-R, řekl ministr

Šéf ČT: Kromě zpravodajství jsme šetřili i jinde, zmrazili jsme 50 milionů

Akademie věd spustila nový web o změně klimatu. Ukazuje, jak se do konce století změní počasí v Česku

Dále u nás najdete