Autor článku má samozřejmě pravdu, na druhou stranu jeho předpovědi jsou trochu moc pesimistické, já používám MnogoSearch cca 3 roky v současné době mám zaindexováno asi 10 000 poměrně rozsáhlých dokumentů wordu /přes antiword parser/ nyní to beží na AMD 700 512 MB RAM a 60 GB ide softwarovým raidu a vyhledávací časy jsou cca 1-2 sec.
Je pravda že návštevnost tohoto serveru nepřekročila cca 1000 ip denně, ale i tak jsem nesledoval žádné známky přetížení systému.
Jako backend používám Postgres a je fakt že na MySql je to asi trochu více optimalizováno.
V článku možná trochu chybí popis modů ukládání do databáse
single, multi a crc které významně ovlivňují celý performance systému.
Uvazte ale prosim kolik z tech 1k ip pouzije fulltext a jak casto. Vyzkousejte si to sam: najdete si 10 nejcastejsich slov a pak pustte 10x paralelne v nekonecnem cyklu wget, ktery dopravi request k hledani vsech tech 10ti slov. Samotneho by me zajimalo, jestli to soft-RAID udrzi. Nemel jsem moznost testovat to na stroji s 1/2GB a softRAID (byt jen ide).
Ten system je postaven tak ze je tam jen fulltextovy frontend takze opravdu 1k ip opravdu pouziva mnogosearch,
na druhou stranu musim priznat ze podle statistik jde o velmi jednoduche dotazy /boolean dotazy na zpusob query language pouziva necele 3%/.
S tim testem to udelam ale radeji to nasimuluji na svem developerskem serveru.
PS: Vas clanek me samozrejme trochu znepokojil, takze jsem hned nainstaloval na radu pritele htDig a testuji ho.
Mam v pacu jeste Swish tam se mi libi ze stejne jako k mngosearch je tam perlovy modul
Lemmatizator obecne neni program, ktery urcuje gramaticke kategorie, ale jen lemmata, cili zakladni tvary slov (1. pad jednotneho cisla, infinitiv...) -- pro anglictinu lze resit napr. i relativne nevelkym slovnikem tvaru. Oznackovani textu gramatickymi udaji je zalezitosti plnohodnotneho morfologickeho analyzatoru.