O tom, že Seznam.cz trénuje vlastní velké jazykové modely, jsme už psali. Produktový manažer vyhledávání Martin Kirschner teď na sociální síti X zveřejnil vlákno s podrobnostmi o tom, v jakém stadiu se vývoj nachází. Nabízí také zájemcům, že mohou napsat své prompty, které pak na LLM vyzkouší.
Velký jazykový model Seznamu se jmenuje SeLLMa (čte se Šelma) a jde o doučené opensource modely LLaMa of firmy Meta a Mistral od francouzské společnosti Mistral.ai. Seznam je dotrénoval metodou continued pretraining.
„Continued pretraining je vzhledem objemu našeho korpusu celkem compute-heavy, ale na to jsme mysleli a máme GPU cluster, kde protočit všechny tokeny z českého korpusu 70B modelem trvá zhruba 1 měsíc,“ píše v jednom z příspěvků Kirschner.
Seznam má podle něj na trénování k dispozici desítky až stovky GPU Nvidia H100.
Model se podle Kirschnera povedl. „Máme 7B modely, které v konkrétních úkolech překonávají GPT-3.5, máme 70B model, který obecně překonává GPT-3.5 a na konkrétních úkolech je srovnatelný s GPT4,“ říká.
K nasazení LLM na konkrétních službách Seznamu by podle něj mělo dojít během letošního a příštího roku. Momentálně mají lidé ve firmě rozpracováno přes 20 produktových vylepšení.
TIP: Netypické chlazení i napájení. Podívejte se do nového datacentra Seznam.cz: