Ten algoritmus má ale jednu podmínku pro správné fungování, kterou jsem vám minule zatajil. Pravděpodobnosti, se kterými počítá, musí být nezávislé. To však není v praxi splněno.
Proč si myslíte, že pro správnou funkci musí být vlastnosti na sebe kolmé (vzájemně nezávislé)? Není to tak docela pravda. Bayesiánský klasifikátor funguje, i když jsou některé vlastnosti totožné.
Je pravda, že, když některé vlastnosti nejsou na sebe kolmé, tak klasifikátor nefunguje optimálně rychle, ale funguje. Důležité je, aby na sebe kolmých vlastností (nebo aspoň téměř kolmých) bylo dostatečně mnoho a tyto vlastnosti byly co nejvíce diskriminující - čím větší pravděpodobnost, že se podle dané vlastnosti rozhodne správně, tím lépe.
Protože slovník je velmi rozsáhlý soubor vlastností, je prakticky nemožné vybrat, které vlastnosti jsou ty nejvhodnější. Existují algoritmy, jak nalézt aspoň dostatečně dobrou skupinu takových vlastností, ale i tak je to výpočetně velmi složitá procedura. Proto, když to není nezbytně nutné, je lepší výběr nedělat, nebo ho udělat nějak naivně s rizikem, že v něm zůstanou vzájemně na sobě závislé vlastnosti.
Nicmene myslim, ze nejsme ve sporu. Jen jsem asi mel vice zduraznit, ze funguje i kdyz nejsou kolme, jenom hure. A ze to ve vetsine pripadu v praxi nevadi (az na ten problem s HTML).