Jojo, tohle je jedna z cest, jak dát do latě ručně vkládané články. K tomu se většinou používá nějaký ten wysiwyg editor, do kterýho dost často uživatelé pastují obsah z wordu. A word, jak známo, dělá nejprasečský kód, jaký si kdo dokáže představit.
Pokud takovýhle kód nedokáže vyčistit už ten editor jako takový, měla by tam být nějaká post-post ("po odeslání") funkce, která ho vyčistí.
A díky za upozornění na HTML Tidy.
Co se týče zmršeného HTML posílaného do redakčních systémů, nemám tušení, jak to vypadá u těch "profi" redakcí, ale já sám mám docela dobrou zkušenost s projektem HTML Tidy (http://tidy.sourceforge.net/). Uživatel odešle stránku, systém ji prožene přes HTML Tidy, to mu z nevalidního HTML udělá validní XHTML, které se následně zpracuje pomocí XSLT šablony která vyháže nežádoucí tagy a atributy, no a pak už stačí jen z výsledného XML vyzobnout vnitřek tagu <body />...
Nevím, jak by se to chovalo v případě, že by se do systému odesílalo bůhvíkolik příspěvků za vteřinu, ale pokud se počet příspěvků počítá na desítky nebo stovky za den, neměl by být s výkonem problém...