což jsem četl někde na blogu, tak již něco podobného umí, stránku si rozsekají na několik části a poté jednotlivé části porovnávají. Rozdíl je třeba ve všech url.
Zásadní problém bude asi, že http a https nestahují zároveň a že díky personalizaci a dynamickéhomu obsahu mohou být výrazněji rozdílné.
Nemyslím si, že by měli zavádět takovouhle logiku, kanoické url s přesměrováním je standard, pokud to nelze, existují různé meta hlavičky, které bonzují shodnost.
Pro zajímavost: Jyxo nepoužívalo pro identifikaci stránky URL, ale řetězec, kterému jsme říkali "urlcore". Což bylo prostě URL zepředu i zezadu oříznuté o věci, které "nic nemění". Takže třeba všechny tyhle url:
http://example.com/
http://www.example.com/
https://www.example.com/
https://www.example.com/index.php
http://example.com
byly všechny vnitřně reprezentované jako "example.com"
Přestože to nebylo v roce 2002 navrženo právě takhle kvůli https, tak shodou okolností by to právě přechod na https krásně vyřešilo. Protože ta verze na http a na https má stejnou urlcore, tak jsou všechny signály počítané dohromady.
(zároveň samozřejmě platilo, že když bylo přesměrování mezi stránkami se stejnou urlcore, tak Jyxo stahovalo s zobrazovalo tu cílovou)