Proč staré weby mizí rychleji, než si lidé myslí
Definitivní smazání webu nebývá jedna dramatická událost, ale součet drobných selhání. Expiruje doména, hosting přestane podporovat starý systém, databáze se poškodí, webmaster odejde bez předání přístupů nebo firma jednoduše přestane platit účet. U menších projektů stačí i jediná nepozornost: podle praxe správců webů se až 30 až 40 % ztrát obsahu týká situací, kdy existovala záloha, ale nebyla funkční nebo nebyla nikdy otestovaná.
U starších fór a komunitních webů je problém ještě širší. Obsah bývá rozdělený do tisíců URL, často bez moderní struktury, s mizernou dokumentací a se zastaralým softwarem, který už není bezpečný. Přitom právě tyto projekty mívají vysokou hodnotu pro vyhledávání: dlouhé diskuse odpovídají na konkrétní dotazy, mají přirozené interní prolinkování a často drží desítky tisíc dlouholetých zpětných odkazů.
Nejdřív zachránit data, pak řešit web
První krok digitální archeologie je prostý: stáhnout vše, co ještě existuje. Nestačí export HTML z prohlížeče. Je potřeba získat kompletní kopii webu včetně obrázků, CSS, JavaScriptu, databáze, příloh a e-mailových šablon, pokud na web navazují. U redakčních systémů typu WordPress je ideální kombinace FTP/SFTP kopie souborů a databázového dumpu přes phpMyAdmin nebo příkazový řádek.
- WordPress: kompletní záloha složky
wp-content, souborů jádra a export databáze SQL. - Fóra: databáze, přílohy uživatelů, avatary, logy moderace a systém soukromých zpráv, pokud to licence dovoluje.
- Statické weby: celý root webu, včetně skrytých adresářů a souboru
robots.txt. - E-shop nebo katalog: produkty, obrázky, filtry, recenze, URL přesměrování a historická data objednávek jen v anonymizované podobě.
Pro rychlou záchranu menších webů se hodí nástroje jako HTTrack nebo Wget, které umí stáhnout web pro offline archivaci. U rozsáhlejších projektů ale nestačí jen „zrcadlo“ stránky. Je nutné vyřešit i dynamický obsah, lazy-load obrázků, načítání přes API a generování URL skriptem. V praxi to znamená doplnit ruční export databáze a otestovat, zda se archivovaná verze opravdu otevře bez připojení k původnímu serveru.
Jak archivovat tak, aby web šel znovu spustit
Archivace není totéž co záloha. Záloha chrání provoz, archivace chrání paměť, obsah a možnost obnovy v budoucnu. Proto je dobré ukládat data do několika vrstev. Minimum jsou tři kopie: jedna pracovní, jedna lokální offline a jedna mimo primární infrastrukturu, ideálně v cloudu nebo na odděleném úložišti.
U projektů s historickou hodnotou se doporučuje držet i WARC archiv, což je standard používaný webovými archivy. Výhodou je, že zachytí i kontext načítání a umožní později rekonstruovat stránku co nejvěrněji. Pro menší týmy je praktické používat kombinaci Internet Archive, vlastní zip archivy a pravidelné snapshoty přes Git nebo rsync.
Pokud má web vlastní CMS, je zásadní dokumentace. Archiv bez popisu je za rok téměř nepoužitelný. Každý balík by měl obsahovat:
- verzi systému a pluginů,
- seznam aktivních domén a subdomén,
- návod na obnovu databáze,
- přístupové role a odpovědnosti,
- přehled závislostí a serverového prostředí.
Čím starší projekt, tím důležitější je i zachování technického kontextu. Web z roku 2012 mohl běžet na PHP 5.6, MySQL 5.5 nebo staré verzi Apache. Bez záznamu těchto parametrů může obnova trvat dny místo hodin. V případě komunitních fór se vyplatí uložit i informace o použitém kódování, protože starší instalace často pracují s ISO-8859-2 nebo kombinací více znakových sad.
SEO hodnota starých webů: co zachovat, aby nezmizel organický výkon
Z pohledu vyhledávání je ztráta starého webu často ztrátou autority. Pokud má projekt tisíce indexovaných stránek, kvalitní zpětné odkazy a dlouhodobý organický provoz, jeho vypnutí může znamenat pokles návštěvnosti o 70 až 100 % u relevantních dotazů. Proto je potřeba archivovat i SEO vrstvu webu, ne jen obsah.
Klíčové je zachovat mapu URL. Před migrací nebo archivací by měl vzniknout export všech adres z Google Search Console, serverových logů a crawlerů typu Screaming Frog nebo Sitebulb. U každé důležité URL je vhodné zaznamenat titulky, meta description, canonical tagy, stavový kód a interní odkazy. Pokud se web přesouvá, je nutné připravit 301 přesměrování pro co největší část starých adres.
U fór a komunitních webů bývá největší chyba to, že se zachová jen homepage. Ve skutečnosti ale hodnotu tvoří jednotlivé diskuse, odpovědi a long-tail dotazy. Například téma s názvem „Jak opravit chybu po aktualizaci PHP“ může ročně přivést stovky návštěv, i když má jen pár odpovědí. Archivace by proto měla zahrnovat i stránkování, tagy, profily uživatelů, kategorie a interní vyhledávání, pokud generuje indexovatelné URL.
Pro moderní vyhledávání je navíc důležitý i strukturovaný obsah. Pokud starý web obsahuje recenze, události, produkty nebo FAQ, je vhodné zachovat nebo doplnit schema markup. Vyhledávače pak lépe pochopí, co je archivováno, a mohou stránku dál zobrazovat v relevantních výsledcích. U zachráněných webů se vyplatí doplnit i jasné informace o autorovi, datu vydání a aktualizaci, protože to podporuje E-E-A-T signály.
Bezpečnost, práva a soukromí: co se nesmí opomenout
Starý web není jen technický objekt, ale také právní riziko. V archivech se často nacházejí osobní údaje, staré e-maily, IP adresy, soukromé zprávy nebo komentáře, které by dnes neprošly ani přes základní GDPR kontrolu. Při záchraně komunitního projektu je proto nutné rozhodnout, co archivovat veřejně a co ponechat pouze v interní kopii.
Pokud web obsahuje uživatelský obsah, je vhodné anonymizovat citlivé údaje, případně oddělit veřejný archiv od interního backupu. Stejně důležité je zkontrolovat licence fotografií, textů a pluginů. U některých fór nebo magazínů může být obsah vytvořen externími autory, kteří nedali souhlas s dalším šířením mimo původní web.
Bezpečnostní stránka věci je stejně podstatná. Staré instalace WordPressu, phpBB nebo jiných CMS bývají plné známých zranitelností. Pokud je cílem web jen archivovat, je bezpečnější provozovat jej odděleně, bez možnosti přihlášení a bez napojení na ostré systémy. Pro obnovu na testovacím serveru se vyplatí zakázat odesílání e-mailů, platební brány i automatické aktualizace. Hosting by měl mít aktivní SSL certifikát, pravidelné zálohy a možnost rychlého rollbacku.
Jak z archivu udělat živý zdroj, ne digitální muzeum
Nejlepší zachráněné weby nekončí jako mrtvá kopie na disku. Dávají se zpět do provozu jako čitelný archiv, který má jasnou navigaci, omezené funkce a stabilní provoz. Praktický model je jednoduchý: původní obsah zůstane dostupný na starých URL nebo na nové archivní doméně, ale interaktivní části se omezí. U fór to může znamenat vypnutí registrací a nových příspěvků, u magazínů třeba jen režim čtení.
Pro správu je vhodné nastavit monitoring dostupnosti přes nástroje jako UptimeRobot nebo Better Stack a pravidelně kontrolovat, zda se nepoškodily obrázky, CSS nebo přesměrování. Větší projekty si mohou nastavit měsíční kontrolu přes crawler, který porovná změny v počtu URL, stavových kódech a indexovatelných stránkách. Tím se odhalí problém dřív, než archiv zmizí z výsledků vyhledávání nebo začne vracet chyby 404.
Digitální archeologie dnes není okrajová disciplína. Je to praktická součást správy webu, SEO i brand managementu. Kdo jednou přijde o komunitu, historii témat nebo roky budovaný obsah, zjistí, že obnova je často dražší než prevence. Proto má smysl archiv plánovat dřív, než hosting vypne server, doména vyprší nebo se z webu stane jen odkaz v paměti uživatelů.
