Skrytá ekonomika internetu: Jak funguje prodej uživatelských dat pro trénování modelů umělé inteligence

Co se vlastně prodává a proč je o data takový zájem

Digitální ekonomika dat stojí na jednoduchém principu: čím více informací o chování uživatelů má firma k dispozici, tím přesněji umí modelovat zájem, predikovat chování a trénovat algoritmy. Neprodávají se přitom jen „osobní údaje“ v úzkém právním smyslu. Hodnotu mají i zdánlivě nevinné signály, jako jsou kliknutí, čas strávený na stránce, scrollování, vyhledávací dotazy, poloha zařízení, typ prohlížeče nebo sekvence návštěv konkrétních webů.

V praxi se data využívají ve třech hlavních rovinách: pro reklamní cílení, pro analytiku a pro trénování modelů umělé inteligence. Podle odhadů trhu s daty a martech řešení se globální hodnota datových brokerů a adtech ekosystému pohybuje v řádu desítek miliard dolarů ročně. Z pohledu AI je klíčové, že kvalitní data nejsou jen „hodně dat“, ale hlavně data s kontextem, strukturou a opakovanou zpětnou vazbou.

Jak funguje řetězec od návštěvníka webu k datovému produktu

Celý proces obvykle začíná na webu nebo v aplikaci, kde jsou nasazené měřicí skripty, reklamní pixely, SDK nebo cookies. Ty sbírají signály o chování uživatele a posílají je do nástrojů typu Google Analytics 4, Meta Pixel, reklamních platforem, CRM nebo CDP systémů. Následně se data spojují s dalšími zdroji, například s nákupní historií, e-mailovými databázemi, geolokací nebo informacemi od partnerů.

V další fázi přichází datoví zprostředkovatelé, takzvaní data brokers. Ti data čistí, deduplikují, doplňují a často i pseudonymizují. Výsledkem nejsou nutně jména a příjmení, ale profil uživatele nebo segment publika: například „návštěvník e-shopu s vysokou pravděpodobností nákupu do 7 dnů“ nebo „uživatel zajímající se o hypotéky, který opakovaně čte srovnání sazeb“. Takový segment je pro inzerenta nebo AI firmu mnohem cennější než surový log soubor.

Sběr: cookies, pixely, server-side tracking, SDK v aplikacích.
Spojení: propojení napříč zařízeními, weby a offline daty.
Čištění: odstranění šumu, botů a duplicit.
Obohacení: doplnění o demografii, zájmy, nákupní pravděpodobnost.
Prodej nebo licencování: přístup k datasetům, segmentům nebo API.

V AI prostředí se navíc prodávají i data určená přímo pro trénink: textové korpusy, konverzační logy, anotovaná data, obrázky, zvukové nahrávky nebo transkripce. U některých firem jde o přímý nákup datasetů, jinde o licenční model, kdy je vývojářům umožněn přístup k datům za účelem tréninku, evaluace nebo fine-tuningu modelu.

Kde je hranice mezi legálním sběrem, anonymizací a problémem

Největší omyl je představa, že „anonymizovaná data“ jsou vždy bezpečná. Ve skutečnosti lze i silně zredukovaná data často znovu identifikovat kombinací několika signálů. Akademické studie opakovaně ukazují, že kombinace lokality, času, zařízení a návštěvního vzorce může stačit k rozpoznání konkrétní osoby, i když její jméno v datasetu není.

V evropském prostředí do hry vstupuje GDPR, ePrivacy pravidla, souhlas s cookies a také otázka oprávněného zájmu. Z hlediska praxe se nejčastěji řeší tyto situace: web posílá data třetím stranám bez dostatečného souhlasu, analytika sbírá více údajů, než je nutné, nebo marketingový tým exportuje seznamy zákazníků do externí platformy bez jasného právního titulu. Pro firmy je problém nejen právní, ale i reputační. Únik nebo nejasné nakládání s daty dnes umí poškodit důvěru rychleji než technická chyba webu.

Pokud jde o AI trénování, riziko je ještě citlivější. Model se může „naučit“ části citlivých informací, pokud byly v datech obsaženy. To je důvod, proč se stále častěji používají filtry PII, redakce osobních údajů a datové governance procesy. Přesto platí, že čím širší a méně kontrolovaný je sběr dat, tím vyšší je pravděpodobnost problému.

Jak majitel webu pozná, že jeho data mohou být cenná nebo zneužitelná

Každý web, který má návštěvnost, je potenciálním zdrojem dat. Nejde jen o velké portály. Cenné mohou být i menší specializované weby, například s recenzemi, odbornými články, srovnávači nebo komunitním obsahem, protože nabízejí vysoce kontextová data. V AI době je kvalitní tematický obsah často hodnotnější než velký objem obecného provozu.

Prakticky si můžete zkontrolovat několik oblastí. V Google Tag Manageru projděte, jaké značky jsou aktivní a kam data odesílají. V GA4 ověřte, zda nesbíráte citlivé parametry v URL, formulářích nebo custom událostech. V Search Console sledujte, zda se na webu neobjevují dotazy a stránky, které odhalují citlivý záměr uživatelů. U e-shopů a lead generation webů je kritické sledovat i server-side logy, protože ty mohou obsahovat IP adresy, identifikátory zařízení a interní parametry objednávek.

Audit tagů: zkontrolujte všechny skripty a jejich příjemce dat.
Audit formulářů: nepřenášejte do analytiky osobní údaje v plaintextu.
Audit URL parametrů: odstraňte e-mail, telefon a interní ID z adres.
Audit consentu: ověřte, že měření běží až po souhlasu, pokud je vyžadován.
Audit logů: omezte retenční dobu a přístupová práva.

Pro menší firmy je užitečné nastavit jednoduché pravidlo: vše, co byste nechtěli vidět veřejně na screenshotu, by nemělo končit v externí analytice bez jasného důvodu. Tento přístup snižuje riziko i náklady na compliance.

Co s tím mohou dělat marketéři, vývojáři a redakce obsahu

Marketéři by měli pracovat s daty tak, aby bylo jasné, co je první strana, co třetí strana a co je pouze agregovaná statistika. V praxi se vyplatí přejít na server-side měření tam, kde dává smysl, používat consent mode správně a omezit počet nástrojů, které posílají data mimo vlastní ekosystém. U kampaní je vhodné hlídat, zda remarketingové publikum neobsahuje citlivé segmenty, které by mohly být právně nebo eticky problematické.

Vývojáři by měli pracovat s principem minimalizace dat. To znamená posílat jen to, co je nutné, anonymizovat identifikátory, používat hashování tam, kde je vhodné, a oddělit analytiku od provozních databází. V Next.js nebo jiných moderních stackech je vhodné přemýšlet nad tím, co běží na klientovi a co na serveru. Každý klientský skript je další potenciální zdroj úniku dat.

Redakce a obsahové týmy by měly počítat s tím, že kvalitní obsah je nejen SEO aktivum, ale i datový signál. Tematicky silné články přitahují specifické publikum, z jehož chování lze vyvozovat potřeby trhu. To je výhoda pro strategii, ale zároveň důvod, proč je nutné transparentně vysvětlit, jaké nástroje web používá. U webů zaměřených na finance, zdraví nebo právo je transparentnost ještě důležitější, protože zde jde často o citlivé záměry uživatelů.

Jak se mění ekonomika dat s nástupem AI vyhledávání a modelů

Generativní AI změnila poptávku po datech v tom, že už nejde jen o reklamní segmenty, ale o kvalitní tréninkové a evaluační sady. Firmy chtějí data, která reprezentují skutečné otázky uživatelů, jejich jazyk, kontext a následné rozhodnutí. To je důvod, proč jsou cenné například anonymizované chaty podpory, produktové recenze, search logy nebo strukturované FAQ databáze.

Současně roste tlak na to, aby modely nebyly trénované na datech získaných bez souhlasu nebo bez jasné licence. Některé firmy proto zavádějí vlastní datové tržiště, licenční smlouvy a opt-out mechanismy pro weby. Pro majitele webů to znamená novou otázku: má obsah sloužit jen jako návštěvnostní magnet, nebo i jako licencovatelný zdroj dat? U specializovaných webů může mít vlastní datová vrstva vyšší hodnotu než samotná reklama.

Praktický postup pro menší weby je tříkrokový: nejprve zmapovat, jaká data sbíráte a komu je předáváte, poté omezit zbytečné trackery a nakonec nastavit jasnou datovou politiku. Kdo tento krok odkládá, ten často neřeší jen soukromí uživatelů, ale i budoucí využitelnost vlastních dat v době, kdy o kvalitní vstupy soutěží reklamní systémy, datoví brokeři i vývojáři AI modelů.