Bezpečnost při práci s AI: Co se děje s vašimi daty v ChatGPT a dalších LLM
Bezpečnost při práci s AI: Co se děje s vašimi daty v ChatGPT a dalších LLM
Velké jazykové modely (LLM) jako ChatGPT, Claude nebo Gemini jsou dnes běžnou součástí pracovního dne. Pomáhají psát emaily, vytvářet marketingové texty, ladit kód nebo analyzovat data. Málokdo ale řeší, co se s daty, která do těchto nástrojů vkládáme, vlastně děje.
Pro OSVČ a malé firmy je to obzvlášť citlivé téma. Hranice mezi osobním a firemním použitím se často překrývá. Stejný ChatGPT účet používáte na analýzu konkurence i na doporučení na co se podívat na Netflixu. A právě tady vznikají rizika, kterým se dá poměrně snadno předejít.
Tento článek vám ukáže, jak AI modely zacházejí s vašimi daty, kde konkrétně může dojít k úniku informací a jak se efektivně bránit.
Co si AI modely pamatují a co ne
Základní otázka zní: ukládají si poskytovatelé AI moje konverzace? Odpověď je: záleží na službě a nastavení.
ChatGPT (OpenAI) standardně uchovává historii všech vašich konverzací. Pokud nevypnete příslušné nastavení, mohou být vaše data použita k vylepšování modelů, tedy de facto k tréninku. Vypnout to lze v Settings → Data Controls → Chat History & Training. U Business a Enterprise plánů se data k trénování nepoužívají automaticky.
Claude (Anthropic) také ukládá historii konverzací, ale podle jejich prohlášení data z běžných konverzací nevyužívá k trénování modelů. Enterprise verze nabízí izolované pracovní prostory s přísnějšími zárukami.
Gemini (Google) funguje podobně jako ChatGPT - ukládá konverzace, pokud nevypnete Gemini Apps Activity. U Google Workspace účtů platí jiná pravidla než u osobních účtů.
Důležité je rozlišovat mezi webovým rozhraním a API. Když používáte ChatGPT přes web, historie zůstává uložena. Když někdo volá API (například v aplikaci třetí strany), data se obvykle neuchovávají dlouhodobě. Jenže běžný uživatel pracuje hlavně přes web.
Jak konkrétně můžou data uniknout
Pojďme si projít konkrétní scénáře, kdy může dojít k úniku informací. Není to science fiction, některé z těchto případů se reálně staly.
1. Sdílení přes historii a context
Představte si, že do ChatGPT zadáváte: "Jak optimalizovat PPC kampaň pro mého klienta XY s měsíčním budgetem 500 000 Kč?" Model odpoví a konverzace se uloží do vaší historie.
Pokud máte zapnuté sdílení dat pro vylepšování modelu, tyto informace mohou být anonymizovány a použity jako tréninková data. Model se pak učí na vzorcích z reálných konverzací včetně té vaší.
V roce 2023 Samsung zakázal zaměstnancům používat ChatGPT poté, co někteří z nich vložili do chatu citlivý interní kód k code review. Tento kód se stal součástí trénovacích dat a potenciálně mohl být dostupný přes podobné dotazy jiných uživatelů.
2. Paměť napříč konverzacemi
ChatGPT má funkci "Memory", která si pamatuje informace mezi jednotlivými chaty. Pokud modelu řeknete "Pamatuj si, že pracuji pro klienta ABC s měsíčním budgetem X", uloží si to a může to použít v budoucích odpovědích.
To je sice pohodlné, ale problematické. Když později použijete ChatGPT na něco nesouvisejícího a model náhodou zmíní kontext z předchozí konverzace, můžete nechtěně prozradit citlivé informace.
3. Screenshot a copy-paste sdílení
Nejčastější reálný leak není technický, ale lidský. Vytvoříte zajímavou odpověď od AI, uděláte screenshot a sdílíte ho na LinkedInu nebo Slacku. Jenže zapomenete začernit vedlejší panel s historií konverzací nebo kontext vaší původní otázky obsahoval citlivá data.
Jednou jsem viděl sdílený screenshot "skvělé AI analýzy konkurence", kde byl v bočním panelu vidět seznam předchozích chatů včetně názvů jako "Cenová kalkulace pro klienta X" nebo "Interní margin analýza". Autor to myslel dobře, ale neúmyslně prozradil víc, než chtěl.
4. Rozšíření prohlížeče a third-party nástroje
Mnoho lidí používá rozšíření do prohlížeče typu "Better ChatGPT" nebo integrované AI nástroje v Notion, Slacku nebo jiných aplikacích. Každý takový middleware vidí vaše data a přeposílá je přes své servery.
Vývojář rozšíření má potenciálně přístup ke všem vašim chatům. Pokud není důvěryhodný nebo má slabé zabezpečení, může dojít k úniku.
5. Sdílené workspace v týmu
Pokud používáte ChatGPT Teams nebo Claude Projects, ostatní členové týmu mohou vidět sdílené konverzace a nahrané dokumenty. Někdo z týmu může neúmyslně sdílet screenshot chatu s třetí stranou nebo má kompromitovaný účet.
V menších firmách je běžné, že "všichni mají přístup všude". To funguje, dokud někdo neopustí firmu nebo nedojde k bezpečnostnímu incidentu.
6. API logy a metadata
I když poskytovatel AI tvrdí, že "neukládá vaše data", stále loguje metadata: timestamp, user ID, IP adresu, délku requestu, počet tokenů.
Analýza těchto metadat může prozradit víc, než si myslíte. Pokud pravidelně posíláte velké requesty vždy v úterý ráno, může to naznačovat pravidelnou aktivitu (například přípravu týdenních reportů). Pattern analýza dokáže identifikovat projekty i bez přímého přístupu k obsahu.
7. Právní požadavky a předvolání
Soud nebo orgány činné v trestním řízení mohou vyžádat data od poskytovatele AI. Pokud pracujete s citlivými informacemi (například jako advokát nebo účetní), může být problematické, že tyto konverzace existují a jsou potenciálně dostupné na základě soudního příkazu.
GDPR právo "být zapomenut" neznamená, že data zmizí okamžitě ze všech záloh. Poskytovatelé mají retention policies, které data drží minimálně několik dní až měsíců.
Co nikdy nesdílet s AI modely
Některá data prostě do AI chatů nepatří - bez ohledu na to, jak dobré má poskytovatel zabezpečení:
Hesla, API klíče, přístupové tokeny - vždy existuje riziko, že model si je "zapamatuje" a použije je v jiném kontextu
Osobní údaje klientů - jména, emaily, telefony, adresy (GDPR problém)
Citlivá finanční data - bankovní účty, výpisy, detailní finanční plánování
Neveřejné obchodní strategie - pokud je vaše konkurenční výhoda v něčem unikátním, nenechávejte to procházet přes cizí servery
Zdravotní nebo právní dokumenty - lékaři a advokáti mají profesní mlčenlivost, AI chatboty ne
Produkční kód s bezpečnostními mezerami - nezveřejňujte zranitelnosti, dokud nejsou opravené
Jak se efektivně bránit
Dobrá zpráva je, že ochrana dat před únikem není až zas tak složitá. Stačí dodržovat několik základních pravidel.
1. Vypněte historii a sdílení dat
První krok je vypnout ukládání historie a používání vašich dat k trénování. U ChatGPT jděte do Settings → Data Controls a vypněte Chat History & Training. U Gemini vypněte Gemini Apps Activity.
Ano, přijdete o pohodlí procházení staré historie. Ale pokud pracujete s citlivými daty, stojí to za to.
2. Anonymizujte data před vložením
Místo konkrétních jmen používejte obecné označení. Místo "Jak optimalizovat kampaň pro Jana Nováka z firmy ABC s.r.o." napište "Jak optimalizovat kampaň pro klienta z oboru XY".
Odstraňte emaily, telefony, adresy. Použijte generická čísla místo konkrétních - místo "budget 487 350 Kč" použijte "budget cca 500k".
Trvá to o 30 sekund déle, ale výrazně to snižuje riziko úniku.
3. Rozdělte osobní a firemní účty
Pokud to jde, mějte separátní účet na osobní použití a separátní na firemní. Ještě lépe - u firemního použití zvažte Teams nebo Enterprise plán s lepšími bezpečnostními zárukami.
pokud třeba použijete ChatGPT free na osobní věci a Claude Pro na práci s klienty, snižujete to riziko cross-contamination.
4. Školte sebe (a tým)
Pokud pracujete s někým dalším, ujistěte se, že všichni chápou rizika. Jasně definujte, co lze a nelze sdílet s AI nástroji.
Příklad interní politiky:
✅ Lze: Obecné dotazy, brainstorming, gramatické opravy
❌ Nelze: Konkrétní klientská data, ceny, strategické plány
5. Používejte lokální modely pro citlivá data
Pro opravdu citlivé věci existují lokální AI modely, které běží přímo na vašem počítači. Žádná data nikam neodcházejí.
Nástroje jako Ollama, LM Studio nebo PrivateGPT vám umožní spustit open-source modely (Llama, Mistral) lokálně. Ano, nebudou tak chytré jako GPT-4, ale pro mnoho úkolů stačí - a máte naprostou kontrolu nad daty.
Instalace je dnes relativně jednoduchá i pro méně technicky zdatné uživatele. Stojí to za zvážení, pokud pravidelně pracujete s citlivými dokumenty.
6. Audit toho, co skutečně sdílíte
Jednou za čas si projděte historii svých AI konverzací. Překvapí vás, kolik citlivých informací tam najdete.
Ptejte se: "Kdyby tato konverzace unikla na veřejnost, jaký by to mělo dopad?" Pokud je odpověď "problematický", měli byste upravit své návyky.
Kdy použít jaké řešení
Není nutné všechno řešit s paranoiou. Rozumné je rozdělit data podle citlivosti:
Tier 1 - Vysoce citlivá data (GDPR, know-how, strategie): → Lokální LLM nebo vůbec nepoužívat AI
Tier 2 - Interní firemní informace (projekty, plány, analýzy): → ChatGPT/Claude Enterprise s vypnutým sdílením dat, anonymizace
Tier 3 - Veřejně dostupná data s nízkou citlivostí: → Běžný ChatGPT/Claude, ale stále anonymizovat identifikátory
Například: Pokud píšete článek na blog, můžete klidně použít běžný ChatGPT. Pokud analyzujete konkurenci s konkrétními cenami a strategií, použijte minimálně anonymizaci. Pokud pracujete s klientskou databází, AI chat vůbec nepoužívejte.
Mýty, které je dobré vyvrátit
"Ale vždyť to mažu z historie" Smazání z webového rozhraní neznamená smazání ze serverů. Většina poskytovatelů má retention policies, které data drží v zálohách i několik měsíců po smazání.
"Mám incognito režim v prohlížeči, jsem v bezpečí" Incognito mode chrání vaši historii prohlížeče před ostatními uživateli vašeho počítače. Neovlivňuje to, co vidí server poskytovatele AI na své straně.
"Používám Teams plán, data jsou v bezpečí" Teams a Business plány mají lepší podmínky než free verze, ale stále platí základní pravidlo: pokud nahrajete citlivá data, riziko úniku existuje. Je menší, ale není nulové.
Praktický přístup bez paniky
Cílem tohoto článku není vyvolat paniku ani vás odradit od používání AI nástrojů. ChatGPT, Claude a další LLM jsou skutečně užitečné a mohou výrazně zvýšit produktivitu.
Klíčové je být informovaný a přistupovat k AI chatům jako k veřejnému prostoru. Základní pravidlo: pokud byste nechtěli, aby konkrétní informace viděl někdo cizí, nedávejte ji do AI chatu.
Pro OSVČ a malé firmy platí jednoduchá heuristika: Anonymizujte, než vložíte. Vypněte sdílení dat. Rozdělte osobní a firemní použití.
To je 90 % ochrany, kterou potřebujete. Zbylých 10 % je o pokročilejších opatřeních (lokální modely, enterprise řešení), které dávají smysl jen pro specifické případy.