Etyka danych treningowych: jak dobór i anonimizacja zbiorów wpływają na ryzyko prawne wdrożeń sztucznej inteligencji

0
4
3/5 - (1 vote)

Nawigacja:

Dlaczego dane treningowe stały się problemem prawnym i etycznym

Skala i automatyzacja: od eksperymentów do masowych wdrożeń

Uczenie maszynowe przeszło drogę od małych, eksperymentalnych projektów do modeli, które przetwarzają dane milionów osób jednocześnie. Każdy błąd w doborze danych treningowych skaluje się więc na całą populację użytkowników.

Dane treningowe przestały być „surowcem technicznym”. Stały się głównym nośnikiem ryzyka prawnego: od naruszeń prywatności, przez naruszenia praw autorskich, po odpowiedzialność za dyskryminujące decyzje modeli. Jedna decyzja o źródle danych może otworzyć wiele wektorów roszczeń.

Do tego dochodzi presja biznesowa: szybkość wdrażania modeli i oczekiwanie wysokiej dokładności. Zbyt często oznacza to „weźmy wszystkie dane, jakie mamy, a potem będziemy się martwić”. W praktyce takie podejście generuje poważne, kosztowne problemy na etapie audytów, kontroli lub sporów sądowych.

Trzy główne wektory ryzyka danych treningowych

Dane treningowe to jednocześnie paliwo modelu i główne źródło ryzyka prawnego. Najważniejsze wektory to:

  • Prywatność i ochrona danych osobowych – naruszenia RODO, brak podstawy prawnej, przetwarzanie nadmiarowych lub wrażliwych danych, niewłaściwa anonimizacja.
  • Prawa własności intelektualnej – użycie cudzych utworów, baz danych lub treści chronionych bez odpowiedniej licencji albo wbrew regulaminom serwisów.
  • Dyskryminacja i szkody systemowe – uprzedzenia („bias”) w danych treningowych prowadzące do dyskryminujących decyzji modelu, naruszeń dóbr osobistych, strat finansowych i reputacyjnych.

Te trzy obszary rzadko występują w izolacji. Przykładowo dane medyczne mogą jednocześnie naruszać prywatność, prawa do dokumentacji medycznej, a przy tym utrwalać nierówności w leczeniu określonych grup społecznych.

Regulatorzy i użytkownicy patrzą inaczej, ale uderzają w to samo miejsce

Z perspektywy regulatora (RODO, prawo krajowe, unijny AI Act) kluczowe jest, czy administrator przestrzega zasad: legalności przetwarzania, ograniczenia celu, minimalizacji danych, rozliczalności i uczciwości. Pojawia się też osobna kategoria: ryzyko wysokiego wpływu systemów AI na prawa i wolności osób fizycznych.

Z perspektywy użytkownika lub klienta liczy się coś innego: czy jego dane nie zostały użyte bez zgody lub w sposób nieprzejrzysty, czy nie został pokrzywdzony decyzją algorytmu, czy ma ścieżkę dochodzenia roszczeń. Jeśli model krzywdzi lub ośmiesza człowieka, użytkownik nie analizuje subtelności podstaw prawnych – szuka winnych i zadośćuczynienia.

W praktyce oba spojrzenia sprowadzają się do tego samego pytania: czy organizacja potrafi wykazać, że nad danymi treningowymi miała realną kontrolę i że proces ich doboru był przemyślany, a nie przypadkowy.

Przykład: chatbot medyczny i realna dokumentacja pacjentów

Firma technologiczna tworzy chatbot medyczny dla placówki zdrowotnej. Zespół data science otrzymuje eksport historii chorób i wywiadów lekarskich. Z danych usuwane są imiona i nazwiska, ale pozostają rzadkie diagnozy, daty hospitalizacji i szczegółowe opisy zdarzeń życiowych.

Na tej podstawie model uczy się schematów zadawania pytań i sugerowania wstępnych rozpoznań. Chatbot trafia na stronę kliniki. Użytkownicy zaczynają zadawać pytania i zauważają, że system używa bardzo szczegółowych sformułowań, które wyglądają jak opisy prawdziwych przypadków. Osoby z małych miejscowości są w stanie rozpoznać w opisach swoich sąsiadów.

Organ nadzorczy ustala, że dane „zanonimizowane” wcale nie były anonimowe – możliwa jest reidentyfikacja. Naruszone zostają zasady RODO, tajemnica medyczna oraz dobra osobiste pacjentów. Klinika i dostawca technologii ponoszą wspólną odpowiedzialność, bo żaden z nich nie przeprowadził rzetelnej oceny skutków (DPIA) ani nie zadbał o prawidłową anonimizację.

Podstawy prawne przetwarzania danych w kontekście trenowania modeli

Kiedy dane treningowe są danymi osobowymi według RODO

Dane treningowe stają się danymi osobowymi, gdy dotyczą zidentyfikowanej lub możliwej do zidentyfikowania osoby fizycznej. Nie chodzi tylko o imię i nazwisko. Wystarczy kombinacja cech, która w praktyce pozwala na rozpoznanie konkretnej osoby.

Dane mogą być traktowane jako osobowe również po agregacji, jeżeli zbiór jest na tyle mały lub specyficzny, że identyfikacja jest realna. Przykład: dane o rzadkiej chorobie w małym mieście, nawet bez imion, mogą pozwalać na odgadnięcie, o kogo chodzi, szczególnie w połączeniu z innymi źródłami.

Jeżeli dane są jedynie pseudonimizowane, czyli istnieje klucz pozwalający na powrót do konkretnej osoby, nadal obowiązuje pełen reżim RODO. Tylko skuteczna anonimizacja wyłącza dane spod RODO – a osiągnięcie takiego poziomu bywa trudne w praktyce projektów AI.

Role w projekcie AI: administrator, procesor, współadministrator

W projektach AI łatwo zgubić prostą zasadę: ktoś odpowiada za cel i sposób przetwarzania danych, a ktoś inny tylko „obsługuje” technicznie dane na jego zlecenie. Tę pierwszą funkcję pełni administrator danych, tę drugą – podmiot przetwarzający (procesor).

Administrator (np. bank, szpital, firma e‑commerce) decyduje, że powstanie model rekomendacyjny lub scoringowy oraz jakie kategorie danych będą użyte. Dostawca modelu (software house, dostawca chmurowy) zwykle jest procesorem – przetwarza dane tylko według poleceń administratora, na podstawie umowy powierzenia.

Czasem obie strony wspólnie decydują o celach i sposobach (np. wspólny produkt AI rozwijany i współsprzedawany). Wtedy pojawia się współadministracja. Współadministratorzy powinni w umowie jasno podzielić obowiązki informacyjne, bezpieczeństwo, obsługę praw osób oraz odpowiedzialność za naruszenia.

Podstawy prawne przetwarzania danych na potrzeby treningu

RODO dopuszcza przetwarzanie danych tylko wtedy, gdy istnieje podstawa prawna. W kontekście trenowania modeli najczęściej brane są pod uwagę:

  • Zgoda – przydatna w aplikacjach B2C i badaniach, ale musi być dobrowolna, konkretna i odwoływalna. Trudna do zarządzania przy bardzo dużych zbiorach.
  • Wykonanie umowy – gdy przetwarzanie danych jest konieczne do świadczenia usługi (np. personalizowane rekomendacje w ramach konta użytkownika).
  • Obowiązek prawny – głównie w sektorze publicznym lub mocno regulowanym (np. wymogi sprawozdawczości).
  • Zadanie realizowane w interesie publicznym – np. modele predykcyjne w ochronie zdrowia publicznego.
  • Prawnie uzasadniony interes administratora – najczęstsza podstawa w sektorze prywatnym (rozwój usług, analityka, bezpieczeństwo), ale wymaga testu równowagi między interesem administratora a prawami osób.

Trenowanie modeli AI na danych klientów lub pacjentów nie jest z definicji „nielegalne”, ale wymaga świadomego doboru podstawy prawnej i analizy, czy ten konkretny cel mieści się w pierwotnym celu zbierania danych. Jeśli dane zbierano w jednym celu, a model ma służyć zupełnie innemu (np. marketing zamiast obsługi), pojawia się problem wtórnego wykorzystania.

Szczególne kategorie danych i dodatkowe ograniczenia

Dane o zdrowiu, pochodzeniu rasowym lub etnicznym, poglądach politycznych, przekonaniach religijnych, orientacji seksualnej czy dane biometryczne są uznawane za szczególne kategorie danych. Ich przetwarzanie na potrzeby AI jest obwarowane dodatkowymi zakazami i wyjątkami.

Zgoda w tym przypadku musi być wyraźna. Często wymagana jest też podstawa prawna w prawie krajowym (np. w sektorze zdrowia). W praktyce projekty AI w obszarze medycyny wymagają znacznie staranniejszej dokumentacji i często współpracy z inspektorem ochrony danych już na etapie koncepcji.

Szczególnym problemem są dane biometryczne używane do trenowania systemów rozpoznawania twarzy lub głosu. W wielu przypadkach ich użycie do identyfikacji osób jest silnie ograniczone lub wręcz zakazane poza ściśle określonymi przypadkami (np. organy ścigania). Modele trenowane na takich danych mogą naruszać zarówno przepisy RODO, jak i krajowe regulacje dotyczące inwigilacji.

Wpływ regulacji sektorowych na projekty AI

W sektorach regulowanych (medycyna, finanse, ubezpieczenia, energetyka) dane treningowe podlegają nie tylko RODO, lecz także przepisom szczególnym. Przykładowo:

  • dokumentacja medyczna jest objęta tajemnicą zawodową i szczegółowymi wymogami przechowywania,
  • dane finansowe klientów podlegają wymogom przeciwdziałania praniu pieniędzy i regulacjom nadzorcy finansowego,
  • systemy scoringu kredytowego są kontrolowane pod kątem dyskryminacji i przejrzystości kryteriów.

Regulacje sektorowe mogą ograniczać możliwość wykorzystania danych do innych celów niż pierwotne. Nawet jeśli RODO dopuszcza przetwarzanie na podstawie uzasadnionego interesu, przepis szczególny może wymagać odrębnej zgody lub zakazywać określonych form profilowania.

W sektorach regulowanych bez analizy prawa branżowego oraz wytycznych nadzorców (KNF, UODO, organy zdrowia, organy antymonopolowe) projekt AI łatwo wchodzi w szarą strefę, w której każda kontrola może zakończyć się nakazem wstrzymania przetwarzania danych treningowych.

Dobór danych treningowych: źródła, licencje i prawa osób trzecich

Główne źródła danych dla projektów AI

Typowy projekt AI korzysta z kilku typów źródeł danych treningowych, często łącząc je w jednym zbiorze:

  • Dane z własnych systemów – logi aplikacji, historię transakcji, czaty z klientami, wewnętrzne dokumenty.
  • Open data – otwarte zbiory udostępniane przez administrację publiczną, organizacje badawcze, instytucje międzynarodowe.
  • Dane kupowane – komercyjne bazy danych, hurtownie danych, gotowe zbiory do trenowania modeli.
  • Skraping i crawling – automatyczne pobieranie treści z serwisów internetowych, forów, mediów społecznościowych.
  • Partnerstwa i konsorcja – wymiana danych między firmami lub w ramach projektów badawczych.

Każde ze źródeł generuje inny typ ryzyka: od naruszenia RODO, przez łamanie regulaminów serwisów, po naruszenie praw autorskich i tajemnic handlowych. Dobór źródeł powinien być elementem formalnego procesu, a nie decyzją pojedynczego inżyniera szukającego „największego możliwego datasetu”.

Prawa autorskie, prawa pokrewne i bazy danych

Legalność danych treningowych AI nie kończy się na RODO. Treści tekstowe, zdjęcia, nagrania audio, wideo czy kod źródłowy są często chronione prawem autorskim lub prawami pokrewnymi. Z kolei duże, uporządkowane zbiory danych mogą być chronione jako bazy danych (prawo sui generis).

Trenowanie modelu na cudzych utworach może wymagać licencji, nawet jeśli treści są publicznie dostępne w internecie. Fakt, że ktoś publikuje artykuł na blogu, nie oznacza automatycznej zgody na wykorzystywanie go do trenowania modeli językowych.

Odrębnie trzeba ocenić, czy dana baza danych jest chroniona prawem szczególnym. Eksport i wykorzystanie znacznej części takiej bazy jako danych treningowych może naruszać prawa producenta bazy (np. komercyjne katalogi produktów, skatalogowane zasoby muzyczne, strukturalne bazy artykułów).

Publicznie dostępne nie znaczy dozwolone do trenowania

Jednym z częstszych błędów jest założenie, że skoro dane są publicznie dostępne, to można ich swobodnie używać do trenowania modeli. W praktyce trzeba odróżnić:

  • Publiczną dostępność – treść można odczytać w przeglądarce, czasem bez logowania.
  • Licencję lub regulamin – określa, co wolno robić z tą treścią (kopiować, modyfikować, komercyjnie używać, używać w AI).

Wiele serwisów wprost zakazuje skrapowania i wykorzystywania treści do trenowania modeli AI. Inne ograniczają takie wykorzystanie do zastosowań niekomercyjnych. Naruszenie tych warunków naraża na roszczenia z tytułu naruszenia praw autorskich, regulaminu i czynów nieuczciwej konkurencji.

To, że konkurencja „zassała” cały internet, nie jest argumentem obronnym. Coraz więcej podmiotów monitoruje wykorzystanie swoich treści w modelach AI i rozważa kroki prawne. Znacznie łatwiej jest zaplanować legalne źródła danych niż bronić się w głośnym pozwie zbiorowym.

Na co patrzeć w licencjach i regulaminach serwisów

Przed użyciem zewnętrznego zbioru danych treningowych warto wykonać szybki, ale konsekwentny przegląd warunków. Kluczowe pytania to:

  • Czy licencja obejmuje wykorzystanie do trenowania systemów AI lub „data mining”?
  • Czy dopuszczone są zastosowania komercyjne, czy tylko badawcze?
  • Ograniczenia licencyjne a redystrybucja i udostępnianie modeli

    Przy analizie licencji trzeba uwzględnić nie tylko etap trenowania, lecz także to, co stanie się z gotowym modelem. Problem pojawia się, gdy model jest:

  • udostępniany klientom w chmurze jako usługa,
  • dystrybuowany jako paczka modelu (np. w repozytorium open source),
  • sprzedawany jako element większego produktu (np. systemu CRM).

Część licencji wprost zakazuje tworzenia modeli pochodnych, które mogłyby odtwarzać istotne elementy treści źródłowych lub służyć konkurencyjnym usługom. Niektóre ograniczają sublicencjonowanie lub wymagają udostępnienia pochodnych modeli na tych samych warunkach (copyleft).

Jeśli zespół ML wykorzysta zbiór z licencją „tylko do badań”, a następnie model trafi do komercyjnego produktu, naruszenie jest czytelne. Warto więc z wyprzedzeniem rozdzielić zbiory „badawcze” od „produkcyjnych” i pilnować, by te pierwsze nie trafiały do łańcucha prowadzącego do modelu komercyjnego.

Umowy z dostawcami danych i zobowiązania wobec klientów

Przy zakupie lub pozyskaniu danych od partnera biznesowego nie wystarczy ogólna klauzula „można używać w celach analitycznych”. W umowie powinny znaleźć się m.in. postanowienia o tym, że:

  • dostawca ma prawo przekazać dane i sam nie narusza praw osób trzecich,
  • dane mogą być wykorzystane do trenowania określonej klasy modeli (np. rekomendacyjnych, detekcji fraudów),
  • określone jest terytorium i czas przetwarzania (także po zakończeniu współpracy),
  • opisano zasady użycia danych z wrażliwych sektorów (finanse, zdrowie, dzieci).

Równolegle trzeba sprawdzić własne umowy z klientami. Jeśli w regulaminie usługi obiecano, że dane „nie będą przekazywane stronom trzecim” lub „nie będą wykorzystywane do profilowania”, trenowanie modelu w chmurze z udziałem zewnętrznego dostawcy może być sprzeczne z tymi deklaracjami, nawet przy formalnej zgodności z RODO.

Zbliżenie starej maszyny do pisania z tekstem AI ETHICS na kartce
Źródło: Pexels | Autor: Markus Winkler

Anonimizacja, pseudonimizacja i minimalizacja danych – co naprawdę zmniejsza ryzyko

Anonimizacja w rozumieniu RODO a „zamulanie danych”

RODO uznaje dane za anonimowe tylko wtedy, gdy nie można już zidentyfikować osoby w sposób racjonalnie możliwy, przy użyciu dostępnych środków technicznych i organizacyjnych. To wysoki próg.

Częste praktyki typu usuwanie imienia i nazwiska, maskowanie części numeru PESEL czy zastąpienie maila pseudonimem najczęściej prowadzą do pseudonimizacji, nie do pełnej anonimizacji. Dane nadal podlegają RODO, więc wymagają podstawy prawnej i całej reszty obowiązków.

Dla wielu projektów AI bezpieczniej jest przyjąć, że pracuje się na danych osobowych niż polegać na „słabej anonimizacji” i później tłumaczyć się przed organem, dlaczego reidentyfikacja jednak była możliwa.

Techniki anonimizacji w praktyce projektów AI

W praktyce stosuje się kilka powtarzalnych technik, często łączonych ze sobą:

  • Usuwanie bezpośrednich identyfikatorów – imię, nazwisko, PESEL, numery dokumentów, numery kont.
  • Agregacja – zamiana pojedynczych rekordów na statystyki (np. zamiast historii transakcji – rozkłady wartości, częstości, koszyków zakupowych).
  • Generalizacja – zastępowanie dokładnych wartości bardziej ogólnymi (wiek → przedział, adres → region).
  • Perturbacja – wprowadzanie kontrolowanego szumu do danych liczbowych, żeby utrudnić odtworzenie konkretnych przypadków.
  • Metody syntetyczne – generowanie zbiorów „podobnych statystycznie” do rzeczywistych, ale nieodwzorowujących konkretnych osób.

Każda z tych metod wpływa na jakość modelu. Projekt powinien jasno zdefiniować, jaką degradację dokładności jest w stanie zaakceptować w zamian za niższe ryzyko prawne i reputacyjne.

Pseudonimizacja jako środek bezpieczeństwa, a nie „wyłączenie RODO”

Pseudonimizacja polega na zastąpieniu identyfikatorów bezpośrednich losowymi lub systemowymi pseudonimami (tokenami). Klucz kojarzący pseudonim z konkretną osobą przechowywany jest osobno.

To narzędzie obniżające ryzyko wycieku, ale nie zmienia kwalifikacji prawnej – dane nadal są osobowe. Z perspektywy AI pseudonimizacja bywa korzystna, bo pozwala trenować model na pełnych cechach behawioralnych, przy jednoczesnym ograniczeniu możliwości łatwego „wyciągnięcia” konkretnych klientów przez osoby nieuprawnione.

Warunkiem sensownej pseudonimizacji jest jednak porządek organizacyjny: ograniczony dostęp do tabeli z kluczami, oddzielne systemy, logowanie dostępu i jasne zasady przywracania identyfikacji (np. dla obsługi żądań osób).

Minimalizacja danych na etapie projektowania modelu

Zasada minimalizacji z RODO (przetwarzać tylko dane adekwatne, stosowne i ograniczone do tego, co niezbędne) powinna być przełożona na język projektu AI. Zamiast „wrzućmy wszystko, a model wybierze, co potrzebne”, lepiej:

  • wyjść od konkretnego celu modelu (np. przewidywanie rezygnacji klienta w ciągu 30 dni),
  • określić minimalny zestaw cech potrzebnych do osiągnięcia sensownej skuteczności,
  • sprawdzić, czy część cech nie może być zastąpiona wersją zubożoną (przedziały zamiast wartości dokładnych, tagi zamiast pełnych tekstów).

Typowym błędem jest sięganie po „pełne logi” lub „całą historię medyczną” tam, gdzie wystarczy kilka wskaźników syntetycznych. Takie podejście tylko zwiększa ekspozycję w razie wycieku i utrudnia obronę przed zarzutem naruszenia zasady minimalizacji.

Reidentyfikacja i ryzyko łączenia zbiorów

Nawet dobrze zanonimizowany zbiór może zostać zreidentyfikowany, gdy zostanie połączony z innymi danymi. Klasyka to łączenie anonimowych danych lokalizacyjnych z publicznymi informacjami z mediów społecznościowych.

Przy projektach AI trzeba założyć, że modele i dane mogą być łączone z innymi źródłami – wewnętrznymi lub zewnętrznymi. Dlatego sensowne jest wykonanie testu reidentyfikacji: próby odtworzenia konkretnych osób z użyciem realistycznych narzędzi i danych pomocniczych.

Im większa unikalność wzorca (np. kombinacja rzadkich chorób, niestandardowych transakcji czy lokalizacji), tym wyższe ryzyko reidentyfikacji, nawet przy braku oczywistych identyfikatorów.

Bias, dyskryminacja i szkody systemowe wynikające z doboru zbiorów

Jak dane treningowe wprowadzają uprzedzenia do modelu

Modele uczą się ze statystyki danych, nie z deklarowanych wartości etycznych firmy. Jeśli w danych historycznych:

  • kobietom rzadziej przyznawano kredyty,
  • osoby z określonych dzielnic częściej odrzucano w rekrutacji,
  • konkretne grupy etniczne częściej kontrolowano przez służby,

model będzie te schematy utrwalał lub nawet wzmacniał. Nie musi znać płci czy etniczności wprost; często wystarczą zmienne pośrednie (kod pocztowy, typ uczelni, forma zatrudnienia).

Problem nie kończy się na „niesprawiedliwym algorytmie”. Uprzedzony model w banku, firmie ubezpieczeniowej czy systemie scoringu pracowników generuje realne szkody: gorsze warunki ofert, brak awansu, wyższe ceny, większe ryzyko kontaktu z organami ścigania.

Rodzaje biasu na poziomie zbiorów danych

Na etapie doboru danych pojawiają się główne typy biasu:

  • Bias selekcyjny – zbiór obejmuje tylko część populacji (np. wyłącznie klientów cyfrowych, bez osób starszych korzystających z oddziałów).
  • Bias pomiarowy – sposób zbierania danych jest zniekształcony (np. ankiety online wypełniają głównie osoby o skrajnych opiniach).
  • Bias historyczny – dane odwzorowują wcześniejsze praktyki dyskryminacyjne lub uprzedzenia kulturowe.
  • Bias etykietowania – etykiety (np. „dobry klient”, „ryzykowny wnioskodawca”) nadawane są subiektywnie przez ludzi.

Sam dobór źródeł może przesądzić o tym, kto zostanie „w ogóle zobaczony” przez model. System rekomendacji karmiony wyłącznie danymi z dużych miast nie będzie działał sensownie w małych miejscowościach, choć formalnie żadne przepisy nie zostały złamane – do czasu, aż ktoś wykaże pośrednią dyskryminację.

Dyskryminacja bez jawnych cech wrażliwych

Częstą linią obrony jest stwierdzenie: „Nie używamy płci, wieku ani rasy jako cech wejściowych, więc nie dyskryminujemy”. W praktyce modele uczą się z proxy – cech pośrednio powiązanych z atrybutami chronionymi.

Przykłady:

  • adres zamieszkania i historia zakupu produktów dziecięcych silnie korelują z wiekiem i sytuacją rodzinną,
  • rodzaj uczelni i forma zatrudnienia mogą być proxy dla statusu społeczno-ekonomicznego, który w wielu krajach pokrywa się z pochodzeniem etnicznym.

Organy nadzorcze w Europie coraz częściej patrzą na efekt końcowy (np. różnice w odsetku odrzuconych wniosków w grupach), a nie tylko na listę formalnych cech. Jeśli wynik jest systemowo gorszy dla określonej grupy, a nie ma obiektywnego uzasadnienia, można mówić o dyskryminacji pośredniej, nawet bez jawnego użycia cech wrażliwych.

Testowanie zbiorów i modeli pod kątem fairness

Ocena ryzyka biasu powinna zacząć się od samego zbioru. Minimalny zestaw działań obejmuje:

  • analizę rozkładu danych w kluczowych grupach (np. wiek, region, typ klienta),
  • sprawdzenie, czy dane dla grup mniejszościowych nie są skrajnie niedoreprezentowane lub gorszej jakości,
  • weryfikację, kto i jak nadawał etykiety (np. „fraud”, „lojalny klient”).

Po trenowaniu modelu sensowne jest sprawdzenie wskaźników jakości osobno dla różnych grup – nawet jeśli formalnie nie używa się cech wrażliwych w produkcji. W fazie testów można je tymczasowo dołączyć, by ocenić różnice w dokładności czy odsetku błędów fałszywie pozytywnych.

Jeśli model znacznie gorzej działa dla konkretnej grupy, trzeba wrócić do zbioru: czy da się go uzupełnić, zrównoważyć, przetrenować na osobnych podmodelach lub wprowadzić mechanizmy korekcyjne.

Szkody systemowe i odpowiedzialność poza RODO

Dyskryminujące efekty modeli mogą prowadzić do roszczeń na podstawie przepisów o równym traktowaniu, zakazie dyskryminacji konsumenckiej czy naruszenia dóbr osobistych. Nie chodzi wyłącznie o kary administracyjne z RODO.

Przykład: system rekrutacyjny, który odrzuca większość CV osób po 50. roku życia, może naruszać prawo pracy. Algorytm ustalający ceny ubezpieczenia zdrowotnego, który w praktyce winduje składki dla osób z określonych dzielnic, może zostać uznany za pośrednio dyskryminujący.

Dobór danych treningowych staje się więc nie tylko kwestią „zgodności z RODO”, lecz także potencjalnych sporów sądowych, pozwów zbiorowych i interwencji organów antydyskryminacyjnych.

Ocena ryzyka prawnego przed zasileniem modelu danymi (DPIA i audyt danych)

Kiedy DPIA staje się obowiązkowa przy projektach AI

Data Protection Impact Assessment (DPIA, ocena skutków dla ochrony danych) jest wymagana, gdy przetwarzanie z dużym prawdopodobieństwem niesie wysokie ryzyko naruszenia praw lub wolności osób. Typowe cechy projektów AI, które uruchamiają obowiązek DPIA:

  • zautomatyzowane podejmowanie decyzji wywołujące skutki prawne lub podobnie istotne (np. przyznanie kredytu, akceptacja w rekrutacji),
  • na dużą skalę przetwarzane są szczególne kategorie danych (np. zdrowie),
  • dochodzi do systematycznego monitorowania osób (np. analiza zachowania pracowników, klientów online),
  • łączenie wielu zestawów danych w jednym modelu (profilowanie bogate w szczegóły).

Nawet gdy formalnie DPIA nie jest obligatoryjna, przeprowadzenie uproszczonej oceny ryzyka przed zasileniem modelu danymi często chroni przed pochopnymi decyzjami (np. sięgnięciem po dane, których później nie można sensownie „wyczyścić”).

Zakres DPIA dostosowany do projektów AI

Klasyczny szablon DPIA można uzupełnić o elementy specyficzne dla trenowania modeli:

  • opis zbiorów treningowych, w tym ich źródeł, licencji i przewidywanych aktualizacji,
  • analizę, czy dane są niezbędne i proporcjonalne do celu modelu (z perspektywy minimalizacji),
  • identyfikację możliwych skutków dla osób w razie błędnych predykcji (np. zawyżony scoring ryzyka),
  • Typowe błędy w DPIA dla projektów z AI

    W praktyce DPIA dla modeli AI często jest zbyt ogólna lub przepisana z innych projektów. Kilka powtarzających się problemów:

  • opisy danych ograniczone do „CRM + logi aplikacji”, bez wyszczególnienia, jakie kategorie danych faktycznie trafiają do modelu,
  • brak osobnej analizy skutków błędów modelu dla osób z grup wrażliwych,
  • pominięcie faktu, że model będzie dalej trenowany lub aktualizowany na nowych danych,
  • niedoszacowanie ryzyka reidentyfikacji przy łączeniu zbiorów z różnych systemów.

Lepszy jest krótszy, konkretny DPIA skupiony na faktach (jakie dane, w jakiej konfiguracji, do jakich decyzji) niż rozbudowany dokument z ogólnymi sformułowaniami o „stosowaniu pseudonimizacji i szyfrowania”.

Audyt danych treningowych jako osobny etap

Przy złożonych projektach sensowne jest rozdzielenie DPIA od audytu samego zbioru treningowego. Audyt danych może obejmować:

  • przegląd źródeł (systemy wewnętrzne, dostawcy zewnętrzni, dane publiczne),
  • weryfikację podstaw prawnych i licencji dla każdego źródła,
  • ocenę jakości danych (braki, szum, duplikaty, niespójne etykiety),
  • ocenę ryzyka biasu i reidentyfikacji.

Wynik audytu powinien dawać jasną odpowiedź, czy dany zbiór nadaje się do trenowania, czy wymaga czyszczenia, wzbogacenia, a może w ogóle nie powinien być użyty w tym celu.

Dokumentowanie decyzji o włączeniu lub wyłączeniu danych

Przy sporze z regulatorem lub w sądzie istotne jest pokazanie, jakie decyzje podjęto odnośnie zakresu danych i dlaczego. W praktyce wystarczy prosty rejestr:

  • jakie kategorie danych rozważano,
  • które wykluczono (np. miejsce pracy małżonka, dokładne współrzędne GPS),
  • jak uzasadniono ich zbędność lub zbyt wysokie ryzyko,
  • jak oceniono wpływ ograniczenia danych na jakość modelu.

Taka „historia decyzji” bywa decydująca przy ocenie, czy administrator rzeczywiście stosował zasadę privacy by design, czy tylko deklarował ją w polityce.

Włączenie zespołów biznesowych i prawnych w DPIA

DPIA wykonywana wyłącznie przez dział IT lub wyłącznie przez prawników zwykle jest niepełna. Potrzebne jest wspólne spojrzenie:

  • biznes definiuje, jakie decyzje będą podejmowane na podstawie modelu,
  • IT wyjaśnia architekturę, przepływy danych i ograniczenia techniczne,
  • prawnicy i inspektor ochrony danych oceniają podstawy prawne, ryzyka i środki zaradcze.

Krótki warsztat z tymi trzema perspektywami na początku projektu często pozwala uniknąć późniejszej przeróbki całego rozwiązania lub konieczności wyrzucenia już zebranych danych.

Organizacja procesu: łańcuch odpowiedzialności za dane treningowe w firmie

Kto formalnie jest administratorem danych treningowych

W wielu projektach AI pojawia się kilka podmiotów: klient końcowy, dostawca platformy, integrator, zewnętrzny dostawca danych. Ustalenie, kto jest administratorem danych treningowych, nie może zostać w sferze domysłów.

Najczęściej administratorem pozostaje podmiot, który decyduje o celach i sposobach trenowania modelu, nawet jeśli technicznie korzysta z infrastruktury dostawcy chmurowego. Dostawca staje się wtedy procesorem lub niezależnym administratorem w odniesieniu do własnych zbiorów referencyjnych.

Relacja z dostawcami technologii i danych

Umowy z dostawcami narzędzi AI oraz brokerami danych powinny precyzyjnie regulować:

  • czy dane klienta są wykorzystywane do trenowania ogólnych modeli dostawcy,
  • kto ponosi odpowiedzialność w razie naruszenia praw osób trzecich (np. praw autorskich do danych wejściowych),
  • jak rozliczany jest dostęp do logów, wag modelu i wytrenowanych artefaktów,
  • jak realizowane są prawa osób (dostęp, sprzeciw, usunięcie) przy danych użytych do trenowania.

Proste postanowienie „dostawca może wykorzystywać dane w celach doskonalenia usług” bywa zbyt szerokie, zwłaszcza przy danych wrażliwych lub tajemnicy przedsiębiorstwa.

Rola właściciela danych (data owner) i właściciela modelu

W większych organizacjach przydaje się rozdzielenie funkcji:

  • właściciel danych (zazwyczaj z jednostki biznesowej) odpowiada za to, co dzieje się z danymi źródłowymi,
  • właściciel modelu (często w dziale data science lub IT) odpowiada za konstrukcję, trenowanie i aktualizację modelu.

Obie role muszą współdecydować o zakresie danych treningowych. Właściciel danych rozumie kontekst biznesowy i oczekiwania klientów, właściciel modelu – techniczne konsekwencje ograniczenia lub poszerzenia zbioru.

Rejestr modeli i rejestr zbiorów danych

Przy kilku większych systemach AI rejestry stają się koniecznością, nie biurokracją. Dwa proste narzędzia pomagają panować nad ryzykiem:

  • rejestr modeli – spis modeli produkcyjnych z informacją o celu, właścicielu, użytych zbiorach, dostawcach,
  • rejestr zbiorów danych – katalog zestawów używanych w trenowaniu wraz z metadanymi (źródło, licencja, kategorie danych, kontakt do właściciela).

Przy żądaniu usunięcia danych, incydencie bezpieczeństwa lub zmianie regulacji prawnej rejestry pozwalają szybko ustalić, który model i które dane są dotknięte, zamiast prowadzić ręczne poszukiwania w wielu systemach.

Procedury „onboardingowe” dla nowych zbiorów danych

Zanim nowy zbiór trafi do trenowania, powinien przejść uproszczony proces akceptacji. Prosty workflow:

  1. zgłoszenie zbioru przez zespół projektowy (opis, źródło, cel użycia),
  2. wstępna ocena prawna (podstawa przetwarzania, licencje, kategorie danych),
  3. ocena ryzyka technicznego (bezpieczeństwo przekazania, możliwość pseudonimizacji),
  4. akceptacja lub odrzucenie przez właściciela danych i inspektora ochrony danych.

Przy małej liczbie projektów można to zrobić e-mailem i arkuszem kalkulacyjnym, przy większej skali – w narzędziu GRC lub dedykowanym systemie ticketowym.

Kontrola dostępu i środowiska trenowania

Odpowiedzialność za dane treningowe to także kwestia tego, kto faktycznie ma do nich dostęp i w jakim środowisku pracuje. Kilka praktycznych zasad:

  • oddzielenie środowisk eksperymentalnych od produkcyjnych,
  • ograniczenie dostępu do pełnych danych osobowych do wąskiej grupy,
  • pracę z sample’ami zanonimizowanymi tam, gdzie nie potrzeba pełnego zakresu,
  • logowanie operacji na danych (pobrania, eksporty, treningi).

Przy wycieku lub nieuprawnionym użyciu danych łatwiej wskazać, na którym etapie proces zawiódł i jakie środki naprawcze są konieczne.

„Higiena” cyklu życia modelu

Dane treningowe nie są jednorazowym problemem. Modele bywają:

  • dokarmiane nowymi danymi w trybie ciągłym (online learning),
  • regularnie przetrenowywane na pełnym zbiorze,
  • migrowane między środowiskami lub dostawcami chmurowymi.

Przy każdym z tych kroków ponownie pojawiają się pytania o podstawy prawne, licencje, anonimizację i ryzyka biasu. Procedury aktualizacji modeli powinny obejmować krótki checkpoint prawno-etyczny: co się zmieniło w danych, jakie nowe źródła dodano, czy nie pojawiły się nowe wymogi regulacyjne.

Reagowanie na incydenty i zgłoszenia osób

Osoby, których dane trafiły do trenowania, mogą zgłaszać roszczenia nie tylko w trybie RODO, ale także w związku z dyskryminującymi decyzjami. Organizacja powinna mieć przygotowany:

  • kontakt do zespołu odpowiedzialnego za modele (nie tylko dział obsługi klienta),
  • procedurę weryfikacji, czy dany model mógł mieć wpływ na sporną decyzję,
  • możliwość ponownej oceny sprawy z udziałem człowieka,
  • tryb „wycofania” danych konkretnej osoby z przyszłych treningów, jeśli zachodzi taki obowiązek.

Im lepiej opisana jest infrastruktura danych i modeli, tym łatwiej udzielić konkretnej odpowiedzi zamiast ogólnego komunikatu, że „decyzję podjął system, którego nie da się zmienić”.

Najczęściej zadawane pytania (FAQ)

Czy mogę legalnie trenować model AI na danych klientów lub pacjentów?

Tak, ale tylko wtedy, gdy masz ważną podstawę prawną z RODO i jasno określony cel przetwarzania. Najczęściej stosuje się: wykonanie umowy, prawnie uzasadniony interes, rzadziej zgodę lub podstawy związane z interesem publicznym.

Problem pojawia się, gdy dane były zebrane w jednym celu (np. obsługa pacjenta), a mają być użyte w innym (np. marketing lub rozwój ogólnego produktu AI). Wtedy trzeba sprawdzić, czy nowy cel jest zgodny z pierwotnym oraz czy nie narusza praw osób, których dane dotyczą.

Kiedy dane treningowe są danymi osobowymi w rozumieniu RODO?

Dane treningowe są danymi osobowymi, gdy pozwalają na identyfikację osoby bezpośrednio (np. imię, PESEL) lub pośrednio, przez kombinację cech. Nie trzeba znać nazwiska, wystarczy, że realna reidentyfikacja jest możliwa.

To może być np. rzadkie schorzenie w małej miejscowości, szczegółowy opis zdarzeń życiowych czy zestaw dat i miejsc pobytu. Jeżeli istnieje klucz pozwalający wrócić do konkretnej osoby (pseudonimizacja), RODO nadal obowiązuje w pełnym zakresie.

Jaka jest różnica między anonimizacją a pseudonimizacją danych treningowych?

Anonimizacja to taki proces, po którym nie da się już zidentyfikować osoby w sposób „rozsądnie prawdopodobny”. Nie ma klucza, nie da się odwrócić procesu, także przy użyciu innych dostępnych źródeł. Takie dane wypadają spod RODO.

Pseudonimizacja polega na zastąpieniu identyfikatorów (np. PESEL, imię) innymi oznaczeniami, ale gdzieś istnieje klucz powiązania. Wtedy dane nadal są danymi osobowymi i obowiązują wszystkie wymogi RODO, także przy trenowaniu modeli AI.

Jakie są główne ryzyka prawne związane z danymi treningowymi w AI?

Najczęściej pojawiają się trzy grupy ryzyk: naruszenia prywatności i ochrony danych osobowych (RODO), naruszenia praw własności intelektualnej oraz dyskryminacja wynikająca z biasu w danych.

W praktyce te obszary się nakładają. Przykład: dane medyczne mogą jednocześnie naruszać tajemnicę medyczną, prawo do dokumentacji, a do tego prowadzić do gorszych rekomendacji dla określonych grup społecznych, co generuje roszczenia odszkodowawcze i reputacyjne.

Kto jest administratorem danych w projekcie AI: dostawca modelu czy klient?

Zwykle administratorem jest organizacja, która decyduje o celach i sposobach przetwarzania danych (np. szpital, bank, sklep internetowy). To ona postanawia, że powstanie dany model oraz jakie dane zostaną użyte.

Dostawca rozwiązania AI (software house, dostawca chmury) w większości przypadków jest procesorem, czyli przetwarza dane na zlecenie i zgodnie z instrukcjami administratora. Gdy obie strony wspólnie decydują o celach i sposobach, powstaje współadministracja, którą trzeba jasno uregulować w umowie.

Czy zgoda użytkownika to najlepsza podstawa prawna do trenowania modeli AI?

Zgoda bywa użyteczna, szczególnie w prostych usługach B2C i badaniach, ale w dużych projektach AI często jest trudna w utrzymaniu. Musi być dobrowolna, konkretna, świadoma i możliwa do wycofania, a wycofanie nie może „rozsypać” całego projektu.

Częściej stosuje się prawnie uzasadniony interes lub wykonanie umowy, pod warunkiem przeprowadzenia testu równowagi i oceny ryzyk. Zgoda staje się konieczna przy szczególnych kategoriach danych (np. zdrowie), gdzie dodatkowo dochodzą wymogi prawa krajowego.

Jak ograniczyć ryzyko prawne przy anonimizacji danych do trenowania AI?

Podstawą jest przeprowadzenie realnej analizy ryzyka reidentyfikacji, a nie tylko usunięcie imion i nazwisk. Trzeba ocenić: wielkość i specyfikę zbioru, rzadkość cech, możliwość łączenia z innymi źródłami oraz potencjalnego „napastnika”.

W praktyce stosuje się kombinację technik: usuwanie lub grupowanie rzadkich wartości, ograniczenie zakresu dat, agregację na wyższym poziomie, a czasem też syntetyzację danych. Dla systemów wysokiego ryzyka (np. medycznych) sensownym standardem jest połączenie poprawnej anonimizacji z formalną oceną skutków dla ochrony danych (DPIA).

Co warto zapamiętać

  • Dane treningowe są dziś głównym źródłem ryzyka prawnego w projektach AI – jedna decyzja o źródle danych może jednocześnie naruszać prywatność, prawa autorskie i prowadzić do dyskryminacji.
  • Trzy kluczowe wektory ryzyka to: (1) naruszenia RODO i błędna anonimizacja, (2) wykorzystanie treści chronionych prawem autorskim lub baz danych bez podstawy prawnej, (3) uprzedzenia w danych skutkujące dyskryminującymi decyzjami modeli.
  • Anonimizacja jest skuteczna tylko wtedy, gdy realnie uniemożliwia ponowną identyfikację osób; samo usunięcie imion i nazwisk czy pseudonimizacja nie zdejmują obowiązków wynikających z RODO.
  • Ryzyko prawne rośnie przy małych, specyficznych zbiorach (np. rzadkie choroby w małej miejscowości), bo kombinacja cech często pozwala „odgadnąć”, o kogo chodzi – nawet bez bezpośrednich identyfikatorów.
  • Regulatorzy patrzą na zgodność z zasadami (legalność, cel, minimalizacja, rozliczalność), a użytkownicy na własną krzywdę i możliwość dochodzenia roszczeń; w obu przypadkach kluczowe jest wykazanie rzeczywistej kontroli nad danymi treningowymi.
  • Brak rzetelnej oceny skutków (DPIA) i porządnej anonimizacji, jak w przykładzie chatbota medycznego, prowadzi do współodpowiedzialności dostawcy technologii i klienta (np. kliniki) za naruszenia RODO, tajemnicy zawodowej i dóbr osobistych.