15 marca 20266 min czytania

5 pytań, które powinieneś zadać swojej usłudze transkrypcji

Przesyłasz nagranie, AI je transkrybuje, a kilka minut później masz swoją transkrypcję. Proces wydaje się prosty – ale co dzieje się między przesłaniem a wynikiem? Kto ma dostęp do Twoich danych? Gdzie są przechowywane? I czy w ogóle są kiedykolwiek usuwane?

Te pięć pytań pomoże Ci ocenić praktyki ochrony danych usługi transkrypcji, zanim prześlesz poufną treść.

Pytanie 1: “Gdzie moje dane są przetwarzane i przechowywane?”

Dlaczego to ważne: miejsce przetwarzania określa, jakiemu porządkowi prawnemu podlegają Twoje dane. Serwery w USA oznaczają CLOUD Act i potencjalny dostęp urzędów bez nakazu sądu UE.

Wiele usług transkrypcji przechowuje dane w USA. To problematyczne z punktu widzenia ochrony danych: amerykański CLOUD Act pozwala na dostęp urzędów a podstawa prawna przekazywania danych UE-USA była wielokrotnie unieważniana (Safe Harbor 2015, Privacy Shield 2020).

Dobra odpowiedź: “Nasze serwery są w UE, obsługiwane przez europejską firmę z certyfikatem ISO 27001.”

Zła odpowiedź: “Używamy AWS/Google Cloud z regionami w UE.” (Nadal amerykańska firma, nadal CLOUD Act.)

Pytanie 2: “Kto może czytać moje transkrypcje?”

Dlaczego to ważne: jeśli dostawca przetwarza Twoje dane w postaci jawnej, pracownicy, administratorzy lub atakujący mogą je potencjalnie podejrzeć – nawet jeśli dostawca tego nie zamierza.

Decydujące pytanie nie brzmi, czy dostawca chce czytać Twoje dane, lecz czy technicznie może. Przy szyfrowaniu po stronie serwera klucz trzyma dostawca. Przy szyfrowaniu po stronie klienta klucz trzyma tylko użytkownik.

Dobra odpowiedź: “Nie możemy czytać Twoich transkrypcji. Szyfrowanie odbywa się w Twojej przeglądarce, a klucz masz tylko Ty.”

Zła odpowiedź: “Twoje dane są prywatne i poufne. Tylko Ty możesz wyświetlać swoje transkrypcje.” (Wymijające – nic nie mówi o dostępie technicznym.)

Pytanie 3: “Co dzieje się z moimi plikami audio po transkrypcji?”

Dlaczego to ważne: nagrania audio, które pozostają na serwerach po przetworzeniu, stanowią trwałe ryzyko ataku. Minimalizacja danych to nie tylko zasada RODO, ale i praktyczna ochrona.

Niektóre usługi przechowują oryginalne nagrania na stałe. To przeczy zasadzie RODO o minimalizacji danych (art. 5 ust. 1 lit. c) i zwiększa powierzchnię ataku: więcej przechowywanych danych oznacza więcej potencjalnych szkód w razie naruszenia.

Dobra odpowiedź: “Oryginalne nagrania są automatycznie usuwane po transkrypcji. Zachowywana jest tylko zaszyfrowana wersja do odtwarzania.”

Zła odpowiedź: “Możesz usunąć swoje pliki w dowolnej chwili.” (Czyli: dopóki ich nie usuniesz, oryginały pozostają na serwerze.)

Pytanie 4: “Czy używacie plików cookie lub narzędzi śledzących?”

Dlaczego to ważne: pliki cookie i trackery ujawniają wzorce korzystania i mogą pozwalać na wyciąganie wniosków o treści. Usługa, która osadza Google Analytics lub Facebook Pixel, udostępnia dane o korzystaniu firmom amerykańskim.

Narzędzia śledzące na platformach transkrypcji są szczególnie problematyczne: dokumentują, kiedy przesłałeś, edytowałeś i eksportowałeś które pliki. W połączeniu z nazwami plików (które u większości usług są widoczne w postaci jawnej) tworzy to szczegółowy profil korzystania.

Dobra odpowiedź: “Nie używamy żadnych plików cookie ani narzędzi śledzących. Uwierzytelnianie odbywa się przez bezpieczne tokeny w przeglądarce.”

Zła odpowiedź: “Używamy plików cookie zgodnie z naszą polityką cookie.” (Odsyła do tekstu prawnego zamiast do decyzji architektonicznych.)

Pytanie 5: “Czy moje dane są używane do treningu modeli AI?”

Dlaczego to ważne: jeśli Twoje nagrania trafią do treningu, staną się częścią modelu – a tym samym potencjalnie odtwarzalne w wynikach dla innych użytkowników. Usunięcie oryginalnych danych w tym momencie już nie pomoże.

Niektórzy dostawcy formułują swoje warunki korzystania celowo niejasno: “Możemy wykorzystywać Twoje dane do ulepszania naszych usług.” Przy szyfrowaniu po stronie klienta trening AI na danych użytkowników jest technicznie niemożliwy – serwer widzi tylko zaszyfrowane bloby.

Dobra odpowiedź: “Nie. Nie trenujemy modeli na danych klientów. Nasza architektura czyni to technicznie niemożliwym.”

Zła odpowiedź: “Nie.” (Bez technicznego wyjaśnienia – czysto kwestia zaufania.)

Podsumowanie

Lokalizacja: Firma z UE z centrum danych w UE i certyfikatem ISO 27001.
Szyfrowanie: Po stronie klienta w przeglądarce, nie tylko po stronie serwera.
Minimalizacja danych: Oryginały są usuwane po przetworzeniu.
Brak cookie, brak śledzenia: Wykluczone na poziomie architektury, nie tylko przez baner cookie.
Brak treningu AI: Technicznie niemożliwy, nie tylko obiecany.

Te pięć pytań oddziela usługi, które traktują ochronę danych poważnie, od tych, które ją tylko reklamują. Różnica nie tkwi w odpowiedziach – lecz w architekturze, która za nimi stoi.