14 marca 20269 min czytania

Tworzenie napisów: przewodnik krok po kroku po dostępnych wideo

Od 28 czerwca 2025 r. w Niemczech obowiązuje ustawa o wzmocnieniu dostępności (BFSG). W Austrii ustawa o dostępności (BaFG) wdraża tę samą dyrektywę UE. Firmy, które kierują produkty lub usługi cyfrowe do konsumentów, muszą udostępnić swoje treści – w tym wideo na własnej stronie. Napisy są tu jednym z głównych wymogów.

Mimo to wiele firm jeszcze nie dokonało zmiany. Często nie brakuje woli, lecz wiedzy: które napisy są “dostępne”? Jakiego formatu potrzebuję? I jak je tworzyć efektywnie, bez ręcznej obróbki każdego wideo?

Ten przewodnik prowadzi Cię przez cały proces – od wymogów prawnych po gotowy plik z napisami.

Co te przepisy oznaczają dla wideo

W Niemczech BFSG od czerwca 2025 r. zobowiązuje firmy z ofertą B2C do udostępnienia wideo. W Austrii BaFG wdraża tę samą dyrektywę UE. Konkretnie oznacza to: napisy do nagranych wideo, audiodeskrypcję do treści czysto wizualnych i transkrypcje jako pełną wersję pisemną. Standardem technicznym jest poziom zgodności AA wg WCAG 2.1.

Ustawa o wzmocnieniu dostępności przenosi europejską dyrektywę (UE) 2019/882 (European Accessibility Act) do prawa niemieckiego. W Austrii dzieje się to za pośrednictwem ustawy o dostępności (BaFG). Dla firm mniej liczy się więc skrót niż praktyczne wdrożenie: usługi cyfrowe muszą być użyteczne dla osób z niepełnosprawnościami. Standardem technicznym za tym jest poziom zgodności AA wg WCAG 2.1.

Dla wideo oznacza to konkretnie trzy obowiązki:

Napisy dla wszystkich nagranych wideo z treścią mówioną (WCAG 1.2.2)
Audiodeskrypcja dla treści wizualnych, których nie da się wywnioskować z dźwięku (WCAG 1.2.3)
Transkrypcje jako pełna wersja pisemna treści mówionej (WCAG 1.2.1)

Dotyczy to ofert B2C – czyli stron, sklepów i aplikacji skierowanych do konsumentów. Małe przedsiębiorstwa z mniej niż dziesięcioma pracownikami i maksymalnym rocznym obrotem dwóch milionów euro są zwolnione. Dla wszystkich innych za naruszenia grożą kary. Dla firm austriackich obowiązują te same wymogi merytoryczne za pośrednictwem BaFG.

Napisy standardowe vs. napisy dostępne

Napisy standardowe odtwarzają tylko tekst mówiony. Napisy dostępne (SDH) dodatkowo opisują istotne dźwięki, muzykę, zmiany mówców i ton emocjonalny. Tylko napisy dostępne spełniają wymogi WCAG, a tym samym wymogi dla dostępnych ofert wideo.

Nie każdy napis spełnia wymogi dla dostępnych ofert wideo zgodnie z BFSG lub BaFG. Platformy jak YouTube generują automatyczne napisy – które na ogół nie wystarczają do zgodności z przepisami. Różnica tkwi w szczegółach:

Napisy standardowe odtwarzają tylko tekst mówiony. Pomagają przy cichym dźwięku lub obcym języku, ale dla osób niesłyszących są niekompletne.
Napisy dostępne (SDH) dodatkowo opisują istotne dźwięki ([dzwonek], [oklaski]), muzykę ([napięta muzyka]), zmiany mówców i ton emocjonalny. Udostępniają cały kontekst akustyczny.

WCAG wymaga napisów dostępnych. Oznacza to: identyfikację mówcy, synchroniczne wyświetlanie, opis treści dźwiękowych innych niż mowa i wystarczający czas na czytanie przy każdym wyświetleniu.

Tworzenie napisów: krok po kroku

Najefektywniejsza droga prowadzi przez transkrypcję wspieraną przez AI jako podstawę, która jest następnie dostosowywana do celów napisów. Przepływ pracy składa się z pięciu kroków:

1. Przygotuj audio: Wyodrębnij ścieżkę dźwiękową z wideo lub prześlij plik wideo bezpośrednio do narzędzia do transkrypcji. Popularne formaty jak MP4, MOV, MP3, WAV i M4A są obsługiwane przez większość usług. Im lepsza jakość audio, tym dokładniejsza transkrypcja – szum w tle i pogłos znacznie obniżają poziom rozpoznawania.
2. Zleć utworzenie transkrypcji: Nowoczesne modele AI transkrybują audio w kilka minut z dokładnością ponad 95 % dla języków standardowych. Upewnij się, że narzędzie obsługuje diaryzację mówców – w przypadku wideo z wieloma osobami identyfikacja “kto mówi” jest dla napisów dostępnych obowiązkowa. Wynikiem jest transkrypcja ze znacznikami czasu i zmianami mówców.
3. Przetwórz transkrypcję: Sprawdź transkrypcję AI pod kątem błędów, zwłaszcza przy nazwach własnych, terminach fachowych i skrótach. Dodaj opisy istotnych dźwięków i muzyki w nawiasach kwadratowych. Zadbaj o to, by każdy blok napisów obejmował najwyżej dwa wiersze i pozostawał na ekranie wystarczająco długo (zasada kciuka: co najmniej jedna sekunda na pięć słów).
4. Wyeksportuj plik z napisami: Wyeksportuj edytowaną transkrypcję jako plik SRT lub VTT. Oba formaty zawierają znaczniki czasu i tekst i są obsługiwane przez wszystkie popularne platformy i odtwarzacze wideo. Który format wybrać, zależy od zamierzonego zastosowania (zobacz następną sekcję).
5. Osadź napisy: Prześlij plik z napisami na swoją platformę wideo lub wypal napisy na stałe w wideo. Dla stron zalecany jest wariant przełączalny (closed captions), aby użytkownicy mogli sami włączyć napisy.

SRT, VTT czy wypalone: który format kiedy

Wybór formatu napisów zależy od tego, gdzie i jak używasz wideo:

SRT (SubRip): Standard branżowy. Obsługiwany przez YouTube, Vimeo, LinkedIn, WordPress i niemal wszystkie programy do montażu wideo. Zawiera numer kolejny, czas początku/końca i tekst. Idealny do większości zastosowań.
VTT (WebVTT): Standard webowy dla wideo HTML5. Dodatkowo obsługuje opcje stylizacji, jak kolor czcionki, pozycjonowanie i klasy CSS. Zalecany, jeśli osadzasz wideo we własnym odtwarzaczu na swojej stronie i chcesz kontrolować prezentację.
Wypalone (open captions): Napisy są na stałe renderowane w wideo i zawsze widoczne. Niezbędne dla wideo w mediach społecznościowych (Instagram Reels, TikTok), bo te platformy nie obsługują przełączalnych napisów. Wada: późniejsze poprawki wymagają nowego renderowania.

Dla dostępnych ofert wideo na własnej stronie zalecane są SRT lub VTT jako napisy przełączalne. Dla mediów społecznościowych jedyną opcją jest wypalenie.

Częste błędy przy napisach

Nawet napisy tworzone w dobrej wierze nie spełniają wymogów dostępności, gdy wkradają się typowe błędy:

Brak identyfikacji mówcy: W przypadku wideo z wieloma osobami musi być jasne, kto mówi. Bez identyfikacji nie można śledzić dyskusji, wywiadów i dialogów.
Zbyt szybkie wyświetlanie: Napisy widoczne tylko przez pół sekundy są nie do przeczytania. WCAG zaleca maksymalnie 20 znaków na sekundę.
Niewystarczający kontrast: Biały tekst na jasnym tle jest nieczytelny. WCAG wymaga współczynnika kontrastu co najmniej 4,5:1. Półprzezroczysty czarny pasek za tekstem rozwiązuje problem.
Brak opisów dźwięków: Jeśli rozbrzmiewa alarm lub ktoś się śmieje i jest to istotne dla kontekstu, trzeba to opisać – w przeciwnym razie niesłyszącym widzom brakuje kluczowej informacji.
Automatyczne napisy bez korekty: Napisy generowane przez AI zawierają błędy. Nazwy własne, terminy fachowe i liczby są regularnie rozpoznawane błędnie. Bez ludzkiej weryfikacji napisy nie są wiarygodne.

Ochrona danych przy tworzeniu napisów

Wideo firmowe często zawierają poufne informacje – zapowiedzi produktów, szkolenia wewnętrzne, referencje klientów lub wywiady z pracownikami. Kto przekazuje ścieżkę audio do transkrypcji zewnętrznej usłudze, powinien sprawdzić, gdzie dane są przetwarzane i przechowywane.

RODO stawia jasne wymagania dotyczące przetwarzania: umowę powierzenia przetwarzania danych, miejsce przetwarzania w obrębie UE i odpowiednie zabezpieczenia techniczne. Zwłaszcza dla treści poufnych szyfrowanie po stronie klienta oferuje najsilniejszą ochronę – usługa transkrypcji nigdy w żadnym momencie nie widzi treści w postaci jawnej.

Checklista: dostępne napisy wg BFSG/BaFG

Wszystkie wideo z treścią mówioną mają napisy
Napisy odtwarzają tekst mówiony w całości i poprawnie
Zmiany mówców są identyfikowane
Istotne dźwięki i muzyka są opisane w nawiasach kwadratowych
Napisy są zsynchronizowane z dźwiękiem (bez zauważalnego przesunięcia)
Czas wyświetlania jest wystarczający (co najmniej 1 sekunda na 5 słów)
Tekst jest czytelny (odpowiedni rozmiar, kontrast co najmniej 4,5:1)
Napisy są dostępne jako przełączalny plik SRT/VTT lub wypalone na stałe
Automatyczna transkrypcja została ręcznie sprawdzona i poprawiona
Przy transkrypcji zapewniona jest ochrona danych (DPA, przetwarzanie w UE, szyfrowanie)

Podsumowanie

BFSG i BaFG czynią z dostępnych napisów prawdziwy temat zgodności z przepisami dla wielu wideo firmowych – a to więcej niż biurokratyczna przeszkoda. Dostępne wideo docierają do szerszej publiczności, poprawiają doświadczenie użytkownika i wzmacniają wykrywalność w wyszukiwarkach. Najefektywniejsza droga prowadzi przez transkrypcję wspieraną przez AI z następującą ręczną weryfikacją i eksportem jako plik SRT lub VTT. Ważne jest, by napisy nie tylko odtwarzały tekst, ale udostępniały cały kontekst akustyczny – mówców, dźwięki, atmosferę – wszystkim.

Uwaga: Ten artykuł służy ogólnym celom informacyjnym i nie zastępuje porady prawnej w konkretnych przypadkach.