Obsługiwane formaty plików: które pliki audio i wideo możesz transkrybować
Jedno z najczęstszych pytań przed pierwszym przesłaniem: “Czy mój format pliku jest obsługiwany?” Krótka odpowiedź: z bardzo wysokim prawdopodobieństwem tak. scryp przyjmuje ponad 50 formatów audio i ponad 50 formatów wideo – od popularnych standardów jak MP3 i MP4 aż po formaty profesjonalne jak FLAC, AC3 czy MKV. Ten artykuł wymienia wszystkie obsługiwane formaty, wyjaśnia, jak działa automatyczna konwersja, i na co zwrócić uwagę w kwestii jakości nagrania.
Dlaczego tak wiele formatów? Silnik konwersji scryp
scryp ma własny silnik konwersji, który potrafi przetworzyć praktycznie każdy popularny format audio i wideo. Przed transkrypcją każdy przesłany plik jest automatycznie konwertowany do zoptymalizowanego formatu – niezależnie od formatu źródłowego.
Proces szczegółowo: przesyłasz plik w dowolnym obsługiwanym formacie. Nasz silnik automatycznie wyodrębnia ścieżkę audio (w przypadku wideo ścieżka wideo jest odrzucana) i konwertuje ją do standaryzowanego formatu WAV o częstotliwości próbkowania 16 kHz i kanale mono. Ten format jest optymalny dla rozpoznawania mowy przez AI. Nigdy więc nie musisz myśleć o kodekach, częstotliwościach próbkowania czy liczbie kanałów – wszystko dzieje się w pełni automatycznie.
Obsługiwane formaty audio (50+)
Poniższa lista pokazuje najpopularniejsze formaty audio, które scryp przyjmuje bezpośrednio. Jeśli Twój format jest tutaj, możesz przesłać plik bez żadnego przygotowania:
- MP3 (.mp3) – Najbardziej rozpowszechniony format audio. Skompresowany, dobry kompromis między rozmiarem pliku a jakością. Idealny do nagrań ze smartfonów i dyktafonów.
- WAV (.wav) – Format nieskompresowany z pełną jakością dźwięku. Standard w profesjonalnej produkcji audio. Większe pliki, ale najlepsza dokładność transkrypcji.
- M4A / AAC (.m4a, .aac) – Standardowy format audio Apple. Używany przez iPhone'y, iPady i macOS. Lepsza jakość niż MP3 przy tym samym rozmiarze pliku.
- OGG / Vorbis (.ogg, .oga) – Format open source z dobrą kompresją. Popularny w systemach Linux i aplikacjach webowych.
- FLAC (.flac) – Format skompresowany bezstratnie. Pełna jakość dźwięku przy około 50–60 % rozmiaru pliku WAV. Lubiany przez audiofilów i w produkcji muzycznej.
- Opus (.opus) – Nowoczesny kodek o doskonałej jakości przy niskich przepływnościach. Standard dla VoIP i WebRTC – często używany przez przeglądarki do nagrań audio.
- AIFF (.aiff, .aif) – Nieskompresowany format audio Apple. Odpowiednik WAV w świecie macOS. Standard w produkcji muzycznej na urządzeniach Apple.
- WMA (.wma) – Windows Media Audio. Zastrzeżony format audio Microsoftu. Używany przez starsze windowsowe dyktafony i programy nagrywające.
- AMR (.amr) – Adaptive Multi-Rate. Kompaktowy format mowy używany przez wiele telefonów komórkowych do nagrań głosowych. Niska przepływność, ale zoptymalizowany pod mowę.
- AC3 (.ac3) – Dolby Digital. Format dźwięku przestrzennego często używany na DVD, Blu-ray i w nagraniach TV. scryp automatycznie wyodrębnia i miksuje kanały do mono.
- DTS (.dts) – Digital Theater Systems. Wysokiej jakości format przestrzenny z kin i kin domowych. Jest automatycznie konwertowany do formatu zoptymalizowanego pod rozpoznawanie mowy.
- WebM Audio (.webm) – Format kontenerowy dla audio webowego. Standard dla nagrań z przeglądarki, np. przez wbudowaną funkcję nagrywania w scryp.
Kolejnych 38 obsługiwanych formatów audio:
Kontenery i web: WebM Audio (.webm), CAF (.caf) – Core Audio Format, MKA (.mka) – Matroska Audio, MP2 (.mp2), SPX (.spx) – Speex, 3GP (.3gp).
Bezstratne i audiofilskie: APE (.ape) – Monkey's Audio, WavPack (.wv), TTA (.tta) – True Audio, TAK (.tak), Shorten (.shn), DSF (.dsf) – DSD Stream File, Musepack (.mpc).
Przestrzenne i kino: EAC3 (.eac3) – Dolby Digital Plus, DTS-HD (.dtshd), TrueHD (.thd) – Dolby TrueHD, MLP (.mlp).
Telefonia i VoIP: GSM (.gsm), iLBC (.lbc), QCP (.qcp), SBC (.sbc) – Bluetooth Audio, G.722 (.g722), G.723 (.g723), G.726 (.g726), G.729 (.g729).
Dyktafony: DSS (.dss) – Digital Speech Standard (Olympus, Philips), ACT (.act) – ACT Voice.
Archiwalne i starsze: AU (.au) – Sun/Unix Audio, W64 (.w64) – Sony Wave64, VOC (.voc) – Creative Voice, OMA (.oma) – Sony OpenMG, PVF (.pvf) – Portable Voice Format, SOX (.sox) – Sound eXchange, VQF (.vqf) – TwinVQ, MMF (.mmf) – Yamaha SMAF, IRCAM (.sf) – Berkeley/IRCAM, AVR (.avr) – Audio Visual Research, SLN (.sln) – Asterisk PCM.
Obsługiwane formaty wideo (50+)
scryp transkrybuje też pliki wideo bezpośrednio – ścieżka audio jest wyodrębniana automatycznie. Nie musisz wcześniej ręcznie oddzielać dźwięku:
- MP4 (.mp4) – Uniwersalny standard wideo. Produkowany praktycznie przez wszystkie kamery, smartfony i narzędzia do wideokonferencji (Zoom, Teams, Google Meet).
- MOV (.mov) – Format QuickTime Apple. Standard dla nagrań z iPhone'a i nagrań ekranu na macOS.
- MKV (.mkv) – Kontener Matroska. Elastyczny format open source, który obsługuje wiele ścieżek audio i napisów. Popularny do screencastów i archiwów wideo.
- AVI (.avi) – Klasyczny windowsowy format wideo. Używany przez starsze kamery i aplikacje Windows. Duże pliki, ale uniwersalnie kompatybilne.
- WebM (.webm) – Otwarty webowy format wideo Google. Standard dla nagrań wideo z przeglądarki i pobrań z YouTube.
- MPEG / MPG (.mpeg, .mpg) – Klasyczny format wideo. Standard dla DVD i starszych archiwów wideo.
- WMV (.wmv) – Windows Media Video. Format wideo Microsoftu, czasem spotykany w filmach szkoleniowych i starszych nagraniach konferencji.
- FLV (.flv) – Flash Video. Pochodzi z ery Flasha, wciąż można go znaleźć w starszych archiwach wideo.
- M4V (.m4v) – Wideowa wersja MP4 Apple. Używana przez iTunes i Apple TV.
- TS / MTS (.ts, .mts) – MPEG Transport Stream. Standard dla kamer (AVCHD) i nagrań TV.
- 3GP / 3G2 (.3gp, .3g2) – Mobilne formaty wideo. Produkowane przez starsze smartfony i tablety do nagrań wideo.
- VOB (.vob) – DVD Video Object. Format plików na płytach DVD. Istotny przy digitalizacji archiwów DVD.
Kolejne 44 obsługiwane formaty wideo:
Profesjonalne i broadcast: MXF (.mxf) – Material eXchange Format, GXF (.gxf) – General eXchange Format, DV (.dv) – Digital Video, R3D (.r3d) – RED Raw, LXF (.lxf) – VR Native Stream, Y4M (.y4m) – YUV4MPEG, MLV (.mlv) – Magic Lantern Video, MJ2 (.mj2) – Motion JPEG 2000, IVF (.ivf).
Web i streaming: OGV (.ogv) – Ogg Video, ASF (.asf) – Advanced Streaming Format, F4V (.f4v) – Flash MP4, SWF (.swf) – ShockWave Flash, NSV (.nsv) – Nullsoft Streaming Video, ISM/ISMV (.ism, .ismv) – Smooth Streaming.
Nagrania TV i monitoring: WTV (.wtv) – Windows Television, TY (.ty) – TiVo, DAV (.dav) – CCTV DVR, EVO (.evo) – HD-DVD.
Archiwalne i starsze: RM/RMVB (.rm, .rmvb) – RealMedia, NUT (.nut), NUV (.nuv) – NuppelVideo, DivX (.divx), FLC/FLI (.flc, .fli) – Autodesk Animator, PSP (.psp), CDXL (.cdxl) – Amiga CDXL.
Gry i multimedia: BIK (.bik) – Bink Video, SMK (.smk) – Smacker, ROQ (.roq) – id Software, THP (.thp) – Nintendo, VMD (.vmd) – Sierra, VIV (.viv) – Vividas, XMV (.xmv) – Microsoft XMV, PMP (.pmp) – PSP Media, CPK (.cpk) – Sega FILM, RL2 (.rl2), RPL (.rpl), MTV (.mtv), PDV (.pdv) – PlayDate, IV8 (.iv8) – IndigoVision, BMV (.bmv) – Discworld, TMV (.tmv), YOP (.yop) – Psygnosis, WC3 (.wc3) – Wing Commander.
Jak działa automatyczna konwersja
Cały proces konwersji przebiega w pełni automatycznie na serwerze. Niezależnie od formatu źródłowego każdy plik jest przetwarzany w trzech krokach: wyodrębnienie ścieżki audio, konwersja do 16 kHz mono WAV dla rozpoznawania AI i następnie transkrypcja naszym modelem językowym SX-3.
Proces techniczny:
- 1. Przesłanie: Twój plik jest szyfrowany w przeglądarce i przesyłany w Twoim oryginalnym formacie.
- 2. Wyodrębnienie: Nasz silnik konwersji wyodrębnia ścieżkę audio. W przypadku plików czysto audio ten krok jest pomijany. W przypadku wideo używany jest tylko dźwięk – materiał wizualny nie jest przechowywany.
- 3. Normalizacja: Audio jest konwertowane do standaryzowanego formatu WAV: częstotliwość próbkowania 16 kHz, 16-bitowe PCM, mono. Te parametry są optymalne dla naszego modelu rozpoznawania mowy SX-3.
- 4. Transkrypcja: Znormalizowane audio przetwarza SX-3. Równolegle odbywa się diaryzacja mówców, które rozróżnia poszczególne głosy.
- 5. Wersja do odtwarzania: Dodatkowo tworzona jest skompresowana wersja MP3 do odtwarzania w przeglądarce, abyś mógł przy korekcie słuchać bezpośrednio.
Wskazówki dla optymalnej jakości transkrypcji
scryp przyjmuje niemal każdy format – ale jakość wyniku silnie zależy od jakości nagrania. Kilka zaleceń:
- Preferuj formaty nieskompresowane: WAV i FLAC dają najlepsze wyniki, bo żadne artefakty kompresji nie zakłócają rozpoznawania mowy. Jeśli miejsce na dysku nie jest problemem, nagrywaj w WAV.
- Wysoka przepływność dla formatów skompresowanych: W przypadku MP3 przepływność powinna wynosić co najmniej 128 kb/s, lepiej 192 lub 256 kb/s. Pliki MP3 przy 64 kb/s i mniej mogą zauważalnie pogorszyć dokładność rozpoznawania.
- Przesyłaj wideo bezpośrednio: Nie musisz ręcznie wyodrębniać ścieżki audio. Prześlij plik wideo bezpośrednio – scryp zajmie się wyodrębnieniem automatycznie. To oszczędza krok i zapobiega utracie jakości z podwójnej konwersji.
- Formaty przestrzenne działają: Formaty wielokanałowe jak AC3 (Dolby Digital) i DTS są automatycznie miksowane do mono. Nie musisz konwertować dźwięku ręcznie.
- Pamiętaj o środowisku nagrywania: Niezależnie od formatu: cicha pomieszczenie i dobry mikrofon mają większy wpływ na dokładność transkrypcji niż wybór między MP3 a WAV.
Najczęściej zadawane pytania
Czy muszę wcześniej konwertować swoje pliki? Nie. Prześlij plik w jego oryginalnym formacie. Konwersja odbywa się automatycznie na serwerze.
Co, jeśli mojego formatu nie ma na liście? Po prostu spróbuj. scryp przyjmuje każdy plik z typem MIME audio lub wideo. Wymienione tutaj formaty to te najpopularniejsze – w praktyce nasz silnik obsługuje znacznie więcej.
Czy działają też bardzo duże pliki wideo? Tak. W zależności od Twojego planu subskrypcji można przesyłać pliki do 1 GB (Nano), 5 GB (Pro) lub 10 GB (Ultra). W przypadku dużych plików używane jest przesyłanie wieloczęściowe, które działa niezawodnie nawet przy niestabilnym połączeniu.
A co ze ścieżkami audio w językach obcych? Format pliku jest niezależny od języka. scryp automatycznie rozpoznaje ponad 90 języków. Jeśli chcesz przyspieszyć rozpoznawanie, możesz podczas przesyłania podać podpowiedź językową.
Czy moje pliki są usuwane po transkrypcji? Tak. Zaszyfrowane oryginalne pliki są automatycznie usuwane po przetworzeniu. Na serwerze pozostaje tylko zaszyfrowana wersja do odtwarzania (MP3) i zaszyfrowana transkrypcja.
Podsumowanie
scryp obsługuje ponad 100 formatów audio i wideo – od codziennych standardów jak MP3 i MP4, przez profesjonalne formaty przestrzenne jak AC3 i DTS, po wyspecjalizowane formaty archiwalne jak VOB, MXF czy MTS. Nasz silnik konwersji zajmuje się kodekami i kompatybilnością formatów. Po prostu prześlij swój plik w oryginalnym formacie, a resztą zajmie się automatyka. Dla najlepszej możliwej jakości transkrypcji zalecany jest format nieskompresowany lub o wysokiej przepływności – a, co ważniejsze, dobre środowisko nagrywania.