Porównanie transkrypcji
Jak dokładny jest scryp w transkrypcji języka polskiego – i jak bezpieczne są Twoje dane w porównaniu z dużymi usługami chmurowymi? Oto wyniki naszego benchmarku.
Dokładność transkrypcji dla języka polskiego
Word Error Rate (WER) – niżej znaczy lepiej. Dokładność = 100% − WER.
← Przewiń tabelę w bok →
| Dostawca | Ogólnie (dokładność) | Domena specjalistyczna (dokładność) | WER ogólnie |
|---|---|---|---|
| scrypSX-3 | 97.2 % | 96.1 % | 2.8 % |
| OpenAIWhisper Large v3 | 91.8 % | 83.5 % | 8.2 % |
| Google STTCloud Speech-to-Text | 88.5 % | 80.2 % | 11.5 % |
| Azure SpeechMicrosoft Cognitive | 87.9 % | 78.7 % | 12.1 % |
| AWS TranscribeAmazon Standard | 85.7 % | 75.9 % | 14.3 % |
Zestaw danych testowych i metodyka
- Podstawą jest nasz własny zestaw danych testowych publicznie dostępnych polskojęzycznych nagrań audio w domenach Ogólna, Zdrowie i Prawo.
- Wszyscy dostawcy zostali przetestowani na identycznych plikach audio i jednolitą metodą oceny (Word Error Rate po standardowej normalizacji).
- Kolumna Domena specjalistyczna pokazuje średnią z nagrań zdrowotnych i prawnych. Wskaźnik błędów rośnie ze specjalistycznym słownictwem u wszystkich dostawców – ale znacznie bardziej u modeli bez treningu domenowego.
- Wyniki mogą się różnić w zależności od jakości audio, liczby mówców, dialektu i konkretnego przypadku użycia.
Dlaczego scryp jest zbudowany inaczej dla treści wrażliwych
Te punkty opisują architekturę scryp. Są celowo konkretne i nie mają być ogólnym stwierdzeniem o każdym innym dostawcy.
Szyfrowanie na Twoim urządzeniu
Pliki są szyfrowane w przeglądarce przed przesłaniem. Przechowywane treści są trwale utrzymywane wyłącznie w postaci zaszyfrowanej.
Jasna architektura w UE
Transkrypcja w Austrii, zaszyfrowane przechowywanie w Niemczech – oba w obrębie UE. Dzięki temu jest przejrzyste, gdzie odbywa się każdy etap przetwarzania.
Własna infrastruktura przetwarzania
W transkrypcję nie jest zaangażowana żadna zewnętrzna AI podmiotów trzecich. Zmniejsza to dodatkowe przepływy danych i zależności.
Pełny przepływ pracy w przeglądarce
Edycja, eksport, udostępnianie i synchronizacja audio są wbudowane bezpośrednio w produkt, a nie dostępne tylko jako osobne komponenty API.
Źródła i dokumentacja
Funkcje dostawców zostały zweryfikowane na podstawie oficjalnej dokumentacji. Dane o dokładności opierają się na opisanym powyżej zestawie danych testowych.
Modele i dokładność
- Radford et al. (2022): Robust Speech Recognition via Large-Scale Weak Supervision - OpenAI Whisper Paper
- OpenAI Whisper Repository - Modelle und Sprachen
- faster-whisper (SYSTRAN) - CTranslate2-basierte Whisper-Implementierung
- pyannote.audio 3.x - Speaker Diarization Pipeline
- Mozilla Common Voice - Offener Sprachdatensatz
Dokumentacja dostawców
- Google Cloud Speech-to-Text - Overview and speech recognition
- Google Cloud Speech-to-Text - Speaker Diarization
- Microsoft Azure Speech Service - Overview and documentation
- Azure Speech - Real-time diarization quickstart
- Amazon Transcribe - Developer Guide
- Amazon Transcribe - Speaker partitioning (Diarization)
Gotowy na bezpieczną transkrypcję?
Wypróbuj scryp za darmo – szyfrowane od pierwszej sekundy.