Czym jest OpenAI Whisper? Jak z niego korzystać

by Mike

Whisper od OpenAI to system rozpoznawania mowy, który umożliwia transkrypcję i tłumaczenie tekstów mówionych. Program radzi sobie z wieloma językami

OpenAI Whisper: transkrypcja i tłumaczenie tekstów

Whisper to automatyczny system rozpoznawania mowy od OpenAI z architekturą koder-dekoder-transformator. System AI został przeszkolony na 680 000 godzin wielojęzycznych i wielozadaniowych monitorowanych danych z Internetu. Powinno to prowadzić do poprawy odporności na akcenty, hałas w tle i język techniczny.

  • Teksty mówione mogą być transkrybowane w kilku językach, jak również tłumaczone z tych języków na angielski.

  • Architektura Whisper to proste podejście end-to-end zaimplementowane jako koder-dekoder-transformator. Sygnał wejściowy jest dzielony na 30-sekundowe sekcje, konwertowany na spektrogram log-mel, a następnie przekazywany do kodera.

  • Dekoder jest szkolony w celu przewidywania odpowiedniego etykietowania tekstu, mieszania go z określonymi tokenami i wykonywania zadań, takich jak identyfikacja języka, znakowanie czasem na poziomie frazy.

  • Ponieważ Whisper został wytrenowany na dużym i zróżnicowanym zbiorze danych, a nie dostosowany do konkretnego, działa bardziej solidnie i bezbłędnie niż inne modele.

  • Około jedna trzecia zbioru danych audio Whisper nie jest w języku angielskim. Ponadto, Whisper na przemian powierza się zadanie transkrypcji w oryginalnym języku lub tłumaczenia na język angielski. Takie podejście jest szczególnie skuteczne podczas nauki tłumaczenia z języka na tekst.

Wiele rozmiarów modeli do wyboru

Whisper jest dostępny w pięciu różnych rozmiarach modeli, które są używane na komputerze lokalnym. Istnieje również interfejs API do hostowanej wersji Whisper. Jednak w tym przypadku ponoszone są koszty w zależności od długości transkrypcji. Oferowane są następujące rozmiary modeli:

  • Tiny: około 40 milionów parametrów, język tylko angielski, wymagany rozmiar pamięci VRAM 1 gigabajt, względna prędkość 32x

  • Base: ponad 70 milionów parametrów, tylko język angielski, 1 gigabajt pamięci VRAM, względna prędkość 16x

  • Small: około 250 milionów parametrów, tylko język angielski, wymagane 2 gigabajty pamięci VRAM, względna szybkość 6x

  • Medium: około 770 milionów parametrów, tylko język angielski, wymagane 5 gigabajtów pamięci VRAM, prędkość względna 2x

  • Large: ponad 1,5 miliarda parametrów, wiele języków, 10 gigabajtów pamięci VRAM, względna szybkość 1x

  • Whisper dzieli nagrane dane audio na 30-sekundowe sekcje. Są one tłumaczone na spektrogram, a następnie przesyłane do kodera

  • Podsumowanie: Whisper jest darmową, otwartoźródłową alternatywą dla Google Speech-to-Text. Oparty na sztucznej inteligencji system rozpoznawania mowy identyfikuje język wejściowy, transkrybuje tekst mówiony na około 100 języków, poprawnie interpunkuje i tłumaczy transkrybowane teksty.

Related Articles

Leave a Comment