Co je OpenAI Whisper? Jak ji používat

by Mike

Whisper od společnosti OpenAI je systém rozpoznávání řeči, který umožňuje přepisovat a překládat mluvené texty. Program si poradí s mnoha jazyky

OpenAI Whisper: Přepis a překlad textů

Whisper je systém automatického rozpoznávání řeči od společnosti OpenAI s architekturou kodér-dekodér-transformátor. Systém AI byl vycvičen na 680 000 hodinách vícejazyčných a víceúlohových monitorovaných dat z internetu. To by mělo vést ke zvýšení odolnosti vůči přízvukům, šumu v pozadí a odbornému jazyku.

  • Mluvené texty lze přepisovat do několika jazyků, stejně jako překládat z těchto jazyků do češtiny.
  • Architektura Whisper je jednoduchý end-to-end přístup realizovaný jako kodér-dekodér-transformátor. Vstupní signál je rozdělen na 30sekundové úseky, převeden na log-melový spektrogram a poté předán kodéru.
  • Dekodér je vycvičen k předvídání vhodného označení textu, jeho smíchání se specifickými tokeny a provádění úloh, jako je identifikace jazyka, časová značka na úrovni fráze.
  • Protože byl Whisper vycvičen na velkém a různorodém souboru dat a nebyl vyladěn na konkrétní soubor, pracuje robustněji a bezchybněji než jiné modely.
  • Přibližně třetina souboru zvukových dat Whisper není v angličtině. Kromě toho je nástroji Whisper střídavě svěřován úkol přepisu v původním jazyce nebo překladu do angličtiny. Tento přístup je zvláště účinný při učení překladu z jazyka do textu.

Více velikostí modelů na výběr

Whisper je k dispozici v pěti různých modelových velikostech, které se používají na místním počítači. K dispozici je také rozhraní API k hostované verzi Whisper. Zde však vznikají náklady v závislosti na délce přepisu. Nabízeny jsou následující modelové velikosti:

 

  • Tiny: přibližně 40 milionů parametrů, jazyk pouze angličtina, požadovaná velikost paměti VRAM 1 gigabajt, relativní rychlost 32x
  • Base: více než 70 milionů parametrů, jazyk pouze angličtina, 1 gigabajt paměti VRAM, relativní rychlost 16x
  • Small: přibližně 250 milionů parametrů, jazyk pouze angličtina, potřeba 2 gigabajty paměti VRAM, relativní rychlost 6x
  • Medium: přibližně 770 milionů parametrů, jazyk pouze angličtina, potřeba 5 gigabajtů paměti VRAM, relativní rychlost 2x
  • Large: více než 1,5 miliardy parametrů, více jazyků, 10 gigabajtů paměti VRAM, relativní rychlost 1x
  • Whisper rozděluje nahraná zvuková data na 30sekundové úseky. Ty jsou převedeny do spektrogramu a poté přeneseny do kodéru
  • Závěr: Whisper je bezplatná open source alternativa ke službě Google Speech-to-Text. Systém rozpoznávání řeči založený na umělé inteligenci identifikuje vstupní jazyk, přepisuje mluvený text do přibližně 100 jazyků, správně interpunkci a překládá přepsané texty.

Related Articles

Leave a Comment