Cos’è OpenAI Whisper? Come usarlo

by Johannes

Whisper di OpenAI è un sistema di riconoscimento vocale che consente di trascrivere e tradurre testi parlati. Il programma può gestire molte lingue

OpenAI Whisper: trascrivere e tradurre testi

Whisper è un sistema di riconoscimento vocale automatico di OpenAI con architettura encoder-decoder-trasformatore. Il sistema AI è stato addestrato su 680.000 ore di dati monitorati multilingue e multitasking provenienti da Internet. Questo dovrebbe portare a una maggiore robustezza contro gli accenti, il rumore di fondo e il linguaggio tecnico.

  • I testi parlati possono essere trascritti in diverse lingue e la traduzione da queste lingue all’inglese
  • L’architettura di Whisper è un semplice approccio end-to-end implementato come un encoder-decoder-trasformatore. Il segnale di ingresso viene suddiviso in sezioni di 30 secondi, convertito in uno spettrogramma log-mel e quindi inoltrato a un encoder.
  • Un decodificatore viene addestrato a prevedere l’etichettatura del testo appropriato, a mescolarlo con token specifici e a eseguire compiti quali l’identificazione della lingua e la marcatura temporale a livello di frase.
  • Poiché Whisper è stato addestrato su un set di dati ampio e diversificato e non è stato sintonizzato su uno specifico, funziona in modo più robusto e senza errori rispetto ad altri modelli.
  • Circa un terzo del set di dati audio di Whisper non è in inglese. Inoltre, a Whisper viene affidato alternativamente il compito di trascrivere in lingua originale o di tradurre in inglese. Questo approccio è particolarmente efficace per l’apprendimento della traduzione da lingua a testo.

Molteplici dimensioni del modello tra cui scegliere

Whisper è disponibile in cinque modelli di dimensioni diverse, che vengono utilizzati su un computer locale. Esiste anche un’API per una versione hosted di Whisper. Tuttavia, i costi dipendono dalla lunghezza della trascrizione. Sono disponibili i seguenti modelli:

 

  • Tiny: circa 40 milioni di parametri, solo lingua inglese, memoria VRAM richiesta 1 gigabyte, velocità relativa 32x
  • Base: oltre 70 milioni di parametri, solo lingua inglese, 1 gigabyte di memoria VRAM, velocità relativa 16x
  • Small: circa 250 milioni di parametri, solo lingua inglese, 2 gigabyte di memoria VRAM richiesti, velocità relativa 6x
  • Medium: circa 770 milioni di parametri, solo lingua inglese, 5 gigabyte di memoria VRAM richiesti, velocità relativa 2x
  • Large: oltre 1,5 miliardi di parametri, più lingue, 10 gigabyte di memoria VRAM, velocità relativa 1x
  • Whisper divide i dati audio registrati in sezioni di 30 secondi. Questi vengono tradotti in uno spettrogramma e poi trasferiti all’encoder
  • Conclusione: Whisper è un’alternativa open source gratuita a Google Speech-to-Text. Il sistema di riconoscimento vocale basato sull’intelligenza artificiale identifica la lingua di ingresso, trascrive il testo parlato in circa 100 lingue, punteggia e traduce correttamente i testi trascritti.

Related Articles

Leave a Comment