Какво е OpenAI Whisper? Как да го използвате

by Michaela

Whisper от OpenAI е система за разпознаване на реч, която ви позволява да транскрибирате и превеждате говорими текстове. Програмата може да работи с много езици

OpenAI Whisper: транскрибиране и превод на текстове

Whisper е система за автоматично разпознаване на реч от OpenAI с архитектура енкодер-декодер-трансформатор. Системата с изкуствен интелект е обучена върху 680 000 часа многоезични и многозадачни наблюдавани данни от интернет. Това би трябвало да доведе до подобрена устойчивост срещу акценти, фонов шум и технически език.

  • Изговорените текстове могат да бъдат транскрибирани на няколко езика, както и преводът от тези езици на английски език.

  • Архитектурата на Whisper е прост подход от край до край, реализиран като енкодер-декодер-трансформатор. Входният сигнал се разделя на 30-секундни участъци, преобразува се в лог-мел спектрограма и след това се препраща към енкодер.

  • Декодерът се обучава да предсказва подходящото етикетиране на текста, да го смесва със специфични лексеми и да изпълнява задачи като идентификация на езика, маркиране на времето на ниво фраза.

  • Тъй като Whisper е обучен върху голям и разнообразен набор от данни, а не е настроен за конкретен такъв, той работи по-стабилно и без грешки в сравнение с други модели.

  • Около една трета от набора от аудио данни на Whisper не е на английски език. Освен това на Whisper последователно се възлага задачата да транскрибира на оригиналния език или да превежда на английски. Този подход е особено ефективен при изучаването на превод от език на текст.

Многобройни размери на моделите за избор

Whisper се предлага в пет различни моделни размера, които се използват на локален компютър. Съществува и API за хоствана версия на Whisper. Тук обаче се начисляват разходи в зависимост от дължината на транскрипцията. Предлагат се следните размери на модела:

  • Малък: около 40 милиона параметри, език само английски, необходим размер на VRAM паметта 1 гигабайт, относителна скорост 32x

  • Base: над 70 милиона параметъра, език само английски, необходима памет VRAM 1 гигабайт, относителна скорост 16x

  • Small: около 250 милиона параметри, език само английски, необходими са 2 гигабайта VRAM памет, относителна скорост 6x

  • Среден: около 770 милиона параметри, език само английски, необходими са 5 гигабайта VRAM памет, относителна скорост 2 пъти

  • Large (Голям): над 1,5 милиарда параметри, множество езици, 10 гигабайта VRAM памет, относителна скорост 1x

  • Whisper разделя записаните аудио данни на 30-секундни участъци. Те се преобразуват в спектрограма и след това се прехвърлят към енкодера

  • Заключение: Whisper е безплатна алтернатива с отворен код на Google Speech-to-Text. Системата за разпознаване на реч, базирана на изкуствен интелект, идентифицира входния език, транскрибира говоримия текст на около 100 езика, прави пунктуация и превежда транскрибираните текстове.

Related Articles

Leave a Comment