Что такое OpenAI Whisper? Как им пользоваться

by Flo

Whisper от OpenAI — это система распознавания речи, которая позволяет транскрибировать и переводить устные тексты. Программа может работать со многими языками

OpenAI Whisper: транскрибирование и перевод текстов

Whisper — это система автоматического распознавания речи от OpenAI с архитектурой кодер-декодер-трансформер. Система искусственного интеллекта была обучена на 680 000 часов многоязычных и многозадачных данных, полученных из Интернета. Это должно повысить устойчивость к акцентам, фоновому шуму и техническому языку.

  • Разговорные тексты можно транскрибировать на нескольких языках, а также переводить с этих языков на английский.

  • Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде кодера-декодера-трансформатора. Входной сигнал разбивается на 30-секундные отрезки, преобразуется в спектрограмму лог-мела, а затем направляется на кодер.

  • Декодер обучается предсказывать соответствующую маркировку текста, смешивать его с определенными лексемами и выполнять такие задачи, как идентификация языка, маркировка времени на уровне фразы.

  • Поскольку Whisper обучался на большом и разнообразном наборе данных, а не настраивался под конкретный набор, он работает более надежно и безошибочно, чем другие модели.

  • Около трети аудиоданных Whisper не на английском языке. Кроме того, на Whisper попеременно возлагается задача транскрибирования на языке оригинала или перевода на английский. Такой подход особенно эффективен при обучении переводу с языка на текст.

Множество размеров моделей на выбор

Whisper доступен в пяти различных размерах моделей, которые используются на локальном компьютере. Существует также API для хостинговой версии Whisper. Однако в этом случае расходы зависят от длины транскрипции. Предлагаются следующие размеры моделей:

  • Tiny: около 40 миллионов параметров, язык только английский, требуемый объем памяти VRAM 1 гигабайт, относительная скорость 32x

  • Base: более 70 миллионов параметров, язык только английский, объем памяти VRAM 1 гигабайт, относительная скорость 16x

  • Small: около 250 миллионов параметров, язык только английский, требуется 2 гигабайта VRAM-памяти, относительная скорость 6x

  • Medium: около 770 миллионов параметров, язык только английский, требуется 5 гигабайт памяти VRAM, относительная скорость 2x

  • Large: более 1,5 миллиарда параметров, несколько языков, 10 гигабайт памяти VRAM, относительная скорость 1х

  • Whisper разбивает записанные аудиоданные на 30-секундные отрезки. Они преобразуются в спектрограмму, а затем передаются на кодер

  • Вывод: Whisper — это бесплатная альтернатива Google Speech-to-Text с открытым исходным кодом. Система распознавания речи, основанная на искусственном интеллекте, определяет язык ввода, транскрибирует устный текст на около 100 языков, правильно расставляет знаки препинания и переводит транскрибированные тексты.

Related Articles

Leave a Comment