Транскрибируйте MP3 в текст.Идентификация спикеров, 100+ языков.

Загрузите MP3-файл с любым битрейтом от 64 до 320 кбит/с. Получите транскрипт с временными метками и идентификацией спикеров на 99 языках — без конвертирования формата, без перекодирования, ��ез очередей.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Посмотрите, что получится

MP3 на входе. Диаризованный транскрипт на выходе.

Мы читаем заголовки MP3-фреймов напрямую — VBR, CBR, joint-stereo, любой кодер (LAME, Fraunhofer, FFmpeg). Если файл — настоящий стерео с разными спикерами на отдельных каналах, мы используем это для разделения голосов. Моно сводится к акустической диаризации.

interview-tape-04.mp3REC 192 кбит/с · стерео · 38:42
автоматически определён en-GB44.1 кГц · LAME 3.100
~90s
Транскрипт · потоковая передачаТочность 95%
S1

Когда вы впервые поняли, что архив неполный?

S2

Примерно в 2019 году, когда мы начали оцифровывать катушечные записи.

S1

И пропавшие кассеты — они вообще были где-нибудь каталогизированы?

S2

Есть бумажный указатель с 78-го года, но половина его повреждена водой.

Точность 95% на 192 кбит/с стереоSRT · DOCX · TXT · JSON · VTT

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Три реальных варианта · честное сравнение

Бесплатный локальный Whisper. Otter или Sonix. Или мы.

Вы можете запустить Whisper на собственном ноутбуке бесплатно, если вы технически подкованы. Otter и Sonix принимают загрузки MP3 в панелях подписки. Мы берём файл, возвращаем транскрипт и не требуем от вас жить в интерфейсе.

Option 01

Whisper локально / open source

Бесплатно, если у вас есть GPU и свободный день. Диаризация спикеров не включена из коробки.

НастройкаPython + CUDA + 10 ГБ моделей
Диаризация спикеровНе включена (pyannote расширение)
Скорость · 1 ч MP35–40 мин на потребительском GPU
Языки99, но маленькая модель падает ниже 80%
ЭкспортTXT / SRT / VTT / JSON
СтоимостьБесплатно + ваше электричество
Best forИнженеры, у которых уже есть GPU, не нужна идентификация спикеров и хотят полную локальную приватность.
Option 02

Transcription.Solutions

Загрузите MP3. Получите текст с идентификацией спикеров примерно в реальном времени × 0,025.

НастройкаПеретаскивание, учётная запись не требуется для пробы
Диаризация спикеровВстроена (тарифы Pro и Business)
Скорость · 1 ч MP3~90 секунд
Языки99, автоматическое определение
ЭкспортSRT · VTT · DOCX · TXT · JSON
Стоимость · за минуту$0.03
Best forКто угодно с MP3 — интервью журналиста, экспорт подкаста, голосовая заметка, архивная копия — кто просто хочет получить точный текст с другой стороны.
Option 03

Otter / Sonix

Отполированная панель, лимит минут в месяц, настроена на английский. Загрузка файлов выглядит как побочный функционал.

НастройкаУчётная запись + платный тариф
Диаризация спикеровАкустическая, с уклоном на EN
Скорость · 1 ч MP35–10 мин в очереди
ЯзыкиOtter только EN; Sonix ~40
ЭкспортЗаблокировано платными тарифами
Стоимость$17+/месяц или $10+/ч (Sonix)
Best forКоманды, которым нужен редактор транскриптов и UI сотрудничества больше, чем чистый API-стиль файл→текст.

Цены и доступность функций актуальны на май 2026 года. Производительность Whisper варьируется в зависимости от размера модели и оборудования.

Специфично для MP3

Три типичные ошибки универсальных инструментов транскрипции.

MP3 — это формат, а не тип записи — поэтому проблемы идут от кодера, а не от исходной речи.

Что идёт не так

  1. 1VBR-заголовки неправильно парсятся. Некоторые инструменты читают MP3 с переменным битрейтом как с фиксированным и неправильно рассчитывают длительность — временные метки дрейфуют на минуты в часовом файле.
  2. 2Joint-stereo сглаживается до моно во время предварительной обработки загрузки. Вы теряете разделение каналов по спикерам, которое было в файле.
  3. 3Встроенные ID3 обложки альбома ломают некоторые загрузчики — они отклоняют файл как 'не чистое аудио' или удаляют и перекодируют, снижая качество ещё дальше.

Что мы делаем вместо этого

  1. 1Мы используем Xing/LAME заголовок, когда он есть, и fallback подсчёта фреймов, когда его нет. Временные метки VBR остаются точными до ±0.1 с на многочасовых файлах.
  2. 2MP3 с joint-stereo и true-stereo декодируются в L/R PCM перед диаризацией. Если ваши спикеры были записаны отдельно, мы их сохраняем раздельными.
  3. 3Теги ID3v1, ID3v2, APE, встроенные обложки — всё проходит нетронутым. Мы никогда не перекодируем ваш MP3.

Рекомендуемые настройки задания для загрузок MP3

Стандартные значения, которые подходят для ~80% MP3-файлов. Переопределите для каждого задания в форме.

Декодер
Кадровая точность, без перекодирования
Диаризация
Разделение каналов если стерео, иначе акустическая
Модель спикера
Авто · 1-12 спикеров
Язык
Авто-определение из первых 30 с
Слова-заполнители
Удалены (переключить чтобы оставить)
Экспортный набор
DOCX + SRT + TXT с временными метками

Accuracy · real-world numbers

95%+ на 192 кбит/с стерео. Пригодна до 64 кбит/с моно.

Точность MP3 ограничена тем, что сохранил кодер, а не нами. Перцептивное сжатие выше ~96 кбит/с очень хорошо сохраняет разборчивость речи; ниже 64 кбит/с, шипящие и согласные звуки начинают растворяться. Цифры ниже из реальных MP3-файлов клиентов в боевом использовании.

96%
320 кбит/с стерео, студийный источник

Почти без потерь для речи. Мастер-записи подкастов, экспорты приложений диктовки, профессиональные интервью. Диаризация чистая, если спикеры на отдельны�� каналах.

95%
192 кбит/с стерео, 2-3 спикера

Наиболее распространённый битрейт для MP3 речи. Экспорты Zoom, загрузки Riverside, стандарт голосовых рекордеров. Артефакты сжатия неслышны распознавателю.

91%
128 кбит/с моно, разговорная речь

Стандарт голосовых заметок на большинстве телефонов. Акустическая диаризация обрабатывает 2-4 спикеров. Числа и ��обственные имена иногда нуждаются в проверке.

84%
64 кбит/с моно, архивное / из телефонии

Старые рипы автоответчиков, архивы лекций, узкополосные источники. Высокочастотные согласные (f/s/sh) размываются. Всё ещё читаемо — планируйте корректуру.

Частые вопросы

8 вещей, которые люди спрашивают о транскрипции MP3.

01Какой минимальный битрейт MP3, который всё ещё даёт пригодный транскрипт?+
64 кбит/с — практический предел. Ниже этого, шипящие (s, sh, f) сжимаются в шум и коэффициент ошибок слов превышает 20%. Если вы записываете заново, нацеливайтесь на 128 кбит/с моно или 192 кбит/с стерео — всё выше этого избыточно для речи.
02Нужно ли мне сначала конвертировать MP3 в WAV?+
Нет. Перекодирование MP3 → WAV не добавляет точности, потому что данные, которые отбросил кодер, потеряны. Загружайте MP3 напрямую. Мы декодируем фреймы в памяти и передаём PCM распознавателю.
03Даст ли мне стерео MP3 лучшую идентификацию спикеров, чем моно?+
Только если спикеры были записаны на отдельные каналы — большинство стерео MP3 имеют одинаковое аудио с обеих сторон ('dual mono') и ничего не дают. Настоящее разделение каналов (например, экспорты Riverside, полевые аппаратуры с двумя микрофонами) позволяет нам пропустить акустическую диаризацию и идентифицировать спикеров почти идеально.
04Какой максимальный размер MP3-файла вы принимаете?+
5 ГБ за загрузку, что составляет примерно 60 часов на 192 кбит/с или 90 часов на 128 кбит/с. Если ваш файл больше, мы покажем загрузку по частям — нет необходимости разделять его самостоятельно.
05Сколько времени занимает транскрибирование 60-минутного MP3?+
Обычно 90 секунд от завершения загрузки до готовности транскрипта, независимо от битрейта. Декодирование MP3-фреймов быстрое; время уходит на распознавание. Диаризация добавляет 5-10 секунд на файлах с несколькими спикерами.
06В моём MP3 фоновая музыка — будет ли испорчен транскрипт?+
Тихая фоновая музыка под речью в порядке. Громкая музыка, которая конкурирует с голосом (инструментальные вступления, музыка под интервью), иногда вызывает ошибки распознавания. Включите подавление музыки в форме для предварительной фильтрации.
07Можете ли вы обрабатывать MP3 из телефонной почты голоса или автоответчиков?+
Да, хотя это часто узкополосное аудио 8 кГц, перекодированное как MP3 — потолок качества звука определяется исходной захватом PSTN, а не MP3-контейнером. На таком источнике ожидайте точность 78-85%, как и на исходном вызове.
08Вы сохраняете мой MP3 после завершения транскрипта?+
Файлы удаляются по умолчанию через 30 дней или немедленно по запросу из панели. Транскрипт остаётся в вашей учётной записи, пока вы его не удалите. Мы никогда не используем аудио клиентов для обучения моделей.

Загрузите MP3. Получите текст обратно за 90 секунд.

30 бесплатных минут каждый м��сяц. Карта не требуется. Идентификация спикеров, 99 языков, все форматы экспорта включены.

Начать бесплатно