Расшифруйте видео MP4 в текст.Аудио извлекается автоматически.

Загрузьте файл MP4 как есть — мы извлекаем аудиопоток на сервере, возвращаем текст с временными метками и отправляем SRT, который сразу же загружается в YouTube, Vimeo или ваш NLE.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Посмотрите результат

MP4 на входе. Текст + SRT на выходе.

MP4 — это контейнер — мы читаем аудиопоток напрямую, видео никогда не переконвертируется. Временные метки остаются привязаны к исходной шкале кадров, поэтому SRT совпадает при первой загрузке.

training-module-04.mp4REC 1080p · 22:14 · 412 MB
автоматически определён en-USAAC 48 kHz стерео · 192 kbps
~90s
Текст · потоком95% точности
S1

Хорошо, в этом модуле мы разберём рабочий процесс возвратов от начала до конца.

S2

Быстрый вопрос перед тем как начнём — это относится и к частичным возвратам?

S1

Хороший вопрос. Для частичных используется тот же экран, но другой код причины.

S2

Понял. А лимит одобрения всё ещё двести долларов?

95% на чистом диалогеSRT · VTT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Три реальных варианта · честное сравнение

Сам ffmpeg. Видеоредактор. Или мы.

Вы можете извлечь аудио сами и запустить Whisper. Вы можете загрузить MP4 в Descript или VEED и работать в их редакторе. Или загрузить файл сюда и получить текст + SRT без привязки к редактору.

Option 01

ffmpeg + Whisper

Бесплатно, локально, требует возни. Вы управляете конвейером и каждой его ошибкой.

ТребуетCLI + модель 10 GB + GPU
Выделение спикеровОтдельный инструмент (pyannote)
Экспорт SRTДа, требует флага
Время на MP4 продолжительностью 1 час20–90 мин на CPU
Многодорожечное аудиоВы выбираете поток
Стоимость$0 + ваше железо
Best forИнженеры, которые уже запускают Whisper локально и не против добавить выделение спикеров сверху.
Option 02

Transcription.Solutions

Загрузьте MP4. Извлечение аудио, выделение спикеров, SRT, резюме — один проход.

ТребуетБраузер, и всё
Выделение спикеровВстроено, каждое задание
Экспорт SRTСовпадает с исходным по кадрам
Время на MP4 продолжительностью 1 час~4 мин, потоком
Многодорожечное аудиоМы показываем все потоки
Стоимость · за минуту$0.03
Best forКто угодно с MP4, которому нужен текст и SRT без освоения видеоредактора или CLI.
Option 03

Descript / VEED

Загрузьте MP4 в редактор. Текст появится как часть шкалы времени.

ТребуетАккаунт + обучение редактору
Выделение спикеровДа, настроено на EN
Экспорт SRTОграничено по плану
Лимит загрузки5 GB (Descript бесплатно)
Многодорожечное аудиоТолько первый трек
Стоимость$12–24/пользователь/месяц
Best forРедакторы, которые хотят монтировать видео и текст в одном инструменте.

Цены и лимиты функций приблизительны на 2026 год. Названия тарифов Descript и VEED меняются часто — проверьте их сайт для текущих ограничений.

Специфика MP4

Три моменты, которые подводят людей с базовыми инструментами расшифровки.

MP4 — это контейнер, не кодек — а большинство инструментов расшифровки относятся к нему как к одному большому аудиоблобу. Отсюда и ошибки.

Что идёт не так

  1. 1Многодорожечный MP4 с штанговым и петличным микрофонами. Базовые инструменты берут трек 1 и игнорируют остальное, поэтому вы теряете более чистый микрофон. Часто встречается в экспортах FCP и Premiere.
  2. 2Фоновая музыка во влогах и рекламе вызывает фантомные слова. Распознаватель пытается расшифровать вокал на музыкальной подложке.
  3. 3Временные метки в SRT дрейфуют, если инструмент переконвертирует видео при загрузке. К 40-й минуте субтитры отстают на секунду.

Как это исправить здесь

  1. 1Загрузите — мы сканируем каждый аудиопоток и даём вам выбрать, какой расшифровывать. По умолчанию выбирается поток с самым высоким битрейтом.
  2. 2Включите подавление музыки в форме задания. Мы ограничиваем распознавание речью через VAD, так что инструментальные секции остаются пустыми.
  3. 3Мы никогда не переконвертируем видео. Аудио извлекается с исходной частотой дискретизации, временные метки ссылаются на список редактирования контейнера — SRT совпадает кадр за кадром.

Рекомендуемые параметры задания для MP4

Загрузьте MP4 и эти параметры включатся по умолчанию. Переопределяйте для каждого задания в форме.

Извлечение аудио
Исходная частота дискретизации, без переконвертирования
Выбор трека
Поток с самым высоким битрейтом
Выделение спикеров
Акустическое · 1–6 спикеров
Подавление музыки
Включено для влог/рекламных пресетов
Формат SRT
≤42 символов/строка, максимум 2 строки
Экспорт
SRT · VTT · DOCX · текст с временными метками

Accuracy · real-world numbers

95% на кач��ственной съёмке. Честные цифры, когда аудио не помогает.

Точность расшифровки MP4 зависит от микрофона, не от кодека. Петличный микрофон в тихой студии обыграет 4K-камеру со встроенным микрофоном каждый раз. Цифры ниже взяты из реальных MP4-файлов клиентов, отсортированы по типу микрофона.

96%+
Студийная съёмка, петличный или направленный микрофон

Петличный или штанговый микрофон подключен к диктофону, 48 kHz AAC на 192+ kbps, обработанное помещение. Идеальный сценарий. Метки спикеров попадают в цель при двухсторонней съёмке.

93%
DSLR с направленным микрофоном на корпусе

Микрофон на корпусе камеры в 2-4 футах от говорящего. Слышны шумы помещения, но речь разборчива. Большинство видео от YouTube-авторов попадают сюда.

89%
Запись экрана с USB-микрофоном

Экспорты OBS, Loom, Camtasia. Микрофон рядом, но помещение не обработано, часто слышны системные звуки. Достаточно хорошо для расшифровки туториалов.

84%
Влог, снятый на телефон, встроенный микрофон

Встроенный микрофон телефона, ветер или шумы движения, расстояние варьируется. Слова понятны, ожидайте 1-2 исправления в минуту по собственным существительным.

Частые вопросы

8 вопросов про расшифровку MP4.

01Вы переконвертируете мое видео?+
Нет. Мы только извлекаем аудиопоток из контейнера MP4. Видеопоток никогда не трогается, не переконвертируется и не сохраняется после завершения задания — ваш исходный файл остаётся неизменным.
02Какие кодеки внутри MP4 поддерживаются?+
Стандартная пара H.264 + AAC — простой случай. Мы также обрабатываем HEVC/H.265, ProRes в MP4 и аудио в MP3, Opus, ALAC или PCM. Если ffmpeg может это пробить, мы можем это расшифровать.
03Какой лимит размера файла?+
10 GB за загрузку через веб-загрузчик, 50 GB через API с возобновляемыми блоками. Типичное видео MP4 продолжительностью 1 час в разрешении 1080p занимает 1–3 GB, так что большинство файлов загружаются через веб без проблем.
04SRT совпадёт с моим исходным видео?+
Да — временные метки ссылаются на список редактирования MP4 и исходную частоту дискретизации. Мы не переконвертируем, поэтому нет дрейфа. Загрузьте SRT рядом с MP4 в любой плеер или NLE и субтитры синхронизируются при первой загрузке.
05Я могу прожечь субтитры в видео?+
Не с нашей стороны — мы выводим SRT и оставляем прожиг вам. ffmpeg однострочник, HandBrake, Premiere, DaVinci, Kapwing — все принимают SRT, который мы производим. Мы не хотим быть инструментом кодирования.
06Что с MOV, MKV, M4V, WebM?+
Все поддерживаются через тот же конвейер. MOV особенно — то же семейство MPEG-4, идентичный путь извлечения. MKV с несколькими аудиопотоками получает тот же интерфейс выбора потока, что и многодорожечный MP4.
07Я могу просто отправить URL YouTube или Vimeo?+
Да для YouTube — вставьте публичный URL на экран загрузки и мы возьмём аудио напрямую, загрузка MP4 не требуется. Vimeo требует прямой файл или подписанную ссылку для загрузки, потому что их плеер ограничивает доступ к потоку.
08Что если нет разговора, только музыка или дополнительные кадры?+
VAD определяет тишину и секции только музыки и пропускает их, так что вы не платите за фоновые кадры. Текст помечает эти диапазоны как `[music]` или `[no speech]` вместо выдумывания слов.

Загрузьте MP4. Получите текст и SRT.

30 бесплатных минут каждый месяц. Без карты. Аудио извлекается на сервере, метки спикеров, SRT совпадает кадр за кадром — всё включено.

Начать бесплатно