Расшифруйте MP4 в текст — конвертируйте видео MP4 в текст с обозначением спикеров

Расшифруйте видео MP4 в текст.Аудио извлекается автоматически.

Загрузьте файл MP4 как есть — мы извлекаем аудиопоток на сервере, возвращаем текст с временными метками и отправляем SRT, который сразу же загружается в YouTube, Vimeo или ваш NLE.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

MP4 на входе. Текст + SRT на выходе.

MP4 — это контейнер — мы читаем аудиопоток напрямую, видео никогда не переконвертируется. Временные метки остаются привязаны к исходной шкале кадров, поэтому SRT совпадает при первой загрузке.

training-module-04.mp4REC 1080p · 22:14 · 412 MB

автоматически определён en-USAAC 48 kHz стерео · 192 kbps

~90s

Текст · потоком95% точности

Хорошо, в этом модуле мы разберём рабочий процесс возвратов от начала до конца.

Быстрый вопрос перед тем как начнём — это относится и к частичным возвратам?

Хороший вопрос. Для частичных используется тот же экран, но другой код причины.

Понял. А лимит одобрения всё ещё двести долларов?

95% на чистом диалогеSRT · VTT · DOCX · TXT · JSON

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

app.transcription.solutions / interview-202.mp3Export

Summary 5Transcript 1,420Speakers 2Exports

interview-202.mp347:08128 kbps CBR2 speakersen-US auto-detected

Founders need post-call content, not just transcripts. Tools force them to stitch 5 apps together.

Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.

Key points

Gap exists between raw recordings and shippable content — tools stop at transcript.

Show notes, social clips, blog drafts all expected by call's end, not next-day.

Current tooling fragmented across 5 apps — no single pipeline.

Conversion-rate signal flipped a buyer-segment assumption at week 3.

40% of original hypothesis survived — the shape held, mechanics rebuilt.

Action items

Speaker 1Investigate single-pipeline approach to replace 5-app stitch.

Speaker 2Mock how show-notes draft could flow from the transcript.

Speaker 2Pull conversion-rate by segment, Monday EOD.

Speaker 1Map the 5-app stitch & list which steps actually need a human.

Auto-taggedfounder interviewpost-call contenttooling fragmentationsingle pipeline

Try it on your own file — it's free

Сам ffmpeg. Видеоредактор. Или мы.

Вы можете извлечь аудио сами и запустить Whisper. Вы можете загрузить MP4 в Descript или VEED и работать в их редакторе. Или загрузить файл сюда и получить текст + SRT без привязки к редактору.

Option 01

ffmpeg + Whisper

Бесплатно, локально, требует возни. Вы управляете конвейером и каждой его ошибкой.

ТребуетCLI + модель 10 GB + GPU

Выделение спикеровОтдельный инструмент (pyannote)

Экспорт SRTДа, требует флага

Время на MP4 продолжительностью 1 час20–90 мин на CPU

Многодорожечное аудиоВы выбираете поток

Стоимость$0 + ваше железо

Best forИнженеры, которые уже запускают Whisper локально и не против добавить выделение спикеров сверху.

Option 02

Transcription.Solutions

Загрузьте MP4. Извлечение аудио, выделение спикеров, SRT, резюме — один проход.

ТребуетБраузер, и всё

Выделение спикеровВстроено, каждое задание

Экспорт SRTСовпадает с исходным по кадрам

Время на MP4 продолжительностью 1 час~4 мин, потоком

Многодорожечное аудиоМы показываем все потоки

Стоимость · за минуту$0.03

Best forКто угодно с MP4, которому нужен текст и SRT без освоения видеоредактора или CLI.

Option 03

Descript / VEED

Загрузьте MP4 в редактор. Текст появится как часть шкалы времени.

ТребуетАккаунт + обучение редактору

Выделение спикеровДа, настроено на EN

Экспорт SRTОграничено по плану

Лимит загрузки5 GB (Descript бесплатно)

Многодорожечное аудиоТолько первый трек

Стоимость$12–24/пользователь/месяц

Best forРедакторы, которые хотят монтировать видео и текст в одном инструменте.

Цены и лимиты функций приблизительны на 2026 год. Названия тарифов Descript и VEED меняются часто — проверьте их сайт для текущих ограничений.

95% на кач��ственной съёмке. Честные цифры, когда аудио не помогает.

Точность расшифровки MP4 зависит от микрофона, не от кодека. Петличный микрофон в тихой студии обыграет 4K-камеру со встроенным микрофоном каждый раз. Цифры ниже взяты из реальных MP4-файлов клиентов, отсортированы по типу микрофона.

8 вопросов про расшифровку MP4.

01Вы переконвертируете мое видео?+

Нет. Мы только извлекаем аудиопоток из контейнера MP4. Видеопоток никогда не трогается, не переконвертируется и не сохраняется после завершения задания — ваш исходный файл остаётся неизменным.

02Какие кодеки внутри MP4 поддерживаются?+

Стандартная пара H.264 + AAC — простой случай. Мы также обрабатываем HEVC/H.265, ProRes в MP4 и аудио в MP3, Opus, ALAC или PCM. Если ffmpeg может это пробить, мы можем это расшифровать.

03Какой лимит размера файла?+

10 GB за загрузку через веб-загрузчик, 50 GB через API с возобновляемыми блоками. Типичное видео MP4 продолжительностью 1 час в разрешении 1080p занимает 1–3 GB, так что большинство файлов загружаются через веб без проблем.

04SRT совпадёт с моим исходным видео?+

Да — временные метки ссылаются на список редактирования MP4 и исходную частоту дискретизации. Мы не переконвертируем, поэтому нет дрейфа. Загрузьте SRT рядом с MP4 в любой плеер или NLE и субтитры синхронизируются при первой загрузке.

05Я могу прожечь субтитры в видео?+

Не с нашей стороны — мы выводим SRT и оставляем прожиг вам. ffmpeg однострочник, HandBrake, Premiere, DaVinci, Kapwing — все принимают SRT, который мы производим. Мы не хотим быть инструментом кодирования.

06Что с MOV, MKV, M4V, WebM?+

Все поддерживаются через тот же конвейер. MOV особенно — то же семейство MPEG-4, идентичный путь извлечения. MKV с несколькими аудиопотоками получает тот же интерфейс выбора потока, что и многодорожечный MP4.

07Я могу просто отправить URL YouTube или Vimeo?+

Да для YouTube — вставьте публичный URL на экран загрузки и мы возьмём аудио напрямую, загрузка MP4 не требуется. Vimeo требует прямой файл или подписанную ссылку для загрузки, потому что их плеер ограничивает доступ к потоку.

08Что если нет разговора, только музыка или дополнительные кадры?+

VAD определяет тишину и секции только музыки и пропускает их, так что вы не платите за фоновые кадры. Текст помечает эти диапазоны как `[music]` или `[no speech]` вместо выдумывания слов.