ffmpeg + Whisper
Бесплатно, локально, требует возни. Вы управляете конвейером и каждой его ошибкой.
Загрузьте файл MP4 как есть — мы извлекаем аудиопоток на сервере, возвращаем текст с временными метками и отправляем SRT, который сразу же загружается в YouTube, Vimeo или ваш NLE.
MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously
YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more
↓ Посмотрите результат
MP4 — это контейнер — мы читаем аудиопоток напрямую, видео никогда не переконвертируется. Временные метки остаются привязаны к исходной шкале кадров, поэтому SRT совпадает при первой загрузке.
Хорошо, в этом модуле мы разберём рабочий процесс возвратов от начала до конца.
Быстрый вопрос перед тем как начнём — это относится и к частичным возвратам?
Хороший вопрос. Для частичных используется тот же экран, но другой код причины.
Понял. А лимит одобрения всё ещё двести долларов?
↓ This is the dashboard
Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.
Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.
Три реальных варианта · честное сравнение
Вы можете извлечь аудио сами и запустить Whisper. Вы можете загрузить MP4 в Descript или VEED и работать в их редакторе. Или загрузить файл сюда и получить текст + SRT без привязки к редактору.
Бесплатно, локально, требует возни. Вы управляете конвейером и каждой его ошибкой.
Загрузьте MP4. Извлечение аудио, выделение спикеров, SRT, резюме — один проход.
Загрузьте MP4 в редактор. Текст появится как часть шкалы времени.
Цены и лимиты функций приблизительны на 2026 год. Названия тарифов Descript и VEED меняются часто — проверьте их сайт для текущих ограничений.
Специфика MP4
MP4 — это контейнер, не кодек — а большинство инструментов расшифровки относятся к нему как к одному большому аудиоблобу. Отсюда и ошибки.
Загрузьте MP4 и эти параметры включатся по умолчанию. Переопределяйте для каждого задания в форме.
Accuracy · real-world numbers
Точность расшифровки MP4 зависит от микрофона, не от кодека. Петличный микрофон в тихой студии обыграет 4K-камеру со встроенным микрофоном каждый раз. Цифры ниже взяты из реальных MP4-файлов клиентов, отсортированы по типу микрофона.
Петличный или штанговый микрофон подключен к диктофону, 48 kHz AAC на 192+ kbps, обработанное помещение. Идеальный сценарий. Метки спикеров попадают в цель при двухсторонней съёмке.
Микрофон на корпусе камеры в 2-4 футах от говорящего. Слышны шумы помещения, но речь разборчива. Большинство видео от YouTube-авторов попадают сюда.
Экспорты OBS, Loom, Camtasia. Микрофон рядом, но помещение не обработано, часто слышны системные звуки. Достаточно хорошо для расшифровки туториалов.
Встроенный микрофон телефона, ветер или шумы движения, расстояние варьируется. Слова понятны, ожидайте 1-2 исправления в минуту по собственным существительным.
Частые вопросы
30 бесплатных минут каждый месяц. Без карты. Аудио извлекается на сервере, метки спикеров, SRT совпадает кадр за кадром — всё включено.
Начать бесплатно