Расшифруйте WAV файлы с указанием говорящих.Качество без потерь.

Загрузите запись WAV прямо из вашей полевой установки, DAW экспорта или набора для интервью. Мы сохраняем 24-битную динамику, запускаем диаризацию над необработанным PCM и возвращаем расшифровку с временными метками и SRT за несколько минут.

Drop a file, or pick one

MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously

Paste a link, we’ll fetch the audio

YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more

Record straight from your browser

Sign up takes 30 seconds — recording opens right after, in the dashboard.

No card required~90s per 60-min fileSRT · VTT · DOCX · TXTFiles auto-deleted in 24h

↓ Посмотрите, что получится

Необработанный PCM на входе. Чистая расшифровка на выходе.

Качество WAV без потерь означает, что каждый свистящий звук, смычный и тихое слово сохраняются в целости — без MP3 смазывания согласных. Если файл многодорожечный (один говорящий на канал), мы полностью пропускаем акустическую диаризацию и разделяем по макету канала.

WAV · 48 кГц / 24-битREC 2 дорожки · 1ч 12м · 743 МБ
автоопределение en-GBстерео PCM · без сжатия
~90s
Расшифровка · в потоке97% точности
S1

Вернись в то утро семьдесят восьмого — во сколько пришел звонок?

S2

Без четверти пять, плюс-минус. Чайник кипел, я помню это хорошо.

S1

И оттуда ты сразу поехал в гавань?

S2

Прямо на верфь. Свет горел, когда я подъехал.

97% на многодорожечный WAVSRT · DOCX · TXT · JSON

↓ This is the dashboard

This is what loads when the job finishes.

Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.

Try it on your own file — it's free

Три настоящих варианта · честное сравнение

Adobe Audition. Descript. Или мы.

Speech to Text в Audition входит в Creative Cloud и остаётся в таймлайне. Descript импортирует WAV в собственный редактор. Мы берём файл как есть, возвращаем стандартные экспорты и не просим вас куда-либо перемещать проект.

Option 01

Adobe Audition / Premiere

Панель расшифровки внутри таймлайна Adobe. Привязана к Creative Cloud и файлу проекта.

Требуетподписка Creative Cloud
Диаризация говорящихДа, только смешанное
Многодорожечный WAVСглаживается перед STT
ЭкспортSRT · CSV · XML
Языки18, выбор вручную
Стоимость~$23/мес (одно приложение)
Best forРедакторы, уже режущие в Premiere или Audition и хотящие привязать субтитры к таймлайну.
Option 02

Transcription.Solutions

Загрузите WAV. Диаризация по каналам, если многодорожечный. Исходник удаляется через 24ч.

ТребуетНичего — только файл
Диаризация говорящихПо отдельному каналу или акустически
Многодорожечный WAVДо 16 каналов
ЭкспортSRT · VTT · DOCX · TXT · JSON
Языки99, автоопределение
Стоимость · за минуту$0.03
Best forКто-либо с потоком WAV — полевые рекордеры, подкастеры экспортирующие из DAW, архивисты устной истории, исследователи.
Option 03

Descript

Импортирует WAV в редактор Descript. Мощный, но вы должны работать внутри него.

Требуетаккаунт Descript + импорт
Диаризация говорящихАкустическая, настроена на EN
Многодорожечный WAVИмпорт как отдельные клипы
ЭкспортTXT · SRT · DOCX
Языки23, точность варьируется
Стоимость$16–24/пользователь/мес
Best forРедакторы подкастов, которые хотят редактировать звук через редактирование расшифровки — настоящая суперсила Descript.

Цены актуальны на 2026 год. Флаги функций Adobe и Descript меняются часто; проверьте текущую документацию перед принятием решения.

Специфично для WAV

Три вещи, на которых ловятся люди с обычными инструментами расшифровки.

Большинство загрузчиков молча понижают дискретизацию вашего WAV перед отправкой распознавателю. Мы этого не делаем.

Что идёт не так

  1. 1Многодорожечный WAV становится плоским. 4-канальная запись с полевой установки Sound Devices MixPre смешивается в моно перед STT. Разделение по микрофонам, за которое вы платили, выкидывается.
  2. 232-битные WAV с плавающей запятой из Zoom F-series или MixPre отклоняются напрямую или обрезаются до 16-бит и теряют восстановление динамики.
  3. 396 кГц / 24-битные интервью занимают вечность на загрузку, потому что инструмент перекодирует в MP3 в браузере перед отправкой.

Что менять здесь

  1. 1Загрузите многодорожечный WAV как есть (до 16 каналов). Мы читаем макет канала из заголовка WAV и назначаем одного говорящего за дорожку — никаких акустических гаданий.
  2. 232-битная плавающая запятая принимается в исходном виде. Мы сохраняем динамику float при нормализации для распознавателя, поэтому пики выше 0 dBFS не обрезаются.
  3. 3Прямая двоичная загрузка, без перекодирования в браузере. 2 ГБ WAV движется с полной вашей пропускной способностью и начинает обработку в момент приходя последнего байта.

Рекомендуемые параметры задания для WAV

Загрузите WAV и эти параметры включаются по умолчанию. Переопределите по задаче из формы.

Частота дискретизации
Исходная (без понижения)
Глубина бита
24-бит / 32-float сохранены
Диаризация
По каналам, если многодорожечный
Модель говорящих
Интервью · 2-8 говорящих
Слова-паразиты
Сохранены (отключите, если нужно)
Экспорт
DOCX · SRT · текст с временными метками

Accuracy · real-world numbers

97%+ на многодорожечном WAV. WAV обеспечивает распознавателю чистейший возможный сигнал.

Поскольку WAV хранит необработанный PCM без перцептивного сжатия, согласные и свистящие звуки не размазываются так, как их размазывает MP3. Распознаватель слышит то, что услышал микрофон. Цифры ниже получены из реальных заданий WAV от наших пользователей.

98%
Студийный WAV · один говорящий

48 кГц / 24-бит, конденсаторный микрофон с большой диафрагмой, обработанное помещение. Повествование, аудиокниги, голос-за-кадром попадают сюда.

96%
Многодорожечное интервью WAV

Один канал на говорящего (петличные или граничные микрофоны). Диаризация — это просто маршрутизация канала — ошибка только в тексте.

92%
Портативный полевой рекордер

Zoom H5, Tascam DR-40 и аналогичные. Стерео XY приёмка, 2-3 говорящих, некоторое отражение помещения. Большинство подкаст-WAV попадают сюда.

85%
Зашумённая среда полевого WAV

На улице, в кафе, в машине. Потеря качества помогает — шум реален, не артефакт кодека — но точность всё ещё падает при перекрывающейся речи.

Частые вопросы

8 вещей, которые люди спрашивают о расшифровке WAV.

01Какой максимальный размер файла WAV?+
5 ГБ на файл в стандартном плане, что составляет примерно 8 часов стерео 48 кГц / 24-бит или 2,5 часа 96 кГц / 24-бит. Более крупные файлы подходят для плана команды — просто свяжитесь с нами перед загрузкой.
02Вы поддерживаете 32-битный float WAV из Zoom F-series или MixPre?+
Да, в исходном виде. Мы читаем образцы плавающей запятой без обрезания на 0 dBFS, поэтому громкие переходы, которые вы планировали сбить в post, всё ещё расшифровываются чисто. Большинство обычных загрузчиков молча переводят в 16-бит сначала.
03У меня есть 4-канальный WAV от полевого рекордера — один микрофон на человека. Будет ли диаризация это использовать?+
Будет. Загрузите полифонический WAV напрямую (не экспортируйте в стерео сначала). Мы анализируем макет канала из заголовка WAV и назначаем одного говорящего за дорожку — намного надёжнее, чем акустическая диаризация на похожих голосах.
04Вы понизите мой 96 кГц WAV?+
Распознаватель работает на 16 кГц внутри — это потолок человеческой разборчивости речи. Но мы держим исходный файл нетронутым и используем его для любой пост-обработки, такой как шумовые затворы. Ваши экспорты ссылаются на исходную шкалу времени.
05WAV действительно точнее MP3 для расшифровки?+
Маржинально, да — обычно 1-2 пункта WER на чистую речь. Большая разница проявляется на свистящих и ��ихих отрывках, где психоакустическое сжатие MP3 выбрасывает информацию, которую распознаватель бы использовал. Для архивной или судебной работы WAV — правильный выбор.
06Сохраняются ли метаданные BWF и таймкод?+
Мы читаем BWF чанки (bext, iXML) и используем стартовый таймкод для привязки расшифровки к вашей сессии. Исходный WAV никогда не изменяется — мы работаем на копии, которая удаляется в течение 24ч.
07Могу я загрузить папку WAV файлов из экспорта сессии DAW?+
Да. Пакетная загрузка принимает до 50 файлов за раз. Каждый WAV получает собственное задание и расшифровку. Если это стемы из одной сессии, вы можете также объединить их в один многодорожечный WAV перед загрузкой и мы будем диаризировать по каналам.
08Сколько времени занимает расшифровка 1-часового стерео WAV на самом деле?+
Загрузка — это самое медленное — 1-часовой 48 кГц / 24-бит стерео WAV это примерно 600 МБ и занимает 2-5 минут на типичном широкополосном канале. После загрузки, сама расшифровка работает примерно 4-6 минут в стандартной очереди.

Загрузите WAV. Сохраните качество без потерь. Посмотрите, что получится.

30 свободных минут каждый месяц. Без карты. Диаризация по дорожкам, поддержка 32-бит float, исходник удаляется через 24ч.

Начать бесплатно