Whisper локально / open source
Бесплатно, если у вас есть GPU и свободный день. Диаризация спикеров не включена из коробки.
Загрузите MP3-файл с любым битрейтом от 64 до 320 кбит/с. Получите транскрипт с временными метками и идентификацией спикеров на 99 языках — без конвертирования формата, без перекодирования, ��ез очередей.
MP3 · WAV · M4A · MP4 · MOV · MKV · OGG · OPUS · FLAC · WEBM — up to 100 MB anonymously
YouTube · TikTok · Vimeo · Twitter · SoundCloud · Spotify · 50+ more
↓ Посмотрите, что получится
Мы читаем заголовки MP3-фреймов напрямую — VBR, CBR, joint-stereo, любой кодер (LAME, Fraunhofer, FFmpeg). Если файл — настоящий стерео с разными спикерами на отдельных каналах, мы используем это для разделения голосов. Моно сводится к акустической диаризации.
Когда вы впервые поняли, что архив неполный?
Примерно в 2019 году, когда мы начали оцифровывать катушечные записи.
И пропавшие кассеты — они вообще были где-нибудь каталогизированы?
Есть бумажный указатель с 78-го года, но половина его повреждена водой.
↓ This is the dashboard
Same layout as the real dashboard — Summary, full Transcript, Speakers tab, Exports. Key points and action items extracted automatically. Auto-tags on every job.
Sample preview from a founder interview about post-call workflow. Real transcripts look exactly like this — same tabs, same summary block, same key-points / action-items split, same auto-tag chips.
Три реальных варианта · честное сравнение
Вы можете запустить Whisper на собственном ноутбуке бесплатно, если вы технически подкованы. Otter и Sonix принимают загрузки MP3 в панелях подписки. Мы берём файл, возвращаем транскрипт и не требуем от вас жить в интерфейсе.
Бесплатно, если у вас есть GPU и свободный день. Диаризация спикеров не включена из коробки.
Загрузите MP3. Получите текст с идентификацией спикеров примерно в реальном времени × 0,025.
Отполированная панель, лимит минут в месяц, настроена на английский. Загрузка файлов выглядит как побочный функционал.
Цены и доступность функций актуальны на май 2026 года. Производительность Whisper варьируется в зависимости от размера модели и оборудования.
Специфично для MP3
MP3 — это формат, а не тип записи — поэтому проблемы идут от кодера, а не от исходной речи.
Стандартные значения, которые подходят для ~80% MP3-файлов. Переопределите для каждого задания в форме.
Accuracy · real-world numbers
Точность MP3 ограничена тем, что сохранил кодер, а не нами. Перцептивное сжатие выше ~96 кбит/с очень хорошо сохраняет разборчивость речи; ниже 64 кбит/с, шипящие и согласные звуки начинают растворяться. Цифры ниже из реальных MP3-файлов клиентов в боевом использовании.
Почти без потерь для речи. Мастер-записи подкастов, экспорты приложений диктовки, профессиональные интервью. Диаризация чистая, если спикеры на отдельны�� каналах.
Наиболее распространённый битрейт для MP3 речи. Экспорты Zoom, загрузки Riverside, стандарт голосовых рекордеров. Артефакты сжатия неслышны распознавателю.
Стандарт голосовых заметок на большинстве телефонов. Акустическая диаризация обрабатывает 2-4 спикеров. Числа и ��обственные имена иногда нуждаются в проверке.
Старые рипы автоответчиков, архивы лекций, узкополосные источники. Высокочастотные согласные (f/s/sh) размываются. Всё ещё читаемо — планируйте корректуру.
Частые вопросы
30 бесплатных минут каждый м��сяц. Карта не требуется. Идентификация спикеров, 99 языков, все форматы экспорта включены.
Начать бесплатно