Распознавание речи в текст

API Host Company

2026-02-19

Оглавление

(STT)
1. Загрузка файлов: форматы и ограничения
2. История транскрибирования: как вернуться к результату
3. Скорость обработки: чего ожидать?
4. Язык и дикторы
5. Редактирование текста
6. Запись с микрофона
7. Эмо-карта и речевая аналитика
8. Экспорт результатов: что выбрать
9. AI-Сводка и PDF-отчёт
10. Приватность и хранение данных
11. Поддержка

(STT)

— это сервис, который превращает аудио/видео в текстовую расшифровку: с таймкодами, разметкой по дикторам, эмо-картой и удобными выгрузками (TXT/DOCX/PDF/SRT и др.).

Эта инструкция написана для авторизованных пользователей.

Быстрый старт (3 шага)

1) Откройте сервис: https://apihost.ru/speech-to-text/
2) Загрузите аудио/видео (или запишите с микрофона до 10 минут) и выберите язык
3) Нажмите «Отправить на распознание» → дождитесь результата → скачайте нужный экспорт или откройте AI-Сводку

Где баланс и как пополнить

Баланс отображается в правом верхнем углу на ПК или в меню мобильной версии. Минимальная сумма пополнения и варианты оплаты — на странице тарифов: https://apihost.ru/price

Сколько стоит распознавание

Цена: 2,4 ₽ / мин.
Списание идёт по секундам (без округления): например, 10 секунд ≈ 0,24 ₽.

Если распознавание не удалось из-за ошибки на сервере — средства возвращаются автоматически на ваш баланс.

1. Загрузка файлов: форматы и ограничения

Ограничение размера файла: до 500 МБ на одну загрузку.
Если файл больше — используйте инструмент нарезки: https://apihost.ru/cut-audio/

Параметр	Как работает
Поддерживаемые форматы	`mp3, wav, m4a, ogg, mp4, mov, avi` Рекомендуем mp3 (как самый стабильный вариант).
Видео	Видео можно загружать — сервис автоматически извлекает аудио. Учтите: видео обычно весит больше, и чаще упирается в лимит 500 МБ.
Загрузка по одному	Интерфейс рассчитан на одну активную задачу в текущей вкладке. Если запустить следующую — она встанет в очередь, а текущая вкладка будет заблокирована до завершения.

2. История транскрибирования: как вернуться к результату

Где история

Справа на странице есть сайдбар «История транскрибирования» — там отображаются последние 5 задач которые можно восстановить для работы, для этого нажмите кнопку со стрелкой в истории.

Можно ли закрыть вкладку

Да. После нажатия кнопки отправки на распознавание задача уходит в обработку. Вы можете закрыть вкладку и позже вернуться — готовый результат появится в «Истории транскрибирования».

3. Скорость обработки: чего ожидать?

Ориентир по скорости: часовой файл обычно обрабатывается примерно за ~5 минут (может зависеть от нагрузки и качества записи).
В процессе вы видите прогресс-бар.

Подсказка

Если запись длинная, сервис может автоматически делить её на части для более стабильного распознавания, а затем собирает всё в единый результат.

4. Язык и дикторы

Автоопределения языка нет — язык нужно выбрать вручную перед запуском распознавания.
Если в записи встречаются разные языки и вы сомневаетесь: выберите язык, который звучит большую часть времени, а смешанные записи лучше разделить на несколько файлов.

Имена дикторов

На странице AI-Сводки можно задать имена дикторов для удобства чтения (это не обязательно). В меню рядом с фрагментом диктора есть поле для имени.

5. Редактирование текста

Да, текст можно редактировать прямо в интерфейсе (исправить слова, пунктуацию, опечатки).
Важно: в AI-чат/AI-Сводку отправляется оригинальная распознанная версия (до ваших ручных правок).

6. Запись с микрофона

Ограничение

Запись с микрофона доступна, но есть жёсткий лимит: до 10 минут. Если нужно больше — запишите диктофоном и загрузите файл.

Рекомендуемые браузеры

Лучше всего работает в Chrome, Safari и Яндекс.Браузере.
Если доступ к микрофону не выдаётся или запись не стартует — используйте диктофон и загрузку файла.

7. Эмо-карта и речевая аналитика

Эмо-карта (аналитика тональности) показывает, как меняется вовлечённость, уверенность и напряжённость в речи. Это может быть полезно для разборов собеседований, переговоров, звонков: когда важен не только смысл, но и эмоциональная динамика.

Экспорт эмо-карты

Экспорт «Эмо-карта / Аналитика тональности» выгружается в формате TXT и выглядит примерно так:

8. Экспорт результатов: что выбрать

В интерфейсе доступны выгрузки для разных задач: простой текст, стенограмма по дикторам, диалог, субтитры и эмо-карта. Ниже — кратко, что где использовать.

Текст (без дикторов)

TXT — простой текст
PDF — документ для отправки/печати
DOCX — Word-документ (удобно править)

🎙 По дикторам

TXT / DOCX / PDF — Все сегменты: реплики идут по времени, каждая помечена диктором и содержит таймкоды.

DOCX — Диалог (группировка): формат «диалога» — чередование реплик (как стенограмма разговора).

🎬 Субтитры

SRT — универсальный формат субтитров
VTT — web-формат (для сайтов/плееров)
ASS — стилизованные субтитры

Эмо-карта

TXT — отчёт по тональности (вовлечённость/уверенность/напряжённость) + детализация по сегментам.

9. AI-Сводка и PDF-отчёт

AI-Сводка — это отдельная страница анализа по вашей транскрипции: готовые шаблоны (протокол, кратко и т.п.), чат-вопросы по тексту, и PDF-отчёт (сводка + графики + статистика).

Внутри одной задачи действует лимит: до 20 сообщений в AI-чате. Если лимит закончился — создайте новую задачу или используйте наш чат: https://chatgpt.apihost.ru

Важно про пресеты

Обычно сервис показывает 4–6 наиболее подходящих пресетов под ваш тип записи (а не весь список сразу) — так проще выбрать нужный формат анализа.

10. Приватность и хранение данных

Важно: успейте скачать результаты

Данные доступны гарантированно 24 часа. После этого удаляется всё: исходный файл, результат распознавания, история и любые выгрузки, которые вы не успели скачать.

Данные не используются для обучения

Ваши файлы и тексты не используются для обучения моделей/улучшения качества.

11. Поддержка

Если что-то пошло не так (ошибка обработки, проблемы с загрузкой, вопросы по выгрузкам) — напишите в поддержку:
support@apihost.ru

Для быстрого решения приложите: файл (или ссылку), пример участка, где ошибка заметна, и скриншот страницы/сообщения.