Система речевой аналитики на базе Vosk
Основные фукнции
- Распознавание звонков
- Диаризация моно звонков
- Определение эмоций по фразам
- Построение отчетов по звонкам
- Поиск звонков по тексту
- Автотематизация
Установка
-
Установить БД postgres и запустить инициализирующий скрипт initial.sql
-
Скопировать файл
.env_exampleв.envи настроить параметры подключения к БД:
DSN=postgresql://user:pass@server:port/db_names
APIURL=http://nginx/api/file/
TRANSCRIPT_NUM_WORKERS=4
TRANSCRIPT_NUM_THREADS=4
ASR_MODEL_NAME=v2_ctc
Доступные модели ASR (модель по умолчанию - v2_ctc):
- v3_ctc
- v3_rnnt
- v3_e2e_ctc
- v3_e2e_rnnt
- v2_ctc
- v2_rnnt
- v1_ctc
- v1_rnnt
Скачать файл в text_processor/ruword2tags/ по ссылке в load.txt
Сборка Docker образов
Для автоматической сборки Docker образов используйте команду:
docker-compose up --build
Single node. GigaAM
Запустить через
docker-compose up -d
Загрузка аудио
в файле load.curl есть пример запроса для подгрузки новых аудио
Так же в интерфейсе реализована форма загрузки через web
Пример интерфейса
Основной интерфейс просмотра звонков

В проекте используются модели Vosk, DeepPavlov, I.Koziev
Присоединяйтесь к сообществу https://t.me/voiceperception
Система API ключей позволяет создавать постоянные токены для аутентификации сервисов без необходимости использовать временные JWT токены.
- Войдите в систему как пользователь
- Перейдите в меню "Профиль"
- Нажмите "Create New API Key"
- Заполните имя и описание ключа
- Скопируйте сгенерированный ключ (вида
vpak_<64_hex_символов>) - он показывается только один раз!
- Создайте API ключ через веб-интерфейс
- Добавьте его в
.envфайл какTRANSCRIPT_API_KEY=vpak_скопированный_ключ - Перезапустите transcript_server


