Voz
/voice
El servicio de Voz es una API REST a la que puedes enviar archivos de audio para ser procesados y obtener el resultado del proceso de reconocimiento de voz. El servicio ofrece un servicio para registrar una nueva voz y otro para autenticar una voz.
El producto es para verificación del hablante y detección de vida de voz. Se basa en el uso de una plantilla de voz, que es una cadena que contiene la información biométrica de la voz. Esta plantilla de voz puede usarse para autenticar voces en el futuro.
Las operaciones soportadas son:
Enrollment (Registro): nuevo registro de voz.
Authentication (Autenticación): autenticar una voz.
Enrollment (Registro)
Este endpoint se utiliza para registrar una nueva voz. Recibe uno o más archivos de audio y devuelve una plantilla de voz. La plantilla de voz es una cadena que contiene la información biométrica de la voz. Esta plantilla de voz puede usarse para autenticar voces en el futuro. Los audios pueden estar cifrados o no, y codificados en base64. La plantilla devuelta siempre está cifrada y codificada en base64. Acepta 1 audio, o de 3 a 5 audios, para realizar un registro independiente del texto o dependiente del texto, respectivamente:
1 audio para registro independiente del texto (text-independent).
3 a 5 audios para registro dependiente del texto (text-dependent).
Campo
Descripción
audios
Array de cadenas. Cada posición del array es un búfer de audio sin procesar codificado en base64 RFC4648. Máximo dos archivos. Acepta 1 audio, o de 3 a 5 audios.
Formatos admitidos
WAV
MP3
Opus/OGG
AAC
WMA
PCM ulaw y mulaw
FLAC
ALAC (mov)
MP4
AIFF
Ejemplo de solicitud:
bash
Ejemplo de respuesta:
200 OK
json
Authentication (Autenticación)
Este endpoint se utiliza para autenticar una voz. Recibe un archivo de audio y una plantilla de voz, y devuelve un valor booleano que indica si la voz pertenece a la misma persona que la de la plantilla de voz, y una probabilidad que indica la similitud entre las dos voces. El audio puede estar cifrado o no, y codificado en base64. La plantilla de voz debe estar cifrada y codificada en base64.
Campo
Descripción
audio
Búfer de audio sin procesar codificado en base64 RFC4648.
template
Búfer de plantilla biométrica, obtenido de Enrollment(), cifrado y codificado en base64 RFC4648.
Ejemplo de solicitud:
bash
Ejemplo de respuesta:
200 OK
json
Last updated