Voz

/voice

El servicio de Voz es una API REST a la que puedes enviar archivos de audio para ser procesados y obtener el resultado del proceso de reconocimiento de voz. El servicio ofrece un servicio para registrar una nueva voz y otro para autenticar una voz.

El producto es para verificación del hablante y detección de vida de voz. Se basa en el uso de una plantilla de voz, que es una cadena que contiene la información biométrica de la voz. Esta plantilla de voz puede usarse para autenticar voces en el futuro.

Las operaciones soportadas son:

Enrollment (Registro): nuevo registro de voz.
Authentication (Autenticación): autenticar una voz.

Enrollment (Registro)

Este endpoint se utiliza para registrar una nueva voz. Recibe uno o más archivos de audio y devuelve una plantilla de voz. La plantilla de voz es una cadena que contiene la información biométrica de la voz. Esta plantilla de voz puede usarse para autenticar voces en el futuro. Los audios pueden estar cifrados o no, y codificados en base64. La plantilla devuelta siempre está cifrada y codificada en base64. Acepta 1 audio, o de 3 a 5 audios, para realizar un registro independiente del texto o dependiente del texto, respectivamente:

1 audio para registro independiente del texto (text-independent).
3 a 5 audios para registro dependiente del texto (text-dependent).

Campo

Descripción

audios

Array de cadenas. Cada posición del array es un búfer de audio sin procesar codificado en base64 RFC4648. Máximo dos archivos. Acepta 1 audio, o de 3 a 5 audios.

Formatos admitidos

WAV
MP3
Opus/OGG
AAC
WMA
PCM ulaw y mulaw
FLAC
ALAC (mov)
MP4
AIFF

Ejemplo de solicitud:

bash

curl --location '{IDENTITY_API_BASE_URL}/voice/enrollment' \
--header 'x-api-key: {IDENTITY_API_APIKEY}' \
--header 'Content-Type: application/json' \
--data '{
  "audios": ["JVBERi0xLjQKJeLjz9MKNSAwIG9iago8P..."]
}'

Ejemplo de respuesta:

200 OK

json

{
    "serviceResultCode": 200,
    "serviceResultLog": "Servicio ejecutado correctamente",
    "timestamp": "2024-07-12T09:43:36Z",
    "serviceTransactionId": "99999999-9999-9999-9999-999999999999",
    "serviceResult": {
        "operation_result": 3,
        "template": "BgEBAQIvimhg/Th98mTNID4BPHKsJsf...",
        "template_type": "text-dependent",
        "validate_audios_result": [
            {
                "audio_position": 0,
                "matching_score": 0.9999997019767761,
                "multiple_speakers_score_detected": -3.4028234663852886e+38,
                "result_code": 3,
                "snr_db_detected": 18.781143188476562,
                "speech_length_ms_detected": 4200,
                "speech_relative_length_detected": 0.65625
            },
            {
                "audio_position": 1,
                "matching_score": 1,
                "multiple_speakers_score_detected": -3.4028234663852886e+38,
                "result_code": 3,
                "snr_db_detected": 17.34685707092285,
                "speech_length_ms_detected": 5000,
                "speech_relative_length_detected": 0.6868131756782532
            },
            {
                "audio_position": 2,
                "matching_score": 1,
                "multiple_speakers_score_detected": -3.4028234663852886e+38,
                "result_code": 3,
                "snr_db_detected": 17.34685707092285,
                "speech_length_ms_detected": 5000,
                "speech_relative_length_detected": 0.6868131756782532
            }
        ]
    },
    "serviceTime": "638"
}

Authentication (Autenticación)

Este endpoint se utiliza para autenticar una voz. Recibe un archivo de audio y una plantilla de voz, y devuelve un valor booleano que indica si la voz pertenece a la misma persona que la de la plantilla de voz, y una probabilidad que indica la similitud entre las dos voces. El audio puede estar cifrado o no, y codificado en base64. La plantilla de voz debe estar cifrada y codificada en base64.

Campo

Descripción

audio

Búfer de audio sin procesar codificado en base64 RFC4648.

template

Búfer de plantilla biométrica, obtenido de Enrollment(), cifrado y codificado en base64 RFC4648.

Ejemplo de solicitud:

bash

curl --location '{IDENTITY_API_BASE_URL}/voice/authentication' \
--header 'x-api-key: {IDENTITY_API_APIKEY}' \
--header 'Content-Type: application/json' \
--data '{
  "audio": "JVBERi0xLjQKJeLjz9MKNSAw IG9iago8P...",
  "template": "BgEBAQI+d368i49ITeoPlmCi5zbYp3kdvTsk6otTOl...."
}'

Ejemplo de respuesta:

200 OK

json

{
    "serviceResultCode": 200,
    "serviceResultLog": "Servicio ejecutado correctamente",
    "timestamp": "2024-07-13T19:43:36Z",
    "serviceTransactionId": "99999999-9999-9999-9999-999999999999",
    "serviceResult": {
        "liveness_score": 0,
        "match": true,
        "matching_score": 1,
        "operation_result": 3,
        "tracking_message": "",
        "tracking_status": -1
    },
    "serviceTime": "1708"
}

PreviousGeocodificación inversa NextRecursos transversales

Last updated 2 months ago