Reconhecimento de Orador

Reconhecimento de orador trata-se da tarefa computacional de estabelecer ou verificar a identidade de um orador através da sua voz. Sistemas de reconhecimento de orador encontram-se no âmbito de sistemas biométricos, mais especificamente em biometria de performance, em que o indivíduo deve executar uma tarefa para ser reconhecido.

Existem duas áreas principais em reconhecimento de orador: identificação de orador e verificação de orador. Nesta última pretende-se confirmar que o segmento de voz em análise foi produzido por determinada pessoa, cuja identidade é conhecida de antemão, tomando-se apenas uma decisão binária de confirmação ou rejeição. Em identificação de orador, por contraste, o objectivo é seleccionar o orador de um universo de oradores conhecidos, sem qualquer indicação prévia da sua identidade. O reconhecimento de orador abrange também outros dois métodos distintos: dependente e independente de texto, conforme as gravações de voz usadas correspondem ou não a uma frase específica (texto) que todos os oradores proferiram.

Um sistema de reconhecimento de orador é geralmente constituído pelos seguintes componentes: extracção de características, pattern matching e decisão, como ilustrado na figura abaixo.

Existem duas fases na identificação de um orador. Na fase de registo de oradores (enrollment), são extraídas as características do sinal de fala e é construído um modelo para cada orador, que o representa. Este modelo é guardado na base de dados. Na fase de identificação, as características são extraídas da mesma forma, e é feita uma comparação entre estas e os modelos armazenados, resultantes da fase de registo. Com base nessa comparação é feita uma decisão quanto à identidade do orador.

Aplicações

A tecnologia de reconhecimento de orador oferece várias aplicações na área de segurança, em que o sistema de reconhecimento de orador é utilizado como forma de autenticação dos utilizadores:

Empresas como Allianz Dresdner, Banco Santander, VISA, IBM Europa e Morgan Stanley utilizam esta tecnologia como forma de redefinição periódica de passwords das contas de acesso dos funcionários.
Outra aplicação muito frequente é automação dos serviços self-service por telefone, nomeadamente telephone banking, que disponibiliza as operações de consulta de saldo, transferência bancária e pagamentos através do telefone. É já utilizado nesta área desde 1996, pelo Glenview State Bank of Illinois.

Tem vindo a divulgar-se também o reconhecimento de orador forense, pois a identificação de um indivíduo através de uma gravação de voz pode constituir uma prova em tribunal judicial.