Reconhecimento de Orador em Dois Segundos

Resultados

Os principais resultados obtidos e conclusões retiradas até à data encontram-se brevemente descritos abaixo.

Performance do sistema de reconhecimento de orador com características Normalized Relative Delays (NRDs)
Os testes realizados com as vogais da base de dados TIMIT não foram satisfatórios, pelo facto de as vogais assinaladas nas anotações fornecidas com a base de dados incluírem partes não estáveis do sinal e zonas de silêncio. As bases de dados disponíveis que contêm vogais devidamente segmentadas não têm dimensão suficiente para ser possível a classificação por Gaussian Mixture Models.
Assim, os testes foram realizados com um diferente classificador, denominado Nearest Neighbor. Os resultados obtidos revelam que o desempenho obtido com o conjunto de características MFCC e NRD é superior ao obtido com apenas MFCCs.
actualizado a 27.06.11

Performance do sistema de reconhecimento de orador com diferentes partes de voz
Foram realizados testes com a base de dados TIMIT, utilizando diferentes partes da voz - vozeada, apenas vogais, não vozeada e voz completa. A segmentação foi feita com base nas anotações providenciadas com a TIMIT. Os resultados foram significativamente melhores quando são usadas apenas as vogais; o desempenho com parte vozeada segue-se, embora bastante próximo do desempenho com parte não vozeada; por último a voz completa apresenta os piores resultados.
actualizado a 11.06.11

Estudo da influência da técnica de normalização CMS e da utilização das características ΔMFCC e ΔΔMFCC
Os resultados revelaram que tanto a normalização CMS como a utilização das características ΔMFCC e ΔΔMFCC prejudicam o desempenho do sistema. Quanto à normalização os resultados explicam-se pelo facto de esta eliminar informação relativa ao canal (reduzindo o efeito do ruído, etc.) mas também alguma informação relativa ao orador. Visto que a TIMIT não apresenta ruído considerável, normalização CMS é prejudicial neste cenário. Quanto às características ΔMFCC e ΔΔMFCC, foi equacionada a hipótese de estas serem mais indicadas para reconhecimento de orador dependente de texto, e foi feito um pequeno teste com gravações feitas no laboratório. Os resultados foram algo inconclusivos, mas apontam para não haver benefício no uso de características delta.
actualizado a 30.05.11

Resultados obtidos para reconhecimento de orador com dados das bases de dados TIMIT e Mocha TIMIT
Com os dados da base de dados TIMIT (gravações com voz estável e livre de ruído) é possível estabelecer uma distinção entre oradores através do valor de log-likelihood. Apenas normalização CMS foi utilizada, não foi utilizado o método UBM. No entanto, a diferença entre os valores de log-likelihood para o caso positivo e o caso negativo não é tão demarcada quanto desejado.
actualizado a 02.05.11

Análise das funções Matlab de cálculo de gaussian mixture models disponíveis da VoiceBox e na Statistics Toolbox
Em termos de log-likelihood devolvido pelo algoritmo Expectation Maximization que ambas utilizam, as duas funções são equivalentes. Isto indica-nos que ambas as funções atingem modelos com o melhor fitting possível aos dados de acordo com as condições dadas.
actualizado a 24.04.11

Resultados obtidos para reconhecimento de orador com gravações telefónicas
Os resultados não foram satisfatórios para as gravações telefónicas utilizadas (de curta duração e afectadas de ruído). Normalização através de Cepstral Mean Substraction (CMS) e utilização de Universal Background Model (UBM) não contribuíram com melhorias significativas, ao contrário do que é indicado na literatura.
actualizado a 24.04.11

Análise da influência da quantidade de dados utilizada para modelação na capacidade discriminatória do valor de log-likelihood
Para o caso teórico ideal (dados gerados aleatoriamente segundo distribuição gaussiana), a quantidade de dados não influencia significativamente o valor de log-likelihood obtido. Ver relatório 5.
actualizado a 29.03.11

Análise do algoritmo Expectation Maximization e do valor log-likelihood por este utilizado
O log-likelihood traduz, como se pretendia comprovar, uma medida de distância entre o modelo de mistura de gaussianas (GMM) e os dados. Esta medida é baseada na distância Mahalanobis. Dado que o valor log-likelihood devolvido pela função gmdistribution.fit do Matlab representa a soma desse valor para cada ponto do conjunto de dados, conclui-se que o log-likelihood final depende linearmente da quantidade de dados utilizada para modelação. Ver relatório 4 para mais informações e bibliografia relacionada.
actualizado a 21.03.11