IDENTIFICAÇÃO HUMANA PELA VOZ

BRAID, Antonio César Morant. Fonética forense.
Andréia Saragoça

A Verificação de Locutor é o braço da fonética forense que busca determinar se as falas armazenadas numa mídia de gravação provêm ou não do aparelho fonador de determinada pessoa. Serve como prova material, permitindo atribuir a autoria de um crime a alguém ou desvincular sua participação. Muitas vezes, é a única prova material existente, como em casos de suborno, chantagem e extorsão.

Nos exames de Verificação de Locutor são comparados numerosos parâmetros acústicos e diversas realizações articulatórias do falante, similares estatisticamente, extraídos e percebidos a partir dos registros de voz perquiridos, que permitem aos peritos concluir quanto à unicidade ou não das vozes cotejadas.

O presente trabalho tem por objetivo apresentar a metodologia de investigação empregada nos exames de Verificação de Locutor, pelo Instituto Nacional de Criminalística do Departamento de Polícia Federal, a fim de se alcançar resultados conclusivos.

Destaca-se a analogia entre a metodologia de investigação pericial da Grafotecnia Moderna, na sua análise da unicidade de punho escriturador, e a metodologia empregada nos exames de Verificação de Locutor, atribuindo-se o sucesso desta às mesmas condições técnicas essenciais dos materiais perquiridos exigidos naquela.

Para se compreender a eficiência do método de comparação de vozes faz-se necessário expor alguns parâmetros técnico-comparativos que são intimamente dependentes da anatomia, da fisiologia, da neurofisiologia, do desenvolvimento neurológico e do léxico de cada falante, bem como, de forma simplista, apresentar a fisiologia do aparato vocal.

A FISIOLOGIA DA FALA

Do ponto de vista fonético, podemos simplificar a fisiologia do aparato vocal dividindo-o em três subsistemas anatômicos: o respiratório, o laríngeo e o supralaríngeo.

O subsistema respiratório compreendendo os pulmões, os músculos respiratórios, os brônquios e a traquéia, é responsável pela energia aerodinâmica da fala. A grande maioria dos sons é produzida com a corrente de ar egressiva, entretanto há sons com corrente de ar ingressiva, fato que não ocorre na língua portuguesa.

O subsistema laríngeo compreendendo um conjunto de músculos, ligamentos e cartilagens cuja função principal é controlar a disposição das pregas vocais, que constituem uma dobra de membrana de ligamento, postadas transversalmente na laringe, da parte anterior para a posterior. A região laríngea é responsável pela fonação. A corrente de ar egressa dos pulmões, que é contínua, ao passar pelas pregas vocais pode sofrer modificações, transformando-se em pulsos de ar, dependendo da realização fonética desejada.

O subsistema supralaríngeo compreendendo as regiões faringal, bucal e nasal, é responsável pela modulação do som gerado na região laríngea ou na própria região supralaríngea, definindo a maioria das suas características qualitativas. Por meio da movimentação dos órgãos ativos, sobretudo a língua, modificam-se a forma e o comprimento da cavidade oral e acoplam-se ou não a cavidade nasal na produção dos mais diversos sons da linguagem.

Sistema de produção da fala.

A PRODUÇÃO DA FALA

A corrente de ar egressa dos pulmões atravessa a traquéia e chega à laringe. Na laringe, as pregas vocais são responsáveis pelo fenômeno da fonação. Quando a pressão subglótica atinge valores suficientes para promover o afastamento das pregas vocais, o ar atravessa a glote (espaço existente entre as pregas vocais) num fluxo crescente até que, devido aos efeitos restauradores, é amortecido. Com a reaproximação total das pregas vocais, finaliza-se um ciclo vibratório. Como resultado, a fonação gera uma série de pulsos de ar que irão abastecer o subsistema supralaríngeo. Quando as pregas vocais permanecem afastadas, o fluxo de ar que chega ao subsistema supralaríngeo é contínuo. Assim, podemos considerar o subsistema laríngeo, juntamente com o ar egresso dos pulmões, como a fonte de energia por excelência do sistema fonatório.

O subsistema supralaríngeo tem a função de modular a energia proveniente da laringe, produzindo o som desejado pelo falante. Funciona como um filtro acústico que atenua a energia do som em certas freqüências, enquanto reforça a energia em outras.

O trato vocal é formado pelas cavidades que vão desde as pregas vocais até os lábios e as narinas. A forma e comprimento de cada cavidade do trato vocal são os principais parâmetros de definição da qualidade do som produzido e da formatação dos valores de diversos elementos técnico-comparativos nos exames periciais.

Cavidades do trato vocal (a) e fluxo da corrente de ar quando da realização de sons de vogais nasalisadas (b) e orais (c).

Exemplificando como a energia é modificada nas cavidades do trato vocal, utilizaremos inicialmente a produção da vogal neutra [§], denominada “schwa”, a qual é produzida com o mínimo de tensionamento do trato vocal. Para esse caso, a configuração do trato vocal pode ser modelada como um tubo reto, cilíndrico, com uma das suas extremidades fechada. Essa extremidade fechada refere-se à glote e é onde se localiza a fonte da energia acústica, e a outra extremidade, aberta, representa os lábios.

Este tubo funcionará como um ressoador natural, apresentando características físicas que permitirão a ressonância da energia acústica proveniente da laringe em infinitas freqüências, definidas pela expressão:

Fn = (2n-1)c/4L, em que:

n = {1, 2, 3…}

c = velocidade do som em cm/s

L = comprimento do tubo em cm

Considerando que a velocidade do som é cerca de 34000 cm/s e que o comprimento médio do trato vocal de um homem adulto é 17 cm, teremos amplificações de energia nas seguintes frequências:

F1 = 500 Hz

F2 = 1500 Hz

F3 = 2500 Hz

Para as demais vogais, o trato vocal estreita-se em determinado ponto, de acordo com a posição do articulador, podendo ser modelado como dois tubos retos, cilíndricos, com comprimentos definidos pelo posicionamento do articulador, aplicando-se as mesmas propriedades físicas empregadas na vogal neutra para cada um dos tubos independentemente.

Há de se observar que a labialização acarretará o prolongamento do tubo formado pelos lábios, alterando certos valores de freqüências de ressonância.

Na realidade, o tubo do trato vocal não é reto, porém a análise de ressonância em tubos retos ou curvos não traz diferenças significativas nos resultados.

glote

boca

nariz

SonsFricativos

Consoantes

Nasalisadas

Vogais

Nasalisadas

Modelos simplificados do trato vocal para sons de vogais, consoantes nasalisadas e fricativos, nos quais se observa o sentido de movimento do fluxo de ar. As letras “V”, “A” e “B” referem-se a oclusões e a contrições nas regiões Velar, Alveolar e Labial.

Os demais sons produzidos pelo aparelho fonador também podem ser modelados, de acordo com suas características peculiares, em tubos cilíndricos, levando-se em consideração as propriedades físicas envolvidas, como, por exemplo: as turbulências geradas nos pontos de constrições (típico de sons fricativos); os efeitos oriundos das energias de freqüências anti-ressonantes; a participação ou não da cavidade nasal na articulação do som.

ELEMENTOS TÉCNICO-COMPARATIVOS

FORMANTES

Os formantes são os efeitos ressonantes no trato relacionados à amplificação da energia do som no subsistema supralaríngeo. Estão relacionados à anatomia e às configurações específicas do aparelho fonador de cada indivíduo.

A freqüência do primeiro formante (F1) está relacionada à posição da língua no plano vertical e é influenciado pelo grau de abertura da boca, enquanto a freqüência do segundo formante (F2) está relacionada à posição da língua no plano horizontal (grau de anterioridade). Quanto às freqüências dos demais formantes, apesar de este autor não dispor de pesquisa científica sedimentada que demonstre quais fatores os influenciam, sabe-se que eles estão relacionados à geometria do trato vocal e que são, assim como o primeiro e segundo formantes, dentro de um conjunto de convergências, fortes elementos para a individualização do falante.

CASO REAL: Perfeita coerência de valores dos quatro primeiros formantes do fone relacionado à vogal [e] da primeira sílaba do enunciado ”deixa o resto” quando comparado entre os registros de voz questionado (curva vermelha no gráfico à direita) e padrão (curva azul). Ressalte-se que não é articulada a semivogal /i/ nesse enunciado.

CASO REAL: Perfeita coerência entre o segundo, terceiro e quarto formantes do segmento vocálico da locução “tá” quando comparados entre os registros de voz questionado e padrão. Como o primeiro formante está diretamente relacionado ao grau de abertura da boca, a falta de espontaneidade durante o fornecimento do material sonoro padrão justifica a divergência encontrada nos valores do primeiro formante.

FREQÜÊNCIA FUNDAMENTAL

A freqüência fundamental (f0) é a componente de freqüência com maior energia do pulso de ar gerado no sistema laríngeo, devido ao movimento de afastamento e reaproximação das pregas vocais. Corresponde à freqüência de vibração das pregas vocais.

Os falantes masculinos adultos, normalmente, apresentam valores de freqüência fundamental em média de 120 Hz, os falantes femininos adultos, em média de 220 Hz e as crianças, em média de 300 Hz. Essa tendência é explicada, anatomicamente, pela diferença de comprimento das membranas das pregas vocais. Como os falantes masculinos adultos, em geral, apresentam um comprimento maior dessas membranas, fisiologicamente, levam mais tempo para afastar e reaproximar as pregas vocais, completando um ciclo vibratório. A relação entre essa freqüência e a anatomofisiologia das pregas vocais nos leva a concluir que a freqüência fundamental é mais um importante parâmetro técnico-comparativo na individualização do falante.

Variação: 116 a176Hz

Média deF0: 161Hz

Variação: 128 a186Hz

Média deF0: 159Hz

CASO REAL: compatibilidade da freqüência fundamental (freqüência de vibração das pregas vocais) quando confrontado o mesmo enunciado entre os registros de voz questionado (janela superior) e padrão (janela inferior). O autor deixa de expor qual é o enunciado, pois esse se refere ao nome de uma pessoa investigada.

MODOS ARTICULATÓRIOS

A análise espectrográfica de segmentos fonéticos permite aos peritos inferir precisamente o modo articulatório empregado em determinado enunciado. A tendência de um falante empregar realizações fonéticas estatisticamente similares para uma mesma especificação fonológica é mais um forte elemento técnico-comparativo para apontar a unicidade entre os registros de voz investigados.

Tap

Fricativo

Aproximante

Vibrante

Enunciado ”ara“: diferentes modos articulatórios envolvendo distintas realizações fonéticas do fonema /r/ quando pronunciado entre duas vogais /a/.

QUALIDADE VOCAL DO FALANTE

A qualidade vocal relaciona-se à impressão auditiva total criada por uma voz. Depende dos harmônicos da onda sonora e representa a ação conjunta da laringe e do trato vocal. É o resultado da interação entre as forças aerodinâmicas pulmonares, as forças mioelásticas laríngeas e a dinâmica articulatória.

Entre os diversos tipos de voz, destacamos: a voz modal (normal); a voz rangida; o falseto (pitch alto); a voz bitonal; a voz laringalizada (creaky voice); a voz murmurada; a voz áspera; a voz rouca; a voz hipernasalisada; a voz robotizada (monotônica); a voz infantilizada; a voz virilizada; e a voz feminilizada.

SONORIDADE OU VOZEAMENTO

É a investigação que se faz em segmentos fonológicos na qual se verifica se houve ou não a vibração das pregas vocais durante a sua realização. Diz-se que um som (ou fone) é sonoro se a vibração existe e, se não existe, é surdo.

RITMO E TAXA DE ELOCUÇÃO

O ritmo e a taxa de elocução (speech rate) estão relacionados ao encadeamento motor dos órgãos ativos do aparelho fonador. Dependem da maturação neurológica, das características anatomofisiológicas dos articuladores e do código lingüístico empregado pelo falante, se é natural ou não ao seu léxico mental. Os aspectos psico-emocionais influenciam nesses parâmetros.

“VOICE ONSET TIME” (VOT)

É a medida do tempo que leva entre a soltura de uma oclusão no trato e o início do vozeamento a ele interligado. Como exemplo, citamos o intervalo de tempo entre a explosão de um som oclusivo (por exemplo, um [p]) e o início de vibração das pregas vocais.

DE OUTROS ELEMENTOS

Além dos elementos técnico-comparativos acima expostos, existem outros tantos que permeiam os exames de Verificação de Locutor, dentre os quais destacamos: a avaliação de instabilidades da onda sonora laríngea (Jitter e Shimmer); o levantamento de características dialetais e idioletais; as influências de coarticulações antecipatórias e perseverativas próprias do falante e a apreciação de parâmetros sociolingüísticos e psicolingüísticos.

METODOLOGIA EMPREGADA PELO INC

As análises comparativas utilizadas na Grafotecnia Moderna, para se investigar a unicidade do punho escriturador, não estão calcadas na avaliação minuciosa de características isoladas do grafismo, e sim na apreciação conjunta de todos os elementos técnicos passíveis de confronto, tanto elementos objetivos quanto subjetivos.

De forma similar, a busca pela unicidade do aparelho fonador em registros de vozes jamais será alcançada se for limitada à análise de parâmetros técnicos isolados ou, até mesmo, se for empregado um universo restrito de parâmetros. O sucesso da comparação de vozes deve-se a uma avaliação global de parâmetros técnico-comparativos.

Dentre outras, a análise acústica possibilita calcular grandezas físicas, verificar a sua evolução no tempo e determinar realizações articulatórias do falante, enquanto a análise de oitiva permite a obtenção de elementos investigativos, destacando-se, também, a determinação de realizações articulatórias e a qualidade vocal do falante. Alguns parâmetros técnico-comparativos podem ser obtidos, exclusivamente, pela análise acústica ou pela análise de oitiva, entretanto diversos outros podem ser colhidos por ambas as análises.

Conclui-se que a análise acústica integrada à percepção auditiva dos peritos (análise de oitiva) permite concluir quanto à unicidade ou não das vozes cotejadas, por meio de parâmetros técnico-comparativos correlacionados à anatomia, à fisiologia, à neurofisiologia, ao desenvolvimento neurológico e ao léxico do falante. Contudo, assim como o exame Grafotécnico, o êxito nos exames de Verificação de Locutor depende de fatores como: a autenticidade do material padrão; a adeqüabilidade do padrão ao questionado e do questionado aos exames; a contemporaneidade dos registros de voz confrontados; e a quantidade de material (repetições de segmentos fonológicos).

Como podemos te ajudar?

Contate-nos no escritório Real Brasil mais próximo de você ou nos envie uma mensagem solicitando contato.

Conheça mais sobre a Real Brasil