Entrevista a Cleverson

Por diogo

Se hoje já existem diversos sintetizadores de voz, menos são aqueles que são gratuitos. Se seleccionarmos dos que restam algum que seja multiplataforma, então são raríssimos os que podemos encontrar. Para finalizar, se quisermos um sintetizador que funcione a partir de uma pen, chegamos só a um nome. Espeak!
Nas próximas linhas estará a história de alguém que resolveu colocar mãos ao trabalho e criou o idioma português (Brasil) para este sintetizador de voz.

Diogo - O que é que o levou a desenvolver o idioma Português (Brasil) no eSpeak?

Cleverson - Desde 2005 eu me intereço a sério por Linux. Não existia sintetizador em Português para ele, e embora eu até conseguisse com algum esforço trabalhar com voz em Inglês, jamais poderia migrar de fato. Surgiram depois as vozes em Português baseadas nos sintetizadores Festival e MBROLA, desenvolvidas por colegas aqui do Brasil. Ambas tinham porém problemas sérios de pronúncia e outros entraves técnicos e de licenciamento.
Dia cinco de outubro de 2006, o responsável pelo projeto Oralux – Gilles Casse - enviou uma mensagem para a lista informando-nos sobre o ESpeak. Escreveu sobre os recursos do mesmo, idiomas disponíveis, facilidade na adição de idiomas, etc. Muito antes disso - em maio - eu já recebera alguma informação mas não havia me dado conta que seria interessante investir o meu
tempo tentando trabalhar no Português para ele.
Depois dessa mensagem do Gilles ainda em outubro, fui à página do projeto, peguei a versão 1.16 que lá estava e li os documentos. Achei que não seria difícil trabalhar nas regras para português; pareceu bastante simples o esquema e escrevi então ao autor pedindo que fizesse o código inicial para Português.
Afora isso, se conseguíssemos fazer a voz em Português e se o sintetizador fosse incluído com sucesso em alguma distribuição Linux isso valeria muito a pena.

Diogo - Em que dia recebeu o rascunho do idioma Português do Brasil?
Cleverson - 25 de outubro de 2006, versão de testes 1.16.

Diogo - Qual foi a data e o número da respectiva versão do lançamento oficial do idioma Português do Brasil?
Cleverson - Desde esse rascunho, o Jonathan (autor) sempre deixou a voz disponível ao público na Internet, embora numa página de testes. Em 17 de novembro ele lançou a versão 1.17, uma versão oficial, mas o Português ainda tinha muitos problemas, tanto em vários sons / fonemas como na pronúncia de palavras. Não existiu algo que dê pra chamar de versão estável, oficial, acabada, etc. é claro que a tendência é melhorar e estabilizar a qualidade, mas até agora estivemos e ainda estamos em desenvolvimento.

Diogo - Quais foram as primeiras palavras que ouviu o eSpeak falar?
Cleverson - “Você fala Português?”. Essa frase soou bem, exceto pela letra “o” em “Português” que soou aberta quando deveria soar fechada. Corrigimos isso depois.

Diogo - Qual foi o primeiro problema que poça considerar grande e que tenha resolvido com sucesso relacionado com as regras do eSpeak?
Cleverson - Honestamente, não lembro de um problema grande. Desde o início procurei adicionar regras o mais genéricas possível, que abrangessem o maior números de palavras cada uma. Assim, a cada regra muita coisa melhorava. Como exemplo, no início o ESpeak acentuava a sílaba errada em palavras terminadas em ditongos. Dizia “ecolôgia, econômia, psicolôgia”, etc. Uma só regra corrigiu isso.
Um problema grande mesmo foi de alguns fonemas, especialmente a letra r. Demorou para que se chegasse a uma boa solução para substituir o r retroflexo (enrolado) do Inglês, mas conseguimos.

Diogo - Qual é o seu maior desejo relacionado com o eSpeak? Acha que um dia
ele possa tornar-se uma realidade?
Cleverson - Para mim ele é realidade desde que o conheci e comecei a lidar com ele,
especialmente porque então já podia ler e compreender textos em Português no Linux, embora no início usando apenas o interpretador do próprio ESpeak.
Acho deveras impressionante o progresso popular que ele teve especialmente nos últimos seis meses: foi incluído em muitas distribuições Linux, tornou-se a voz oficial em pelo menos uma delas - o Ubuntu -, que se estima ser a distro mais usada no mundo hoje. Foi portado para Windows, pode ser usada com qualquer leitor de telas nesse sistema via SAPI 5, tornou-se a voz oficial do leitor NVDA.
Muita gente prefere usar outros sintetizadores cuja voz é mais próxima da humana, especialmente para ler textos longos como livros. Eu até entendo essa preferência no caso de quem usa Windows, já que existe muita opção disponível.
A questão é que a função de um sintetizador é converter para voz de forma inteligível o que está escrito e isso para mim basta. Quando aprendi a mexer
em computador, a única voz em Português do Brasil era a do Dosvox, construída pela concatenação de difones e trifones sem muito acabamento nem entonação. Muitos que começaram antes de mim só dispunham da voz do Apollo /Juno em Português europeu. Ambas essas vozes hoje são consideradas ruins quando comparadas aos produtos atuais, mas se ao invés de se desenvolverem sintetizadores melhores houvessem apenas portado a voz do Dosvox e a do Apollo / Juno para as aplicações atuais, todo mundo continuaria usando o computador do mesmo jeito. Refletindo nisso, não vejo razão para não usar o eSpeak, ao menos quando as vantagens técnicas estejam a favor dele e não houver mais opções.

Deixe Uma Resposta


Bad Behavior has blocked 170 access attempts in the last 7 days.