9 de julho de 2012

Como podem ter sido gravadas as vozes do Google Translate

Regina Bittar, a voz do Google Translate
Após acompanhar a transmissão ao vivo do youpix 2012, onde Rafinha Bastos entrevistava Regina Bittar (mulher que gravou a voz brasileira do Google Translate, também conhecida como aquela chamou Yudi de viadinho ao vivo), me ficou uma dúvida: como teria sido o processo de gravação de tal voz? Há quem diga que a equipe da Google teria dado à Regina a missão praticamente impossível de pronunciar todas as palavras do dicionário, ela apenas negou, porém, não revelou como foi o processo de gravação devido ao contrato assinado com a Google, que não permite a revelação do mesmo.

Após alguns dias pensando nisso, cheguei numa possível conclusão: acredito que o processo de gravação tenha sido feito através da pronúncia de vogais, seguida da de consoantes, e em seguida, a combinação de consoantes com vogais.

Suponhamos que Regina tenha pronunciado primeiro as vogais (a - e - i - o - u), logo após, as vogais com acentos (á - é - í - ó - ú, ã - õ...), depois, todas as consoantes (b - c - d - f - g etc) e depois a combinação da primeira consoante combinada com a primeira vogal, segunda com a segunda, e assim por diante. Exemplos:

ba - be - bi - bo - bu
ca - ce - ci - co - cu
da - de - di - do - du

E assim por diante.
Logo após, foram pronunciadas as sílabas com adição de acentos:

cá - cé - cí - có - cú
 dá - dé - dí - dó - dú


Após isso, acredito que o processo tenha se repetido, porém, com a adição de plural:

bas - bes - bis - bos - bus
 cas - ces - cis - cos - cus
 das - des - dis - dos - dus

Depois, plural com acentos:

bás - bés - bís - bós - bús
 cás - cés - cís - cós - cús
 dás - dés - dís - dós - dús

 bâs - bês - bîs - bôs - bûs
 cãs - cõs
 dãs - dõs

Embora usemos "s" para plural, suponho que tenha sido feito o mesmo processo acima com a adição de "z" ao invés de "s":

baz - bez - biz - boz - buz
 cáz - céz - cíz - cóz - cúz
 dãz - dõz


Depois, sílabas com "l" no final

bal - bel - bil - bol - bul
 cal - cel - cil - col - cul


Depois as mesmas com acentos, e assim por diante.
Nas sílabas com "r", acredito que tenham sido pronunciadas com o som de um "r" e depois com o som de dois "r's":

ra - re - ri - ro - ru
(essas com som de um "r", aquele em que a língua toca levemente o céu da boca na pronúncia, como na palavra "caro".)

ra - re - ri - ro - ru
(esses com som de dois "r's", como na palavra "carro").

Após a pronúncia de todas as combinações possíveis, acredito que a equipe da Google tenha relacionado cada sílaba com o som da mesma, e através de um algoritmo, são captadas as sílabas da palavra digitada pelo usuário, os sons das mesmas são combinadas, e assim são formadas as pronúncias que você ouve no Google Translate.

Um exemplo que reforça minha teoria é a pronúncia da palavra "pizza". (Clique no link abaixo para ouvir)

http://translate.google.com.br/#en|pt|pizza


Reparem que a palavra é pronunciada com o mesmo som de "pisa", ou seja, "piz - za". Como não deve ter sido possível gravar um som de "t" (pitça, como na pronúncia) nas sílabas que envolviam "z", a palavra foi pronunciada combinando as sílabas "piz" + "za", resultando em "pizza pronunciada como pisa".

Outro exemplo é a palavra "ketchup", pronunciada como se o "t" e o "p" estivesse separado da palavra, pelo fato de ser mudo (ke - ti - chu - pi)

http://translate.google.com.br/#en|pt|ketchup


Bom, essa é a conclusão que eu obtive sobre como pode ter sido o processo de gravação do Google Translate. Se eu estiver certo, que a Google possa me recompensar pela descoberta, ou pelo menos não excluir meu post, já que era pra ser um segredo xD

Tudo isso são apenas hipóteses da minha imaginação fértil e brilhante, nada do que está escrito aqui foi confirmado como verdadeiro ou falso. Espero que gostem.

Abaixo estão os vídeos onde Regina Bittar é entrevistada por Rafinha Bastos e Jô Soares.


Se você tem outras sugestões de como pode ter sido o processo de gravação, comenta aí ;)