domingo, 12 de março de 2023

Dubladores, áudio descritores e a picaretagem com vozes neurais

Recentemente pipocou na imprensa brasileira algumas matérias envolvendo um comportamento mega questionável por parte das desenvolvedoras de games com os dubladores de seus jogos.
Pelo que se sabe, a indústria estaria fazendo com que os profissionais da voz entregassem suas fontes de renda, ou seja, suas próprias vozes, para utilização futura num esquema não remunerado de vozes neurais.
Sim, isto mesmo, a ideia central da coisa toda era contratar os caras, capturar suas vozes, tratar e as transformar em vozes neurais, para utilizá-las em jogos no futuro e sem precisar se preocupar em contratar novamente os seus donos.

Descrição da imagem, a direita de costas e na sobra, um dublador, ele  tem diante de si, num pedestal, uma espécie de caderno aberto e bem iluminado,mais acima, um monitor onde um filme é rodado, fim da descrição.
Arte Neimar Borges da Silva, blog tts supremo

Espertinhos como sempre né?
Toda a vez que leio sobre essas coisas fico muito incomodado, estamos vivendo um período que está sendo chamado de quarta revolução industrial, um período que segundo caras como Yuval Harari,, já não teríamos mais a renovação das profissões, característica que havia marcado as revoluções anteriores, mas que agora estaria comprometida pela própria tecnologia.
Outrora a ganancia até poderia ser sustentada pela produção humana de riquezas mas parece que agora já não é mais bem assim.
Segundo esses autores, nossa luta hoje , seria contra a irrelevância, no passado fomos relevantes o suficiente para sermos explorados e agora, ao que parece, nem isso, fato que fica muito evidente quando pensamos em atitudes vistas nos casos envolvendo o chat GPT e que recentemente abordei aqui pelo TTS, em conteúdo que você pode acompanhar nesse artigo.
No caso recente dos dubladores, o que também me incomoda é o fato de uma tecnologia a qual eu curto tanto, estar sendo utilizada com fins tão mesquinhos.

O que é texto speak (TTS)?


As tecnologias de texto em voz mudaram para melhor a minha vida, me dando principalmente inclusão no mundo, algo que foi tão forte a ponto de me levar a criar um blog, há mais de dez anos atrás, apenas para tratar disso.
TTS é um acrônimo para text to speack “texto para fala”, uma tecnologia a qual este blog é verdadeiramente aficionado, principalmente quando imagino o quão benéfica ela foi, é e ainda será para a humanidade.
Uma tecnologia que sempre foi muito utilizada por pessoas com deficiência visual já há um bom tempo e que passou por mudanças bem impressionantes nos últimos anos.
Houve uma época em que as vozes eram extremamente robóticas, com diferenças de tons e pausas para a devida construção do som das palavras, uma pré-história das sínteses de fala, que foram muito importantes e que fizeram de nós pessoas mais incluídas.

Descrição da imagem, réplica da mesa de pinball Titan vista do alto, fim da descrição
Foto de uma boa réplica de uma máquina de pimball do Titan.
Maquinas falando sempre fizeram minha cabeça, em minha infância haviam na TV robôs, carros e aviões que falavam, mas foi em um fliperama que vi pela primeira vez uma máquina real falando.
Se tratava da maquina de pimboll “Titan”, cuja síntese de voz você poderá conferir no vídeo abaixo.




Era incrível, eu tinha dez anos e ficava fascinado pela imponência daquele robô, os sons hipnóticos e o show daquelas luzes biscantes eram irresistíveis para adultos, imaginem o que aquilo não fazia na cabeça de um garoto?
O primeiro contato que tive com síntese de voz mais humanizada foi com o NextUp ScanSoft Raquel, em 2007, achei muito impressionante e mais impressionante foi ouvir as vozes do Felipe e da Fernanda lendo as matérias da revista Veja naqueles CDs que geral recebia pelo correio.
Por essa época eu já buscava dominar , e muito, as técnicas de OCR e conversão de texto em áudio com foco em livros, motivo que me fez cair de vez na informática.
Claro que a experiência com o DosVox nos anos 90 foi fundamental mas acontece que a voz da nossa Katia era gravada enquanto que nessas novas experiências o processo já era um pouco diferente.
Ainda hoje a gravação é parte fundamental do processo de criação de vozes, mas hoje as tretas são outras e já vamos chegar nelas.
Livro em áudio
Quando comecei a manusear livros digitais para minha leitura, costumava utilizar um programinha muito bacana que se chamava DSpeech, programa que inclusive foi postado por aqui, bem lá no inicio do TTS Supremo em artigo que você pode conferir neste link.
Este programinha era sensacional, portátil, leve e muito eficiente, com ele já era possível fazer, com total acessibilidade, excelentes áudio livros, sendo o DSpeech uma espécie de avô espiritual do Balabolka, um outro software bem popular em nosso meio e que, a propósito, também já apareceu no TTS, confira aqui.

Descrição da imagem, tela de início do DSpeech, fim da descrição.
DSperch, arte Neimar Borges da Silva, TTS Supremo

Acontece que o mercado também já estava de olho nessa possibilidade de converter documentos de texto em áudios MP3 e não demorou muito para aparecer um software pago Oferecendo este serviço para o público em geral.
Eram soluções que enfatizavam como a leitura de textos em voz alta poderia ser útil, com campanhas que mostravam pessoas lavando louça e ouvindo livros, dirigindo seus carros enquanto ouviam seus artigos e por aí vai.
Livros falados já eram uma realidade em outros países há muito tempo, já existia um mercado forte e consolidado para eles mas aqui no brasil, ao que parece, somente os deficientes visuais ouviam livros, quer fossem em fitas K7, CDs ou até mesmo em arquivos de áudios futuros, enquanto que nos EUA, era muito comum os autores gravarem LPs lendo suas obras.
O primeiro programa que conheci, ao qual sequer lembro o nome, possuía uma aparência atraente, bonita e vejam vocês, inacessível aos leitores de tela.
Sim, o software além de ser caro, excluía as pessoas das quais aquela tecnologia derivava.
Já tínhamos também o OpenBook mas creiam, o DSpeech colocava todos eles no bolso.
Hoje em dia já não faço mais livros em áudio com esta técnica pois, de uns anos pra cá, softwares como o @Voice, automatizaram de forma mais pratica e inteligente a leitura de livros digitais, porém, vimos nesse meio tempo empresas utilizarem essas leituras mecânicas para lerem nomes em totens de hospitais, em identificação de chamadas eletrônicas e até mesmo em aeroportos.
São Paulo que já teve a voz de Iris Littieri por mais de 30 anos, ao que parece, vai ter que se conformar com a locução da voz da Microsoft em seus aeroportos, talvez a mesma voz seja ouvida em todos eles tal como já acontece em vários hospitais onde só se ouve a voz da Maria do Windows lendo o nome e a senha das pessoas.
Vulgar não é mesmo?
Todos abrindo mão de sua personalidade e identidade em nome de uns trocados a menos na folha de pagamento.

Áudio descrição


O problema dos dubladores não é um problema só dos dubladores, e sim, um espelho de parte de um sistema que está levando o mundo para um caminho bem complicado, mas voltando um pouco as questões das deficiências visuais, uma nova técnica de inclusão vem se firmando entre nós como grande opção de inclusão digital, a áudio descrição, e ela também já é alvo dessa voracidade da indústria.

Descrição da imagen, Foto escura com Close Up dos lábios de uma mulher e um microfone fim da descrição
Arte, Neimar borges da Silva, blog tts supremo

Sou assinante dos principais streamers e sempre acompanho os conteúdos lançados com AD, e tenho percebido coisas bem estranhas nesse sentido, primeiramente quero enfatizar que já é grande a diferença da AD mecânica face a humana, uma quantidade tão avassaladora que já é possível inclusive identificar padrões.
Por exemplo:
As empresas, se é que se pode chamar de empresas, que utilizam AD mecânica, só utilizam a voz masculina do Google, sim as “empresas” são diferentes mas sequer tem o cuidado de utilizar vozes diferentes das suas concorrentes, se é que se pode chamar isso de concorrência.
Uma outra observação que acho importante fazer é que a áudio descrição humana é infinitamente superior a mecânica e não noto que nesse caso as vozes se repitam em grupos diferentes.
Por que será né?

Darck Chanel


Intendo que a utilização das vozes neurais podem ser um excelente recurso para se lançar mão em muitas situações, agora virar padrão a esse ponto realmente é medíocre.
No meu texto sobre o chat GPT, cito os canais de youtub que falam para as suas audiências, que elas sequer precisam saber o que criar de conteúdo, basta pedirem ao chat, pois bem, eles também utilizam as mesmas teses de dinheiro fácil, criando conteúdos, onde a pessoa sequer precisa aparecer, basta pegar um texto e pôr para alguma voz neural ler, enquanto você só precisa colocar algumas imagens passando ao fundo.
O que eles não ensinam é concordância verbal e nominal, o que eles não ensinam é que as vezes, a voz neural não tem uma pronuncia bilíngue e que você precisa corrigir isso manualmente.
A coisa atinge tamanha proporção que até em um canal oficial de uma distribuição Linux muito famosa. Tem um vídeo oficial feito nesses moldes, e pasmem, o TTS pronuncia errado o nome do sistema, ao longo de todo o vídeo e ninguém fez nada, e para piorar, o forte da distro é a educação.

Conclusão.



Acredito que talvez estejamos vivendo um momento de tomada de consciência do papel do digital em nossas vidas, um processo sossial mas também individual ao qual este blog quer se incluir.
Acho que nosso papel como intusiastas de tecnologia e de pessoas sensíveis ao humano seja o de propor uma busca cada vez maior do equilíbrio do analógico com o digital, do Real com o virtual, sem ficar denegrindo um ou outro.
A esmagadora maioria dos livros que li de 2005 pra cá, foram lidos por voz sintetizadas, porém, por melhor e mais práticas que elas sejam, elas não têm aquela pronuncia, pausa e até os tempos e erros que caracterizam e dão personalidade a leitura de uma pessoa.
Imagine um mercado de áudio livros sendo lidos por atores, dubladores e ledores profissionais, onde todos os livros digitais e físicos viessem com essa possibilidade e sem custo adicional? 
Essa chance foi perdida na época dos livros físicos e na época dos livros digitais mas ainda dá tempo de fazer algo inteligente a respeito.

Continua apoz a publicidade.

Descrição da imagen, banner do link patrocinado da amazon, fim da descrição



Já os darck chennel são uma possibilidade fantástica de acessibilidade, dando voz à pessoas com dificuldade de fala ou que até mesmo não podem falar.
Qualquer outra razão para o uso de voz neural é pouco justificável, você pode até acreditar que os tímidos se incluem nesses casos de uso, porém, o ideal seria que essa pessoa investissem em seu próprio crescimento pessoal, fazendo cursos de oratória, leitura dinâmica e afins. 
E essa é a opinião de um timido que precisou aprender a superar sua timidez, uma labuta diaria, que vai durar provavelmente para sempre, mas que no fim vale muito a pena.
Com tudo que já mencionei acima, acho que fica claro minha posição com relação a vozes neurais em áudio descrição, acredito que essa tecnologia pode ajudar a dar mais acessibilidade a conteúdos pequenos e que até não envolvam diretamente o capital, contudo, empresas fazendo uso disso, a gente nem pode chamar de capitalismo.
Vamos ter o bom das vozes neurais mas espero que o próprio sistema, com a nossa ajuda, encontre meios de humanizar o uso dessas vozes sem que pra isto tenham que desumanizar seus negócios, projetos e empresas.
A boa economia é aquela que coloca o dinheiro no bolso das pessoas, qualquer coisa diferente disso é ganancia, seguida de pilantragem e mau-caratismo características pertinentes ao capitalismo selvagem, algo que sem duvidas não combinam com a sociedade moderna e inteligente que queremos para nos e nossos filhos.

Nenhum comentário:

Postar um comentário

Seeing AI e Be my eyes agora são inclusivos

Seeing AI, Be my eyes e o mito do sistema mais acessível    Sabe quando você pega um celular de entrada e consegue extrair do assistente de...