domingo, 10 de dezembro de 2023

Seeing AI e Be my eyes agora são inclusivos

Seeing AI, Be my eyes e o mito do sistema mais acessível 

 

Descrição da imagem, fotografia de uma janela fechada por uma cortina transparente, onde se pode perceber um pouco do lado de fora, os ícones do android e do ios, e do seeing ai e be my eyes, estão distribuídos de maneira a ficarem cada um em uma das quatro partes da janela, fim da descrição

Sabe quando você pega um celular de entrada e consegue extrair do assistente dele resultados com um nível de eficiência comparáveis aos níveis de celulares de 15 mil reais, e sente que tem algo de muito errado ou muito certo ali?

Certamente ao olhar esses aspectos isolados do todo, você começaria a tentar juntar as partes para, pelo menos, unir o todo e assim procurar qualificar ainda mais seu entendimento sobre esse mundo tão cheio de altos e baixos que é o mundo do mercado e da tecnologia.

Esse é o tipo de coisa que realmente pode qualificar nosso poder de análise, uma atitude que exige estudo diário, leitura diária, prática diária, e tais condutas também são fundamentais quando vamos emitir nossas opiniões referentes a acessibilidade, um ramo que também é encontrado na vida digital, e que também é muito vasto.

Pois bem.

Nos últimos dias tivemos lançamentos importantes nessa ária, com a chegada do Be my eyes descrevendo imagens no beta para Android, e o Seeing AI também chegando para esta plataforma.

Ainda por esses dias a OpenAI lançou a opção de conversação por vós no GPT, recurso que se encontra totalmente funcional no app deles, e que tem sucitado várias ponderações a respeito da qualidade das assistentes virtuais do mercado, inclusive com críticas bem fortes a SIRI e a Alexa.

Nos últimos meses vimos um crescimento assustador da IA, uma corrida repleta de altos investimentos, e muito, muito trabalho, coisa pouco comum de se ver com relação aos esforços e investimentos relacionados a acessibilidade, ainda assim a própria acessibilidade já está também colhendo frutos nesses esforços em inteligências artificiais.

E eis que chego ao ponto, pois, a prova de que estamos colhendo estes frutos está no Bee may eyes, mas a prova de que há pouco trabalho e investimento em acessibilidade é o próprio Seeing AI chegando só agora para Android, e essa opinião é mais uma especulação que tomo a liberdade de fazer, já que como veremos adiante, não temos todos os dados a respeito para divagar.

Com todas essas partes soltas nesse texto, quero agora tentar formar um todo que ao menos possa nortear minha compreensão desses fatos recentes, para junto com vocês tentar formular minha crítica.


Seeing AI


O Seeing AI foi lançado em 2017 e chegou na AppStore brasileira sem tradução, contudo já era possível fazer com muita eficiência uma série de manobras com ele, tais como reconhecer pessoas, medir luminosidade e ler textos de um modo geral, e os que são usuários de longa data lembram também das muitas manobras em configurações para extrair melhores resultados em nosso idioma.

Em suma, quando o Seeing AI chegou para a Apple ele foi sim uma grande adição e diferencial para a acessibilidade, mas será que hoje se pode dizer o mesmo do recente lançamento dele para Android?

E o Be my eyes, por que será que o beta dele chegou primeiro no IOS e só agora no Android?

Aposto que já tem muita gente aí com a resposta pronta na ponta da língua, contudo me permitam continuar especulando.

Com o tempo, já no início de 2018, uma série de reconhecedores de objetos começaram a surgir no Android também, muitos nos moldes comerciais como o Eye D, e muitos oriundos de projetos estudantis, tipo, o moleque montava um reconhecedor de textos instantâneos como trabalho de TCC e pronto, tava lá mais uma opção para gente como eu formatar seus computadores, foi um período repleto de lançamentos bacanas, e muitos deles passaram por aqui na época.

Só que de lá pra cá a coisa chegou a tal ponto que lançamentos desse tipo já nem chamam tanto a nossa atenção como antes, hoje a Playstore está repleta de APPS desse tipo, e muitos inclusive nem atualizações recebem mais, uma prova de que criar um software é apenas uma parte do processo e as vezes o verdadeiro trabalho começa depois que uma nova solução é criada.

Até a Samsung tinha em seu finado leitor de telas uma função de luminosidade, que a propósito era bem eficiente, e se você ainda tiver um celular velho com esse leitor instalado, poderá testar o recurso, se é que você já não utiliza ele desde que adquiriu o celular.

As vezes tudo é uma questão de conhecimento ou até mesmo marketing, as pessoas as vezes nem sabem que a coisa tá ali na sua mão e fica se lamentando que só no dos outros tem, e muito usuário é induzido ao erro por gente que oferece respostas prontas em vez de fazer estudo de casos.

Com o tempo softwares multiplataforma começaram a aparecer no IOS e no Android, e vimos coisas bizarras acontecendo nesse trâmite, funções em um mesmo aplicativo que eram gratuitas no robozinho verde, mas que no lado da maçã eram pagos, o que demonstra uma outra teoria com relação a utilização de plataformas como base de teste e evolução de aplicativos.

Já vi muita gente sustentar que o Seeing AI era um exclusivo da Apple justamente pelo fato do IOS ser um ambiente mais controlado, instável e acessível.

Cai quem quer né?

Eu poderia dizer que o Android é que seria um ambiente melhor para evoluir uma solução, visto que, se algo funcionar em um sistema tão fragmentado quanto esse, então ele literalmente voaria no IOS, contudo considero que ambas as abordagens não alcançam o todo do assunto, pois mesmo extraindo as diferenças dessas duas plataformas, ainda sobraria o sigilo sepulcral dos apps proprietários, ou seja, nós só sabemos deles o que nos é dado por seus desenvolvedores a saber, e eis aí o motivo de tantas especulações ou respostas prontas.


Software livre e proprietário


Caramba Neimar, tu já vai começar com essa missa de software livre?

Pois é, vou sim, se você utilizou muitos desses programas no Android, agradeça a bibliotecas como o Teceract, que já apareceu muitas vezes aqui no TTS e é amplamente utilizada pela galera que programa em Python, uma biblioteca que inclusive está presente hoje no próprio NVDA e em ferramentas de leitura e escaneamento de textos no Linux, Chrome OS e por aí vai, e tudo com a certeza de que você está utilizando uma solução desenvolvida em um ambiente que não se alimenta de você.

Acho muita graça quando dizem que o Seeing AI é gratuito, já foram alguns anos de coleta de dados aperfeiçoando o software deles no IOS, algo que também é do jogo, o sínico dessa parte toda é esquecer que se a solução evoluiu, isso aconteceu também em função da utilização do usuario, mas vá lá, Seeing AI ajudando os cegos do mundo inteiro, ta certo, só faltou a parte dos cegos do mundo inteiro também ajudando o Seeing AI.

A quem defenda que os usuários de IOS gostam de pagar e isso torna o perfil da plataforma mais rentável, mas será que essa tese se sustentaria no advento da plataforma se tornar mais aberta e menos controlada?

Não sei, só sei que tudo tem um preço, assim como existem muitas formas de se pagar por algo, e se formos pensar, até o softwere livre tem sua paga, ele não te cobra valores, nem coleta seus dados sem descriminação mas pede que você trabalhe para ele, contribuindo com código, divulgando ou simplesmente utilizando, e no fim tudo é trabalho, tudo.

A diferença fica na parte em que o software livre nem sempre vai ter uma equipe de marketing a postos para converter o trabalho do usuário em boas ações da empresa.

Agora se tem uma empresa que pode tomar pra si a alcunha de solidária, essa empresa é a Bê My Eyes, e olhe que eles nem são do softwere livre, mais uma prova aqui nesse texto de que tudo carece de lupa na análise.


Mitos


o mito do sistema mais acessível surgiu com tudo nessa última semana e esta é a razão de ser desse texto pois, muito do que se falou por aí se relaciona com os gostos e experiências pessoais, e até aí tudo bem, o grande problema surge quando utilizamos essas coisas na hora de informar os outros sem levar em conta suas realidades.

Já vi por aí nos grupos de Facebook, estudantes que ganharam ChromeBoks de suas instituições, e foram brigar por seus direitos alegando que a maquina era ruim e que não tinha acessibilidade, um julgamento que certamente foi formado pelas opiniões de quem deveria intender de informática e ferramentas assistivas, mas que ao fazer a cabeça das pessoas desse jeito, só prova que o entendido só conhece mesmo o Windows e suas opções de acessibilidade.

Particularmente tenho experiências incríveis com Linux e Android, mas quando vejo canais secundários de Linux tentando convencer as pessoas a trocar de sistema, também me sinto provocado, não acho que seja por aí.

Ouvi muito nesta ultima semana duas ideias que basicamente afirmavam que o IOS sempre foi o melhor sistema para cegos e que finalmente o Android estava ficando melhor em função do lançamento do Seeing AI e da chegada da IA no Be my eyes, teses que são tão sustentáveis quanto eu afirmar que o meu Internacional é superior ao Grêmio em tudo, tá eu me sinto tentado a afirmar isso constantemente e afirmo isso constantemente, mas nós sabemos que não é bem assim.

Por mais que doa, definitivamente não é bem assim mesmo.

Se a Apple tem uma reconhecida historia na acessibilidade, o Android também tem, e desde muito tempo que ambos são recomendáveis para pessoas cegas e com baixa visão.

É fato que o Android melhorou com a chegada dessas novas opções, assim como a Apple melhorou quando novas vozes chegaram por lá ano passado, fato que também foi repercutido por aqui , é claro que a flauta é livre, o que não pode é tornar uma flauta como sendo fonte de uma analise técnica.

São implementações que demoraram muito pra surgir, mas que sem sombra de dúvidas, são muito bem-vindas, e no caso do Seeing AI, ainda tivemos a felicidade de ver um programa maduro chegando na praça, o Seeing AI chega pronto no Android e isso é muito bacana, e quanto ao Be my eyes, bem, nesta semana a Google anunciou o surgimento do GEMINI, cuja parte nano da iniciativa parece ser bem interessante, a principio esta parte nano do GEMINI vai passar a integrar os dispositivos Android, abrindo margem para mais funções do assistente, agora imagine se você pedir ao Google assistente para descrever uma imagem pra você?

Já escrevi sobre o que penso sobre o foco em descrição de imagem que o Be my eyes deu neste ano ao seu projeto, e de lá pra cá eles já devem ter juntado muitos dados para se orientarem, agora com a chegada dos usuários de Android e toda a sua gama de fragmentações, eles certamente vão ter um apanhado ainda maior de estudo, contudo, as opções de voluntários e suporte profissional ainda estão por ali, e cabe a gente aguardar pelos próximos capítulos, desfrutando é claro, de suas excelentes e polemicas descrições interpretativas em IA.


Referencias:

Chrome OS aqui no TTS

Be my eyes no canal

Gemini no Olhar digital





segunda-feira, 30 de outubro de 2023

Novo NVDA 2023 saindo hoje


descrição da imagem, logo do NVDA com o ano 2024 adicionado a arte do logotipo do leitor, fim da descrição.
NVDA 2024

Versão quentinha

Nova versão do NVDA disponível e com boas novidades, quero chamar a atenção para os aprimoramentos de OCR, que poderão ser testados em sua efetividade em dispositivos que estiverem rodando o Windows 10 ou superior, confira a seguir a relise da atualização, bem como o link para baixar, lembrando que a atualização vai chegar pra todo mundo mediante aquela janela de aviso, aceite a atualização e bora testar.
Rumo a 2024...

 

 

Relise:


 A versão final do NVDA 2023.3 já está disponível
 Há algumas horas, a NV Access anunciou através desta publicação que o NVDA 2023.3, a versão mais recente do leitor de tela gratuito para Microsoft Windows, já está disponível para download. Recomenda-se a todos os usuários que atualizem para esta nova versão, adequada para uso em ambientes de produção. Esta é a versão mais recente compatível com Windows 7 e Windows 8. O NVDA 2024.1 exigirá pelo menos o Windows 8.1 para ser executado. Esta versão inclui melhorias no desempenho, resposta e estabilidade da saída de áudio. Foram adicionadas opções para controlar o volume dos sons e bipes do NVDA, ou para que eles sigam o volume da voz que você está usando. O NVDA agora pode atualizar periodicamente os resultados do OCR, falando o novo texto conforme ele aparece. Isto pode ser configurado na categoria Windows OCR da caixa de diálogo Opções do NVDA.

A seguir o link para baixar o leitor:


 


quarta-feira, 12 de abril de 2023

Odília: um novo leitor de telas no Linux


Descrição da imagem, ao fundo um castelo europeu, ao centro o nome odilia e abaixo a frase um novo leitor de telas para Linux, fim da descrição.
Odília um novo leitor de telas para Linux, arte, Neimar Borges da Silva, blog TTS SUPREMO

Temos um novo leitor de telas vindo por aí no Linux, o que é sem dúvidas uma excelente notícia, a seguir você confere o artigo escrito pelo Tânio Scherer e ao fim alguns links importantes como referência.

Odília: um novo leitor de telas no Linux

 

Em meados de 2022, me deparei com uma novidade bastante animadora para o cenário da acessibilidade em sistemas operacionais Linux, se trata do surgimento de um novo leitor de telas livre e de código aberto para a plataforma do pinguim.

Batizado de Odília, a proposta do leitor é trazer desempenho e estabilidade para os usuários, bem como alguns recursos que no momento da redação deste artigo não estão disponíveis no Orca, tais como um mecanismo de complementos que possibilite estender as funcionalidades do leitor, navegação por objetos, OCR para fazer o reconhecimento de texto em imagens e elementos inacessíveis, suporte à navegação usando gestos em uma tela touch screen, entre outros.

 O nome Odília faz referência à Santa Odília, padroeira católica da Alsácia e dos olhos, venerada como protetora dos doentes da visão e dos cegos. A história conta que no século VII o governador de Alsácia, a qual pertencia à Alemanha, desejava ter um filho homem para que fosse seu sucessor. Ao descobrir que seu primeiro herdeiro recém-nascido era uma menina cega, ele a rejeitou e o bebê foi entregue à um mosteiro. Certo dia, chegou naquele lugar um bispo dizendo que um anjo havia lhe dado a ordem de batizar uma menina que ali vivia, e assim foi feito. Ele a batizou com o nome de Odília, cujo significado é “Luz de Deus”, e a partir desse momento, Odília passou a enxergar. Você pode continuar lendo sobre a história da santa através do link em referência.

 O início do projeto deu-se em 2021 com a criação de um protótipo simples cuja finalidade era estudar e aprender mais sobre a estrutura de acessibilidade interna existente nos sistemas Linux, o AT-SPI. Passado algum tempo, já com mais domínio das ferramentas e com uma compreensão melhor dos desafios técnicos a encarar, começou-se então o desenvolvimento do novo leitor em 2022, partindo do zero e aproveitando todo o conhecimento adquirido anteriormente.

 Em março de 2023, chegou o primeiro lançamento do programa na versão 0.1. Isso é incrível por que, embora seja uma versão muito inicial e não esteja pronta para ser testada pelo público não especializado, mostra que o projeto está vivo e continua perseguindo o objetivo de melhorar o estado da acessibilidade nessa plataforma. De acordo com a nota de lançamento, já existem alguns recursos mínimos em funcionamento e existe a pretensão de lançar uma versão beta 0.2 até o final do ano.

 Neste momento, Odília já é capaz de ler páginas web, consegue interagir com programas gráficos construídos com GTK e QT e possui um mecanismo de entrada (comandos por mouse e teclado) genérico; voz e velocidade podem ser configuradas através do próprio speech-dispatcher, visto que o leitor ainda não possui uma maneira de fazer isso.

 Ainda há muitos recursos a serem desenvolvidos e estamos longe de receber uma versão 1.0, mas como está escrito no fim da nota: um passo de cada vez.

 Espero que o projeto do Odília seja capaz de reascender o fogo em torno das discussões que tratam de acessibilidade dentro da comunidade, que consiga atrair mais pessoas interessadas em contribuir com o aprimoramento desses recursos, que haja troca de experiências entre todos os projetos que juntos formam o A11Y e que esse lançamento seja um passo importante para que possamos ter mais opções de excelência em tecnologia assistiva, sendo desenvolvidas no mundo Linux.

 

Descrição da imagen, Tanio Sherer aparece da cintura para cima, cabelos curtos, pretos e crespos, é branco e está segurando uma gaita, fim da descrição
Tânio Scherer pertence ao time da cegueira total, é programador, usuário de Arch Linux e nas horas vagas ataca de gaiteiro.

 

 

Em breve live aqui.

 

Referencias:

Confira a nota:

Nota dos desenvolvedores

Conheça  e se possível contribua com o projeto acessando o link a seguir:

Projeto Odília 

Conheça um pouco mais sobre a santa Odília, que inspirou o nome do leitor:

Referência histórica 


quinta-feira, 23 de março de 2023

O que aprendi dentro de uma telefonia

Descrição da imagens, arte contendo ao fundo uma visão aeria de varias mesas de tele atendimento, a predominancia da cor da imagen de fundo é o azul, minha imagen  esta a frente dessa visão aeria, sou branco, oculos escuros, cavanhaquee cabelos castanhos, ambos já bem grisalhos, e uso camiseta preta, na arte se le a frase, o que aprendi com a telefonia, fim da descrição.


 

Em 2022 encerrei  uma saga de mais de 15 anos trabalhando em hospitais, e desses, quase 11 foram ligados a telefonia.

Uma profissão que está sendo extinta desde os anos 90 mas que ainda está por aí, dando emprego para muito deficiente visual.

Eita bichinho ruim de morrer esse né!

Nesse texto quero abordar com vocês a experiência que tive implementando a acessibilidade digital em um setor desses.

As ferramentas utilizadas para adequar a acessibilidade a realidade da entidade.

 As ferramentas atuais e também a sombra desse fim apocalítico de uma profissão, o tipo de pensamento que impede a pessoa de pensar no assunto, afinal de contas quem quer perder tempo com uma profissão que está sendo extinta, não é mesmo?

Vamos hoje falar um pouco sobre esses erros e acertos que perneiam essa nobre profissão a qual tanto carinho eu tenho.

Uma profissão que me mostrou muito sobre tecnologia, acessibilidade e pessoas, principalmente pessoas.

 

Início

 

Em 2010 um amigo com deficiência visual foi contratado para atuar como telefonista em um importante hospital da região metropolitana de porto alegre.

Eles já haviam contratado outro rapaz alguns dias antes mas faltava o leitor de telas e algumas dicas de instalação e uso.

E foi aí que eu entrei.

Esse amigo então me pediu uma força e fiz um cd contendo o nvda e um leiam-me repleto de notas e dicas para deixar o leitor em ponto de bala para trabalhar.

 Os gestores gostaram do nosso empenho e então fui convidado a também atuar com eles e resolvi aproveitar a oportunidade que se abria, eu fazia recolhimento de resíduos hospitalar em um outro hospital perto de casa, trabalhava a noite e seguramente ganhava quase o dobro do que ganhavam os amigos daquela telefonia, sem falar que o hospital deles era em uma outra cidade, consideravelmente longe de onde eu morava.

Em um bom dia se poderia chegar no trampo depois de pouco mais de uma hora e meia andando de onibos e trem.

Ainda assim, sendo mais longe e ganhando menos, preferi trabalhar com os caras.

Achei a oportunidade desafiadora, até por que com recolhimento de resíduos não dá pra se usar leitor de telas né?

Se bem que eu gostava de recolher os filmes de raio x da Kodak.

Era Bacana mesmo.

 Tínhamos uma máquina com Windows 7 e 512 mb de memória RAM.

 512 mega bytes cara!

Ainda assim a máquina dava conta do recado,  com tudo cem por cento licenciado, o software de boa procedência ajudava a compensar o hardware fraco.

Foi assim que comecei a questionar esses programinhas de procedência duvidosa que infestavam minhas maquinas.

Continua apoz  a publicidade.

Descrição da imagen, banner de divulgação do link patrocinado da amaxon, clique e ajude o tts, fim da descrição


Agora some isso ao trabalho que modestamente fiz de manutenção de sistema, e você não vai se espantar ao saber que trabalhamos com esse computador até o ano de 2015, ano em que fomos todos promovidos e transferidos para um hospital maior.

Entre 2010 e 2015 nossa máquina nunca foi para o reparo na t i, até então a equipe era bem pequena, e geral costumava fazer certinho o que eu pedia, éramos todos ocupantes do mesmo cargo. Mas eu cuidava legal do PC, dava alguns toques para os colegas, que seguiam de boa, e dava até pra curtir um “conteudinho diferente” nos plantões de fim de semana.

 Sabe como é né. Ninguém é de ferro.

Para o caso de você estar se perguntando, não, não havia nenhuma voz craqueada no CD para se usar com o NVDA.

Não se pode fazer um CD com esse tipo de coisa para uma empresa né gente?

Em 2010 já haviam boas opções de voz mas por não haver a possibilidade de compra e nem crack, tivemos mesmo foi que nos virar com o eSpeak, e isso na verdade foi libertador.

 

Aprendizado

 

Como eu ia dizendo, foi em uma máquina de 512 mega de RAM que comecei realmente a aprender sobre qualidade de software  e uso profissional da informática.

Essa mesma máquina me mostrou como o nosso gosto pode ser um tanto quanto limitador na hora de reconhecer a real qualidade das coisas.

É como se você na adolescência só curtisse polca até que um dia você se abriu para novas experiências e passou a curtir muito valsa, a ponto de não intender como pode ter curtido polca um dia, ou como pode ter passado tanto tempo sem valsa na vida.

Sacou?

Só estou usando esses gêneros musicais mais antigos por que não quero problema com ninguém que curta coisas mais recentes.

Só falta agora aparecer um reiter de polca nos comentários.

A i eu desisto.

Durante muito tempo vários de nós deixamos de usar o eSpeak por razoes estéticas e nos esquecemos de nos ater a qualidade e desempenho de sua locução.

A destreza desse mecanismo com o NVDA naquela maquina era surpreendentemente satisfatória a ponto de me fazer questionar o que fazia uma máquina muito mais fraca que a minha ter um desempenho assim tão bom.

Como vocês já podem perceber, a questão profissional do licenciamento de software  também foi muito forte para a pressão a se ter uma conduta mais ética no uso de programas.

Ao ser obrigado a não poder instalar qualquer coisa na máquina dos meus empregadores, fui obrigado a pensar e a procurar alternativas, e com isso, aos poucos fui deixando de instalar qualquer coisa nas minhas maquinas também.

 Bacana isso né?

Com o tempo passei a prestar atenção no comportamento de quem já trabalhava com isso na época, passei a olhar para quem dava suporte, fazia reparos e até ensinava informática com uma perspectiva diferente.

Passei a perceber as falhas de segurança e de ética deles, principalmente quando fui me aprofundando  nas questões ligadas a software livre e opensource.

E quando também percebi as limitações de gosto gerando preconceitos, dai larguei vários deles de mão.

 

Agenda

 

Voltando a telefonia, houve  a necessidade de se criar uma boa agenda de consulta que pudesse  ser acessada pelos colegas do time das deficiências visuais, como a compra de software estava fora de cogitação e a maquina era fraca, a solução foi trabalhar essa questão de agendas usando o bom e velho esquema de pastas e blocos de notas.

A partir daí essa agenda passou a ser alimentada de dados e virou uma grande agenda.

Você deve estar se perguntando, porque uma agenda assim nesses termos se já existia o Google?

Bem, vamos dizer que o Google em 2010 não era tão porrada assim, além do mais, o acesso a rede era um tanto quanto complicada.

Contudo, ainda em 2022 a agenda era utilizada e ainda era muito rica, foram mais de 10 anos alimentando ela com dados internos  de vários contatos que, a propósito, não se poderia encontrar no Google.

Perceberam a importância do trabalho humano na coleta, inserção e aproveitamento de dados?

Que potencial desperdiçado não é mesmo?


Pedidos de ligações

 

Não se tinha um software para gerir as ligações, bem na verdade havia um mas ele não era acessível.

Quem não tinha deficiência visual, poderia por exemplo, visualizar na tela se um ramal estava ou não ocupado, quando estava, o ramal ficava vermelho.

Muito bacana, uma pena mesmo não ser acessível.

Íamos na base da tentativa e erro mesmo, e tudo fluía muito bem, até que houve a necessidade de se criar uma forma de se registrar as ligações que eram pedidas pelos outros setores e feitas por nós.

Assim surgiu o “pedido de ligações”, uma tabela gerada no word 2003 para registrar esses dados.

Novamente tive que pensar em uma solução que levasse em conta nossa máquina e as possibilidades de custo zero, assim, como o sistema tinha essa versão do office instalada, fiquei uma tarde bolando uma forma de criar algo respeitável para ser acessado pela direção, mas que fosse também, legível e fácil de operar pelos colegas.

Depois que criei o primeiro modelo, ensinei cada colega a preencher a tabela e em uma questão de horas, já estávamos lançando  esses novos dados.

A tabela possuía os seguintes campos:

Nome do solicitante, nome de quem estava pedindo a ligação.

Ramal, o ramal do setor de quem estava solicitando.

Numero, o numero solicitado.

Atendente, o nome do profissional que fez a ligação e preencheu esses dados.

Nesse campo do atendente também ia a hora do atendimento.

Este recurso de controle de ligações também durou até 2015, após  esse período todas essas boas práticas foram se perdendo, e por inúmeros fatores que estavam acima de nós.

Como vocês devem saber, é atribuição de uma telefonia dispor sobre a conta telefônica, gerando relatórios, fornecendo dados, atuando através das boas práticas da telefonia para a diminuição de custos do setor, ocorre que a última vez que fomos apresentados a esses dados foi em uma reunião no fim de 2013.

Agora, como falar de telefonia  e VoIP, de telefonia online e remota, se não se tinha mais espaço para isto?

O caos estava tomando conta do setor e falar sobre a evolução do PABX estava fora de cogitação.

Desenvolvo um pouco isso no vídeo , não esqueçam de acompanhar , é importante.

 

Epilogo 

 

Vivemos todos nós um drama na aria, um drama que se iniciou, vejam vocês, com nossa promoção em 2015 , tudo parecia ir bem, e foi, fomos para um hospital maior, com mais infra instrutura, uma nova gestão.

A aria de saúde viveria uma turbulência terrível cujo episódio se encerraria com a demissão de muitos de nós e o não recebimento dos direitos de todos, tanto dos demitidos, quanto dos que ficaram.

Uma tragédia que dura até os dias de hoje porém, novos ventos sopraram e hoje estou feliz atuando no setor de transportes.

E estou trazendo mais acessibilidade e inclusão pra cá, pois veio comigo toda essa bagagem  da saúde junto.

Nosso início de trajetória foi marcado por gestores que estavam muito focados em fazer aquela precariedade toda dar certo, e ainda por cima, interessados em promover a inclusão através de nós, e eles conseguiram , hoje olho para o que foi feito e para a experiência que tive e me sinto muito grato.

 Grato pelas pessoas que conheci, pelas coisas que aprendi e por ter sustentado minha filha durante todos esses anos atuando nesses 3 hospitais.

No vídeo que se seque, sustendo que a telefonia não está morta, acompanhe a tese a seguir e fique a vontade para deixar sua contribuição respeitosa a mais esse ponto que levanto aqui no TTS.

Como todos os meus ex colegas, ainda não recebi meus direitos por todo aquele tempo que trabalhei lá, mas sigo fazendo direito e ainda melhor tudo que lá aprendi.

Uma hora a verba vem e aí a gente encerra de vez esse ciclo.






domingo, 12 de março de 2023

Dubladores, áudio descritores e a picaretagem com vozes neurais

Recentemente pipocou na imprensa brasileira algumas matérias envolvendo um comportamento mega questionável por parte das desenvolvedoras de games com os dubladores de seus jogos.
Pelo que se sabe, a indústria estaria fazendo com que os profissionais da voz entregassem suas fontes de renda, ou seja, suas próprias vozes, para utilização futura num esquema não remunerado de vozes neurais.
Sim, isto mesmo, a ideia central da coisa toda era contratar os caras, capturar suas vozes, tratar e as transformar em vozes neurais, para utilizá-las em jogos no futuro e sem precisar se preocupar em contratar novamente os seus donos.

Descrição da imagem, a direita de costas e na sobra, um dublador, ele  tem diante de si, num pedestal, uma espécie de caderno aberto e bem iluminado,mais acima, um monitor onde um filme é rodado, fim da descrição.
Arte Neimar Borges da Silva, blog tts supremo

Espertinhos como sempre né?
Toda a vez que leio sobre essas coisas fico muito incomodado, estamos vivendo um período que está sendo chamado de quarta revolução industrial, um período que segundo caras como Yuval Harari,, já não teríamos mais a renovação das profissões, característica que havia marcado as revoluções anteriores, mas que agora estaria comprometida pela própria tecnologia.
Outrora a ganancia até poderia ser sustentada pela produção humana de riquezas mas parece que agora já não é mais bem assim.
Segundo esses autores, nossa luta hoje , seria contra a irrelevância, no passado fomos relevantes o suficiente para sermos explorados e agora, ao que parece, nem isso, fato que fica muito evidente quando pensamos em atitudes vistas nos casos envolvendo o chat GPT e que recentemente abordei aqui pelo TTS, em conteúdo que você pode acompanhar nesse artigo.
No caso recente dos dubladores, o que também me incomoda é o fato de uma tecnologia a qual eu curto tanto, estar sendo utilizada com fins tão mesquinhos.

O que é texto speak (TTS)?


As tecnologias de texto em voz mudaram para melhor a minha vida, me dando principalmente inclusão no mundo, algo que foi tão forte a ponto de me levar a criar um blog, há mais de dez anos atrás, apenas para tratar disso.
TTS é um acrônimo para text to speack “texto para fala”, uma tecnologia a qual este blog é verdadeiramente aficionado, principalmente quando imagino o quão benéfica ela foi, é e ainda será para a humanidade.
Uma tecnologia que sempre foi muito utilizada por pessoas com deficiência visual já há um bom tempo e que passou por mudanças bem impressionantes nos últimos anos.
Houve uma época em que as vozes eram extremamente robóticas, com diferenças de tons e pausas para a devida construção do som das palavras, uma pré-história das sínteses de fala, que foram muito importantes e que fizeram de nós pessoas mais incluídas.

Descrição da imagem, réplica da mesa de pinball Titan vista do alto, fim da descrição
Foto de uma boa réplica de uma máquina de pimball do Titan.
Maquinas falando sempre fizeram minha cabeça, em minha infância haviam na TV robôs, carros e aviões que falavam, mas foi em um fliperama que vi pela primeira vez uma máquina real falando.
Se tratava da maquina de pimboll “Titan”, cuja síntese de voz você poderá conferir no vídeo abaixo.




Era incrível, eu tinha dez anos e ficava fascinado pela imponência daquele robô, os sons hipnóticos e o show daquelas luzes biscantes eram irresistíveis para adultos, imaginem o que aquilo não fazia na cabeça de um garoto?
O primeiro contato que tive com síntese de voz mais humanizada foi com o NextUp ScanSoft Raquel, em 2007, achei muito impressionante e mais impressionante foi ouvir as vozes do Felipe e da Fernanda lendo as matérias da revista Veja naqueles CDs que geral recebia pelo correio.
Por essa época eu já buscava dominar , e muito, as técnicas de OCR e conversão de texto em áudio com foco em livros, motivo que me fez cair de vez na informática.
Claro que a experiência com o DosVox nos anos 90 foi fundamental mas acontece que a voz da nossa Katia era gravada enquanto que nessas novas experiências o processo já era um pouco diferente.
Ainda hoje a gravação é parte fundamental do processo de criação de vozes, mas hoje as tretas são outras e já vamos chegar nelas.
Livro em áudio
Quando comecei a manusear livros digitais para minha leitura, costumava utilizar um programinha muito bacana que se chamava DSpeech, programa que inclusive foi postado por aqui, bem lá no inicio do TTS Supremo em artigo que você pode conferir neste link.
Este programinha era sensacional, portátil, leve e muito eficiente, com ele já era possível fazer, com total acessibilidade, excelentes áudio livros, sendo o DSpeech uma espécie de avô espiritual do Balabolka, um outro software bem popular em nosso meio e que, a propósito, também já apareceu no TTS, confira aqui.

Descrição da imagem, tela de início do DSpeech, fim da descrição.
DSperch, arte Neimar Borges da Silva, TTS Supremo

Acontece que o mercado também já estava de olho nessa possibilidade de converter documentos de texto em áudios MP3 e não demorou muito para aparecer um software pago Oferecendo este serviço para o público em geral.
Eram soluções que enfatizavam como a leitura de textos em voz alta poderia ser útil, com campanhas que mostravam pessoas lavando louça e ouvindo livros, dirigindo seus carros enquanto ouviam seus artigos e por aí vai.
Livros falados já eram uma realidade em outros países há muito tempo, já existia um mercado forte e consolidado para eles mas aqui no brasil, ao que parece, somente os deficientes visuais ouviam livros, quer fossem em fitas K7, CDs ou até mesmo em arquivos de áudios futuros, enquanto que nos EUA, era muito comum os autores gravarem LPs lendo suas obras.
O primeiro programa que conheci, ao qual sequer lembro o nome, possuía uma aparência atraente, bonita e vejam vocês, inacessível aos leitores de tela.
Sim, o software além de ser caro, excluía as pessoas das quais aquela tecnologia derivava.
Já tínhamos também o OpenBook mas creiam, o DSpeech colocava todos eles no bolso.
Hoje em dia já não faço mais livros em áudio com esta técnica pois, de uns anos pra cá, softwares como o @Voice, automatizaram de forma mais pratica e inteligente a leitura de livros digitais, porém, vimos nesse meio tempo empresas utilizarem essas leituras mecânicas para lerem nomes em totens de hospitais, em identificação de chamadas eletrônicas e até mesmo em aeroportos.
São Paulo que já teve a voz de Iris Littieri por mais de 30 anos, ao que parece, vai ter que se conformar com a locução da voz da Microsoft em seus aeroportos, talvez a mesma voz seja ouvida em todos eles tal como já acontece em vários hospitais onde só se ouve a voz da Maria do Windows lendo o nome e a senha das pessoas.
Vulgar não é mesmo?
Todos abrindo mão de sua personalidade e identidade em nome de uns trocados a menos na folha de pagamento.

Áudio descrição


O problema dos dubladores não é um problema só dos dubladores, e sim, um espelho de parte de um sistema que está levando o mundo para um caminho bem complicado, mas voltando um pouco as questões das deficiências visuais, uma nova técnica de inclusão vem se firmando entre nós como grande opção de inclusão digital, a áudio descrição, e ela também já é alvo dessa voracidade da indústria.

Descrição da imagen, Foto escura com Close Up dos lábios de uma mulher e um microfone fim da descrição
Arte, Neimar borges da Silva, blog tts supremo

Sou assinante dos principais streamers e sempre acompanho os conteúdos lançados com AD, e tenho percebido coisas bem estranhas nesse sentido, primeiramente quero enfatizar que já é grande a diferença da AD mecânica face a humana, uma quantidade tão avassaladora que já é possível inclusive identificar padrões.
Por exemplo:
As empresas, se é que se pode chamar de empresas, que utilizam AD mecânica, só utilizam a voz masculina do Google, sim as “empresas” são diferentes mas sequer tem o cuidado de utilizar vozes diferentes das suas concorrentes, se é que se pode chamar isso de concorrência.
Uma outra observação que acho importante fazer é que a áudio descrição humana é infinitamente superior a mecânica e não noto que nesse caso as vozes se repitam em grupos diferentes.
Por que será né?

Darck Chanel


Intendo que a utilização das vozes neurais podem ser um excelente recurso para se lançar mão em muitas situações, agora virar padrão a esse ponto realmente é medíocre.
No meu texto sobre o chat GPT, cito os canais de youtub que falam para as suas audiências, que elas sequer precisam saber o que criar de conteúdo, basta pedirem ao chat, pois bem, eles também utilizam as mesmas teses de dinheiro fácil, criando conteúdos, onde a pessoa sequer precisa aparecer, basta pegar um texto e pôr para alguma voz neural ler, enquanto você só precisa colocar algumas imagens passando ao fundo.
O que eles não ensinam é concordância verbal e nominal, o que eles não ensinam é que as vezes, a voz neural não tem uma pronuncia bilíngue e que você precisa corrigir isso manualmente.
A coisa atinge tamanha proporção que até em um canal oficial de uma distribuição Linux muito famosa. Tem um vídeo oficial feito nesses moldes, e pasmem, o TTS pronuncia errado o nome do sistema, ao longo de todo o vídeo e ninguém fez nada, e para piorar, o forte da distro é a educação.

Conclusão.



Acredito que talvez estejamos vivendo um momento de tomada de consciência do papel do digital em nossas vidas, um processo sossial mas também individual ao qual este blog quer se incluir.
Acho que nosso papel como intusiastas de tecnologia e de pessoas sensíveis ao humano seja o de propor uma busca cada vez maior do equilíbrio do analógico com o digital, do Real com o virtual, sem ficar denegrindo um ou outro.
A esmagadora maioria dos livros que li de 2005 pra cá, foram lidos por voz sintetizadas, porém, por melhor e mais práticas que elas sejam, elas não têm aquela pronuncia, pausa e até os tempos e erros que caracterizam e dão personalidade a leitura de uma pessoa.
Imagine um mercado de áudio livros sendo lidos por atores, dubladores e ledores profissionais, onde todos os livros digitais e físicos viessem com essa possibilidade e sem custo adicional? 
Essa chance foi perdida na época dos livros físicos e na época dos livros digitais mas ainda dá tempo de fazer algo inteligente a respeito.

Continua apoz a publicidade.

Descrição da imagen, banner do link patrocinado da amazon, fim da descrição



Já os darck chennel são uma possibilidade fantástica de acessibilidade, dando voz à pessoas com dificuldade de fala ou que até mesmo não podem falar.
Qualquer outra razão para o uso de voz neural é pouco justificável, você pode até acreditar que os tímidos se incluem nesses casos de uso, porém, o ideal seria que essa pessoa investissem em seu próprio crescimento pessoal, fazendo cursos de oratória, leitura dinâmica e afins. 
E essa é a opinião de um timido que precisou aprender a superar sua timidez, uma labuta diaria, que vai durar provavelmente para sempre, mas que no fim vale muito a pena.
Com tudo que já mencionei acima, acho que fica claro minha posição com relação a vozes neurais em áudio descrição, acredito que essa tecnologia pode ajudar a dar mais acessibilidade a conteúdos pequenos e que até não envolvam diretamente o capital, contudo, empresas fazendo uso disso, a gente nem pode chamar de capitalismo.
Vamos ter o bom das vozes neurais mas espero que o próprio sistema, com a nossa ajuda, encontre meios de humanizar o uso dessas vozes sem que pra isto tenham que desumanizar seus negócios, projetos e empresas.
A boa economia é aquela que coloca o dinheiro no bolso das pessoas, qualquer coisa diferente disso é ganancia, seguida de pilantragem e mau-caratismo características pertinentes ao capitalismo selvagem, algo que sem duvidas não combinam com a sociedade moderna e inteligente que queremos para nos e nossos filhos.

segunda-feira, 20 de fevereiro de 2023

Elementary OS acessibilidade e teclado

 

Recentemente lançado, o novo  Elementary OS traz algumas novidades e correções de bugs que fortalecem ainda mais o sistema como uma opção viável para desktops domésticos, mas será que ele pode ser considerado um sistema universal?

Esta é a pergunta que vou tentar responder por aqui, com a intenção de fornecer dicas e sugestões, que no meu entendimento, vão tornar o sistema ainda mais interessante, inclusive sob o próprio ponto de vista da universalidade.

É sempre bom lembrar que acessibilidade e universalidade são conceitos, que estão juntos e ambos dizem muito mais sobre opções do que qualquer outra coisa, o que nos remete aos conceitos de inclusão,  que também são indissociáveis  dos demais já citados, logo, se você só pode fazer uma coisa com o mouse, você não está sendo acessível, nem universal e nem tão pouco inclusivo.

Não custa nada  lembrar que quando falamos dessas coisas estamos tratando diretamente da própria qualidade de software  e de sobre como a validação de acessibilidade pode ajudar a aumentar o nível dessa qualidade.

Um último comentário antes de continuarmos é que essas considerações que se seguem foram construídas a partir  de testes feitos em uma máquina virtual e podem não refletir a total realidade do sistema.

 

Instalação

 

 

E lá vamos nós de novo!

O instalador do Elementary OS é muito bacana, porém infelizmente ele só atende bem se você for do time das pessoas que podem ver, apontar e clicar.

O acesso via teclado é parcial, uma parcialidade que te impede de escolher o idioma navegando com setas para baixo, ou simplesmente digitando a letra.

Você está vendo o Português, já está com as mãos no teclado, bastando apenas pressionar a letra ‘P’, mas assim não rola.

Para escolher o idioma você precisa localizar ele, pegar o mause  e depois o selecionar apontando e clicando, uma ação que já exclui algumas possibilidades de uso, mas que acredito ser facilmente corrigidas.

Infelizmente, no que tange a acessibilidade, as coisas ficam ainda mais complicadas.

Parece que impedir a utilização de ferramentas assistivas está virando lugar comum nos sistemas baseados em Linux, e com o Elementary OS, infelizmente  não está sendo diferente.

Quando dentro do ambiente de instalação, não é possível ativar nenhuma ferramenta de acessibilidade do Gnome e isso inclui a ampliação e o leitor de telas.

Tentei manobrar entrando no modo live, ativando o Orca e iniciando a instalação, mas não deu, o ambiente roda em separado matando os processos de leitura, impossibilitando que uma pessoa com impedimentos visuais possa  instalar o sistema, coisa vista recentemente no Fedora e por mais que isso doa em dizer, também no Ubuntu, ou seja, você tem instaladores com níveis muito bons de compatibilidade com leitor de telas  e não é por causa deles que o leitor não trabalha, o leitor é simplesmente "impedido" de trabalhar, e isso é muito, muito grave.

Grave, pois ao que parece, está virando um hábito, uma prática comum.


Pop OS


Se você quiser saber como ver este instalador funcionando com recursos de acessibilidade, pegue o Pop OS para testar, o instalador vem com tema escuro, de bom contraste onde é possível ativar, tanto o ampliador, quanto o leitor de telas, sendo possível também utilizar a navegação via teclado para escolher os idiomas com um nível ótimo de acesso.

Descrição da imagen,Instalador do elementary rodando no no pop os com tema escuro e com o ptbr selecionado, fim da descrição


O Pop OS utiliza o mesmo instalador, mas "ainda" não está impedindo os recursos de acesso universal de rodarem.

Ainda.

Se no futuro for possível que esses ajustes sejam feitos no momento da instalação do Elementary, então vamos ter um sistema que não nos exclui de sua instalação.

 

Desktop

 

 

O desktop do Elementary é mesmo bem simples, contendo apenas a barra superior e a doc inferior centralizada na base da tela.

Elementos que não podem ser navegados com o teclado, uma limitação que realmente impede o uso e que fica muito gritante quando um dia, por um motivo qualquer, você precisar.

Se você  estiver em algum ambiente que use Gnome, basta pressionar CTRL + Alt + Tab, que você vai conseguir alternar entre dock, atividades e barra superior,, mas no caso do Elementary o atalho não existe, bem pelo menos eu não encontrei, a propósito,  o atalho referido também já foi objeto de sugestão aqui do TTS.

Descrição da imagem, aria de trabalho do elementary, se trata de uma arte que mostra a barra superior e a dock, mas sem a tabulação do gnome que permitiria navegar por essas arias, fim da descrição


Resumidamente falando, sustento que não precisa utilizar 3 teclas e duas mãos para se fazer esse movimento, em conteúdos anteriores que você pode acessar clicando aqui, até mostro como atribuir o Super + tab para se fazer essa mesma alternância, porém, isso não é possível de ser feito no Elementari pois, além de não termos o atalho, na sessão dedicada a atalhos, não temos recursos para personalizar estas partes do sistema.

Um problemão como você pode imaginar, sem poder chegar na barra superior do sistema,  uma série de ações não poderão ser realizadas, impedindo assim, a utilização plena do sistema, na verdade, tal como as coisas estão, nem o básico se consegue fazer.

Discorda? 

Então, diante da ária de trabalho do sistema, com a navegação via teclado, suba até a barra superior do sistema e tente fazer qualquer coisa por lá, tente manipular o som, a rede ou qualquer outra coisa e depois, volte aqui e nos ensine.


Arquivos 


Até o momento estivemos nos deparando com um sistema simples e polido que teria tudo para ser uma excelente opção de acesso universal, não fossem essas falhas que em tese seriam de fácil solução, ocorre que chegamos no curioso caso envolvendo o gerenciador de arquivos dos caras.

A nova versão traz agora a possibilidade de entrar em uma pasta com dois cliques, sim, isto é uma nova opção do sistema e comemorado pelos usuários que pediam isso há muito tempo.

Conseguem perceber essa coisa do apontar e clicar?

Conseguem perceber como isso fica evidente aqui?

Já há algum tempo que notamos a crescente falta de intimidade com teclados nas comunidades de desenvolvimento Linux, uma falta de intimidade que sequer seria notada caso os padrões fossem simplesmente seguidos.

A navegação via teclado é uma das formas de se navegar mais antigas do mundo da informática, uma pratica que quando bem utilizada pode oferecer muitas vantagens ao navegante, porém,  esta pratica precisa ser constante.

O corre que tudo bem em a pessoa sequer conhecer ou praticar os benefícios deste tipo de navegação, todos temos a liberdade para isso, acontece que quando desenvolvemos soluções, estamos dizendo para o mundo que temos conhecimento para tal.

Continua depois da publicidade.

Descrição da imagen, link para a pagina da amazon onde qualquer compra feita por ele ajuda o tts supremo, fim da descrição


Essa aparente falta de intimidade com a navegação via teclado também não é o único fator determinante pois temos, dentre outras coisas, o fato de que as comunidades tem seus desenvolvimentos atrelados aos aspectos voluntários, uma característica fantástica mas que tira as soluções em software  dos conceitos de padrão de qualidade, deixando essas análises  e sugestões de melhorias a cargo da própria comunidade.

Um ciclo de colaboração e ajuda mutua a qual este texto também se soma.

Minha função aqui é fazer a crítica respeitosa como usuário  com impedimentos visuais e apontar algumas sugestões nesse sentido, inclusive fazendo validação na navegação com teclado, com e sem recursos de acessibilidade ativos, pois, a boa implementação de teclado já é por si só universal.

Agora você deve estar pensando, por que todo esse preâmbulo?

Pois bem, se você abrir o navegador e der um Shift + Tab, para naturalmente navegar para a barra lateral dos locais, nada vai acontecer.

Não é possível navegar nessa região do gerenciador.

Outra questão que me incomoda é o fato de dar enter em uma pasta e ela abrir em uma nova aba, mas isso talvez seja mais uma questão de hábito do que qualquer outra coisa.

Navegação em arquivos com teclado é o básico das navegações, mas está cada vez mais difícil se mover assim hoje em dia, e isso tem um impacto avassalador na acessibilidade.

De novo, você não precisa ser um exímio navegador em teclado, tudo bem, desde que na hora de codar você não esqueça dos padrões. 

Padrões de segurança, de qualidade, de usabilidade, em fim, se eles forem considerados, talvez você nem tenha que precisar se preocupar com os padrões de acessibilidade.


Programas  


O menu de aplicativos do Elementary é muito simples e funcional, podendo ser ativado com o atalho Super + espaço,, um local do sistema ótimo de mexer, mas que também tem problemas, adivinhem só aonde?

Acertou quem respondeu navegação via teclado.

Sim minha gente amiga, exatamente isso, o ponto fraco de muitas distros Linux.

Falta também sacar alguma coisa com relação a logica e abordo um pouco esse aspecto no vídeo abaixo.

 


 

Conclusão 

O Elementary é um sistema muito bacana, tudo nele respira cuidado e atenção, um sistema que a gente precisa ajudar a melhorar, pois existe nele uma polidez muito apropriada para a acessibilidade.

Assim tal como está, ele não pode ser recomendado para usuários de leitores de tela por muito pouco, por detalhes mesmo, mas se você não possuir impedimentos mais acentuados, pode ir testando e dando sugestões de melhorias para que o Elementary talvez se torne um dia uma referência em inclusão.

Isto não está acontecendo hoje por poucos detalhes e se a gente puder ajudar com nossas sugestões de usuários então é bem possível que no futuro se tenha uma grande opção inclusiva para nós.

 

Baixe o sistema para testar clicando  aqui:



Seeing AI e Be my eyes agora são inclusivos

Seeing AI, Be my eyes e o mito do sistema mais acessível    Sabe quando você pega um celular de entrada e consegue extrair do assistente de...