Blog

Startup investe em grandes melhorias para tecnologias de transcrição de áudio
Big Data, Inteligência Artificial

Startup investe em grandes melhorias para tecnologias de transcrição de áudio

Atualmente existem milhares de serviços de transcrição de áudio no mercado. A qualidade da transcrição varia muito de um serviço para o outro, pois isso depende muito das tecnologias aplicadas. Entretanto, o vocabulário das pessoas é algo que está sempre mudando e muitos desses serviços não conseguem captar certos tipos de coisas com perfeição.

Esse é um grande desafio para uma startup eu está em busca de vender os seus serviços para empresas que precisam de transcrições precisas para a realização das suas operações. Jon Goldsmith, co-fundador da Tetra, uma startup que trabalha com transcrição de voz, conhece bem esse desafio. Ele admite que ainda não conseguiu pensar em uma solução que vai resolver o problema por completo, mas Goldsmith acredita que a resposta está na aprendizagem profunda (Deep Learning).

Mas o que é aprendizagem profunda?

A aprendizagem profunda (ou Deep Learning, em inglês) é uma ideia que tem sido muito citada atualmente no meio da inteligência artificial. Ela é um ramo da aprendizagem de máquina que permite uma melhor assimilação através do uso de redes neurais. Esta tecnologia tem sido aplicada em reconhecimento de fala, visão computacional e até mesmo processamento de linguagem natural.

Exemplos de ferramentas que utilizam a tecnologia de aprendizagem profunda para se aprimorar são o Google Tradutor e a Assistente virtual Cortana.

Através da aprendizagem profunda, a possibilidade de termos máquinas super inteligentes, tal qual os dos filmes de ficção científica se aproxima da realidade.

A plataforma Tetra

John Mannes do TechCrunch foi até o escritório da Tetra para ver o que Goldsmith, seu parceiro Nik Liolios e um outro engenheiro tinham para mostrar. O empresário fez uma chamada utilizando o aplicativo da Tetra instalado no smartphone. Durante o teste, Mannes lançou vários desafios para o sistema de transcrição.

Ele falou em velocidades variantes, lançou números, nomes de startups e outras palavras para testar a capacidade do aplicativo. Segundo John, a plataforma Tetra é bem fácil de utilizar e pode até ser usada como uma ferramenta de backup e para guardar gravações. Basta ativar o aplicativo, falar tudo o que for preciso e depois basta apenas conferir as notas para ver o que está gravado.

Em casos em que é necessária uma precisão de 99 ou 100% nas transcrições, a Tetra ainda oferece o serviço de transcrição humana por uma pequena taxa e o prazo de 24 horas. Isso pode ajudar tanto os consumidores quanto a própria Tetra, já que transcrições precisas podem servir como dados de treinamento para melhorar a performance da sua plataforma.

Segundo Goldsmith, um público que tem procurado bastante pelos seus serviços são investidores que fazem chamadas de diligência frequentemente. Eles pedem muito que a Tetra crie uma gravação permanente de conversas com experts da indústria. Entre outros casos de uso mais tradicional estão também empresas procurando investir em melhorias no seu setor de vendas.

Essa posta parece estar funcionando muito bem para a empresa. O time composto por apenas três pessoas da Tetra trabalha atualmente em um apartamento residencial dividido com uma zona comercial. Na parte de engenharia, muito da estrutura subjacente está funcionando através de APIs já prontas disponíveis no mercado.

Essa também é outra vantagem já que a Tetra não gasta tempo criando coisas que já existem no mercado. Ao invés disso, ela mantém o seu foco em coletar dados de transcrições para continuar melhorando a qualidade do seu serviço. Isso é uma coisa que tanto startups quanto grandes empresas podem fazer para agilizar os seus processos. Atualmente existe uma boa gama de aplicativos e serviços prontos que geralmente cobram apenas uma pequena taxa pela sua utilização.

A aproximação do time é altamente voltada para a capacidade de otimizar quais partes das conversas devem ser enviadas para qual API na nuvem. Provedores de serviços de Processamento de Linguagem Natural, por exemplo, são melhores no entendimento de falas relacionadas a filmes, música e mídia, enquanto existem outros que são melhores com números, etc.

O investimento de seed de $1.5 milhões será usado para escalar o time de engenharia e melhorar os canais de aprendizado de máquina. A Tetra inclui no seu aplicativo uma funcionalidade de busca para que os seus usuários possam encontrar frases específicas rapidamente dentro das gravações de voz, algo que geralmente não é possível em outras aplicações. Pode ser que ela se torne até mais proativa no futuro, marcando nomes e datas de forma automática, por exemplo.

O caso da Tetra é um grande exemplo de como as novas tecnologias de inteligência artificial podem auxiliar no desenvolvimento de soluções práticas. Através da aprendizagem profunda eles podem oferecer mais possibilidades de serviço e com um grande diferencial. Apesar de não ser uma tecnologia que substitui o trabalho que uma pessoa faria, ela é um grande complemento que auxilia na produtividade.