Inteligência Artificial

Testando o Gemini: Desafios e Surpresas no Uso da Inteligência Artificial do Google

6 de maio de 2024

Fábio Figueiroa

Estou participando da Imersão de Inteligência Artificial da Alura como uma forma de melhorar meus conhecimentos na área e por lá o foco é trabalhar com o Gemini.

O Gemini, para quem não sabe, é a Inteligência Artificial do Google.

Ele é o sucessor do Bard, primeira geração do chatbot de inteligência artificial desenhado pelo gigante de buscas, e que tem como principal característica já vir treinado no aspecto multimodal, ou seja, ele já é nativamente capaz de receber e processar texto, áudio, imagem e vídeo.

A minha formação atual em IA, hoje composta pela certificação que tenho em Prompting for Ai Ops da The AI Exchange, é baseada em ChatGPT.

Então trabalhar com Gemini tem sido uma novidade para mim.

Recentemente, o Gemini fez barulho na comunidade de Inteligência Artificial porque seu modelo pode receber mais de 1 milhão de tokens na janela de contexto.

Tokens, para quem não sabe, são pedaços de palavras. A capacidade de trabalhar com uma quantidade tão grande de tokens faz com que ela seja útil para lidar com dados (vídeos, textos e áudios) maiores.

Para você ter uma ideia, a versão gratuita do ChatGPT lida apenas com 4 mil tokens.

Partindo disso e dos desafios 1 e 2 propostos na primeira aula da Alura, eu rodei dois testes por lá hoje.

Teste 01: exportei meu histórico de navegação dos últimos 7 dias usando uma extensão do Chrome e pedi para a IA analisar.

Resultados: na versão do Gemini aberta, não é possível subir a planilha. Isso é um pouco decepcionante, pois no GPT 4 você consegue subir os arquivos diretamente. Pulei do Gemini para o AI Studio do Google e lá eu consegui fazer a análise, que aliás me fez ver o quanto de tempo eu gasto no computador trabalhando…

Teste 02: subi o áudio da entrevista que fiz para o meu podcast com o publicitário e escritor Carlos Fialho e pedi para ele fazer uma análise. Detalhe: o áudio tem cerca de 1h de duração e 72 megas.

Resultados: Amei. Eu subi descrente de que ele me daria um resultado interessante e ele me devolveu, ponto a ponto, os principais temas da entrevista, de forma resumida e com muita assertividade. Gostei tanto que coloquei na postagem de blog que fiz.

Minha conclusão com isso tudo é uma só: provavelmente vamos usar mais de um modelo de IA no futuro próximo, com cada um deles se adaptando melhor a uma missão em específico.

Essa história de quem existe uma IA melhor do que a outra ou que vai matar a outra é balela, provavelmente vão coexistir atendendo nichos diferentes.

Em tempo, um breve glossário:

Google Gemini: é o modelo de IA do Google e que você pode acessar — tal qual você faz com o ChatGPT — nesse site.

Google AI Studio: ambiente para desenvolvimento em IA do Google, onde você tem acesso ao modelo mais avançado do Gemini (Gemini 1.5 Pro) e que aceita vários tipos de arquivo. Acesse aqui.