Atualização do Gemini 1.5 Pro faz IA ouvir e gerar conteúdo 6l6lk

Avatar de joão lucas batista
Com a nova atualização, a inteligência artificial do Google agora compreende e analisa áudio. Imagen 2 agora consegue adicionar e remover elementos de imagens e criar GIFs de 4 segundos

A Inteligência Artificial do Google, o Gemini, recebeu uma nova e inovadora atualização nesta terça-feira, dia nove de abril, durante o Google Cloud Next. Com o upgrade, o Gemini 1.5 Pro, recebeu a capacidade de compreender e analisar linhas de áudio e vídeo, produzindo conteúdo com base no que for inserido no aplicativo. 352n5m

A princípio, a novidade está disponível apenas para os usuários do Vertex AI, software voltado para machine learning (aprendizado de máquina), utilizado por programadores e cientistas para desenvolvimento de novas IAs.

O que faz o Gemini, a IA do Google? 48a4e

Interface do Gemini. Imagem: Lucas Gomes/ Showmetech

O Gemini, Inteligência Artificial do Google, foi lançado em dezembro do ano ado, substituindo o Bard, e se destaca por sua capacidade de lidar com tarefas altamente complexas, desde codificações até raciocínio lógico refinado.

A Inteligência Artificial possui funções que podem auxiliar o usuário nas mais diversificadas tarefas, manipulando uma ampla variedade de arquivos, com o propósito de combinar diferentes tipos de informação, além de organizá-las. Suas capacidades permitem utilizar diferentes formatos de conteúdo, sendo eles:

  • textos;
  • imagens;
  • áudios;
  • vídeos; e
  • linguagens de programação.

O Gemini possui três modos de operação, com especificidades diferentes:

  • Gemini Ultra — maior e mais hábil para tarefas altamente complexas;
  • Gemini Pro — melhor para escalar grande variedade de tarefas;
  • Gemini Nano — mais eficiente para tarefas em dispositivos móveis.

Atualização Gemini 1.5 Pro e suas novas funções 1v1t2n

Gemini IA. Imagem: rafares/Shutterstock)

Este novo modelo, apresentado pela gigante da tecnologia, representa um avanço significativo em relação ao anterior, com melhorias no desempenho e na compreensão de contextos longos. O Gemini 1.5 Pro, que é a versão inicial disponibilizada para testes, é otimizado para uma variedade de tarefas e é mais eficiente em termos de computação, sendo uma versão mais robusta e com capacidade de atender exigências de atividades ainda mais complexas.

Além disso, o Gemini 1.5 Pro contém um recurso experimental, que, em tese, poderá processar até 1 milhão de tokens para modelos de base de grande escala, o que será revolucionário. Segundo o Google, essa imensa quantidade representa 700.000 palavras e 30.000 linhas de código, o que equivale a uma hora de vídeo ou 11 horas de áudio.

As novas ferramentas do Gemini 1.5 Pro permitem o aplicativo a raciocinar entre imagens (quadros) e áudio (fala) para vídeos enviados no Google AI Studio, o que vai facilitar a produção de conteúdo. Conforme as informações oficiais, a atualização da IA do Google está disponível em mais de 180 países através da API (Interface de Programação de Aplicações, em português) do Gemini, com uma capacidade nativa inédita de compreensão de áudio e uma nova API que facilitam o manuseio de arquivos.

O lançamento conta também com novos recursos de instruções do sistema e modo JSON (formato de dados leve para troca de informações entre sistemas computacionais). Acreditando no potencial da nova atualização, o Google promete que o modelo de incorporação de texto supera os concorrentes com funções semelhantes.

O Gemini 1.5 Pro está disponível no momento somente através do Vertex IA.

Imagen 2 consegue criar GIFs 3s414x

Durante o evento Google Cloud Next, outro anúncio importante foi feito pelo Google: o modelo de IA Imagen 2, que pode gerar imagens e vídeos curtos a partir de prompts de texto. Com isso, é possível criar GIFs de até quatro segundos a partir de diferentes ângulos de câmera e também mostrar movimento.

A diferença dessa ferramenta é justamente a possibilidade de explorar diversos ângulos, com mais dinamismo nas cenas, muito além dos vídeos de IA gerados com fotos estáticas e movimentos limitados.

Exemplo de criações a partir do Imagen 2 no Vertex IA. Vídeo: Google Cloud/ YouTube

O Imagen 2 tem capacidade de produzir videoclipes, também conhecidos como imagens ao vivo, em uma resolução baixa de 640 x 360. Além disso, o Google está usando sua técnica SynthID para aplicar uma marca d’água invisível em clipes e imagens gerados por IA. A empresa afirma que o SynthID pode ar edições e até compactação, medidas que visam promover a segurança de dados.

Até o momento, os recursos do Imagen 2 estão disponíveis apenas através do Vertex IA, que agora inclui e para pintura interna e externa, além da capacidade de editar imagens utilizando IA, possibilitando expandir as bordas ou adicionar/remover partes específicas da imagem. Ferramentas voltadas à profissionais de marketing e criação de conteúdo para campanhas, entre outras peças publicitárias e plataformas de vídeo.

Vertex IA 314x3t

Plataforma Vertex IA. Imagem: Google/Reprodução

O Vertex IA é uma plataforma de machine learning (ML) que possibilita o treinamento e a implantação de ferramentas e aplicativos de IA, incluindo a personalização de grandes modelos de linguagem (LLMs) para uso em aplicativos com tecnologia de IA.

A plataforma compila diversos recursos e aplicativos do Google, integrando fluxos de trabalho de engenharia de dados, ciência de dados e engenharia de machine learning, permitindo a colaboração entre equipes por meio de um conjunto comum de ferramentas, além de escalar aplicativos com os benefícios do Google Cloud.

A Vertex AI oferece diversas opções para treinamento e implantação de modelos:

  • AutoML permite treinar dados tabulares, de imagem, texto ou vídeo sem a necessidade de escrever códigos, ou preparar divisões de dados.
  • O treinamento personalizado proporciona controle total sobre o processo de treinamento, incluindo o uso do framework de ML preferido, codificação própria de treinamento e seleção de opções de ajuste de hiperparâmetros.
  • Model Garden possibilita a descoberta, teste, personalização e implantação de modelos Vertex AI, incluindo seleção de modelos e recursos de código aberto (OSS).
  • A IA generativa oferece o aos grandes modelos de IA generativa do Google em várias modalidades (textos, códigos, imagens, fala). É possível ajustar os LLMs do Google para atender às suas necessidades e implantá-los para uso em seus aplicativos com tecnologia de IA.

Fonte: The Verge, Google for Developers, Tom’s guide, Beebom, Google Cloud.

Veja também:

Revisado por Glauco Vital em 10/4/24.

Deixe um comentário Cancelar resposta 264j2x
Posts Relacionados 6q1j5c

Monitores Odyssey 3D, Odyssey G9 e Odyssey OLED G8 chegam ao Brasil 6q2i6t

Fabricante traz para o país um novo monitor gamer 3D que dispensa óculos, junto com modelos com tecnologia QD-OLED 4K e Ultra Wide Dual QHD. Confira
Avatar de tiago rodrigues
Leia Mais

5 apps para encontrar pontos de carregamento de carro elétrico no Brasil 5e334f

Vai planejar uma viagem a bordo de um carro elétrico? Confira apps que te ajudam a achar pontos de carregamento espalhados pelo Brasil!
Avatar de alexandre marques
Leia Mais

Galaxy S25 Edge chega ao Brasil por R$ 8.799. Veja preços e vantagens u1f20

Smartphone ultrafino tem 5,8 mm de espesssura, mesmo processador dos Galaxy S25, câmera principal de 200 MP e até 512 GB. Saiba tudo sobre ele
Avatar de bruno martinez
Leia Mais