EMO AI: inteligência artificial faz pessoas cantarem a partir de fotografias i2n1v

Avatar de joão lucas batista
Desenvolvida pelo grupo Alibaba, a nova IA surpreende com o realismo em gerar vídeo de pessoas cantando a partir de fotografias. Veja exemplos

O recém-lançado EMO AI, a inteligência artificial do grupo Alibaba, causou grande repercussão na internet. A ferramenta produz vídeos a partir de fotografias, fazendo o avatar cantar músicas em diversas línguas, com surpreendente realismo. 1813

Esse segmento de IA está em avanço significativo ao longo dos anos, surgindo anteriormente com edições de fotografias, quando por meio de apps, era possível trocar de rosto com alguém, colocar filtros e utilizar outras funcionalidades. Agora, a simulação de ações em vídeos tem provocado grande interesse por parte dos internautas, principalmente pelo realismo aplicado nesses conteúdos.

O que é a EMO AI? 342u4r

Funcionamento do EMO AI. Imagem: Reprodução/EMO: Emote Portrait Alive

A EMO AI: Emote Portrait Alive é uma ferramenta de criação de conteúdo audiovisual por meio da difusão de áudio e vídeo — ou imagem — ultrarrealista.

A IA foca em simular com precisão e fidelidade os traços faciais do modelo em situações imagináveis a partir de uma fotografia. É possível fazer com que a partir da fotografia de uma pessoa seja produzido um vídeo musical, onde o personagem pode cantar uma música popular, movimentando os lábios e os músculos do rosto, para pronunciar a letra da maneira correta com poses realistas.

Segundo os desenvolvedores do Institute for Intelligent Computing, do grupo Alibaba, os vídeos criados pelo EMO AI podem ter qualquer duração, dependendo apenas do tamanho do arquivo de áudio inserido para a produção do vídeo.

Como a IA funciona? 71652d

A partir da metodologia utilizada pelos profissionais, o EMO necessita apenas de uma imagem para servir de base na produção do vídeo gerado pela sua inteligência artificial. Em seguida, deve-se inserir um arquivo de áudio para que a ferramenta crie o vídeo com a interpretação do personagem, sincronizando os movimentos labiais com a letra e animando a pessoa, pelo tempo que durar o arquivo de áudio.

Veja abaixo um vídeo utilizando a EMO AI 1g2l5k

https://www.youtube.com/watch?v=3K5VCQedbT8
Exemplos do uso da EMO AI para criação de vídeo com IA. Vídeo: YouTube/ AI Drop

O vídeo acima utiliza um desenho de anime para criar uma cena simulada pela IA. O EMO AI também conseguiu produzir de maneira satisfatória a movimentação facial e labial da personagem de forma convincente.

Estrutura da ferramenta EMO AI 42s7

A metodologia empregada no desenvolvimento do EMO AI foi aplicada justamente com o propósito de buscar avanços quanto à qualidade de vídeos criados por IA’s. Os pesquisadores tiveram como objetivo encontrar maneiras alternativas para aumentar a qualidade do resultado.

Por conta disso, no estágio inicial do processo, denominado Frames Encoding, uma rede neural chamada ReferenceNet extrai recursos de uma única imagem de referência, simulando os quadros de movimento. Este processo de codificação estabelece a base do vídeo.

Em seguida, o áudio é incorporado, com ao auxílio de um codificador e são aplicadas as máscaras faciais, o que irá possibilitar os movimentos realistas do rosto. Finalizando o processo, o mecanismo Backbone Network fica encarregado de preservar a identidade do personagem e ajustar a velocidade da movimentação facial.

Fases de produção de conteúdo com o EMO AI. Imagem: Reprodução/EMO: Emote Portrait Alive

Apesar do processo inovador, os desenvolvedores do Alibaba relatam em seu artigo científico que encontraram limitações no modelo. Eles citaram que o EMO AI leva mais tempo para produzir conteúdo do que outras IA’s do mesmo segmento e que, em alguns casos, podem surgir outras partes do corpo no vídeo, como, por exemplo, as mãos do personagem.

A busca por IAs que simulam ações 2t2a4f

Com a crescente compatibilidade de IAs com os sistemas operacionais existentes nos celulares, a busca por essas ferramentas disparou nos últimos anos. Atualmente é possível encontrar várias opções de aplicativos que trocam o rosto do usuário por algum famoso, o envelhece, o rejuvenesce, corrige expressões faciais, entre outras funcionalidades.

Entre essas possibilidades, destaca-se o deepfake, que é o resultado da combinação facial ou sua substituição por meio de uma IA. Esse recurso pode ser utilizado para diversos fins, como humorístico, político ou até mesmo pornográfico. Com relação à política, no Brasil, o TSE ligou o alerta sobre essa questão, já prevendo o uso de deepfake nas eleições de outubro deste ano.

Neste caso, o deepfake é um prato cheio para as fake news, pois geralmente retratam um candidato em situações mentirosas ou simulando falas polêmicas, das quais ele nunca falou, motivadas por interesses políticos.

Uso de deepfake para trocar o rosto do rapaz à esquerda pelo ator americano Tom Cruise. Imagem: Reprodução

EMO AI produz expressões em diversas línguas 3j5h4h

Outra barreira superada pelas IAs, inclusive o EMO AI, é a produção de vídeos em diferentes idiomas. Essas tecnologias compreendem diversos idiomas, o som de suas palavras e suas pronúncias. Com isso, é possível produzir conteúdo audiovisual em muitas línguas.

Mulher gerada por IA cantando em chinês. Reprodução/ EMO: Emote Portrait Alive

Confira abaixo mais vídeos gerados pelo EMO AI 1e5vd

O personagem Coringa (Joker, 2019) a partir de um frame do filme, utilizado no EMO. Vídeo: Reprodução/ EMO: Emote Portrait Alive
Ator Leonardo DiCaprio cantando Eminem com o uso de IA. Reprodução: EMO: Emote Portrait Alive

Fontes: NowadAls, Arxiv, Humanaigc.

Veja também:

Revisado por Glauco Vital em 28/2/24.

Deixe um comentário Cancelar resposta 264j2x
Posts Relacionados 6q1j5c

Monitores Odyssey 3D, Odyssey G9 e Odyssey OLED G8 chegam ao Brasil 6q2i6t

Fabricante traz para o país um novo monitor gamer 3D que dispensa óculos, junto com modelos com tecnologia QD-OLED 4K e Ultra Wide Dual QHD. Confira
Avatar de tiago rodrigues
Leia Mais

Galaxy S25 Edge chega ao Brasil por R$ 8.799. Veja preços e vantagens u1f20

Smartphone ultrafino tem 5,8 mm de espesssura, mesmo processador dos Galaxy S25, câmera principal de 200 MP e até 512 GB. Saiba tudo sobre ele
Avatar de bruno martinez
Leia Mais

GOOGLE I/O 2025: Veja todas as novidades de inteligência artificial anunciadas 1s25t

Empresa mostrou Modo AI nas Buscas, edição de vídeo com som no Veo 3 AI, Gemini Live para todos os Androids e parcerias com a Samsung para criar óculos inteligentes. Confira o resumo
Avatar de victor pacheco
Leia Mais