Posts Recentes:

Atlassian lança Rovo, seu novo companheiro de equipe de IA

Durante a conferência Team '24 em Las Vegas,...

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

A exploração de Marte sempre foi competência exclusiva...

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

No evento 2024 IAB NewFronts na quarta-feira, o...

Google estreia Imagen 2 com geração de texto e logotipo


O Google está tornando a segunda geração do Imagen, seu modelo de IA que pode criar e editar imagens a partir de um prompt de texto, mais amplamente disponível – pelo menos para clientes do Google Cloud que usam Vertex AI e que foram aprovados para acesso.

Mas a empresa não divulga quais dados usou para treinar o novo modelo – nem apresenta uma maneira para os criadores que possam ter contribuído inadvertidamente para o conjunto de dados optarem por não participar ou solicitarem compensação.

Chamado de Imagen 2, o modelo aprimorado do Google – que foi lançado discretamente na conferência I/O da gigante da tecnologia em maio – foi desenvolvido usando tecnologia do Google DeepMind, o principal laboratório de IA do Google. Comparado com o Imagen de primeira geração, ele melhorou “significativamente” em termos de qualidade de imagem, afirma o Google (a empresa bizarramente se recusou a compartilhar amostras de imagens antes desta manhã) e introduz novos recursos, incluindo a capacidade de renderizar texto e logotipos.

“Se você deseja criar imagens com sobreposição de texto – por exemplo, publicidade – você pode fazer isso”, disse o CEO do Google Cloud, Thomas Kurian, durante uma coletiva de imprensa na terça-feira.

A geração de texto e logotipo alinha o Imagen com outros modelos líderes de geração de imagens, como o DALL-E 3 da OpenAI e o recentemente lançado Titan Image Generator da Amazon. Em dois possíveis pontos de diferenciação, porém, o Imagen 2 pode renderizar texto em vários idiomas – especificamente chinês, hindi, japonês, coreano, português, inglês e espanhol, com mais por vir em 2024 – e sobrepor logotipos em imagens existentes.

“A Imagem 2 pode gerar… emblemas, letras e logotipos abstratos… [and] tem a capacidade de sobrepor esses logotipos em produtos, roupas, cartões de visita e outras superfícies”, explica Vishy Tirumalasetty, chefe de produtos de mídia generativa do Google, em uma postagem de blog fornecida ao TechCrunch antes do anúncio de hoje.

Graças a “novas técnicas de treinamento e modelagem”, o Imagen 2 também pode compreender prompts mais descritivos e longos e fornecer “respostas detalhadas” a perguntas sobre os elementos de uma imagem. Essas técnicas também melhoram a compreensão multilíngue do Imagen 2, diz o Google – permitindo que o modelo traduza um prompt em um idioma para uma saída (por exemplo, um logotipo) em outro idioma.

Imagen 2 aproveita SynthID, uma abordagem desenvolvida pela DeepMind, para aplicar marcas d'água invisíveis às imagens criadas por ele. É claro que detectar essas marcas d’água – que o Google afirma serem resistentes a edições de imagens, incluindo compactação, filtros e ajustes de cores – requer uma ferramenta fornecida pelo Google que não está disponível para terceiros. Mas à medida que os decisores políticos expressam preocupação com o volume crescente de desinformação gerada pela IA na Web, isso talvez acalme alguns receios.

O Google não revelou os dados usados ​​para treinar o Imagen 2, o que – embora decepcionante – não é exatamente uma surpresa. É uma questão legal aberta se os fornecedores de GenAI como o Google podem treinar um modelo em dados disponíveis publicamente – até mesmo protegidos por direitos autorais – e então reverter e comercializar esse modelo.

Ações judiciais relevantes estão tramitando nos tribunais, com os fornecedores argumentando que estão protegidos pela doutrina do uso justo. Mas levará algum tempo até que a poeira baixe.

Enquanto isso, o Google está agindo com segurança ao manter silêncio sobre o assunto – um reverso na estratégia adotada com o Imagen de primeira geração, onde revelou que usou uma versão do conjunto de dados público LAION para treinar o modelo. LAION é conhecido por conter conteúdo problemático, incluindo, entre outros, imagens médicas privadas, obras de arte protegidas por direitos autorais e pornografia de celebridades photoshopadas – o que obviamente não é a melhor aparência para o Google.

Algumas empresas que desenvolvem geradores de imagens alimentados por IA, como Stability AI e – há alguns meses – OpenAI, permitem que os criadores optem por não participar de conjuntos de dados de treinamento, se assim o desejarem. Outras, incluindo a Adobe e a Getty Images, estão a estabelecer esquemas de compensação para os criadores – embora nem sempre bem remunerados ou transparentes.

O Google – e, para ser justo, vários de seus rivais, incluindo a Amazon – não oferecem tal mecanismo de exclusão ou compensação ao criador. Isso não vai mudar tão cedo, ao que parece.

Em vez disso, o Google oferece uma política de indenização que protege os clientes qualificados da Vertex AI contra reivindicações de direitos autorais relacionadas ao uso de dados de treinamento e aos resultados do Imagen 2 pelo Google.

A regurgitação, ou quando um modelo generativo exibe uma cópia espelhada de um exemplo de treinamento, é, com razão, uma preocupação para clientes corporativos e desenvolvedores. Um estudo acadêmico mostrou que o Imagen de primeira geração não estava imune a esse fenômeno, exibindo fotos identificáveis ​​de pessoas reais, trabalhos protegidos por direitos autorais de artistas e muito mais quando solicitado de maneiras específicas.

Não é de surpreender que, num inquérito recente realizado pela Acrolinx às empresas Fortune 500, quase um terço afirmou que a propriedade intelectual era a sua maior preocupação relativamente à utilização de IA generativa. Outra pesquisa descobriu que nove em cada dez desenvolvedores “consideram fortemente” a proteção de IP ao tomar decisões sobre o uso de IA generativa.

É uma preocupação que o Google espera que sua política, recentemente ampliada, resolva. (Os termos de indenização do Google não cobriam anteriormente os resultados do Imagen.) Quanto às preocupações dos criadores, bem… eles estão sem sorte nesta tentativa.

Últimas

Atlassian lança Rovo, seu novo companheiro de equipe de IA

Durante a conferência Team '24 em Las Vegas,...

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

A exploração de Marte sempre foi competência exclusiva...

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

No evento 2024 IAB NewFronts na quarta-feira, o...

The Top 30 Social Media Influencers Worldwide

Social media influencers are prominent figures. They dominate...

Assine

spot_img

Veja Também

Atlassian lança Rovo, seu novo companheiro de equipe de IA

Durante a conferência Team '24 em Las Vegas,...

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

A exploração de Marte sempre foi competência exclusiva...

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

No evento 2024 IAB NewFronts na quarta-feira, o...

The Top 30 Social Media Influencers Worldwide

Social media influencers are prominent figures. They dominate...

Anthropic lança novo aplicativo para iPhone e plano premium para empresas

A Anthropic, uma das startups de IA generativa...
spot_img

Atlassian lança Rovo, seu novo companheiro de equipe de IA

Durante a conferência Team '24 em Las Vegas, a Atlassian lançou hoje o Rovo, seu novo assistente de IA. A Rovo pode...

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

A exploração de Marte sempre foi competência exclusiva das agências espaciais nacionais, mas a NASA está tentando mudar isso, atribuição de uma dúzia...

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

No evento 2024 IAB NewFronts na quarta-feira, o Snapchat anunciou uma série de novas ferramentas de realidade aumentada (AR) e aprendizado de máquina...