Google estreia Imagen 2 com geração de texto e logotipo

O Google está tornando a segunda geração do Imagen, seu modelo de IA que pode criar e editar imagens a partir de um prompt de texto, mais amplamente disponível – pelo menos para clientes do Google Cloud que usam Vertex AI e que foram aprovados para acesso.

Mas a empresa não divulga quais dados usou para treinar o novo modelo – nem apresenta uma maneira para os criadores que possam ter contribuído inadvertidamente para o conjunto de dados optarem por não participar ou solicitarem compensação.

Chamado de Imagen 2, o modelo aprimorado do Google – que foi lançado discretamente na conferência I/O da gigante da tecnologia em maio – foi desenvolvido usando tecnologia do Google DeepMind, o principal laboratório de IA do Google. Comparado com o Imagen de primeira geração, ele melhorou “significativamente” em termos de qualidade de imagem, afirma o Google (a empresa bizarramente se recusou a compartilhar amostras de imagens antes desta manhã) e introduz novos recursos, incluindo a capacidade de renderizar texto e logotipos.

“Se você deseja criar imagens com sobreposição de texto – por exemplo, publicidade – você pode fazer isso”, disse o CEO do Google Cloud, Thomas Kurian, durante uma coletiva de imprensa na terça-feira.

A geração de texto e logotipo alinha o Imagen com outros modelos líderes de geração de imagens, como o DALL-E 3 da OpenAI e o recentemente lançado Titan Image Generator da Amazon. Em dois possíveis pontos de diferenciação, porém, o Imagen 2 pode renderizar texto em vários idiomas – especificamente chinês, hindi, japonês, coreano, português, inglês e espanhol, com mais por vir em 2024 – e sobrepor logotipos em imagens existentes.

“A Imagem 2 pode gerar… emblemas, letras e logotipos abstratos… [and] tem a capacidade de sobrepor esses logotipos em produtos, roupas, cartões de visita e outras superfícies”, explica Vishy Tirumalasetty, chefe de produtos de mídia generativa do Google, em uma postagem de blog fornecida ao TechCrunch antes do anúncio de hoje.

Graças a “novas técnicas de treinamento e modelagem”, o Imagen 2 também pode compreender prompts mais descritivos e longos e fornecer “respostas detalhadas” a perguntas sobre os elementos de uma imagem. Essas técnicas também melhoram a compreensão multilíngue do Imagen 2, diz o Google – permitindo que o modelo traduza um prompt em um idioma para uma saída (por exemplo, um logotipo) em outro idioma.

Imagen 2 aproveita SynthID, uma abordagem desenvolvida pela DeepMind, para aplicar marcas d'água invisíveis às imagens criadas por ele. É claro que detectar essas marcas d’água – que o Google afirma serem resistentes a edições de imagens, incluindo compactação, filtros e ajustes de cores – requer uma ferramenta fornecida pelo Google que não está disponível para terceiros. Mas à medida que os decisores políticos expressam preocupação com o volume crescente de desinformação gerada pela IA na Web, isso talvez acalme alguns receios.

O Google não revelou os dados usados para treinar o Imagen 2, o que – embora decepcionante – não é exatamente uma surpresa. É uma questão legal aberta se os fornecedores de GenAI como o Google podem treinar um modelo em dados disponíveis publicamente – até mesmo protegidos por direitos autorais – e então reverter e comercializar esse modelo.

Ações judiciais relevantes estão tramitando nos tribunais, com os fornecedores argumentando que estão protegidos pela doutrina do uso justo. Mas levará algum tempo até que a poeira baixe.

Enquanto isso, o Google está agindo com segurança ao manter silêncio sobre o assunto – um reverso na estratégia adotada com o Imagen de primeira geração, onde revelou que usou uma versão do conjunto de dados público LAION para treinar o modelo. LAION é conhecido por conter conteúdo problemático, incluindo, entre outros, imagens médicas privadas, obras de arte protegidas por direitos autorais e pornografia de celebridades photoshopadas – o que obviamente não é a melhor aparência para o Google.

Algumas empresas que desenvolvem geradores de imagens alimentados por IA, como Stability AI e – há alguns meses – OpenAI, permitem que os criadores optem por não participar de conjuntos de dados de treinamento, se assim o desejarem. Outras, incluindo a Adobe e a Getty Images, estão a estabelecer esquemas de compensação para os criadores – embora nem sempre bem remunerados ou transparentes.

O Google – e, para ser justo, vários de seus rivais, incluindo a Amazon – não oferecem tal mecanismo de exclusão ou compensação ao criador. Isso não vai mudar tão cedo, ao que parece.

Em vez disso, o Google oferece uma política de indenização que protege os clientes qualificados da Vertex AI contra reivindicações de direitos autorais relacionadas ao uso de dados de treinamento e aos resultados do Imagen 2 pelo Google.

A regurgitação, ou quando um modelo generativo exibe uma cópia espelhada de um exemplo de treinamento, é, com razão, uma preocupação para clientes corporativos e desenvolvedores. Um estudo acadêmico mostrou que o Imagen de primeira geração não estava imune a esse fenômeno, exibindo fotos identificáveis de pessoas reais, trabalhos protegidos por direitos autorais de artistas e muito mais quando solicitado de maneiras específicas.

Não é de surpreender que, num inquérito recente realizado pela Acrolinx às empresas Fortune 500, quase um terço afirmou que a propriedade intelectual era a sua maior preocupação relativamente à utilização de IA generativa. Outra pesquisa descobriu que nove em cada dez desenvolvedores “consideram fortemente” a proteção de IP ao tomar decisões sobre o uso de IA generativa.

É uma preocupação que o Google espera que sua política, recentemente ampliada, resolva. (Os termos de indenização do Google não cobriam anteriormente os resultados do Imagen.) Quanto às preocupações dos criadores, bem… eles estão sem sorte nesta tentativa.

Adicione o SEO Fórum ao seu feed do Google Notícias.

Cookie	Duração	Descrição
cookielawinfo-checkbox-analytics	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Analytics".
cookielawinfo-checkbox-functional	11 months	The cookie is set by GDPR cookie consent to record the user consent for the cookies in the category "Functional".
cookielawinfo-checkbox-necessary	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookies is used to store the user consent for the cookies in the category "Necessary".
cookielawinfo-checkbox-others	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Other.
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
cookielawinfo-checkbox-performance	11 months	This cookie is set by GDPR Cookie Consent plugin. The cookie is used to store the user consent for the cookies in the category "Performance".
viewed_cookie_policy	11 months	The cookie is set by the GDPR Cookie Consent plugin and is used to store whether or not user has consented to the use of cookies. It does not store any personal data.

SEO Fórum

Conteúdo

Redes Sociais

Posts Recentes:

Atlassian lança Rovo, seu novo companheiro de equipe de IA

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

SEO Fórum

Conteúdo

Redes Sociais

Google estreia Imagen 2 com geração de texto e logotipo

Últimas

Atlassian lança Rovo, seu novo companheiro de equipe de IA

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

The Top 30 Social Media Influencers Worldwide

Assine

Veja Também

Atlassian lança Rovo, seu novo companheiro de equipe de IA

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

The Top 30 Social Media Influencers Worldwide

Anthropic lança novo aplicativo para iPhone e plano premium para empresas

Atlassian lança Rovo, seu novo companheiro de equipe de IA

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

Institucional

Mais Recentes

Atlassian lança Rovo, seu novo companheiro de equipe de IA

NASA encomenda estudos de empresas espaciais privadas sobre funções de apoio à missão de Marte

Snapchat lança novas ferramentas de AR e ML para marcas e anunciantes

The Top 30 Social Media Influencers Worldwide

Mais Populares

6 razões pelas quais seus relatórios do GA4 não estão somando

Como Adicionar Imagens Facilmente no WordPress

Microsoft relança pubCenter

Este ex-futuro unicórnio será vendido por peças?

Assine