Posts Recentes:

Como a Abridge se tornou uma das startups de IA em saúde mais comentadas

Peça a qualquer um dos VCs focados em...

Snap visualiza seu modelo de imagem em tempo real que pode gerar experiências de AR

Na Augmented World Expo na terça-feira, o Snap...

Adobe afirma que seu novo modelo de geração de imagens é o melhor até agora


Firefly, a família de modelos generativos de IA da Adobe, não tem a melhor reputação entre os criativos.

O modelo de geração de imagens Firefly, em particular, foi ridicularizado como decepcionante e falho comparado com Meio da jornadaOpenAI DALL-E 3e outros rivais, com tendência a distorcer membros e paisagens e perder as nuances dos prompts. Mas a Adobe está tentando consertar a situação com seu modelo de terceira geração, Firefly Image 3, lançado esta semana durante a conferência Max London da empresa.

O modelo, agora disponível no Photoshop (beta) e no aplicativo web Firefly da Adobe, produz imagens mais “realistas” do que seu antecessor (Imagem 2) e o antecessor de seu antecessor (Imagem 1) graças à capacidade de compreender prompts e cenas mais longos e complexos, bem como recursos aprimorados de iluminação e geração de texto. Ele deve renderizar com mais precisão coisas como tipografia, iconografia, imagens raster e arte de linha, diz a Adobe, e é “significativamente” mais hábil em representar multidões densas e pessoas com “recursos detalhados” e “uma variedade de humores e expressões”.

Pelo que vale, em meus breves testes não científicos, Imagem 3 faz parece ser um avanço em relação à Imagem 2.

Não consegui experimentar a Imagem 3 sozinho. Mas o Adobe PR enviou alguns resultados e prompts do modelo, e consegui executar esses mesmos prompts por meio da Imagem 2 na web para obter amostras para comparar os resultados da Imagem 3. (Lembre-se de que os resultados da Imagem 3 poderiam ter sido escolhidos a dedo.)

Observe a iluminação nesta foto da Imagem 3 em comparação com a abaixo, da Imagem 2:

Adobe Firefly

Da imagem 3. Prompt: “Retrato de estúdio de uma jovem”.

Adobe Firefly

O mesmo prompt acima, da Imagem 2.

A saída da Imagem 3 parece mais detalhada e realista aos meus olhos, com sombreamento e contraste que estão praticamente ausentes na amostra da Imagem 2.

Aqui está um conjunto de imagens que mostram a compreensão da cena da Imagem 3 em ação:

Adobe Firefly

Da imagem 3. Prompt: “Uma artista em seu estúdio sentada à mesa parecendo pensativa com toneladas de pinturas e etéreas.”

Adobe Firefly

Mesma solicitação acima. Da imagem 2.

Observe que o exemplo da Imagem 2 é bastante básico em comparação com a saída da Imagem 3 em termos de nível de detalhe – e expressividade geral. Há instabilidade acontecendo com o sujeito na camisa da amostra da Imagem 3 (em torno da cintura), mas a pose é mais complexa do que a do sujeito da Imagem 2. (E as roupas da Imagem 2 também estão um pouco erradas.)

Algumas das melhorias da Imagem 3 podem, sem dúvida, ser atribuídas a um conjunto de dados de treinamento maior e mais diversificado.

Assim como a Imagem 2 e a Imagem 1, a Imagem 3 é treinada em uploads para Adobe Stock, a biblioteca de mídia isenta de royalties da Adobe, juntamente com conteúdo licenciado e de domínio público cujos direitos autorais expiraram. O Adobe Stock cresce o tempo todo e, conseqüentemente, o conjunto de dados de treinamento disponível também.

Em um esforço para evitar ações judiciais e se posicionar como uma alternativa mais “ética” aos fornecedores de IA generativa que treinam com imagens indiscriminadamente (por exemplo, OpenAI, Midjourney), a Adobe tem um programa para pagar os contribuidores do Adobe Stock para o conjunto de dados de treinamento. (Observaremos que os termos do programa são bastante opacono entanto.) De forma controversa, a Adobe também treina modelos Firefly em imagens geradas por IA, o que alguns consideram uma forma de lavagem de dados.

Bloomberg recente comunicando imagens geradas por IA reveladas no Adobe Stock não são excluídas dos dados de treinamento dos modelos de geração de imagens Firefly, uma perspectiva preocupante, considerando que essas imagens podem conter material protegido por direitos autorais regurgitado. A Adobe defendeu a prática, alegando que as imagens geradas por IA constituem apenas uma pequena parte de seus dados de treinamento e passam por um processo de moderação para garantir que não representem marcas registradas ou personagens reconhecíveis ou façam referência a nomes de artistas.

É claro que nem dados de treinamento diversificados e de origem mais “ética”, nem filtros de conteúdo e outras salvaguardas garantem uma experiência perfeitamente livre de falhas – veja os usuários gerando twitter.com/adamhrv/status/1781275464754995668" rel="noopener">pessoas lançando o pássaro com a Imagem 2. O verdadeiro teste da Imagem 3 virá quando a comunidade colocar as mãos nela.

Novos recursos alimentados por IA

A Imagem 3 oferece vários novos recursos no Photoshop além da conversão aprimorada de texto em imagem.

Um novo “mecanismo de estilo” na Imagem 3, junto com uma nova alternância de estilização automática, permite que o modelo gere uma gama mais ampla de cores, planos de fundo e poses de assuntos. Eles alimentam a imagem de referência, uma opção que permite aos usuários condicionar o modelo a uma imagem cujas cores ou tons desejam que seu conteúdo gerado futuro se alinhe.

Três novas ferramentas generativas – Gerar plano de fundo, Gerar semelhantes e Aprimorar detalhes – aproveitam o Image 3 para realizar edições precisas em imagens. O (autodescritivo) Gerar Plano de Fundo substitui um plano de fundo por um gerado que se mistura à imagem existente, enquanto Gerar Semelhante oferece variações em uma parte selecionada de uma foto (uma pessoa ou um objeto, por exemplo). Quanto ao Enhance Detail, ele “ajusta” as imagens para melhorar a nitidez e a clareza.

Se esses recursos parecem familiares, é porque eles estão em versão beta no aplicativo da web Firefly há pelo menos um mês (e no Midjourney há muito mais tempo). Isso marca sua estreia no Photoshop – em beta.

Falando em aplicativo web, a Adobe não está negligenciando esse caminho alternativo para suas ferramentas de IA.

Para coincidir com o lançamento da Imagem 3, o aplicativo da web Firefly está recebendo Referência de Estrutura e Referência de Estilo, que a Adobe apresenta como novas maneiras de “avançar o controle criativo”. (Ambos foram anunciados em março, mas agora estão se tornando amplamente disponíveis.) Com o Structure Reference, os usuários podem gerar novas imagens que correspondam à “estrutura” de uma imagem de referência – digamos, uma visão frontal de um carro de corrida. A Referência de Estilo é essencialmente a transferência de estilo por outro nome, preservando o conteúdo de uma imagem (por exemplo, elefantes no Safari Africano) enquanto imita o estilo (por exemplo, esboço a lápis) de uma imagem alvo.

Aqui está a referência de estrutura em ação:

Adobe Firefly

Imagem original.

Adobe Firefly

Transformado com Referência de Estrutura.

E referência de estilo:

Adobe Firefly

Imagem original.

Adobe Firefly

Transformado com referência de estilo.

Perguntei à Adobe se, com todas as atualizações, o preço da geração de imagens Firefly mudaria. Atualmente, o plano premium Firefly mais barato custa US$ 4,99 por mês – superando concorrentes como Midjourney (US$ 10 por mês) e OpenAI (que coloca o DALL-E 3 atrás de um plano de US$ 20 por mês). ChatGPT Plus inscrição).

A Adobe disse que seus níveis atuais permanecerão em vigor por enquanto, junto com seus sistema de crédito generativo. Ele também disse que sua política de indenização, que afirma que a Adobe pagará reivindicações de direitos autorais relacionadas a trabalhos gerados no Firefly, também não mudará, nem sua abordagem para colocar marcas d’água em conteúdo gerado por IA. As credenciais de conteúdo – metadados para identificar mídia gerada por IA – continuarão a ser anexadas automaticamente a todas as gerações de imagens Firefly na web e no Photoshop, sejam elas geradas do zero ou parcialmente editadas usando recursos generativos.



Últimas

Assine

spot_img

Veja Também

spot_img

Como a Abridge se tornou uma das startups de IA em saúde mais comentadas

Peça a qualquer um dos VCs focados em saúde para nomear uma das principais startups de IA e um nome surge repetidamente: uma...

O satélite de inspeção de lixo espacial da Astroscale tira uma foto em close de um estágio de foguete descartado

Astroescala O satélite de observação de lixo espacial aproximou-se do estágio superior de um foguete descartado que está flutuando ao redor da Terra...

Snap visualiza seu modelo de imagem em tempo real que pode gerar experiências de AR

Na Augmented World Expo na terça-feira, o Snap apresentou uma versão inicial de seu modelo de difusão de imagens em tempo real no...