Como Gerar Pessoas Realistas no Stable Diffusion: Técnicas e Modelos para Melhorar Seus Resultados

Gerar pessoas realistas utilizando a tecnologia de Stable Diffusion pode parecer uma tarefa monumental para alguns, mas com os avanços recentes e os comentários de especialistas, torna-se cada vez mais viável alcançar resultados surpreendentes. Um primeiro conselho para quem quer se aventurar nesta área é evitar o modelo mais recente da Stability, como alguns usuários apontaram que ele é mais propenso a gerar figuras desproporcionais ou irreais.

Em contrapartida, muitos artistas e desenvolvedores ainda preferem os modelos da versão 1.6, citando uma maior variedade e criatividade nas imagens geradas. Estes modelos anteriores, combinados com uma bateria de técnicas e add-ons, podem transformar significativamente a qualidade das saídas. Um dos recursos mais recomendados é o uso de ‘Loras’. Segundo portaouflop, Loras, como o VantaBlack, são um divisor de águas e, quando combinados com a ControlNet, podem elevar a qualidade das gerações.

Uma técnica robusta mencionada é a ampliação iterativa. Iniciando com imagens de 512×512 e ampliando progressivamente até 1024 e depois para 4K, é possível adicionar uma riqueza de detalhes considerável. Este processo, embora demorado, especialmente em hardware mais antigo, resulta em imagens de alta fidelidade. Para quem busca aprimorar o realismo anatômico, embeddings negativos, como o ‘badhandsv2’, são ferramentas poderosas para corrigir defeitos comuns como mãos com proporções erradas.

Sobre a controvérsia em torno de modelos com capacidade de gerar imagens explícitas, há uma discussão contínua sobre a necessidade de modelos treinados em um grande número de imagens explícitas para gerar uma anatomia correta. Alguns usuários defendem que a utilização de prompts negativos pode eliminar a necessidade de ajustes complexos, enquanto outros discutem a necessidade de um treinamento mais ético e controlado.

image

Modelos como ‘I Can’t Believe It’s Not Photography’ demonstram que emoções e descrições fortes nas instruções podem gerar resultados impressionantes. Emoções carregadas e cenas dinâmicas tendem a produzir imagens com ‘vida e energia’, evitando a estaticidade que muitas vezes condena modelos menos detalhados. Já o ‘RealvisXL’ tem sido aclamado como um dos modelos mais fotorrealistas, com uma aderência impressionante aos prompts fornecidos.

Porém, nem tudo são flores. A geração de imagens de pessoas ‘normais e cotidianas’ ainda enfrenta desafios significativos. Muitos modelos tendem a gerar representações de pessoas jovens e ‘perfeitas’, refletindo um viés inerente nos dados de treinamento. Para aqueles que buscam imagens mais representativas da diversidade humana, a customização dos prompts com descritores detalhados é crucial.

Uma dica prática: ao tentar gerar imagens de pessoas em ambientes comuns, como um escritório, os resultados muitas vezes carecem de realismo. Experimente configurar o modelo para um estilo de fotografia amadora dos anos 90, utilizando termos como ‘documentário’, ‘amador’ e ‘desfocado’ para obter resultados mais autênticos. Mesmo assim, a presença de uma estética plastificada em muitas gerações sugere que ainda há um caminho a se percorrer para alcançar uma perfeição inquestionável em todas as saídas geradas pelo Stable Diffusion.

A comunidade continua a explorar, ajustar e criar práticas melhores. O avanço dessas tecnologias requer não apenas conhecimento técnico, mas também uma reflexão crítica sobre os dados de treinamento e os objetivos finais das gerações. Acompanhe as discussões em fóruns e plataformas especializadas para se manter atualizado sobre as melhores práticas e novidades.


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *