Como Automatizei Meu Canal de Shorts do YouTube com IA e RPA

13 de mai. de 2025

Oi, sou a Christine e, em março deste ano, comecei uma jornada ousada — automatizar um canal de YouTube Shorts usando IA e RPA. O nicho? Histórias de animais geradas por IA. Por que esse nicho? Porque os animais ressoam emocionalmente com o público e, na era do conteúdo em formato curto, a conexão emocional impulsiona visualizações e engajamento.

Mas havia um grande problema: produzir vídeos manualmente consome muito tempo. Encontrar filmagens, editar e publicar leva horas por vídeo. Foi então que decidi apostar tudo na automação.

Durante o feriado de maio, documentei todo o meu processo de automação. Neste blog, vou guiá-lo por:

  1. Minha estratégia de automação de ponta a ponta – desde encontrar vídeos de referência até gerar ativos visuais finais.

  2. Como usar meus scripts – com orientação passo a passo, para que você possa implementar ou adaptar o sistema para seu próprio uso.

Esse framework não funciona apenas para conteúdo de animais. Domine esse processo e você poderá aplicá-lo em vários nichos de vídeos de IA.

A Estratégia Principal: Recriar, Refinar e Automatizar

Vamos ser honestos—meu método de criação de vídeos é inspirado nos melhores performers do meu nicho. Mas eu não copio; eu analiso, desconstruo e recrio com aprimoramentos.

O pipeline consiste em 7 etapas principais:

  1. Identificar Shorts de alto desempenho como referências

  2. Dividir esses vídeos em quadros de storyboard

  3. Escrever prompts de IA para cada quadro (geração de imagens)

  4. Modificar elementos nos prompts para criar uma versão única

  5. Gerar imagens para cada quadro

  6. Escrever prompts de geração de vídeos para essas imagens

  7. Juntar tudo em um editor

As etapas 5 e 7 ainda não estão totalmente automatizadas, mas o resto? Inteiramente gerenciado por RPA (Automação de Processos Robóticos) usando Automa no Chrome, incluindo multiprocessamento por navegadores com impressões digitais.

Guia Passo a Passo

1. Obtendo Vídeos de Referência

Meu script coleta dados do YouTube Shorts com um único atalho (Ctrl + Alt + S) e suporta tanto vídeos únicos quanto canais inteiros. Os dados vão direto para uma planilha, economizando tempo e cliques.

⚠️ Dica Pro: Use uma conta secundária para raspagem em lote a fim de evitar riscos.

2. Extraindo Storyboards com o Gemini 2.5 Pro

Eu uso o Estúdio AI do Google com o Gemini 2.5 Pro para dividir vídeos em cenas. Ele analisa visuais e gera prompts quadro a quadro para geração de imagens.

Guia Passo a Passo

Etapa 1: Abra o Estúdio AI do Google
  1. Visite https://aistudio.google.com/prompts/new_chat

  2. Faça login com sua conta do Google.

  3. No menu suspenso do canto superior direito, escolha Gemini 2.5 Pro (Flash Experimental) ou o modelo mais recente.

🔒 Se você estiver bloqueado de analisar um vídeo do YouTube diretamente, use uma extensão de navegador ou ferramenta (por exemplo, 4K Video Downloader) para salvar o vídeo localmente e, em seguida, faça o upload do arquivo diretamente para o Gemini.

Etapa 2: Carregue seu Vídeo no Gemini

Opção A: Use o Link do YouTube

Cole a URL de um vídeo Shorts do YouTube publicamente acessível.

Opção B: Envie um Arquivo

Se o acesso externo estiver bloqueado, clique no ícone de clipe de papel 📎 para enviar um arquivo de vídeo local.

Para garantir uma saída de alta qualidade com o Dreamina (um gerador de imagens), eu uso uma estrutura de prompt refinada:

Ângulo da Câmera, Cenário da Cena, Descrição do Personagem Principal, Ação, Expressão Facial, Personagens de Suporte, Cenário de Fundo, Hora do Dia, etc.

Essa estrutura garante clareza para o modelo de IA e consistência entre os quadros.

Campo

Descrição

Exemplo

Ângulo da Câmera

O ponto de vista (por exemplo, vista lateral, ângulo baixo)

"Ângulo lateral"

Ambiente do Personagem Principal

Onde ele está

"Na borda de um penhasco chuvoso"

Descrição do Personagem Principal

Traços físicos

"Um homem com camiseta branca e jeans"

Ação Principal

O que ele está fazendo

"Erguendo um bebê chorando"

Expressão Facial

Emoção, reação visível

"Expressão de raiva"

Personagens de Suporte

Opcional: quem mais está lá

"Um policial correndo em direção a eles"

Ação de Suporte

O que estão fazendo

"Gritando"

Expressão de Suporte

A emoção deles

"Sério"

Cenário de Fundo

O cenário atrás dos personagens

"Cachoeira e montanha com névoa"

Detalhes Adicionais

Efeitos visuais ou atmosfera

"Chuva forte, ondas quebrando"

Hora do Dia

Quando está acontecendo

"Ao anoitecer"

3. Reescrevendo Prompts para Evitar Plágio

Quer garantir que sua versão seja original? Criei um segundo assistente Gemini que ajusta personagens principais, locais e elementos da história—mantendo o arco emocional intacto.

Por exemplo, você pode transformar uma cena com um pug salvando um bebê em uma praia tempestuosa em uma com um golden retriever em uma cidade inundada. A trama permanece, mas o cenário visual muda—tornando-o reutilizável em vários temas.

📘 Conjunto Final de Instruções para o Gemini: Modificação de Prompt de Storyboard

Prompt Editing Guidelines (Simplified and Localized)

1. Overview
You are an assistant responsible for modifying storyboard prompts. Your job is to replace specific characters (e.g., protagonist, animal, villain) or environments (e.g., cliff, forest) based on user instructions, while keeping the story intact.

2. Core Principle
Do not change the core narrative. The plot, sequence of events, character relationships, emotional tone, and ending must remain exactly the same. Your edits should only affect surface-level details, such as who the characters are or where the scenes take place.

3. Input Format
You will be given a list of prompts, typically numbered (e.g., "Prompt 1", "Prompt 2", etc.). Each prompt is a Chinese-language paragraph describing a visual scene.

4. Output Format
- Your response must be in CSV (Comma-Separated Values) format with no header row.
- Each line must contain two fields:
  (1) Shot number (e.g., 1, 2, 3...)
  (2) The modified Chinese prompt as a natural-language paragraph.
- The paragraph must be enclosed in English double quotation marks (" ").
- The prompt structure should follow this format:

  [Camera Angle]. [Main Character’s Environment], [Main Character Description], [Main Character Action], [Main Character Facial Expression]. (Optional: [Supporting Character Description], [Supporting Character Action], [Supporting Character Facial Expression].) [Background Description]. [Additional Visual Elements]. [Time of Day].

- Use periods to separate major blocks of visual information.
- Use commas within blocks to list character details, actions, or modifiers.
- If a particular category (e.g., facial expression, supporting characters) doesn’t apply to a scene, omit it without leaving blank fields.

5. Character Replacement Rules
5.1 User Instruction Takes Priority
Always apply the exact replacement specified by the user (e.g., “Replace pug with golden retriever puppy”).

5.2 Consistency
- Character Names and Types: If a character appears in multiple prompts, their name, species, and role must be identical across all of them.
- Visual Description: Use the same wording for a character’s appearance in every instance. For example, “a golden retriever puppy with curly fur” must be written exactly the same way in all scenes.
- Scene Descriptions: If you replace a location (e.g., cliff  jungle), update all prompts that reference it to use the new scene consistently.

5.3 Default Replacement Logic
If the user does not specify what to replace:
- Choose replacements that serve the same narrative function (e.g., an animal saving a child should still be an animal capable of that action).
- Adjust physical actions to match the new subject (e.g., a robot cannot cry—use “flashing red lights” instead of “crying”).
- Respect ethnic or character attributes if mentioned (e.g., “a European man” must appear as such in every prompt).
- Always include quantity markers in Chinese (e.g., “一个婴儿”, “一名警察”).
- Limit each character to one clear, visual facial expression per prompt.

5.4 Scene Replacement Logic
- If you change a scene (e.g., cliff  jungle), ensure all environmental elements match the new setting (e.g., “crashing waves” “dense fog”, “rocky ledge” “muddy slope”).
- Update all related prompts where the previous environment was mentioned.
- Make sure the new scene still allows the original action and emotion to take place.

5.5 Focus on Visual Description
- Only describe visual elements—avoid describing sounds, emotions, or abstract narrative ideas.
- If necessary, convert sound into visual equivalents (e.g., “siren sound” “flashing red light”).

5.6 Do Not Modify
- The storyline
- The order of scenes
- Core emotional tone
- Camera angles
- Lighting or atmosphere unless the scene change logically affects it
- Objects or details unrelated to the replaced subject or environment

6. Collaboration and Clarification
If any instruction is unclear (e.g., ambiguous character roles or scene context), request clarification before editing. Do not make assumptions.

7. Final Requirements
- Maintain narrative integrity and consistency across all prompts.
- Use structured, clean natural-language Chinese paragraphs.
- Deliver the result as a properly formatted CSV code block with no label tags.
- Each paragraph should be self-contained and visually descriptive.

End of Guidelines

Princípio Fundamental: Mantenha a Trama Intacta — Apenas Substitua Personagens ou Cenas

Este sistema de prompt é incrivelmente fácil de usar. Tudo que você precisa fazer é fornecer os prompts de geração de imagens da Etapa 2 no Gemini.

🔄 Veja como funciona:

  1. Copie e cole os prompts gerados na Etapa 2 no Gemini.

  2. Especifique quais elementos substituir — por exemplo, “Substitua o pug por um filhote de golden retriever.”

  3. O Gemini fornecerá um conjunto revisado de prompts com personagens ou ambientes atualizados.

💡 Por Que Isso É Importante

A mágica deste método está no que ele não altera: a história permanece intocada. O Gemini apenas ajusta elementos de superfície como sujeitos ou ambientes. Isso significa que:

  • Você pode reutilizar a mesma estrutura de storyboard para criar múltiplas variações.

  • Todas as versões permanecem compatíveis com os mesmos prompts de geração de vídeo.

  • Você economiza tempo enquanto produz uma variedade de conteúdos a partir de um único script base.

Testei isso pessoalmente—gerei seis versões alternativas usando exatamente as mesmas instruções de geração de vídeo, e os resultados foram consistentemente excelentes.

4. Gerando Imagens com o Dreamina

Dreamina (ferramenta internacional de imagens de IA do CapCut) permite gerar imagens gratuitamente. Meu script de RPA faz login, envia prompts e baixa imagens automaticamente. Todas as imagens são então renomeadas em sequência (1.jpg, 2.jpg...) usando uma ferramenta Python que escrevi para integração perfeita na próxima etapa.

5. Escrevendo Prompts para Geração de Vídeos

Eu uso os prompts do Dreamina como entrada para gerar descrições de vídeo para o Kling (可灵), o gerador de vídeos AI do ByteDance. Os prompts seguem um formato específico:

  • Movimento da câmera (por exemplo, na mão, zoom-in)

  • Ação do sujeito (por exemplo, "o filhote nada em direção à criança")

  • Efeitos ambientais (por exemplo, "ondas tempestuosas batendo")

Nota: Dos 10 prompts, cerca de 6 resultam em vídeos utilizáveis atualmente—ainda em desenvolvimento.

6. Geração de Vídeos com o Kling

Esta etapa é semi-automatizada. Escrevi scripts para registrar novas contas Kling, inserir prompts e baixar os vídeos finais. O login manual é necessário devido ao CAPTCHA.

Cada conta gera até 8 vídeos. Uma vez logado, todo o resto é dirigido por script—desde a criação até o download.

Bônus: Suíte Completa de Scripts do Automa

Para juntar tudo, uso uma suíte completa de scripts construída em Automa 1.28. Com a configuração adequada, você pode:

  • Raspar vídeos Shorts

  • Analisar cenas de vídeo com o Gemini

  • Reconstruir prompts com personagens alternativos

  • Gerar imagens automaticamente no Dreamina

  • Gerar vídeos automaticamente no Kling

  • Exportar resultados em formato CSV

Eu também criei modelos e fluxos de trabalho de amostra para minimizar o tempo de integração. A configuração pode parecer complexa inicialmente, mas uma vez em funcionamento, sua produção se torna sem esforço.

Você pode acessar o script de automação no seguinte repositório do github:

https://github.com/liuyinjiwen06/youtube_automation


Considerações Finais

Combinando IA com RPA, reduzi drasticamente meu tempo de produção enquanto mantinha o controle criativo. Este fluxo de trabalho me ajudou a:

  • Maximizar a produção de conteúdo com mínimo esforço

  • Escalar variações a partir de um único script

  • Reutilizar ideias em múltiplos canais e nichos

Este sistema não se limita a histórias de animais de IA. Se você estiver fazendo ASMR, curtas históricos ou conteúdo motivacional—esta abordagem é adaptável.

Se você está explorando o jogo de automação do YouTube, espero que este passo a passo economize seu tempo e frustração. E se você estiver com dificuldades ou curioso, sinta-se à vontade para entrar em contato—estou feliz em compartilhar mais!