AIとRPAでYouTubeショートチャンネルを自動化した方法

2025/05/13

こんにちは、クリスティーンです。今年の3月に、AIとRPAを活用してYouTubeショートのチャンネルを自動化するという大胆な旅を始めました。そのニッチは?AI生成された動物の話です。なぜこのニッチなのか?動物は視聴者に感情的に響き、短尺コンテンツの時代において、感情のつながりが視聴回数とエンゲージメントを促進するからです。

しかし、一つ大きな問題がありました。動画を手動で制作するのは時間がかかりすぎます。映像の調達、編集、公開には1本あたり多くの時間がかかります。それで私はオートメーションに本腰を入れることを決めました。

5月の連休中に、私はフルオートメーションプロセスを記録しました。このブログでは、あなたを以下のステップで案内します。

  1. 私のエンドツーエンドの自動化戦略 - 参考動画の発見から最終的なビジュアル資産の生成まで。

  2. 私のスクリプトの使い方 - ステップバイステップのガイダンスで、あなた自身のシステムに実装または適応することができます。

このフレームワークは動物コンテンツだけに留まりません。このプロセスを習得すれば、さまざまなAIビデオニッチに適用できます。

コア戦略: 再創造、改良、そして自動化

正直に言うと、私のビデオ作成方法は、私のニッチでの最優秀者からインスパイアされています。でも、コピーはしません。私は分析、分解、そして強化して再創造します。

パイプラインは7つの主要なステップから成ります:

  1. トップパフォーマンスのショート動画を参考に特定する

  2. それらのビデオをストーリーボードフレームに分解する

  3. 各フレームのAIプロンプトを書く(画像生成)

  4. プロンプトの要素を変更してユニークなバージョンを作成する

  5. 各フレームの画像を生成する

  6. これらの画像のためのビデオ生成プロンプトを書く

  7. すべてをエディタで結合する

ステップ5と7はまだ完全には自動化されていませんが、他の部分は?すべてRPA(ロボティック・プロセス・オートメーション)でChromeの中でのAutomaを使用して処理され、指紋ブラウザを介したマルチスレッドも含まれます。

ステップバイステップガイド

1. 参照ビデオの調達

私のスクリプトは、単一のホットキー(Ctrl + Alt + S)でYouTubeショートからデータをスクレイプし、単一のビデオやチャンネル全体をサポートします。データはスプレッドシートに直接送られ、時間とクリック数を節約します。

⚠️ プロのヒント: バッチスクレイピングを避けるために、セカンダリーアカウントを使用してください。

2. Gemini 2.5 Proでのストーリーボード抽出

私はGoogle AI StudioとGemini 2.5 Proを使ってビデオをシーンに分解します。それは視覚を分析し、画像生成用のフレームごとのプロンプトを生成します。

ステップバイステップガイド

ステップ1: Google AI Studioを開く
  1. https://aistudio.google.com/prompts/new_chatにアクセスする

  2. Googleアカウントでログインする。

  3. 右上のドロップダウンでGemini 2.5 Pro (Flash Experimental)または最新のモデルを選択する。

🔒 YouTubeビデオを直接分析することがブロックされている場合は、ブラウザ拡張機能やツール(例:4K Video Downloader)を使用して動画をローカルに保存し、Geminiに直接ファイルをアップロードします。

ステップ2: あなたのビデオをGeminiに読み込む

オプションA: YouTubeリンクを使用する

公にアクセス可能なYouTubeショートのURLを貼り付けます。

オプションB: ファイルをアップロードする

外部アクセスがブロックされている場合、紙クリップ📎アイコンをクリックしてローカルビデオファイルをアップロードします。

Dreamina(画像ジェネレーター)で高品質の出力を得るには、洗練されたプロンプト構造を使います:

カメラアングルシーンの設定主要キャラクターの説明アクション表情サポートキャラクター背景時刻など。

この構造はAIモデルへの明確さとフレーム全体の一貫性を確保します。

フィールド

説明

カメラアングル

視点(例:サイドビュー、低角度)

"サイドアングル"

主要キャラの環境

彼らがいる場所

"雨の崖の端"

主要キャラの説明

身体的特徴

"白いTシャツとジーンズの男"

主要アクション

彼らが何をしているか

"泣いている赤ちゃんを抱き上げる"

表情

感情、目に見える反応

"怒っている表情"

サポートキャラクター

オプション:そこにいる他の人々

"彼らに向かって走っている警察官"

サポートアクション

彼らが何をしているか

"叫んでいる"

サポート表情

彼らの感情

"真剣"

背景

キャラクターの後ろの設定

"滝と霧がかかった山"

追加の詳細

ビジュアル効果や雰囲気

"強い雨、荒れ狂う波"

時刻

いつそれが起こっているか

"夕暮れ時"

3. プロンプトの再執筆で盗用を避ける

自分のバージョンをオリジナルにしたいですか?私はキャラクター、場所、ストーリー要素を適度に変更しながら、感情的なアークを維持する第2のGeminiアシスタントを作りました。

例えば、嵐の海岸で赤ちゃんを救うパグのシーンを、黄金のリトリバーと洪水の都市に変換することができます。プロットはそのままに、ビジュアルの設定が変わります。これにより、複数のテーマで再利用可能になります。

📘 Gemini用の最終プロンプトセット: ストーリーボードプロンプトの変更

Prompt Editing Guidelines (Simplified and Localized)

1. Overview
You are an assistant responsible for modifying storyboard prompts. Your job is to replace specific characters (e.g., protagonist, animal, villain) or environments (e.g., cliff, forest) based on user instructions, while keeping the story intact.

2. Core Principle
Do not change the core narrative. The plot, sequence of events, character relationships, emotional tone, and ending must remain exactly the same. Your edits should only affect surface-level details, such as who the characters are or where the scenes take place.

3. Input Format
You will be given a list of prompts, typically numbered (e.g., "Prompt 1", "Prompt 2", etc.). Each prompt is a Chinese-language paragraph describing a visual scene.

4. Output Format
- Your response must be in CSV (Comma-Separated Values) format with no header row.
- Each line must contain two fields:
  (1) Shot number (e.g., 1, 2, 3...)
  (2) The modified Chinese prompt as a natural-language paragraph.
- The paragraph must be enclosed in English double quotation marks (" ").
- The prompt structure should follow this format:

  [Camera Angle]. [Main Character’s Environment], [Main Character Description], [Main Character Action], [Main Character Facial Expression]. (Optional: [Supporting Character Description], [Supporting Character Action], [Supporting Character Facial Expression].) [Background Description]. [Additional Visual Elements]. [Time of Day].

- Use periods to separate major blocks of visual information.
- Use commas within blocks to list character details, actions, or modifiers.
- If a particular category (e.g., facial expression, supporting characters) doesn’t apply to a scene, omit it without leaving blank fields.

5. Character Replacement Rules
5.1 User Instruction Takes Priority
Always apply the exact replacement specified by the user (e.g., “Replace pug with golden retriever puppy”).

5.2 Consistency
- Character Names and Types: If a character appears in multiple prompts, their name, species, and role must be identical across all of them.
- Visual Description: Use the same wording for a character’s appearance in every instance. For example, “a golden retriever puppy with curly fur” must be written exactly the same way in all scenes.
- Scene Descriptions: If you replace a location (e.g., cliff  jungle), update all prompts that reference it to use the new scene consistently.

5.3 Default Replacement Logic
If the user does not specify what to replace:
- Choose replacements that serve the same narrative function (e.g., an animal saving a child should still be an animal capable of that action).
- Adjust physical actions to match the new subject (e.g., a robot cannot cry—use “flashing red lights” instead of “crying”).
- Respect ethnic or character attributes if mentioned (e.g., “a European man” must appear as such in every prompt).
- Always include quantity markers in Chinese (e.g., “一个婴儿”, “一名警察”).
- Limit each character to one clear, visual facial expression per prompt.

5.4 Scene Replacement Logic
- If you change a scene (e.g., cliff  jungle), ensure all environmental elements match the new setting (e.g., “crashing waves” “dense fog”, “rocky ledge” “muddy slope”).
- Update all related prompts where the previous environment was mentioned.
- Make sure the new scene still allows the original action and emotion to take place.

5.5 Focus on Visual Description
- Only describe visual elements—avoid describing sounds, emotions, or abstract narrative ideas.
- If necessary, convert sound into visual equivalents (e.g., “siren sound” “flashing red light”).

5.6 Do Not Modify
- The storyline
- The order of scenes
- Core emotional tone
- Camera angles
- Lighting or atmosphere unless the scene change logically affects it
- Objects or details unrelated to the replaced subject or environment

6. Collaboration and Clarification
If any instruction is unclear (e.g., ambiguous character roles or scene context), request clarification before editing. Do not make assumptions.

7. Final Requirements
- Maintain narrative integrity and consistency across all prompts.
- Use structured, clean natural-language Chinese paragraphs.
- Deliver the result as a properly formatted CSV code block with no label tags.
- Each paragraph should be self-contained and visually descriptive.

End of Guidelines

コア原則: プロットを維持しながらキャラクターやシーンのみを交換

このプロンプトシステムは非常に使いやすいです。ステップ2の画像生成プロンプトをGeminiに入力するだけです。

🔄 方法:

  1. ステップ2で生成したプロンプトをコピー&ペーストしてGeminiに入力します。

  2. 置き換える要素を指定します—たとえば、「パグを黄金のリトリーバーの子犬に置き換える」。

  3. Geminiは更新されたキャラクターまたは設定を使用して修正されたプロンプトセットを出力します。

💡 なぜこれが重要なのか

この手法のマジックは、変えないものにあります: ストーリーラインはそのまま。Geminiは表面的な要素(主題や環境)だけを調整します。つまり:

  • 同じストーリーボード構造を再利用して複数のバリエーションを作成できます。

  • すべてのバージョンは同じビデオ生成プロンプトと互換性があります。

  • 単一の基本スクリプトから多様なコンテンツを短時間で作成できます。

個人的にテスト済みです—同じビデオ生成指示を使用して6つの代替バージョンを生成し、結果は一貫して素晴らしいものです。

4. Dreaminaで画像を生成

Dreamina(CapCutの国際AI画像ツール)では無料で画像生成が可能です。私のRPAスクリプトはログインし、プロンプトを送信し、自動的に画像をダウンロードします。すべての画像は、次のステップでシームレスに統合するために、私が作成したPythonツールを使って(1.jpg、2.jpg…)という風に連番でリネームされます。

5. ビデオ生成のためのプロンプト作成

Dreaminaで作成したプロンプトを入力として、ByteDanceのAIビデオジェネレーターであるKling(可灵)のビデオ説明を生成します。プロンプトは特定の形式に従います:

  • カメラ移動(例: 手持ち、ズームイン)

  • 被写体のアクション(例: 「子犬が子供の方に泳ぐ」)

  • 環境効果(例: 「波が激しく打ち寄せる」)

注意: 10個のプロンプトのうちの約6個が現在、使用可能なビデオを生成します—まだ進行中の作業です。

6. Klingでのビデオ生成

このステップは半自動化されています。私は新しいKlingアカウントを登録し、プロンプトを入力し、最終ビデオをダウンロードするためのスクリプトを作成しました。CAPTCHAによる手動ログインが必要です。

各アカウントは最大8つのビデオを生成します。ログイン後はすべて他の処理(生成からダウンロードまで)がスクリプト駆動です。

ボーナス: フルAutomaスクリプトスイート

すべてを統合するために、Automa 1.28上に構築されたフルスイートのスクリプトを使用しています。適切にセットアップすることで、次のことが可能です:

  • ショート動画のスクレイピング

  • Geminiでのビデオシーン解析

  • 他のキャラクターでのプロンプト再構築

  • Dreaminaで画像の自動生成

  • Klingでビデオの自動生成

  • 結果をCSV形式でエクスポート

また、オンボーディング時間を最小限に抑えるためのテンプレートとサンプルワークフローを作成しました。セットアップは最初は複雑に感じるかもしれませんが、いったん整うと、プロダクションは楽になります。

次のGitHubリポジトリで自動化スクリプトにアクセスできます:

https://github.com/liuyinjiwen06/youtube_automation



最終的な考え

AIとRPAを組み合わせることで、制作時間を劇的に短縮しながらクリエイティブコントロールを維持しました。このワークフローを使用して、次のことを達成しました:

  • 最小限の労力でコンテンツの出力を最大化

  • 単一スクリプトからバリエーションを拡張

  • アイデアを複数のチャネルやニッチで再利用

このシステムはAIの動物物語に限られません。あなたがASMR、歴史ショート、またはモチベーションコンテンツを作成しているかにかかわらず、このアプローチは適応可能です。

YouTubeの自動化ゲームを探求しているなら、このガイドが時間とフラストレーションを省くのに役立つことを願っています。そして、行き詰まったり、興味がある場合は、ぜひお問い合わせください。一層の情報を喜んで共有いたします!