AI画像生成における「聖杯」は、常にキャラクターの一貫性でした。
かっこいいキャラクターを一度生成するのは簡単です。しかし、その全く同じキャラクターを別のポーズで、別の服を着て、あるいは別の部屋に立たせて生成することは?それは標準的な拡散モデルではほぼ不可能でした。
Whisk AIは、「アイデンティティ」を別の入力レイヤーとして扱うことで、このゲームを変えます。
.jpg)
シード(種)の問題点
従来のAI(例:Midjourney v5)では、ユーザーは一貫性を保つためにしばしば「シード」を使用しようとします。役に立ちますが、シードはノイズパターンを制御するものであり、特定の意味的なアイデンティティを制御するものではありません。似たような見た目の人物が得られるかもしれませんが、顔の構造、髪の色、服装などはしばしば変化してしまいます。
Whiskのアイデンティティロック
Whiskでは、被写体リファレンス(キャラクターシート)をアップロードできます。モデルはこの被写体の不変の特徴を分析します:
- 目の距離と形
- 鼻の構造
- 髪の質感とスタイル
- 衣装の詳細
新しいシーン(例:「ドラゴンと戦う」)のプロンプトを入力すると、Whiskは新しいポーズや環境を生成しながら、これらの不変の特徴をロックし続けます。
ステップバイステップガイド
1. 「マスター」キャラクターの作成
ニュートラルなポーズ(Tポーズまたは標準的なポートレート)とニュートラルな照明でキャラクターを生成または描画します。高解像度が鍵です。彼女を「エージェントK」と呼びましょう。
2. アイデンティティの分離
エージェントKの画像を被写体入力スロットに使用します。
3. シーンの変更
シーンの背景画像(例:「サイバーパンクのバー」)をアップロードします。
4. テキスト/スタイルによるアクションの変更
Whiskは視覚的な入力に依存していますが、出力に影響を与えることができます。特定のスタイル(例:「アメコミのインク画」)が必要な場合は、スタイル入力を使用します。
.jpg)
一貫性のユースケース
| 業界 | 用途 |
|---|---|
| グラフィックノベル | 物語の中を移動する同じ主人公のコマを次々と作成できます。 |
| ゲームアセット | スタイルと被写体のバリエーションを再利用することで、同じ「種族」や「派閥」に属することが明確な複数のNPCアバターを生成できます。 |
| 絵コンテ | 一貫した俳優を使って映画の脚本を素早く視覚化できます。 |
プロのヒント:キャラクターの回転
警告: Whiskは2Dのブレンドを作成します。正面しか見せていない場合、キャラクターの背面を「推測」することはできません。
角度を変更する必要がある場合(例:横顔)、その角度からのキャラクターの参照画像があると非常に役立ちます。Whiskは3D構造を推測できますが、少しのガイダンスが大きな効果を発揮します。
キャラクターの一貫性はもはや闘いではなく、機能の一つです。
