CLIPTextEncodeFlux は、ComfyUI に実装された高度なテキストエンコーディングノードであり、特に Flux アーキテクチャ向けに設計されています。このノードは、CLIP-L と T5XXL の二つのエンコーダーを協調して使用し、構造化されたキーワードと詳細な自然言語による説明の両方を処理します。これにより、Flux モデルに対してより正確かつ包括的なテキスト理解能力を提供し、テキストから画像への生成品質を向上させます。
このノードは、以下の二重エンコーダー協調機構に基づいて動作します:
clip_l入力は CLIP-L エンコーダーによって処理され、スタイルやテーマなどのキーワード特徴を抽出します。これは簡潔な記述に最適です。t5xxl入力は T5XXL エンコーダーによって処理され、複雑で詳細な自然言語によるシーン描写を理解するのに優れています。- 両エンコーダーからの出力が統合され、「ガイドランス(guidance)」パラメーターと組み合わされて、統一された条件付き埋め込みベクトル(
CONDITIONING)が生成されます。このベクトルは、後続の Flux サンプラー・ノードで使用され、生成されるコンテンツがテキスト記述とどの程度一致するかを制御します。
入力
| パラメーター | データ型 | 入力方法 | 初期値 | 範囲 | 説明 |
|---|---|---|---|---|---|
clip | CLIP | ノード入力 | なし | - | Flux アーキテクチャに対応した CLIP モデル(CLIP-L および T5XXL エンコーダーを含む)を指定する必要があります |
clip_l | STRING | テキストボックス | なし | 最大77トークン | スタイルやテーマなど、簡潔なキーワードによる記述に適しています |
t5xxl | STRING | テキストボックス | なし | ほぼ無制限 | 複雑なシーンや細部を表現するための、詳細な自然言語による記述に適しています |
guidance | FLOAT | スライダー | 3.5 | 0.0 – 100.0 | テキスト条件が生成プロセスに与える影響の強さを制御します。数値が大きいほど、テキスト記述への忠実度が高くなります |
出力
| 出力名 | データ型 | 説明 |
|---|---|---|
CONDITIONING | CONDITIONING | 二つのエンコーダーによる処理結果とガイドランス(guidance)パラメーターを統合した条件付き埋め込みベクトルを含み、条件付き画像生成に使用されます |
使用例
プロンプトの例
-
clip_l入力(キーワード形式):- 構造的で簡潔なキーワードの組み合わせを使用します。
- 例:
masterpiece, best quality, portrait, oil painting, dramatic lighting - スタイル、画質、主な被写体など、核心となる要素に焦点を当てます。
-
t5xxl入力(自然言語による記述):- 完全で流暢なシーン描写を使用します。
- 例:
A highly detailed portrait in oil painting style, featuring dramatic chiaroscuro lighting that creates deep shadows and bright highlights, emphasizing the subject's features with renaissance-inspired composition. - シーンの詳細、空間的関係性、ライティング効果などに焦点を当てます。
注意事項
- Flux アーキテクチャに対応した CLIP モデルを使用してください。
- 二重エンコーダーの利点を最大限に活かすため、
clip_lとt5xxlの両方を入力することを推奨します。 clip_lには最大77トークンという制限があることに注意してください。- 生成結果に応じて、
guidanceパラメーターを調整してください。