- 35 億パラメータモデル:高品質なアニメ画像生成に十分な性能を備えながらも効率的なモデルサイズ
- Next-DiT アーキテクチャ:Lumina アーキテクチャの研究に基づき、新たに設計された NewBie 固有のアーキテクチャを採用
- 二重テキストエンコーダー:メインエンコーダーとして Gemma3-4B-it を使用し、Jina CLIP v2 を補助エンコーダーとして活用することで、プロンプトの理解精度を向上
- FLUX VAE:FLUX.1-dev の 16 チャネル VAE を採用し、より豊かな色表現と精細なテクスチャディテールを実現
- XML 構造化プロンプト:注意機構の正確なバインディングおよび属性の分離(disentanglement)を可能にする XML 形式をサポート
NewBie-image 文生成画像ワークフロー
JSON ワークフローファイルをダウンロード
ComfyUI Cloud で実行
モデルのダウンロードリンク
text_encoders diffusion_models vae モデルの保存場所プロンプト形式
NewBie-image は、キャラクター生成に特化して最適化されたアニメ画像生成モデルです。学習には XML 構造化プロンプトが用いられており、各<> タグはカテゴリ(例:<appearance>、<clothing>)を定義し、</> で閉じられます。タグ内の内容は標準の Danbooru タグです。この構造により、複数キャラクターを含むシーンにおいて、属性の正確なバインディングを実現できます。
完全なプロンプト作成ガイドについては、公式ドキュメントをご参照ください。
NewBie-image-Exp0.1 は以下の 3 種類のプロンプト形式をサポートします:
- 自然言語:標準的なテキストによる記述
- タグ形式:Danbooru スタイルのタグ
- XML 構造化形式:複数キャラクターを含むシーンに推奨
XML 構造化プロンプト
複数キャラクターを含むシーンでは、XML 構造化プロンプトを用いることで、より正確な画像生成結果が得られ、注意機構のバインディングや属性の分離(disentanglement)が向上します。XML タグ一覧
| タグ | 説明 |
|---|---|
<n> | キャラクター名または識別子 |
<gender> | キャラクターの性別(例:1girl、1boy など) |
<appearance> | 外見的特徴(髪型、目の色、体型など) |
<clothing> | 服装およびアクセサリー |
<expression> | 顔の表情 |
<action> | 姿勢および動作 |
<position> | 画像内における位置 |
<count> | キャラクターの人数 |
<style> | アートスタイル |
<background> | 背景の描写 |
<atmosphere> | 全体の雰囲気(ムード) |
<quality> | 画質に関するタグ |
<objects> | シーン内に存在する物品 |
<other> | その他の追加タグ |