Qwen3.5 は Alibaba Cloud のオープンソースマルチモーダル大規模言語モデルで、Qwen 3.0 シリーズに画像理解機能を追加したものです。テキスト生成と、画像キャプション作成やリバースプロンプトエンジニアリングなどの画像ベースのタスクの両方をサポートします。 モデルのハイライト:Documentation Index
Fetch the complete documentation index at: https://docs.comfy.org/llms.txt
Use this file to discover all available pages before exploring further.
- マルチモーダル — テキストと画像の入力を受け付け、視覚的理解タスクに対応
- 画像キャプション作成 — 画像を説明し、詳細なキャプションを生成
- リバースプロンプトエンジニアリング — 参照画像からプロンプトと生成パラメータを抽出
- ComfyUI ネイティブ — 組み込みの
TextGenerateノードを使用、カスタムノード不要 - 軽量 — 4B パラメータモデル、コンシューマー GPU に適切
使用例
Qwen3.5 は、視覚的理解とテキスト生成の組み合わせが ComfyUI ワークフローに付加価値をもたらすシナリオで力を発揮します:- 画像からのプロンプト逆生成 — 参照画像を Qwen3.5 に渡し、その画像を再現できる詳細なテキストプロンプトを生成させます。良い画像を見つけてもプロンプトがわからない場合に特に便利です。
- プロンプト最適化 — 既存のプロンプトと画像コンセプトを読み込み、Qwen3.5 に生成、洗練、または拡張を依頼してよりリッチな記述を得ます。
- 画像キャプション作成 — 生成された画像のキャプション、説明、メタデータタグを自動生成。作品のカタログ化やトレーニングデータの準備に役立ちます。
- ビジュアル質問応答 — 画像コンテンツに関する質問(「このシーンには何がある?」「背景は何色?」)に対して構造化されたテキスト回答を得ます。
- テキスト読み取り — 適切なプロンプトを使用すると、モデルが画像内のテキストやラベルを読み取ろうとすることがありますが、信頼性は文字の品質と鮮明さに依存します。
利用可能なワークフロー
Qwen3.5: テキスト生成
ワークフローをダウンロード
JSON をダウンロードするか、テンプレートライブラリで “Qwen3.5 Text Generation” を検索
Comfy Cloud で実行
Comfy Cloud で開く
このワークフローは Qwen3.5 のテキスト生成と画像理解機能を示します。テキストプロンプトとオプションの画像を受け取り、入力に基づいて説明テキストや構造化分析を生成します。
入力:
- テキストプロンプト — 質問、指示、タスクの説明
- 画像(オプション) — 視覚的理解タスク用(画像キャプション作成、リバースプロンプトエンジニアリング、プロンプト最適化等)
- 最大長 — 生成する最大トークン数(デフォルト 256)
- サンプリングモード — サンプリングのオン/オフ切り替え、温度、top-k、top-p、繰り返しペナルティ、シードの調整
- デフォルトテンプレートを使用 — モデル内蔵のシステムプロンプトを適用
- 生成されたテキスト — プレーンテキスト文字列
サブグラフについて
このワークフローはサブグラフノードを使用してモジュール処理を行います。サブグラフのドキュメントを確認してワークフローをカスタマイズ・拡張してください。
モデルのダウンロード
Qwen3.5 モデルは ComfyUI でテキストエンコーダーとして読み込まれます。ハードウェアに合わせて適切なバージョンを選択してください:Qwen3.5 2B (bf16)
軽量版、約 4.5 GB。低 VRAM 環境や高速ダウンロードに最適。
Qwen3.5 4B (bf16)
サイズと品質のバランス型。ほとんどのコンシューマー GPU に推奨。
Qwen3.5 9B (bf16)
最大版、約 19 GB。より高品質な出力、より多くの VRAM が必要。
.safetensors ファイルを以下の場所に配置: