メインコンテンツへスキップ

Documentation Index

Fetch the complete documentation index at: https://docs.comfy.org/llms.txt

Use this file to discover all available pages before exploring further.

このドキュメントは AI によって生成されました。エラーを見つけた場合や改善のご提案がある場合は、ぜひ貢献してください! GitHub で編集

SAM3 Detect ノード

概要

SAM3 Detect ノードは、テキストによる説明、バウンディングボックス、またはポイントプロンプトを使用して、オープンボキャブラリーの検出とセグメンテーションを実行します。テキストで記述した内容、ボックスを描いた場所、またはポイントをクリックした位置に基づいて、画像内のオブジェクトを識別し、セグメント化することができます。

入力

パラメータデータ型必須範囲説明
modelMODELはい-検出とセグメンテーションに使用するSAM3モデル
imageIMAGEはい-処理する入力画像
conditioningCONDITIONINGいいえ-CLIPTextEncodeからのテキスト条件付け。テキストプロンプトを使用した検出時に必要です
bboxesBOUNDING_BOXいいえ-セグメント化する領域のバウンディングボックス。単一のボックス(全フレームに適用)、ボックスのリスト(全フレームに適用)、またはリストのリスト(フレームごとのボックス)を指定できます。テキスト条件付けなしで指定した場合、各ボックス内をセグメント化します
positive_coordsSTRINGいいえ-ピクセル座標を使用したJSON形式 [{"x": int, "y": int}, ...] の正のポイントプロンプト。セグメンテーションに含めたいポイントです
negative_coordsSTRINGいいえ-ピクセル座標を使用したJSON形式 [{"x": int, "y": int}, ...] の負のポイントプロンプト。セグメンテーションから除外したいポイントです
thresholdFLOATいいえ0.0 ~ 1.0テキストベース検出の信頼度しきい値。この値を超えるスコアの検出のみが保持されます(デフォルト: 0.5)
refine_iterationsINTいいえ0 ~ 5SAMデコーダーのリファインメントパスの回数。値を大きくするとマスク品質が向上する可能性があります。0を設定すると、リファインメントなしで生の検出マスクを使用します(デフォルト: 2)
individual_masksBOOLEANいいえTrue/False有効にすると、検出された各オブジェクトの個別のマスクを出力し、単一のマスクに結合しません(デフォルト: False)

パラメータの制約と注意事項

  • テキストプロンプト: テキストベースの検出を使用するには、conditioning 入力を提供する必要があります。テキスト条件付けが提供されると、ノードは画像上でテキストガイドによる検出を実行します。
  • ボックスプロンプト: テキスト条件付けなしで bboxes が提供された場合、ノードは各バウンディングボックス内の領域をセグメント化します。
  • ポイントプロンプト: positive_coords または negative_coords が提供された場合、ノードはポイントベースのセグメンテーションを使用します。ポイントは自動的にモデルの内部解像度にスケーリングされます。
  • 複数のプロンプトタイプ: 異なるプロンプトタイプを組み合わせることができます。例えば、テキスト条件付けとバウンディングボックスの両方を提供して、テキスト検出を特定の領域に制限することができます。
  • バッチ処理: このノードはバッチ処理された画像をサポートしています。複数のフレームを処理する場合、リストのリスト形式を使用してフレームごとにバウンディングボックスを提供できます。
  • ポイントのJSON形式: ポイント座標は、[{"x": 100, "y": 200}, {"x": 150, "y": 250}] の形式の有効なJSON文字列として提供する必要があります。

出力

出力名データ型説明
bboxesMASKセグメンテーションマスク。individual_masks が False(デフォルト)の場合、フレームごとに単一の結合マスクを返します。True の場合、検出された各オブジェクトの個別のマスクを返します
bboxesBOUNDING_BOX座標と信頼度スコアを含む検出されたバウンディングボックス。各ボックスには xywidthheightscore の値が含まれます

Source fingerprint (SHA-256): d073bda7eca934f3c64e1be740f5fb5249d27046a8be5902ea5d2245d5f679ea