يمتد نموذج SAM 2 بقدرة SAM على التوجيه إلى مجال الفيديو من خلال إضافة وحدة ذاكرة لكل جلسة تلتقط معلومات حول الكائن المستهدف في الفيديو. يتيح هذا لـ SAM 2 تتبع الكائن المحدد عبر جميع إطارات الفيديو، حتى إذا اختفى الكائن مؤقتًا من العرض، حيث يحتوي النموذج على سياق الكائن من الإطارات السابقة. يدعم SAM 2 أيضًا القدرة على إجراء تصحيحات في توقع القناع بناءً على توجيهات إضافية في أي إطار.
الخاصة SAM 2 - والتي تعالج إطارات الفيديو واحدة تلو الأخرى - هي أيضًا تعميم طبيعي SAM على مجال الفيديو. عند تطبيق SAM 2 على الصور، تكون وحدة الذاكرة فارغة ويتصرف النموذج مثل SAM
مجموعة بيانات الفيديو Segment Anything
مجموعة بيانات كبيرة ومتنوعة لتقسيم الفيديو
تم تدريب SAM 2 على مجموعة كبيرة ومتنوعة من مقاطع الفيديو وأقنعة الكائنات (أقنعة الكائنات بمرور الوقت)، والتي تم إنشاؤها من خلال تطبيق SAM 2 بشكل تفاعلي في نموذج في محرك البيانات الحلقي. تتضمن بيانات التدريب مجموعة بيانات SA-V، والتي
نوفرها كمصدر مفتوح