هوش مصنوعی FantasyTalking معرفی شد | ساخت چهره‌های سخنگو فقط با یک عکس!

هوش مصنوعی FantasyTalking معرفی شد | ساخت چهره‌های سخنگو فقط با یک عکس!

هوش مصنوعی
زمان مطالعه: 2 دقیقه
میانگین رتبه
بدون رتبه
رتبه من:

هوش مصنوعی FantasyTalking یکی از جدیدترین دستاوردهای محققان چینی در زمینه تولید ویدیوهای سخنگو با واقع‌گرایی بالا است. این مدل می‌تواند تنها با استفاده از یک تصویر پرتره و یک فایل صوتی، شخصیت‌هایی متحرک، طبیعی و هماهنگ با صدا تولید کند.

در این مقاله از ای بازی، نحوه عملکرد مدل، فناوری‌های پشت آن، تفاوت آن با دیگر مدل‌های مشابه و قابلیت‌های منحصربه‌فرد آن را بررسی می‌کنیم.

معرفی هوش مصنوعی FantasyTalking

هوش مصنوعی FantasyTalking یک مدل پیشرفته تولید ویدیوهای واقع‌گرایانه از چهره سخنگو است که با بهره‌گیری از فناوری Video Diffusion Transformer طراحی شده. این مدل توانایی تولید ویدیوهایی با هماهنگی کامل بین صدا و تصویر را دارد و می‌تواند حرکات لب، چهره، بدن و حتی پس‌زمینه را با دقت بالا شبیه‌سازی کند.

هوش مصنوعی FantasyTalking یک مدل پیشرفته تولید ویدیوهای واقع‌گرایانه از چهره سخنگو است

نحوه عملکرد مدل در دو مرحله

این سیستم برای دستیابی به هماهنگی دقیق صوتی-تصویری، از یک استراتژی دومرحله‌ای بهره می‌برد:

مرحلهشرح عملکرد
مرحله اولهماهنگی حرکات کلی شامل چهره، اشیا و پس‌زمینه با صدا در سطح کلیپ
مرحله دوماصلاح فریم‌به‌فریم حرکات لب با استفاده از ماسک‌های دقیق برای انطباق کامل با صدا

تفاوت با روش‌های سه‌بعدی قدیمی

مدل‌های قبلی مانند 3DMM یا FLAME برای تولید آواتارهای متحرک از ساختارهای سه‌بعدی استفاده می‌کردند. اما این مدل‌ها در بازتولید حرکات ظریف و حفظ طبیعی بودن چهره ناکارآمد بودند.

در مقابل، هوش مصنوعی FantasyTalking با رویکرد مبتنی بر انتشار و هماهنگی سطح بالا، این محدودیت‌ها را برطرف کرده و واقع‌گرایی بیشتری ارائه می‌دهد.

قابلیت‌های منحصربه‌فرد FantasyTalking

این مدل تنها به هماهنگی لب با صدا محدود نیست؛ بلکه ویژگی‌های متنوع و قدرتمندی دارد:

  • ✅ تولید ویدیو با یک تصویر ثابت
  • ✅ تنظیم شدت حرکات چهره و بدن
  • ✅ حفظ دقیق هویت چهره با استفاده از مکانیزم چهره‌محور
  • ✅ پشتیبانی از زوایای مختلف دوربین (کلوزآپ، نیم‌تنه، تمام‌قد)
  • ✅ سازگاری با استایل‌های گرافیکی کارتونی و واقع‌گرایانه
  • ✅ امکان متحرک‌سازی حیوانات

مقایسه با مدل‌های مشابه

در جدول زیر، FantasyTalking با برخی مدل‌های مطرح دیگر مقایسه شده است:

ویژگی‌هاFantasyTalkingOmniHuman-1مدل‌های سنتی (3DMM / FLAME)
واقع‌گرایی تصویربسیار بالابالامتوسط
حفظ هویت چهرهدقیقخوبضعیف
تطابق لب و صدافریم‌به‌فریمنسبیمحدود
کنترل شدت حرکاتداردنداردندارد
پشتیبانی از سبک کارتونیداردنداردندارد
نیاز به ورودی سه‌بعدیندارددارددارد

جمع‌بندی

هوش مصنوعی FantasyTalking نشان‌دهنده نسل جدیدی از مدل‌های تولید چهره سخنگو است که تنها با یک تصویر و فایل صوتی، می‌تواند ویدیوهایی واقع‌گرایانه و شخصی‌سازی‌شده تولید کند.

با قابلیت‌هایی مانند تنظیم شدت حرکات، پشتیبانی از زوایای دوربین، و حفظ دقیق هویت چهره، این مدل به‌راحتی می‌تواند در تولید محتوای ویدیویی، آواتارهای دیجیتال، و حتی تبلیغات و سرگرمی تحول ایجاد کند.

تاریخ آخرین آپدیت:  2 ماه قبل

پایان