هوش مصنوعی FantasyTalking معرفی شد، ساخت آواتاری که صحبت می‌کند! 2025

هوش مصنوعی

زمان مطالعه: 2 دقیقه

میانگین رتبه

بدون رتبه

هوش مصنوعی FantasyTalking یکی از جدیدترین دستاوردهای محققان چینی در زمینه تولید ویدیوهای سخنگو با واقع‌گرایی بالا است. این مدل می‌تواند تنها با استفاده از یک تصویر پرتره و یک فایل صوتی، شخصیت‌هایی متحرک، طبیعی و هماهنگ با صدا تولید کند.

در این مقاله از ای بازی، نحوه عملکرد مدل، فناوری‌های پشت آن، تفاوت آن با دیگر مدل‌های مشابه و قابلیت‌های منحصربه‌فرد آن را بررسی می‌کنیم.

فهرست مطالب

معرفی هوش مصنوعی FantasyTalking

هوش مصنوعی FantasyTalking یک مدل پیشرفته تولید ویدیوهای واقع‌گرایانه از چهره سخنگو است که با بهره‌گیری از فناوری Video Diffusion Transformer طراحی شده. این مدل توانایی تولید ویدیوهایی با هماهنگی کامل بین صدا و تصویر را دارد و می‌تواند حرکات لب، چهره، بدن و حتی پس‌زمینه را با دقت بالا شبیه‌سازی کند.

نحوه عملکرد مدل در دو مرحله

این سیستم برای دستیابی به هماهنگی دقیق صوتی-تصویری، از یک استراتژی دومرحله‌ای بهره می‌برد:

مرحله	شرح عملکرد
مرحله اول	هماهنگی حرکات کلی شامل چهره، اشیا و پس‌زمینه با صدا در سطح کلیپ
مرحله دوم	اصلاح فریم‌به‌فریم حرکات لب با استفاده از ماسک‌های دقیق برای انطباق کامل با صدا

تفاوت با روش‌های سه‌بعدی قدیمی

مدل‌های قبلی مانند 3DMM یا FLAME برای تولید آواتارهای متحرک از ساختارهای سه‌بعدی استفاده می‌کردند. اما این مدل‌ها در بازتولید حرکات ظریف و حفظ طبیعی بودن چهره ناکارآمد بودند.

در مقابل، هوش مصنوعی FantasyTalking با رویکرد مبتنی بر انتشار و هماهنگی سطح بالا، این محدودیت‌ها را برطرف کرده و واقع‌گرایی بیشتری ارائه می‌دهد.

قابلیت‌های منحصربه‌فرد FantasyTalking

این مدل تنها به هماهنگی لب با صدا محدود نیست؛ بلکه ویژگی‌های متنوع و قدرتمندی دارد:

✅ تولید ویدیو با یک تصویر ثابت
✅ تنظیم شدت حرکات چهره و بدن
✅ حفظ دقیق هویت چهره با استفاده از مکانیزم چهره‌محور
✅ پشتیبانی از زوایای مختلف دوربین (کلوزآپ، نیم‌تنه، تمام‌قد)
✅ سازگاری با استایل‌های گرافیکی کارتونی و واقع‌گرایانه
✅ امکان متحرک‌سازی حیوانات

مقایسه با مدل‌های مشابه

در جدول زیر، FantasyTalking با برخی مدل‌های مطرح دیگر مقایسه شده است:

ویژگی‌ها	FantasyTalking	OmniHuman-1	مدل‌های سنتی (3DMM / FLAME)
واقع‌گرایی تصویر	بسیار بالا	بالا	متوسط
حفظ هویت چهره	دقیق	خوب	ضعیف
تطابق لب و صدا	فریم‌به‌فریم	نسبی	محدود
کنترل شدت حرکات	دارد	ندارد	ندارد
پشتیبانی از سبک کارتونی	دارد	ندارد	ندارد
نیاز به ورودی سه‌بعدی	ندارد	دارد	دارد

جمع‌بندی

هوش مصنوعی FantasyTalking نشان‌دهنده نسل جدیدی از مدل‌های تولید چهره سخنگو است که تنها با یک تصویر و فایل صوتی، می‌تواند ویدیوهایی واقع‌گرایانه و شخصی‌سازی‌شده تولید کند.

با قابلیت‌هایی مانند تنظیم شدت حرکات، پشتیبانی از زوایای دوربین، و حفظ دقیق هویت چهره، این مدل به‌راحتی می‌تواند در تولید محتوای ویدیویی، آواتارهای دیجیتال، و حتی تبلیغات و سرگرمی تحول ایجاد کند.

تاریخ آخرین آپدیت: 2 ماه قبل