تا همین اواخر، گوگل Veo 3 به عنوان بخشی از اشتراک Gemini Pro، پیشتاز بلامنازع در حوزه تولید ویدیو با هوش مصنوعی به شمار میرفت. اما دنیای هوش مصنوعی با سرعتی باورنکردنی در حال حرکت است و معرفی مدل هوش مصنوعی OpenAI Sora 2، این وضعیت را به طور کامل دگرگون کرده است.
اگرچه دسترسی به Sora 2 در حال حاضر تنها با دعوتنامه امکانپذیر است، اما این مدل برای جامعه کاربری فعالی دارد. در این مقاله، به یک مقایسه مدلهای هوش مصنوعی مستقیم بین Veo 3 و Sora 2 پرداختهایم تا مشخص کنیم کدام یک در حال حاضر برتری دارد.
مقایسه مستقیم: Veo 3 و Sora 2
برای ارزیابی دقیق، هر دو مدل را با پرامپتهای یکسان در سناریوهای مختلف، از صحنههای ساده تا تعاملات پیچیده، به چالش کشیدیم.
آزمون اول: صحنههای ساده و فیزیک مایعات
با یک پرامپت ساده شروع کردیم: «یک شات فوتورئالیستی از ریختن اسپرسو در یک فنجان سفید به صورت اسلوموشن». در حالی که مدل اولیه Sora در نمایش فیزیک مایعات ناموفق بود و اسپرسو غلیظ و غیرطبیعی به نظر میرسید، Veo 3 عملکردی حرفهای داشت، هرچند یک خطای جزئی در نحوه ریزش قهوه از دستگاه دیده میشد. با این حال، Sora 2 با نمایش فیزیک کاملاً واقعگرایانه و بدون هیچگونه خطا، برنده این آزمون بود.

آزمون دوم: حیوانات و محیطهای شلوغ
در پرامپت بعدی، یک «سگ گلدن ریتریور در یک پارک شلوغ» را درخواست کردیم. Veo 3 نتیجه قابل قبولی ارائه داد، اما شخصیتهای پسزمینه به وضوح مصنوعی بودند.
در مقابل، نتیجه Sora 2 به طرز نگرانکنندهای واقعی بود. جزئیات سگ با دقتی فوقالعاده رندر شده بود و کل صحنه، از جمله افراد حاضر در پارک، کاملاً باورپذیر به نظر میرسید. واقعگرایی در ویدیوی هوش مصنوعی در این نمونه به اوج خود رسیده بود.

آزمون سوم: فیزیک و تعامل با محیط
پرامپت «یک موتورسوار در حال حرکت در ساحل هنگام غروب» چالشی غافلگیرکننده بود.
هر دو مدل Sora و Sora 2 در این آزمون شکست خوردند و نتایجی کارتونی و غیرواقعی تولید کردند. اما گوگل Veo 3 نتیجهای کاملاً سینمایی ارائه داد؛ حرکت موتور روی شن، رد لاستیک، گرد و غبار و حتی نورپردازی دراماتیک غروب، همگی بینقص بودند.

آزمون چهارم: جزئیات فرهنگی و شهری
درخواست یک «تاکسی زرد نمادین در حال حرکت در خیابانهای کلکته» برای مدلهای قدیمیتر بسیار دشوار بود.
Veo 3 توانست اتمسفر شهر را به خوبی به تصویر بکشد، اما حرکت تاکسی غیرطبیعی بود. در مقابل، Sora 2 نه تنها فضای شهر را به شکلی بینقص بازسازی کرد، بلکه حتی سرنشینان داخل خودرو را نیز با جزئیات دقیقی نمایش داد که به راحتی میشد آن را با یک ویدیوی واقعی اشتباه گرفت.

چالش کپیرایت و محدودیتها
در یک آزمون نهایی، شخصیت «مندلورین در بانکوک» را درخواست کردیم. Veo 3 نتیجهای حیرتانگیز و کاملاً مشابه شخصیت اصلی ارائه داد که گویی یک صحنه حذفشده از سریال بود. مدل اولیه Sora یک شخصیت تقریبی و ژنریک تولید کرد. اما Sora 2 به دلیل قوانین کپیرایت، از اجرای این دستور سر باز زد و در این آزمون ناتمام ماند.
جمعبندی و نگاهی به آینده
مدلهای اولیه Veo 3 و Sora 2 دارای نقصهای آشکاری بودند، اما نسخههای جدید تقریباً تمام این مشکلات را برطرف کردهاند. در جدول زیر، نتایج این مقایسه به طور خلاصه آمده است.
| آزمون (پرامپت) | برنده | نکات کلیدی |
| ریختن اسپرسو | Sora 2 | فیزیک مایعات بینقص و واقعگرایانه |
| سگ در پارک | Sora 2 | واقعگرایی بسیار بالا در جزئیات حیوان و محیط |
| موتور در ساحل | Veo 3 | فیزیک، تعامل با محیط و نورپردازی سینمایی |
| تاکسی در کلکته | Sora 2 | بازسازی بینقص اتمسفر شهری و جزئیات |
| شخصیت کپیرایت | Veo 3 | دقت بسیار بالا در بازسازی شخصیت (Sora 2 اجرا نکرد) |
در حال حاضر، Veo 3 از طریق اشتراک Gemini Pro با محدودیت روزانه در دسترس است، در حالی که Sora 2 فعلاً رایگان اما با دعوتنامه عرضه میشود.
اگرچه در بسیاری از آزمونها، به خصوص در زمینه واقعگرایی، برتری با هوش مصنوعی OpenAI Sora 2 است، اما Veo 3 همچنان یک ابزار فوقالعاده قدرتمند است که در سناریوهای خاصی برتری خود را به رخ میکشد. رقابت نزدیک بین Veo 3 و Sora 2 نویدبخش آیندهای هیجانانگیز برای دنیای تولید محتوای ویدیویی است.
اگر به هوش مصنوعی و دنیای آن علاقهمند هستید، با ای بازی همراه شوید تا از جدیدترین اخبار مطلع بمانید.
به علاوه، استفاده خلاقانه از موز نانویی برای جان بخشیدن به نقاشیهای کودکان، به خوبی نشان میدهد که چگونه ابزارهای هوش مصنوعی به بخشی از سرگرمیهای روزمره ما تبدیل شدهاند. بسیاری از کاربران پس از خلق چنین تصاویری، به سراغ هوش مصنوعی برای ساخت ریلز میروند تا این تحولات جادویی را به صورت ویدیوهای کوتاه و جذاب به اشتراک بگذارند.
البته انتخاب ابزار مناسب برای این کارها نیازمند آگاهی است؛ یک مقایسه نانوبنانا و Qwen Image نشان میدهد که هر مدل نقاط قوت خاص خود را برای کاربردهای متفاوت دارد. این رقابت تنها به این دو مدل محدود نمیشود و پیشرفتهای هوش مصنوعی بایدو و دیگر غولهای فناوری، این فضا را روزبهروز پویاتر و جذابتر میکند.




