گوگل از Veo 3.1 رونمایی کرد

تاریخ آخرین بروزرسانی: 12 آبان 1404 زمان تقریبی مطالعه این مطلب:6 دقیقه

تصور کنید ایده‌ای درخشان برای یک فیلم کوتاه، یک تبلیغ تأثیرگذار یا یک موزیک ویدیوی خیره‌کننده در ذهن دارید، اما بودجه، تجهیزات، یا مهارت‌های فنی لازم برای به تصویر کشیدن آن را ندارید. تا همین چند وقت پیش، این رویاها در حد همان ایده باقی می‌ماندند. اما امروز، در نقطه‌ای از تاریخ ایستاده‌ایم که کلمات می‌توانند به سینمایی زنده و نفس‌گیر تبدیل شوند.

آن چه در این مطلب خواهید خواند:

Veo 3.1 چیست؟
با قابلیت‌های جدید Veo 3.1 آشنا شوید
چگونه مانند یک حرفه‌ای با Veo 3.1 صحبت کنیم؟
دروازه ورود به دنیای Veo 3.1
Veo 3.1 در میدان رقابت نگاهی به رقیب اصلیSora 2

اگر به خاطر داشته باشید، چندی پیش با معرفی Veo 3، گوگل به دوران فیلم‌های صامت در دنیای هوش مصنوعی پایان داد و برای اولین بار، ویدیوهایی با صدای کاملاً هماهنگ و طبیعی تولید کرد. اما اکنون، با رونمایی از Veo 3.1، ما شاهد یک به‌روزرسانی ساده نیستیم؛ بلکه با یک تحول فلسفی روبرو هستیم. این نسخه جدید، شما را از جایگاه یک کاربر صرف، به صندلی یک کارگردان با مجموعه‌ای از ابزارهای قدرتمند منتقل می‌کند. Veo 3.1 دیگر فقط درباره تولید ویدیو نیست؛ بلکه درباره کنترل، ثبات داستانی و قدرت روایتگری است.

در این مقاله، به اعماق قابلیت‌های شگفت‌انگیز Veo 3.1 سفر می‌کنیم، به شما می‌آموزیم که چگونه مانند یک کارگردان حرفه‌ای به آن فرمان دهید، و مسیر دقیق دسترسی به این فناوری از طریق اشتراک Gemini Advanced را برایتان روشن می‌کنیم تا همین امروز سفر فیلمسازی خود را آغاز کنید.

Veo 3.1 چیست؟ خداحافظی با محدودیت‌های گذشته

Veo 3.1 جدیدترین تکامل از پیشرفته‌ترین مدل تولید ویدیوی گوگل است که با تمرکز بر واقع‌گرایی بهبودیافته، درک دقیق‌تر دستورات متنی (پرامپت‌ها) و تولید صدای غنی‌تر و طبیعی‌تر عرضه شده است. اما جذابیت اصلی این نسخه، حل کردن یکی از بزرگترین چالش‌های نسل‌های قبلی هوش مصنوعی است: بحران ثبات و پایداری.

حتماً تجربه کرده‌اید که در ویدیوهای ساخته شده با هوش مصنوعی، چهره یک شخصیت یا ظاهر یک شیء از نمایی به نمای دیگر به شکلی نامحسوس (یا حتی کاملاً محسوس) تغییر می‌کند. این عدم پایداری، بزرگترین مانع برای روایت یک داستان منسجم بود. Veo 3.1 با بهبود چشمگیر در حفظ ثبات شخصیت و صحنه، این مشکل را تا حد زیادی برطرف کرده و ابزاری قابل اعتماد برای خلق داستان‌های پیوسته در اختیار ما قرار داده است. این پیشرفت به تنهایی، اعتمادی را جلب می‌کند که برای هر ابزار خلاقانه‌ای ضروری است.

اما این تحول فقط به تصویر محدود نمی‌شود. سیستم صوتی Veo 3.1 نیز جهشی بزرگ را تجربه کرده است. دیگر صحبت از یک همگام‌سازی لب ساده نیست؛ ما در مورد خلق یک منظره صوتی (Soundscape) کامل صحبت می‌کنیم. این مدل می‌تواند مکالمات طبیعی، صداهای محیطی مانند همهمه یک شهر یا وزش باد، و افکت‌های صوتی را با زمان‌بندی دقیق و متناسب با محتوای تصویر تولید کند. برای مثال، در یکی از نمونه‌ها، پرامپت به وضوح درخواست همهمه ضعیف شهر و صدای صحبت از دور به همراه یک موسیقی هیپ-هاپ آرام را می‌دهد و Veo 3.1 دقیقاً همین اتمسفر را خلق می‌کند.

در کنار این‌ها، درک بهتر مدل از قوانین فیزیک دنیای واقعی باعث شده تا حرکات, تعاملات بین اشیاء و نورپردازی‌ها بسیار طبیعی‌تر و باورپذیرتر به نظر برسند و حس دره وهمی (Uncanny Valley) که اغلب در محتوای تولیدی هوش مصنوعی وجود دارد، به حداقل برسد. این بهبودها تصادفی نیستند؛ آن‌ها زیربنای لازم برای یک هدف بزرگتر را فراهم می‌کنند: توانمندسازی کاربران برای ساخت روایت‌های چندبخشی، نه فقط کلیپ‌های کوتاه و بی‌ربط. گوگل با این کار نشان می‌دهد که چشم‌انداز بلندمدت Veo، تبدیل شدن به یک ابزار داستان‌سرایی جدی است.

جعبه ابزار کارگردان با قابلیت‌های جدید Veo 3.1 آشنا شوید

Ingredients to Video: مدیر شخصی انتخاب بازیگر و طراح صحنه شما

این قابلیت را می‌توان به دادن یک دستور کار دقیق به گروه فیلمسازی تشبیه کرد. شما می‌توانید تا سه تصویر مرجع را به عنوان مواد اولیه (Ingredients) به Veo 3.1 بدهید تا تولید ویدیو را بر اساس آن‌ها هدایت کند. تصور کنید عکس بازیگر مورد نظرتان، تصویری از یک وسیله خاص که باید در صحنه باشد، یا حتی یک نقاشی برای تعیین سبک هنری ویدیو را به هوش مصنوعی می‌دهید. این ویژگی تضمین می‌کند که شخصیت اصلی شما در نماهای مختلف، چهره یا لباس خود را تغییر ندهد. این یک جهش بزرگ برای بازاریابان (برای حفظ ثبات محصول)، انیماتورها (برای حفظ طراحی شخصیت) و داستان‌نویسان (برای قابل تشخیص ماندن قهرمان داستان) است.

Scene Extension: نمای بی‌پایان

این ویژگی به شما اجازه می‌دهد ویدیوهای طولانی‌تری بسازید. Veo 3.1 می‌تواند با تحلیل ثانیه پایانی کلیپ قبلی شما، یک کلیپ جدید و کاملاً یکپارچه به آن اضافه کند و این کار را تا جایی ادامه دهد که ویدیویی به مدت یک دقیقه یا بیشتر داشته باشید. این قابلیت مانند این است که یک کارگردان فریاد بزند: به فیلمبرداری ادامه بدید!. با این ابزار می‌توانید یک لحظه را کش دهید، یک شخصیت را دنبال کنید یا اجازه دهید یک صحنه به آرامی روایت شود، بدون آنکه با محدودیت زمانی ۸ ثانیه‌ای کلیپ‌ها مواجه شوید. این ویژگی مستقیماً یکی از بزرگترین موانع ویدیوهای هوش مصنوعی را از میان برمی‌دارد.

First and Last Frame: استاد خلق گذارها (Transitions)

شما یک تصویر برای نقطه شروع و یک تصویر برای نقطه پایان ارائه می‌دهید و Veo 3.1 تمام حرکت و گذار بین این دو را به همراه صدای هماهنگ خلق می‌کند. این ابزار مانند یک تدوینگر دیجیتال عمل می‌کند که می‌تواند یک حرکت پن (Pan) نرم، یک زوم دراماتیک یا یک تایم‌لپس زیبا را برای شما بسازد. تصور کنید عکس یک دانه و عکس یک گل آفتابگردان کامل را به آن بدهید و شاهد فرآیند کامل شکوفه زدن آن باشید. این قابلیت، کنترلی بی‌سابقه بر قوس روایی یک نما به شما می‌دهد و برای خلق نماهای معرف، صحنه‌های غافلگیرکننده و گذارهای هنری ایده‌آل است.

این سه ابزار در کنار هم، فرآیند خلق ویدیو را از یک مدل خطی دستور بده و تحویل بگیر به یک گردش کار غیرخطی و تکرارشونده، شبیه به فرآیند واقعی فیلمسازی، تبدیل می‌کنند. شما می‌توانید با Ingredients شخصیت خود را بسازید، با پرامپت اصلی صحنه را خلق کنید، با Scene Extension آن را طولانی‌تر کنید و در نهایت با First and Last Frame آن را به صحنه بعدی متصل کنید. این دقیقاً همان کاری است که یک کارگردان در اتاق تدوین انجام می‌دهد.

چگونه مانند یک حرفه‌ای با Veo 3.1 صحبت کنیم؟

کیفیت خروجی شما ارتباط مستقیمی با کیفیت ورودی دارد. کلمات شما فیلمنامه، استوری‌بورد و یادداشت‌های کارگردان هستند. برای دستیابی به نتایج شگفت‌انگیز، گوگل یک فرمول پنج‌بخشی را پیشنهاد می‌کند که مانند یک دستور پخت برای موفقیت عمل می‌کند:

[Cinematography] + [Action] + [Context]

بیایید این دستور پخت را با هم مرور کنیم. اولین بخش، Cinematography (فیلمبرداری)، جایی است که شما دستورات دوربین را صادر می‌کنید. با استفاده از اصطلاحات ساده سینمایی مانند نمای باز (Wide shot) برای نمایش کل صحنه، نمای نزدیک (Close-up) برای تمرکز بر احساسات، یا حرکت دالی (Dolly shot) برای ایجاد حرکتی نرم، به گروه دوربین مجازی خود فرمان می‌دهید. سپس نوبت به Subject (سوژه) یا بازیگر اصلی شما می‌رسد. توصیفات دقیق بسیار مهم هستند؛ به جای یک مرد، بنویسید یک کارمند خسته با پیراهنی چروک. بخش سوم، Action (کنش) یا فیلمنامه شماست که در آن باید کار سوژه را با دقت توصیف کنید؛ مثلاً به جای در حال کار کردن، بنویسید در حال ماساژ دادن شقیقه‌هایش از فرط خستگی. پس از آن، Context (زمینه) را مشخص می‌کنید که طراح صحنه شماست. باید یک تصویر واضح از مکان و زمان در ذهن هوش مصنوعی بسازید، مانند در یک دفتر شلوغ در پاسی از شب، که تنها با نور سبز یک مانیتور قدیمی روشن شده است. در نهایت، با Style & Ambiance (سبک و فضا)، حس و حال ویدیو را تعیین می‌کنید. این بخش مانند مدیر نورپردازی شما عمل می‌کند و می‌توانید فضایی مانند سبک رترو، فیلمبرداری شده انگار با یک دوربین فیلمبرداری دهه ۸۰، کمی دانه‌دانه یا فضایی غم‌انگیز با تُن‌های رنگی سرد و آبی را خلق کنید.

فراموش نکنید که دستورات صوتی را نیز مستقیماً در پرامپت خود بگنجانید. دیالوگ‌ها را داخل گیومه قرار دهید و صداهای محیطی مانند صدای وزش باد و شکستن شاخه‌ها زیر پا را توصیف کنید. تسلط بر این زبان جدید، مهارتی است که تفاوت بین یک کاربر آماتور و یک خالق حرفه‌ای را رقم می‌زند و این مقاله، اولین درس شما در این مسیر است.

دروازه ورود به دنیای Veo 3.1

حالا که با قدرت Veo 3.1 آشنا شدید و رازهای صحبت با آن را آموختید، سوال اصلی این است: چگونه به آن دسترسی پیدا کنم؟. اصلی‌ترین و بهترین راه برای کاربران عادی، تهیه اشتراک Gemini Advanced است.

اما این اشتراک را نباید تنها به عنوان هزینه دسترسی به یک ابزار دید. این یک سرمایه‌گذاری در یک اکوسیستم کامل خلاقیت و بهره‌وری است.

دسترسی به بهترین مدل هوش مصنوعی گوگل: شما دسترسی بالاتری به قدرتمندترین مدل هوش مصنوعی گوگل، یعنی Gemini 2.5 Pro، خواهید داشت که پاسخ‌های دقیق‌تر و تحلیل‌های عمیق‌تری ارائه می‌دهد.

دسترسی به Veo 3.1: این اشتراک شامل اعتبارات ماهانه برای تولید ویدیو با Veo 3.1 و مدل سریع‌تر آن یعنی Veo 3.1 Fast است که مستقیماً از طریق اپلیکیشن Gemini قابل استفاده است.

یکپارچه‌سازی با اپلیکیشن‌های گوگل: قابلیت‌های هوش مصنوعی پیشرفته در Gmail، Docs، Sheets و دیگر ابزارهای گوگل برای شما فعال می‌شود که می‌تواند در همه چیز، از نوشتن ایمیل تا تحلیل داده‌ها، به شما کمک کند.

برای شروع، می‌توانید از یک ماه اشتراک رایگان آزمایشی استفاده کنید. کافی است به صفحه اشتراک Gemini مراجعه کرده و طرح Google AI Pro را انتخاب کنید. پس از فعال‌سازی، گزینه Veo به عنوان یکی از مدل‌های در دسترس در رابط کاربری Gemini ظاهر خواهد شد.

Veo 3.1 در میدان رقابت نگاهی به رقیب اصلی، Sora 2

برای درک کامل جایگاه Veo 3.1، باید آن را در کنار رقیب اصلی‌اش، یعنی Sora 2 از شرکت OpenAI، قرار دهیم. این مقایسه، یک نبرد برای تعیین برنده مطلق نیست، بلکه داستان دو فلسفه خلاقانه متفاوت است.

قدرت Veo 3.1 - صندلی کارگردان: همانطور که دیدیم، نقطه قوت اصلی Veo 3.1 در ابزارهای کنترلی و روایی آن نهفته است. این مدل در حفظ ثبات شخصیت در نماهای مختلف، پیوستگی داستانی و درک دقیق دستورات، برتری دارد. Veo 3.1 برای پروژه‌هایی ایده‌آل است که در آن شما نیاز به روایت یک داستان مشخص و کنترل‌شده دارید. این ابزار، انتخاب یک کارگردان دقیق و وسواسی است.

قدرت Sora 2 - چشم فیلمبردار: در مقابل، Sora 2 استاد خلق واقع‌گرایی سینمایی خام و شبیه‌سازی فیزیک در یک نمای واحد است. کلیپ‌های تولید شده توسط Sora 2 اغلب از نظر فیزیکی باورپذیرتر و از نظر بصری فوتورئالیستی‌تر به نظر می‌رسند، حتی اگر کنترل کمتری بر حفظ ثبات بین کلیپ‌های مختلف ارائه دهد. این ابزار، انتخاب کسی است که می‌خواهد یک لحظه بی‌نقص و نفس‌گیر را ثبت کند.

در عمل، Sora 2 معمولاً کلیپ‌های تکی طولانی‌تری تولید می‌کند، اما دسترسی به آن محدودتر بوده است، در حالی که Veo 3.1 از طریق یک مدل اشتراک مشخص و در دسترس، در اختیار عموم قرار گرفته است.

نتیجه‌گیری برای شما به عنوان یک خالق، بازاریاب یا صاحب کسب‌وکار روشن است: اگر به تولید محتوای باثبات و همسو با برند خود، با شخصیت‌ها یا محصولات مشخص نیاز دارید، تمرکز Veo 3.1 بر کنترل و پیوستگی، آن را به گزینه‌ای عملی‌تر و قدرتمندتر برای گردش کار شما تبدیل می‌کند.

آینده داستان‌سرایی در دستان شماست

سفر از Veo 3 که صدا را به ویدیوهای هوش مصنوعی آورد، تا Veo 3.1 که جعبه ابزار کارگردانی را به ما هدیه داد، نشان می‌دهد که این فناوری دیگر یک سرگرمی نوظهور نیست؛ بلکه یک ابزار خلاقانه مشروع و قدرتمند است. اکنون شما این قدرت را در دستان خود دارید که با کلماتتان، داستان‌های بصری را کارگردانی، تدوین و خلق کنید.

دیگر رویاپردازی کافی است. زمان خلق کردن فرا رسیده است. گروه فیلمسازی شما منتظر است و تنها چیزی که نیاز دارید، نوشتن اولین خط فیلمنامه است. کار با اکانت Gemini Advanced را شروع کنید و کارگردان درون خود را بیدار کنید.