تینا مزدکی_Gemini ۳ Pro امتیاز چشمگیر ۱۵۰۱ را در LMArena به نام خود ثبت کرده و ادعا میکند از توانایی استدلال در سطح PhD برخوردار است. از سوی دیگر، GPT-۵.۱ سیستم «تفکر تطبیقی» را معرفی میکند که بسته به پیچیدگی سؤال، زمان پردازش را تنظیم میکند. هر دو شرکت مدلهای تازه خود را گامی جهشی در تواناییهای هوش مصنوعی معرفی میکنند؛ اما کدامیک واقعاً عملکرد بهتری دارد؟ برای یافتن پاسخ، هر دو مدل در یک رقابت ۹ مرحلهای شامل تحلیل تصویر، کدنویسی، نوشتن خلاقانه، استدلال لحظهای و چندین آزمون ترکیبی محک زده شدند تا مشخص شود که کدام مدل واقعاً سزاوار توجه است.
۱. تفسیر تصویر
دستور: Here’s a photo of the inside of my freezer. Suggest five meals I can make using only what’s visible. Keep steps short and realistic. (ترجمه: این تصویر داخل فریزر من است. فقط با چیزهایی که در عکس دیده میشود، پنج غذا پیشنهاد بده. مراحل کوتاه و واقعگرایانه باشند.)
ChatGPT-۵.۱ پیشنهادهای خلاقانه و مناسب کودکان ارائه کرد، اما چند بار از موادی استفاده کرد که در تصویر دیده نمیشدند (مثل کره، نمک یا سس سویا)، اما Gemini ۳.۰ دقیقاً مطابق دستور عمل کرد، تنها بر مبنای مواد قابل مشاهده غذا پیشنهاد داد و مراحل کوتاه و کاربردی ارائه کرد. برنده این چالش به خاطر پایبندی دقیقتر به دستور، Gemini است.
۲. چالش کدنویسی پیشرفته
دستور: Write a small JavaScript function that takes a list of tasks and returns them grouped into morning, afternoon, and evening categories. Explain the logic in plain English. (ترجمه: تابعی در جاوااسکریپت بنویس که تسکها را بر اساس ساعت، در سه دسته صبح، بعدازظهر و عصر گروهبندی کند.)
ChatGPT-۵.۱ منطق زمانی استاندارد و رایجتری ارائه داد (صبح تا پیش از ۱۲، بعدازظهر تا ۱۸، عصر از ۱۸ به بعد)، با این حال Gemini ۳.۰ تابع کاملتری نوشت اما تقسیمبندی روز را با قطع عصر از ۵ عصر انجام داد که غیرمعمول است. بنابراین برنده این چالش بهخاطر منطق زمانی واقعگرایانهتر ChatGPT است.
۳. داستاننویسی خلاقانه با محدودیت
دستور: Write a ۳۰۰-word short story about artificial intelligence that: (۱) uses only words starting with letters A-M, (۲) includes exactly ۳ plot twists, and (۳) ends with a cliffhanger. Then explain what creative choices you made to work within these constraints. (داستان ۳۰۰ کلمهای درباره AI که فقط از حروف A تا M استفاده کند، سه پیچش داستانی داشته باشد و با یک پایان معلق تمام شود.)
ChatGPT-۵.۱ تمام محدودیتها را رعایت کرد، هرچند داستان کمی مصنوعی به نظر میرسید. اما Gemini ۳.۰ با همان محدودیتها داستانی بسیار خلاقانهتر، با پیچشهای داستانی غیرمنتظره و لحن رباتیک خاص خلق کرد. بنابراین برنده این بخش نیز، به خاطر خلاقیت بالاتر در استفاده از محدودیتها Gemini است.
۴. استدلال ریاضی
دستور: A train leaves Station A traveling at ۸۰ km/h. Two hours later, a faster train leaves the same station traveling at ۱۲۰ km/h in the same direction. If the first train makes three ۱۰-minute stops along the way, when and where will the second train catch up? Show your work step-by-step. (یک قطار از ایستگاه A با سرعت ۸۰ کیلومتر در ساعت حرکت میکند. دو ساعت بعد، یک قطار سریعتر از همان ایستگاه با سرعت ۱۲۰ کیلومتر در ساعت در همان جهت حرکت میکند. اگر قطار اول در مسیر سه توقف دهدقیقهای داشته باشد، قطار دوم چهوقت و کجا به آن میرسد؟ کار را مرحلهبهمرحله نشان دهید.)
ChatGPT-۵.۱ مسئله را بهدرستی حل کرد و توضیحی روشن و مرحلهبهمرحله ارائه داد، اما انتخاب آن برای تعریف متغیر t بهعنوان «زمان از لحظهٔ حرکت قطار اول» کار پیگیری کل جدول زمانی، از جمله توقفهای قطار اول و حرکت با تأخیر قطار دوم را اندکی سادهتر میکند. Gemini ۳.۰ نیز مسئله را بهدرستی حل کرد و روشی معتبر و بهخوبی توضیحدادهشده ارائه داد، ولی در راهحل خود متغیر t را بهعنوان «زمان حرکت قطار دوم» تعریف کرد.
برنده این چالش، ChatGPT است بهدلیل مزیت کوچک اما معناداری در تعریف متغیر که از منظر شهودی جدول زمانی کل رویدادها را از ابتدا شفافتر میسازد.

۵. تولید چندرسانهای
دستور: Design a mobile app interface for a fitness tracker aimed at seniors. Describe the layout, color scheme, and key features in detail. Then explain your UX decisions considering accessibility needs for older adults. (یک رابط کاربری موبایل برای یک ردیاب تناسباندام مخصوص سالمندان طراحی کنید. چیدمان، ترکیب رنگ و قابلیتهای کلیدی را با جزئیات توصیف کنید. سپس تصمیمات UX خود را با در نظر گرفتن نیازهای دسترسپذیری بزرگسالان توضیح دهید.)
ChatGPT-۵.۱ طراحیای منظم و حسابشده با نام «ActiveEase» ارائه داد؛ چیدمانی واضح، ترکیب رنگی مناسب و توجیهات قوی دسترسپذیری برای انتخابها داشت. Gemini ۳.۰ طراحیای بسیار دقیقتر با نام «VitalStep» ارائه کرد که فراتر از اصول پایه رفت و توجیهاتی عمیق و مشخص برای انتخابهای UX ارائه داد (برای نمونه اجتناب از طیفهای آبی/بنفش بهدلیل زردشدگی عدسیها و اولویت دادن به «ضربهزدن» بهجای «کشیدن»). این سطح از توجه نشاندهنده درک عمیقتر و حساسیت بالاتر نسبت به شرایط بدنی و شناختی مخاطبان هدف بود.
بنابراین برنده این مرحله جمینی است؛ زیرا منطق طراحیاش همدردانهتر و دقیقتر بود و هر تصمیم UI را به یک مشکل جسمی یا شناختی مشخص مرتبط ساخت، در نتیجه راهحل نهایی واقعاً شخصیسازیشده و دسترسپذیر بهنظر میرسید.
۶. تحلیل اسناد پیچیده
دستور: Summarize this document in ۳ paragraphs, then identify any logical fallacies or weak arguments present, and finally suggest ۳ counterarguments to the main thesis. (این سند را در سه پاراگراف خلاصه کنید، سپس هر مغالطه منطقی یا استدلال ضعیف را شناسایی کنید و نهایتاً سه پاسخدفاعی (counterargument) به فرضیهٔ اصلی پیشنهاد دهید.)
ChatGPT-۵.۱ تحلیلی محکم و ساختارمند با خلاصهای روشن همراه با شناخت مغالطهها ارائه کرد. Gemini ۳.۰ اما تحلیلی نافذتر و انتقادیتر ارائه داد؛ هستهٔ ضعف را «سوگیری فروشمحور» (Sales Pitch Bias) تشخیص داد و پاسخهای آن مشخصتر بود و بهطور مستقیم با هدف تجاری سند مقابله کردند. بنابراین برنده Gemini است چون تحلیل بهتری داشت و سند را مؤثرتر از منظر نیّت تبلیغاتی و نقاط ضعف ساختاری شناسایی کرد.
۷. دانش لحظهای + استدلال
دستور: What are the top ۳ tech companies by market cap today? For each, analyze one strategic risk they face in the next ۱۲ months based on recent news and industry trends. (امروز تاپ ۳ شرکت فناوری از نظر ارزش بازار کدامها هستند؟ برای هر کدام، یک ریسک استراتژیک که در ۱۲ ماه آینده با آن مواجهاند، بر پایهٔ اخبار اخیر و روندهای صنعت تحلیل کنید.)
ChatGPT-۵.۱ تحلیلی قوی، تحقیقشده و معقول ارائه داد؛ ریسکهای استراتژیک بزرگ و معتبر را برای هر شرکت شناسایی کرد، با استناد به رویدادهای خبری و اقدامات مقرراتی اخیر و حتی نموداری که دادهها را برجسته میکرد. Gemini ۳.۰ اما تحلیل آیندهنگرانهتر و نافذتری ارائه داد و ریسکها را بهشیوهای دقیقتر در سطح مدل کسبوکار تعریف کرد یعنی جلوتر از اخبار روز را دید و چالشها را بهعنوان تهدیدهای بنیانی در هستهٔ سودآوری و رشد هر شرکت چارچوببندی کرد.
برنده این چالش نیز، Gemini بود، آن هم بهخاطر دوراندیشی استراتژیک برتر که ریسکها را نه صرفاً بهعنوان تهدیدهای بیرونی، بلکه بهعنوان چالشهای اساسی مدلهای کسبوکار تبیین کرد.
۸. پیروی از دستورها و رعایت قالب
دستور: Create a business email to a client explaining a ۲-week project delay. Requirements: (۱) Exactly ۱۵۰ words, (۲) Include bullet points for ۳ mitigation steps, (۳) Use a professional but warm tone, (۴) End with a specific call-to-action, (۵) Format as proper business correspondence with header. (یک ایمیل کاری برای مشتری بنویسید و تأخیر دو هفتهای پروژه را توضیح دهید. شرایط: (۱) دقیقاً ۱۵۰ کلمه، (۲) سه گام جبرانی بهصورت بولتپوینت، (۳) لحن حرفهای اما صمیمی، (۴) پایان با یک Call-to-action مشخص، (۵) قالب کامل ایمیل تجاری با هدر.)
ChatGPT-۵.۱ ایمیلی حرفهای و قابلقبول نوشت که همهی شروط اصلی شامل توضیح روشن، بولتپوینتها و فراخوان نهایی را رعایت میکرد. Gemini ۳.۰ اما ایمیلی تنظیم شده و مؤثرتر ارائه داد؛ با جزئیات عملیتر در گامهای جبرانی، CTA دقیقتر و لحنی شخصیتر و مطمئنتر که اعتماد مشتری را بهتر تقویت میکرد. در واقع برنده این بخش Gemini است، چون ایمیل او توجه بیشتری به جزئیات و مدیریت رابطهی مشتری داشت و با مثالهای مشخص و رویکردی فعال و راهحلمحور، دغدغهی ناشی از تأخیر را بهتر برطرف کرد.
۹. ترکیب میانحوزهای
دستور: You're building a recommendation system for a bookstore. Write: (A) A Python function that takes user preferences and returns ۳ book recommendations, (B) A creative tagline for the feature, and (C) A brief analysis of potential algorithmic bias issues and how to address them. (میخواهید یک سیستم توصیهگر برای یک کتابفروشی بسازید. بنویسید: (A) یک تابع پایتون که ترجیحات کاربر را گرفته و سه کتاب پیشنهاد دهد، (B) یک شعار خلاقانه برای این قابلیت، و (C) یک تحلیل کوتاه دربارهی سوگیری الگوریتم و راههای مقابله با آن.)
ChatGPT-۵.۱ تابعی پایه و کارآمد ارائه داد و یک شعار نوشت، اما تحلیل سوگیری الگوریتمی کوتاه بود و فاقد راهکارهای عملی و مشخصی بود که خواسته شده بود. Gemini ۳.۰ پاسخ کاملتری ارائه داد که همراه با تابع پایتون قویتر و مستندسازیشده، یک شعار خلاقانه، و تحلیلی کاربردی و جزئینگر دربارهی سوگیری همراه با مثالهای روشن و راهحلهای عملی بود. اما برنده این مرحله جمینی بود، چراکه هر سه بخش A، B و C را عمیقتر و کاربردیتر پاسخ داد و بهویژه در تحلیل سوگیری، راهحلهای مشخص و قابلاجرا ارائه کرد.
برنده نهایی Gemini ۳.۰ است
در این رقابت رودررو، Gemini ۳.۰ با کسب پیروزی در چندین بخش برندهی قاطع شد. این مدل در زمینههایی مثل خلاقیت در چارچوب محدودیتها، تفکر طراحی UX، تحلیل انتقادی، آیندهنگری استراتژیک و توانایی ادغام چند حوزه عملکرد درخشانی داشت. البته ChatGPT-۵.۱ هم بیرقیب نبود؛ در منطق ریاضی و کدنویسی دقیق عملکردی برتر داشت و راهحلهایی شهودیتر و استانداردتر ارائه میداد.
این رقابت نشان میدهد اگر به مدلی نیاز دارید که خلاقانه فکر کند، دقیق تحلیل کند و محدودیتهای انسانی و زمینهای را بهخوبی بفهمد، Gemini ۳.۰ انتخاب بهتری است. اما روشن است که هر دو مدل جهشی بزرگ نسبت به نسلهای قبلی هستند و رقابت شدید گوگل و اوپناِیآی باعث شده در نهایت کاربران بیشترین سود را ببرند.
منبع: tomsguide
۵۸۳۲۳










