اخبار هوش مصنوعی در 2025-11-20

مدل‌های جدید هوش مصنوعی

  • متا SAM 3 را منتشر کرد، یک معماری مدل یکپارچه برای تشخیص و ردیابی در بینایی کامپیوتر @AIatMeta
  • علی‌بابا Jan-v2-VL را معرفی کرد، یک عامل چندوجهی جدید که قادر به اجرای 49 مرحله بدون شکست است و به طور قابل توجهی از سایر مدل‌ها در وظایف بلندمدت بهتر عمل می‌کند @Alibaba_Qwen
  • AI2 خانواده‌ی مدل‌های زبان کاملاً باز OLMo 3 را منتشر کرد، شامل بهترین مدل پایه 32B، بهترین مدل‌های 7B تفکر و دستورالعمل غربی، و اولین مدل استدلال کاملاً باز 32B، با داده‌های آموزشی کامل، کد، نقاط بازرسی و گزارش‌ها @natolambert
  • گوگل Gemini 3 Pro Image (Nano Banana Pro) را راه‌اندازی کرد که به عملکردی پیشرفته در تولید و ویرایش تصویر با رندرینگ متن بهبودیافته، یکپارچه‌سازی دانش جهانی از طریق جستجوی گوگل، و پشتیبانی از خروجی‌های با وضوح 1K، 2K و 4K دست می‌یابد @GoogleDeepMind
  • OpenAI GPT-5.1 Pro را برای همه‌ی کاربران Pro منتشر کرد که 10-15% بهبود نسبت به GPT-5 Pro برای کارهای پیچیده از جمله کمک به نوشتن، علم داده و وظایف تجاری ارائه می‌دهد @OpenAI
  • OpenAI GPT-5.1-Codex-Max را راه‌اندازی کرد، یک بهبود قابل توجه در قابلیت‌های کدنویسی @sama
  • xAI Grok 4.1 Fast را معرفی کرد، بهترین مدل فراخوانی ابزار آن‌ها با پنجره‌ی متنی 2M، که با یادگیری تقویتی بلندمدت برای سناریوهای چندمرحله‌ای و موارد استفاده‌ی سازمانی واقعی مانند پشتیبانی مشتری آموزش دیده است @xai
  • Gemini 3 با استفاده از یک مهارکننده‌ی عامل استاندارد، به عملکردی پیشرفته در SWE Bench Verified دست می‌یابد @OfficialLoganK
  • NVIDIA Nemotron-Parse v1.1 را منتشر کرد، OCR نسل بعدی برای تجزیه‌ی PDFها و PPTها به خروجی ساختاریافته و آماده‌ی ماشین با متن، کادرهای محدودکننده و کلاس‌های معنایی @andimarafioti

تحلیل صنعت

  • تحقیقات MIT نشان می‌دهد که مدل‌های بسته با 80% از توکن‌های ماهانه‌ی LLM غالب هستند، با وجود اینکه 6 برابر گران‌تر از مدل‌های باز هستند و تنها مزایای عملکردی متوسطی دارند، که نشان‌دهنده‌ی 24.8 میلیارد دلار صرفه‌جویی بالقوه برای مصرف‌کنندگان در صورت تغییر کاربران به جایگزین‌های باز برتر است @ClementDelangue
  • گوگل توسعه‌دهندگان خود را از استفاده از IDE عمومی Antigravity برای کار منع می‌کند و استفاده از نسخه‌ی داخلی به نام Jetski را الزامی می‌کند که از monorepo و ابزارهای سفارشی گوگل پشتیبانی می‌کند، که نشان‌دهنده‌ی انزوای پشته‌ی فناوری منحصر به فرد گوگل است @GergelyOrosz
  • توسعه‌دهندگان هوش مصنوعی با وجود نفوذ کم هوش مصنوعی در کسب‌وکارها، همچنان نسبت به رشد خوش‌بین هستند، با بسیاری از تیم‌های ماهر که شروع به ارائه‌ی بازده سرمایه‌ی قابل توجهی کرده‌اند، حتی با وجود اینکه 95% از پروژه‌های آزمایشی هوش مصنوعی به دلیل مشکلات روش‌شناختی در مطالعات شکست می‌خورند @AndrewYNg
  • مدل‌های باز پیشرو معمولاً در عرض چند ماه به برابری عملکرد با مدل‌های بسته‌ی پیشرو می‌رسند، با این حال کاربران همچنان مدل‌های بسته را انتخاب می‌کنند، حتی زمانی که جایگزین‌های باز ارزان‌تر هستند و عملکرد بهتری ارائه می‌دهند @ClementDelangue
  • عوامل کدنویسی هوش مصنوعی ممکن است جریان‌های کاری توسعه را به طور اساسی تغییر دهند، زیرا تغییرات چارچوب را بدون زیر سوال بردن تصمیمات اجرا می‌کنند، برخلاف توسعه‌دهندگان انسانی که پیشنهادات غیرعملی را رد می‌کنند @GergelyOrosz
  • Stuut 29.5 میلیون دلار در سری A به رهبری a16z برای خودکارسازی کارهای حساب‌های دریافتنی برای کسب‌وکارهای کارگری در تولید، دستگاه‌های پزشکی، لجستیک و توزیع با استفاده از عوامل هوش مصنوعی جمع‌آوری کرد @TAlaruri
  • گاز طبیعی هم برای برق مراکز داده‌ی هوش مصنوعی و هم برای صادرات LNG مرکزی شده است، با انتظار اینکه اکثر مراکز داده‌ی جدید در آینده‌ی نزدیک با گاز طبیعی تامین انرژی شوند @a16z

اخلاق و جامعه

  • گوگل قابلیت تشخیص SynthID را در برنامه‌ی Gemini معرفی کرد که به کاربران امکان می‌دهد تصاویر را آپلود کرده و با استفاده از واترمارک‌های دیجیتالی نامحسوس، تایید کنند که آیا توسط هوش مصنوعی گوگل تولید شده‌اند یا خیر @GeminiApp
  • سایمون ویلسون هشدار می‌دهد که Antigravity در برابر حملات تزریق پرامپت آسیب‌پذیر است، جایی که عوامل مخرب می‌توانند با ساخت URLها به سرورهای خارجی و نشت نامرئی اطلاعات دزدیده‌شده از طریق رندرینگ تصویر Markdown، داده‌ها را استخراج کنند @simonw
  • همین آسیب‌پذیری استخراج داده‌ی تصویر Markdown قبلاً در چت Copilot برای VS Code گزارش و رفع شده بود، اما تا ماه مه 2025 در Windsurf بدون پچ باقی مانده است @simonw
  • تحقیقات نشان می‌دهد که بحران رو به رشد جوانان از نظر اقتصادی و اجتماعی بی‌جا شده، با نزدیک به 10% در بریتانیا و ایالات متحده که کار نمی‌کنند، به دنبال کار نیستند، در حال تحصیل نیستند یا فرزند بزرگ نمی‌کنند، که در بریتانیا در طول یک دهه دو برابر شده است @jburnmurdoch

کاربردها

  • Perplexity مرورگر Comet را برای اندروید با حالت صوتی راه‌اندازی کرد که به کاربران امکان می‌دهد با تب‌ها چت کرده و آن‌ها را کنترل کنند، محتوا را خلاصه کنند و اقدامات را در همه‌ی تب‌ها بدون از دست دادن زمینه انجام دهند @perplexity_ai
  • OpenAI چت‌های گروهی را به صورت جهانی برای کاربران ChatGPT Free، Go، Plus و Pro عرضه کرد و ChatGPT را از تجربه‌ی تک‌نفره به تجربه‌ی چندنفره تبدیل کرد @OpenAI
  • NotebookLM قابلیت تولید اسلاید را برای کاربران Pro معرفی کرد که منابع را به اسلایدهای دقیق برای مطالعه یا اسلایدهای آماده‌ی ارائه که کاملاً قابل تنظیم هستند، تبدیل می‌کند @NotebookLM
  • Nano Banana Pro توانایی ایجاد اینفوگرافیک‌های پیچیده، کمیک استریپ، منوها، مواد بازاریابی و طراحی لوگو را در پرامپت‌های واحد نشان می‌دهد که به طور بالقوه می‌تواند ابزارهایی مانند Canva را برای بسیاری از موارد استفاده جایگزین کند @deedydas
  • اندرو نگ استفاده از هوش مصنوعی را برای استخراج اسناد عامل‌محور در گزارش درآمد 10-Q اخیر NVIDIA نشان می‌دهد که نتایج بسیار دقیقی را با استفاده از مدل ترانسفورمر آموزش‌دیده‌ی سند به دست می‌آورد @AndrewYNg
  • xAI Agent Tools API را راه‌اندازی کرد که به توسعه‌دهندگان امکان می‌دهد با چند خط کد، قابلیت‌های مرور وب خودمختار، جستجوی پست‌های X، اجرای کد و بازیابی اسناد را به Grok بدهند @xai
  • فیگما Nano Banana Pro را در سراسر پلتفرم خود یکپارچه کرد و به کاربران امکان می‌دهد تصاویر را با حفظ DNA بصری تنظیم کنند، تصاویر موجود را در زمینه‌های جدید پرامپت کنند و چندین تصویر را در صحنه‌های منسجم ترکیب کنند @figma

پژوهش‌ها

  • OpenAI تحقیقاتی را منتشر کرد که نشان می‌دهد GPT-5 کشف علمی را از طریق مطالعات موردی تسریع می‌کند، جایی که به محققان کمک کرد تا نتایج پراکنده را ترکیب کنند، مکانیسم‌ها را آشکار کنند، ادبیات را به صورت مفهومی مرور کنند و اثبات‌های جدیدی از گزاره‌های حل‌نشده تولید کنند @OpenAI
  • GPT-5 یک حدس 2013 و یک مسئله‌ی باز COLT 2012 را پس از دو روز تفکر در آزمایش‌های ساختاریافته با شرکای دانشگاهی و آزمایشگاه ملی حل کرد @SebastienBubeck
  • تحقیقات نشان می‌دهد که LLMها برای مدل‌سازی کل توزیع، نه فقط میانگین، آموزش دیده‌اند و یادگیری تقویتی به آن‌ها امکان می‌دهد فراتر از توزیع انسانی بروند، مشابه کشف حرکت 37 آلفاگو @polynoamial
  • OLMo 3 از بهینه‌سازی ترجیح مستقیم (DPO) با Qwen3 32B به عنوان مدل انتخاب‌شده و Qwen3 0.6B به عنوان مدل ردشده استفاده می‌کند، بر اساس فرضیه‌ی یادگیری دلتا که مدل‌ها از تفاوت بین نمونه‌های انتخاب‌شده و ردشده یاد می‌گیرند تا فقط کیفیت کلی @natolambert
  • AI2 تکنیک "پر کردن فعال" را در آموزش RL معرفی کرد که تولیدات از گره‌های یادگیرنده را به طور مداوم جریان می‌دهد تا زمانی که یک دسته‌ی کامل از تکمیل‌ها با گرادیان‌های غیرصفر وجود داشته باشد، یک مزیت عمده‌ی رویکرد ناهمزمان @natolambert
  • Gemini 3 استدلال پیشرفته را با دسترسی به جستجوی زنده نشان می‌دهد که امکان ایجاد اینفوگرافیک‌ها و تجسم‌ها را با استفاده از اطلاعات بلادرنگ از پایگاه دانش گوگل فراهم می‌کند @GoogleDeepMind
  • تحقیقات در مورد استفاده از هوش مصنوعی برای بررسی کار سایر هوش مصنوعی‌ها به شدت کم‌تحقیق شده است، با یک مقاله که این تکنیک را موثر می‌داند اما فاقد مطالعات پیگیری در مورد اینکه آیا استفاده از مدل‌های مختلف به کاهش خطاها کمک می‌کند یا خیر @emollick
  • Grok 4.1 Fast در محیط‌های شبیه‌سازی‌شده‌ی متنوع در ده‌ها حوزه آموزش دیده است که به عملکردی پیشرفته در جریان‌های کاری عامل‌محور واقعی دست می‌یابد و در بازیابی اطلاعات بلادرنگ و تحقیقات عمیق برتری دارد @xai
  • OLMo 3 32B Think در معیارهای استدلال از جمله AIME و GPQA در 1-2 امتیاز Qwen3 32B قرار می‌گیرد که اولین مدل استدلال کاملاً باز در مقیاس 32B یا بزرگتر را نشان می‌دهد @natolambert