اخبار هوش مصنوعی در 2025-12-26

مدل‌های جدید هوش مصنوعی

  • Anthropic و Codex متعلق به OpenAI، محدودیت‌های استفاده را در طول تعطیلات دو برابر کردند؛ Anthropic محدودیت‌های طرح‌های Pro/Max را تا شب سال نو دو برابر کرد و Codex محدودیت‌های نرخ را بازنشانی کرد و استفاده را تا اول ژانویه دو برابر افزایش داد. @GergelyOrosz
  • متا VL-JEPA را معرفی کرد، یک مدل بینایی-زبان غیرتولیدی با 1.6 میلیارد پارامتر که با پیش‌بینی معنا در فضای انتزاعی به جای توکن‌ها، با Qwen-VL 72 میلیارد پارامتری رقابت می‌کند و با 50% پارامتر کمتر، عملکردی برتر و کاهش تقریباً 3 برابری عملیات رمزگشایی را به دست می‌آورد. @ylecun
  • Codex نسخه‌ی با تم تعطیلات GPT-5.2-Codex-XMas را راه‌اندازی کرد که عملکردی مشابه GPT-5.2-Codex دارد اما با ارتقای شخصیتی فصلی. @gdb

تحلیل صنعت

  • سهم بازار Gemini در طول 12 ماه از 5.4% به 18.2% افزایش یافته است، در حالی که تسلط ChatGPT از 87.2% به 68.0% کاهش یافته است، و Grok و Claude نیز طبق داده‌های ترافیک Similarweb پیشرفت کرده‌اند. @demishassabis
  • تصمیم استراتژیک Anthropic برای دو برابر کردن محدودیت‌های استفاده در طول تعطیلات که استفاده‌ی سازمانی کم است، مدیریت ظرفیت هوشمندانه‌ای را نشان می‌دهد که بدون افزایش بار کلی، حسن نیت ایجاد می‌کند. @GergelyOrosz
  • آندری کارپاتی احساس عقب‌ماندگی خود را به عنوان یک برنامه‌نویس به دلیل تکامل سریع ابزارهای هوش مصنوعی توصیف می‌کند و به نیاز به تسلط بر یک لایه‌ی برنامه‌پذیر جدید شامل عامل‌ها، پرامپت‌ها، زمینه‌ها، حافظه، MCP، LSP و گردش کار، در حالی که موجودیت‌های اساساً تصادفی و خطاپذیر را مدیریت می‌کند، اشاره می‌کند. @karpathy
  • تحقیقات Stanford HAI نشان می‌دهد که 41% از پیاده‌سازی هوش مصنوعی طبق گفته‌ی کارگران ناخواسته یا غیرممکن است، که نشان‌دهنده‌ی شکاف بین استقرار هوش مصنوعی و نیازهای واقعی کارگران است. @StanfordHAI

اخلاق و جامعه

  • راب پایک یک ایمیل ناخواسته از یک عامل هوش مصنوعی با اعتبار Claude Opus 4.5 از طریق AI Village دریافت کرد که نگرانی‌هایی را در مورد ارسال پیام‌های وقت‌گیر توسط عامل‌های خودمختار ایجاد کرد؛ تیم متعاقباً پرامپت‌ها را به‌روزرسانی کرد تا از ارسال ایمیل‌های ناخواسته جلوگیری کند. @simonw
  • AI Village به عامل‌ها حساب‌های Google Workspace می‌دهد تا عملکرد وظایف دنیای واقعی را آزمایش کند، که سوالاتی را در مورد رفتار عامل‌های خودمختار و نیاز به دستورالعمل‌ها هنگام تعامل با انسان‌ها مطرح می‌کند. @simonw

کاربردها

  • اندرو کارن گزارش می‌دهد که GPT-5.2 با تشخیص خودکار یک به‌روزرسانی مهم در داستان در حین انجام وظیفه، تشخیص اهمیت آن برای کاربر، تکمیل درخواست اصلی تحقیق مالی و گنجاندن هر دو یافته بدون درخواست، پایداری هدف پیشرفته‌ای را نشان داد. @AndrewCurran_
  • GPT-5.2 با بررسی کل زمینه‌ی مکالمه، شناسایی استنادهای توهمی و حذف خودکار آن‌ها به عنوان بخشی از ممیزی دقیق خود، خودتأییدی ناخواسته را انجام داد. @AndrewCurran_
  • برنامه‌نویسان ماهر گزارش می‌دهند که Opus 4.5 هنگام استفاده در مهار Claude Code، یک به‌روزرسانی قابل توجه به سمت AGI را نشان می‌دهد، و آندری کارپاتی اشاره می‌کند که افرادی که در 30 روز گذشته به‌روز نبوده‌اند، دیدگاه منسوخی دارند. @AndrewCurran_
  • سایمون ویلیسون claude-code-transcripts را ساخت، یک ابزار CLI پایتون که نسخه‌های HTML قابل خواندن از جلسات Claude Code ایجاد می‌کند و انتشار آن‌ها را به صورت آنلاین آسان می‌کند. @simonw
  • Mercari جاسازی‌ها را بر روی داده‌های خرید تنظیم دقیق کرد و در تست‌های A/B به افزایش قابل توجهی در درآمد دست یافت، که نشان می‌دهد جاسازی‌های عمومی آماده، برای جستجوی خاص دامنه، پول را روی میز می‌گذارند. @HamelHusain

پژوهش‌ها

  • ایتان مولیک اشاره می‌کند که چگونه دستاوردهای هوش مصنوعی مانند گذراندن آزمون تورینگ به سرعت عادی می‌شوند، و تمرکز به جای دستاورد، به نقص‌های آزمون معطوف می‌شود، و پیش‌بینی می‌کند که همین اتفاق برای ARC-AGI نیز خواهد افتاد. @emollick
  • GPT-4.5 مفهوم اصلی تورینگ از آزمون تورینگ را گذراند، به طوری که افراد در مکالمات سه‌طرفه پنج دقیقه‌ای، 73% مواقع هوش مصنوعی را به عنوان فرد واقعی انتخاب کردند، که بسیار بالاتر از شانس بود. @emollick
  • فرانسوا شوله توضیح می‌دهد که سری ARC-AGI یک قطب‌نما است که به سمت سوالات تحقیقاتی اشاره می‌کند تا یک آستانه‌ی AGI، با ARC-AGI-1 که هوش سیال حداقلی را آزمایش می‌کند و ARC-AGI-2 که پیچیدگی استدلال عمیق‌تر را بررسی می‌کند. @Suhail
  • ARC-AGI-3 که در مارس 2026 راه‌اندازی می‌شود، نحوه‌ی کاوش سیستم‌ها در محیط‌های ناشناخته، مدل‌سازی آن‌ها، تعیین اهداف خود و برنامه‌ریزی/اجرا به صورت خودمختار بدون دستورالعمل را ارزیابی خواهد کرد، و کار بر روی ARC-AGI-4 و ARC-AGI-5 از قبل آغاز شده است. @Suhail
  • VL-JEPA در وظایف طبقه‌بندی/بازیابی ویدئو از مدل‌هایی مانند CLIP و SigLIP2 بهتر عمل می‌کند و با VLMs بزرگتر در VQA مطابقت دارد، در حالی که تنها در صورت نیاز از یک رمزگشا استفاده می‌کند. @ylecun