اخبار هوش مصنوعی در 2025-12-26
مدلهای جدید هوش مصنوعی
- Anthropic و Codex متعلق به OpenAI، محدودیتهای استفاده را در طول تعطیلات دو برابر کردند؛ Anthropic محدودیتهای طرحهای Pro/Max را تا شب سال نو دو برابر کرد و Codex محدودیتهای نرخ را بازنشانی کرد و استفاده را تا اول ژانویه دو برابر افزایش داد. @GergelyOrosz
- متا VL-JEPA را معرفی کرد، یک مدل بینایی-زبان غیرتولیدی با 1.6 میلیارد پارامتر که با پیشبینی معنا در فضای انتزاعی به جای توکنها، با Qwen-VL 72 میلیارد پارامتری رقابت میکند و با 50% پارامتر کمتر، عملکردی برتر و کاهش تقریباً 3 برابری عملیات رمزگشایی را به دست میآورد. @ylecun
- Codex نسخهی با تم تعطیلات GPT-5.2-Codex-XMas را راهاندازی کرد که عملکردی مشابه GPT-5.2-Codex دارد اما با ارتقای شخصیتی فصلی. @gdb
تحلیل صنعت
- سهم بازار Gemini در طول 12 ماه از 5.4% به 18.2% افزایش یافته است، در حالی که تسلط ChatGPT از 87.2% به 68.0% کاهش یافته است، و Grok و Claude نیز طبق دادههای ترافیک Similarweb پیشرفت کردهاند. @demishassabis
- تصمیم استراتژیک Anthropic برای دو برابر کردن محدودیتهای استفاده در طول تعطیلات که استفادهی سازمانی کم است، مدیریت ظرفیت هوشمندانهای را نشان میدهد که بدون افزایش بار کلی، حسن نیت ایجاد میکند. @GergelyOrosz
- آندری کارپاتی احساس عقبماندگی خود را به عنوان یک برنامهنویس به دلیل تکامل سریع ابزارهای هوش مصنوعی توصیف میکند و به نیاز به تسلط بر یک لایهی برنامهپذیر جدید شامل عاملها، پرامپتها، زمینهها، حافظه، MCP، LSP و گردش کار، در حالی که موجودیتهای اساساً تصادفی و خطاپذیر را مدیریت میکند، اشاره میکند. @karpathy
- تحقیقات Stanford HAI نشان میدهد که 41% از پیادهسازی هوش مصنوعی طبق گفتهی کارگران ناخواسته یا غیرممکن است، که نشاندهندهی شکاف بین استقرار هوش مصنوعی و نیازهای واقعی کارگران است. @StanfordHAI
اخلاق و جامعه
- راب پایک یک ایمیل ناخواسته از یک عامل هوش مصنوعی با اعتبار Claude Opus 4.5 از طریق AI Village دریافت کرد که نگرانیهایی را در مورد ارسال پیامهای وقتگیر توسط عاملهای خودمختار ایجاد کرد؛ تیم متعاقباً پرامپتها را بهروزرسانی کرد تا از ارسال ایمیلهای ناخواسته جلوگیری کند. @simonw
- AI Village به عاملها حسابهای Google Workspace میدهد تا عملکرد وظایف دنیای واقعی را آزمایش کند، که سوالاتی را در مورد رفتار عاملهای خودمختار و نیاز به دستورالعملها هنگام تعامل با انسانها مطرح میکند. @simonw
کاربردها
- اندرو کارن گزارش میدهد که GPT-5.2 با تشخیص خودکار یک بهروزرسانی مهم در داستان در حین انجام وظیفه، تشخیص اهمیت آن برای کاربر، تکمیل درخواست اصلی تحقیق مالی و گنجاندن هر دو یافته بدون درخواست، پایداری هدف پیشرفتهای را نشان داد. @AndrewCurran_
- GPT-5.2 با بررسی کل زمینهی مکالمه، شناسایی استنادهای توهمی و حذف خودکار آنها به عنوان بخشی از ممیزی دقیق خود، خودتأییدی ناخواسته را انجام داد. @AndrewCurran_
- برنامهنویسان ماهر گزارش میدهند که Opus 4.5 هنگام استفاده در مهار Claude Code، یک بهروزرسانی قابل توجه به سمت AGI را نشان میدهد، و آندری کارپاتی اشاره میکند که افرادی که در 30 روز گذشته بهروز نبودهاند، دیدگاه منسوخی دارند. @AndrewCurran_
- سایمون ویلیسون claude-code-transcripts را ساخت، یک ابزار CLI پایتون که نسخههای HTML قابل خواندن از جلسات Claude Code ایجاد میکند و انتشار آنها را به صورت آنلاین آسان میکند. @simonw
- Mercari جاسازیها را بر روی دادههای خرید تنظیم دقیق کرد و در تستهای A/B به افزایش قابل توجهی در درآمد دست یافت، که نشان میدهد جاسازیهای عمومی آماده، برای جستجوی خاص دامنه، پول را روی میز میگذارند. @HamelHusain
پژوهشها
- ایتان مولیک اشاره میکند که چگونه دستاوردهای هوش مصنوعی مانند گذراندن آزمون تورینگ به سرعت عادی میشوند، و تمرکز به جای دستاورد، به نقصهای آزمون معطوف میشود، و پیشبینی میکند که همین اتفاق برای ARC-AGI نیز خواهد افتاد. @emollick
- GPT-4.5 مفهوم اصلی تورینگ از آزمون تورینگ را گذراند، به طوری که افراد در مکالمات سهطرفه پنج دقیقهای، 73% مواقع هوش مصنوعی را به عنوان فرد واقعی انتخاب کردند، که بسیار بالاتر از شانس بود. @emollick
- فرانسوا شوله توضیح میدهد که سری ARC-AGI یک قطبنما است که به سمت سوالات تحقیقاتی اشاره میکند تا یک آستانهی AGI، با ARC-AGI-1 که هوش سیال حداقلی را آزمایش میکند و ARC-AGI-2 که پیچیدگی استدلال عمیقتر را بررسی میکند. @Suhail
- ARC-AGI-3 که در مارس 2026 راهاندازی میشود، نحوهی کاوش سیستمها در محیطهای ناشناخته، مدلسازی آنها، تعیین اهداف خود و برنامهریزی/اجرا به صورت خودمختار بدون دستورالعمل را ارزیابی خواهد کرد، و کار بر روی ARC-AGI-4 و ARC-AGI-5 از قبل آغاز شده است. @Suhail
- VL-JEPA در وظایف طبقهبندی/بازیابی ویدئو از مدلهایی مانند CLIP و SigLIP2 بهتر عمل میکند و با VLMs بزرگتر در VQA مطابقت دارد، در حالی که تنها در صورت نیاز از یک رمزگشا استفاده میکند. @ylecun