اخبار هوش مصنوعی در 2026-02-20

مدل‌های جدید هوش مصنوعی

گوگل Gemini 3.1 Pro را با بهبودهای عمده در استدلال منتشر کرد که در بنچمارک ARC-AGI-2 امتیاز 77.1% را کسب کرده است (2 برابر بهتر از Gemini 3 Pro). @demishassabis
آنتروپیک Claude Sonnet 4.6 را با پنجره‌ی متنی 1 میلیون توکنی در نسخه‌ی بتا عرضه کرد که با 130 پله صعود در Code Arena به رتبه‌ی 3 رسید. @arena
آنتروپیک Claude Code Security را در پیش‌نمایش محدود معرفی کرد که کدهای برنامه‌نویسی را برای یافتن آسیب‌پذیری‌ها اسکن کرده و وصله‌های پیشنهادی ارائه می‌دهد. @claudeai
علی‌بابا API Qwen3-Coder-Next را در Alibaba Cloud Model Studio با قابلیت ادغام در Coding Plan منتشر کرد. @Alibaba_Qwen
گوگل مدل تولیدکننده‌ی موسیقی Lyria 3 را در نسخه‌ی بتا عرضه کرد که از روی عکس و متن، قطعات موسیقی با آواز و متن ترانه تولید می‌کند. @GeminiApp
انویدیا Nemotron-Nano-9B-v2-Japanese را منتشر کرد که در بین مدل‌های زیر 10 میلیارد پارامتر در Nejumi Leaderboard 4 به بهترین عملکرد دست یافت. @NVIDIAAIDev

تحلیل صنعت

آمازون استفاده از Claude Code را در داخل شرکت ممنوع کرد، با وجود اینکه سرمایه‌گذار آنتروپیک است، و توسعه‌دهندگان را به سمت ابزار Kiro خود سوق می‌دهد. @GergelyOrosz
Perplexity گزارش می‌دهد که Gemini 3.1 Pro پس از خانواده‌ی Claude 4.5 Sonnet/Opus، دومین مدل پرطرفدار در بین مشتریان سازمانی است. @AravSrinivas
هزینه‌ی اجرای ارزیابی‌ها با Gemini 3.1 Pro Preview کمتر از 50% Claude Opus 4.6 و GPT-5.2 است، در حالی که بالاترین امتیاز را در شاخص هوش کسب کرده است. @ArtificialAnlys
OpenAI گزارش می‌دهد که 18 تا 24 ساله‌ها تقریباً 50% از کاربران ChatGPT در هند را تشکیل می‌دهند، با سریع‌ترین رشد بازار Codex در جهان (4 برابر کاربران هفتگی در 2 هفته). @sama
ggml.ai به Hugging Face پیوست تا به توسعه‌ی ggml ادامه دهد و llama.cpp را برای جامعه‌ی متن‌باز قابل دسترس‌تر کند. @ggerganov
Peak XV با افزایش 1.3 میلیارد دلاری، سرمایه‌گذاری خود را در هوش مصنوعی دو برابر می‌کند، در حالی که رقابت جهانی VC در هند شدت می‌گیرد. @TechCrunch
G42 امارات متحده‌ی عربی با Cerebras همکاری می‌کند تا 8 اگزافلاپس توان محاسباتی را در هند مستقر کند. @TechCrunch

اخلاق و جامعه

MIT CSAIL شاخص عامل هوش مصنوعی 2025 را راه‌اندازی کرد که قابلیت‌ها و ویژگی‌های ایمنی 30 عامل برتر هوش مصنوعی را مستند می‌کند و نشان می‌دهد که تنها 4 عامل از 13 عامل خودمختار پیشرفته، ارزیابی‌های ایمنی را افشا کرده‌اند. @MIT_CSAIL
تحقیقات نشان می‌دهد که مدل‌های هوش مصنوعی را می‌توان به «p-hacking» پیچیده وادار کرد، حتی اگر در برابر درخواست‌های مستقیم مقاومت کنند، زمانی که به عنوان «کمی‌سازی عدم قطعیت مسئولانه» بازتعریف شوند. @ahall_research
دولت ایالات متحده ابتکار استانداردهای عامل هوش مصنوعی را در میان نگرانی‌های عمومی فزاینده در مورد عوامل خودمختار هوش مصنوعی راه‌اندازی کرد. @MIT_CSAIL

کاربردها

Gemini 3.1 Pro با موفقیت شبیه‌سازی سه‌بعدی فوتورئالیستی اقیانوس را با تکنیک‌های فیزیکی پیچیده از جمله امواج گرستنر و پراکندگی زیرسطحی تولید کرد. @deedydas
Perplexity Finance قابلیت حسابرسی با قابلیت کلیک را به پرونده‌های SEC با صفحات از پیش پیمایش‌شده برای اقلام خطی اضافه کرد. @AravSrinivas
DreamDojo مدل جهانی تعاملی متن‌باز برای رباتیک را منتشر کرد که فریم‌های آینده را از کنترل‌های موتور تولید می‌کند و بر روی 44 هزار ساعت ویدئوی انسانی از پیش آموزش دیده است. @DrJimFan
Oscar Health با وجود داشتن یکی از سه نمونه‌ی پیچیده‌ترین Jira در جهان، 600 نفر را در یک ماه از Jira به Linear منتقل کرد. @cjc

پژوهش‌ها

METR تخمین می‌زند که Claude Opus 4.6 دارای افق زمانی 50% 14.5 ساعته در وظایف نرم‌افزاری است (95% CI: 6-98 ساعت)، بالاترین گزارش شده اما به دلیل اشباع مجموعه‌ی وظایف بسیار پر سر و صدا است. @METR_Evals
مطالعه‌ای که 22 مدل هوش مصنوعی را در تولید ساعت آنالوگ مقایسه می‌کند، نشان می‌دهد که آستانه‌ی قابلیت واضحی در نوامبر 2025 عبور کرده است، با عملکرد Claude Opus 4.5 به طور قابل توجهی بهتر از GPT-4o. @randal_olson
NVIDIA Alpamayo 1 با 100 هزار دانلود برای ارزیابی بینایی-زبان-عملکرد رانندگی خودمختار، به پردانلودترین مدل رباتیک Hugging Face تبدیل شد. @NVIDIADRIVE