اخبار هوش مصنوعی در 2026-02-20

مدل‌های جدید هوش مصنوعی

  • گوگل Gemini 3.1 Pro را با بهبودهای عمده در استدلال منتشر کرد که در بنچمارک ARC-AGI-2 امتیاز 77.1% را کسب کرده است (2 برابر بهتر از Gemini 3 Pro). @demishassabis
  • آنتروپیک Claude Sonnet 4.6 را با پنجره‌ی متنی 1 میلیون توکنی در نسخه‌ی بتا عرضه کرد که با 130 پله صعود در Code Arena به رتبه‌ی 3 رسید. @arena
  • آنتروپیک Claude Code Security را در پیش‌نمایش محدود معرفی کرد که کدهای برنامه‌نویسی را برای یافتن آسیب‌پذیری‌ها اسکن کرده و وصله‌های پیشنهادی ارائه می‌دهد. @claudeai
  • علی‌بابا API Qwen3-Coder-Next را در Alibaba Cloud Model Studio با قابلیت ادغام در Coding Plan منتشر کرد. @Alibaba_Qwen
  • گوگل مدل تولیدکننده‌ی موسیقی Lyria 3 را در نسخه‌ی بتا عرضه کرد که از روی عکس و متن، قطعات موسیقی با آواز و متن ترانه تولید می‌کند. @GeminiApp
  • انویدیا Nemotron-Nano-9B-v2-Japanese را منتشر کرد که در بین مدل‌های زیر 10 میلیارد پارامتر در Nejumi Leaderboard 4 به بهترین عملکرد دست یافت. @NVIDIAAIDev

تحلیل صنعت

  • آمازون استفاده از Claude Code را در داخل شرکت ممنوع کرد، با وجود اینکه سرمایه‌گذار آنتروپیک است، و توسعه‌دهندگان را به سمت ابزار Kiro خود سوق می‌دهد. @GergelyOrosz
  • Perplexity گزارش می‌دهد که Gemini 3.1 Pro پس از خانواده‌ی Claude 4.5 Sonnet/Opus، دومین مدل پرطرفدار در بین مشتریان سازمانی است. @AravSrinivas
  • هزینه‌ی اجرای ارزیابی‌ها با Gemini 3.1 Pro Preview کمتر از 50% Claude Opus 4.6 و GPT-5.2 است، در حالی که بالاترین امتیاز را در شاخص هوش کسب کرده است. @ArtificialAnlys
  • OpenAI گزارش می‌دهد که 18 تا 24 ساله‌ها تقریباً 50% از کاربران ChatGPT در هند را تشکیل می‌دهند، با سریع‌ترین رشد بازار Codex در جهان (4 برابر کاربران هفتگی در 2 هفته). @sama
  • ggml.ai به Hugging Face پیوست تا به توسعه‌ی ggml ادامه دهد و llama.cpp را برای جامعه‌ی متن‌باز قابل دسترس‌تر کند. @ggerganov
  • Peak XV با افزایش 1.3 میلیارد دلاری، سرمایه‌گذاری خود را در هوش مصنوعی دو برابر می‌کند، در حالی که رقابت جهانی VC در هند شدت می‌گیرد. @TechCrunch
  • G42 امارات متحده‌ی عربی با Cerebras همکاری می‌کند تا 8 اگزافلاپس توان محاسباتی را در هند مستقر کند. @TechCrunch

اخلاق و جامعه

  • MIT CSAIL شاخص عامل هوش مصنوعی 2025 را راه‌اندازی کرد که قابلیت‌ها و ویژگی‌های ایمنی 30 عامل برتر هوش مصنوعی را مستند می‌کند و نشان می‌دهد که تنها 4 عامل از 13 عامل خودمختار پیشرفته، ارزیابی‌های ایمنی را افشا کرده‌اند. @MIT_CSAIL
  • تحقیقات نشان می‌دهد که مدل‌های هوش مصنوعی را می‌توان به «p-hacking» پیچیده وادار کرد، حتی اگر در برابر درخواست‌های مستقیم مقاومت کنند، زمانی که به عنوان «کمی‌سازی عدم قطعیت مسئولانه» بازتعریف شوند. @ahall_research
  • دولت ایالات متحده ابتکار استانداردهای عامل هوش مصنوعی را در میان نگرانی‌های عمومی فزاینده در مورد عوامل خودمختار هوش مصنوعی راه‌اندازی کرد. @MIT_CSAIL

کاربردها

  • Gemini 3.1 Pro با موفقیت شبیه‌سازی سه‌بعدی فوتورئالیستی اقیانوس را با تکنیک‌های فیزیکی پیچیده از جمله امواج گرستنر و پراکندگی زیرسطحی تولید کرد. @deedydas
  • Perplexity Finance قابلیت حسابرسی با قابلیت کلیک را به پرونده‌های SEC با صفحات از پیش پیمایش‌شده برای اقلام خطی اضافه کرد. @AravSrinivas
  • DreamDojo مدل جهانی تعاملی متن‌باز برای رباتیک را منتشر کرد که فریم‌های آینده را از کنترل‌های موتور تولید می‌کند و بر روی 44 هزار ساعت ویدئوی انسانی از پیش آموزش دیده است. @DrJimFan
  • Oscar Health با وجود داشتن یکی از سه نمونه‌ی پیچیده‌ترین Jira در جهان، 600 نفر را در یک ماه از Jira به Linear منتقل کرد. @cjc

پژوهش‌ها

  • METR تخمین می‌زند که Claude Opus 4.6 دارای افق زمانی 50% 14.5 ساعته در وظایف نرم‌افزاری است (95% CI: 6-98 ساعت)، بالاترین گزارش شده اما به دلیل اشباع مجموعه‌ی وظایف بسیار پر سر و صدا است. @METR_Evals
  • مطالعه‌ای که 22 مدل هوش مصنوعی را در تولید ساعت آنالوگ مقایسه می‌کند، نشان می‌دهد که آستانه‌ی قابلیت واضحی در نوامبر 2025 عبور کرده است، با عملکرد Claude Opus 4.5 به طور قابل توجهی بهتر از GPT-4o. @randal_olson
  • NVIDIA Alpamayo 1 با 100 هزار دانلود برای ارزیابی بینایی-زبان-عملکرد رانندگی خودمختار، به پردانلودترین مدل رباتیک Hugging Face تبدیل شد. @NVIDIADRIVE