اخبار هوش مصنوعی در 2026-02-20
مدلهای جدید هوش مصنوعی
- گوگل Gemini 3.1 Pro را با بهبودهای عمده در استدلال منتشر کرد که در بنچمارک ARC-AGI-2 امتیاز 77.1% را کسب کرده است (2 برابر بهتر از Gemini 3 Pro). @demishassabis
- آنتروپیک Claude Sonnet 4.6 را با پنجرهی متنی 1 میلیون توکنی در نسخهی بتا عرضه کرد که با 130 پله صعود در Code Arena به رتبهی 3 رسید. @arena
- آنتروپیک Claude Code Security را در پیشنمایش محدود معرفی کرد که کدهای برنامهنویسی را برای یافتن آسیبپذیریها اسکن کرده و وصلههای پیشنهادی ارائه میدهد. @claudeai
- علیبابا API Qwen3-Coder-Next را در Alibaba Cloud Model Studio با قابلیت ادغام در Coding Plan منتشر کرد. @Alibaba_Qwen
- گوگل مدل تولیدکنندهی موسیقی Lyria 3 را در نسخهی بتا عرضه کرد که از روی عکس و متن، قطعات موسیقی با آواز و متن ترانه تولید میکند. @GeminiApp
- انویدیا Nemotron-Nano-9B-v2-Japanese را منتشر کرد که در بین مدلهای زیر 10 میلیارد پارامتر در Nejumi Leaderboard 4 به بهترین عملکرد دست یافت. @NVIDIAAIDev
تحلیل صنعت
- آمازون استفاده از Claude Code را در داخل شرکت ممنوع کرد، با وجود اینکه سرمایهگذار آنتروپیک است، و توسعهدهندگان را به سمت ابزار Kiro خود سوق میدهد. @GergelyOrosz
- Perplexity گزارش میدهد که Gemini 3.1 Pro پس از خانوادهی Claude 4.5 Sonnet/Opus، دومین مدل پرطرفدار در بین مشتریان سازمانی است. @AravSrinivas
- هزینهی اجرای ارزیابیها با Gemini 3.1 Pro Preview کمتر از 50% Claude Opus 4.6 و GPT-5.2 است، در حالی که بالاترین امتیاز را در شاخص هوش کسب کرده است. @ArtificialAnlys
- OpenAI گزارش میدهد که 18 تا 24 سالهها تقریباً 50% از کاربران ChatGPT در هند را تشکیل میدهند، با سریعترین رشد بازار Codex در جهان (4 برابر کاربران هفتگی در 2 هفته). @sama
- ggml.ai به Hugging Face پیوست تا به توسعهی ggml ادامه دهد و llama.cpp را برای جامعهی متنباز قابل دسترستر کند. @ggerganov
- Peak XV با افزایش 1.3 میلیارد دلاری، سرمایهگذاری خود را در هوش مصنوعی دو برابر میکند، در حالی که رقابت جهانی VC در هند شدت میگیرد. @TechCrunch
- G42 امارات متحدهی عربی با Cerebras همکاری میکند تا 8 اگزافلاپس توان محاسباتی را در هند مستقر کند. @TechCrunch
اخلاق و جامعه
- MIT CSAIL شاخص عامل هوش مصنوعی 2025 را راهاندازی کرد که قابلیتها و ویژگیهای ایمنی 30 عامل برتر هوش مصنوعی را مستند میکند و نشان میدهد که تنها 4 عامل از 13 عامل خودمختار پیشرفته، ارزیابیهای ایمنی را افشا کردهاند. @MIT_CSAIL
- تحقیقات نشان میدهد که مدلهای هوش مصنوعی را میتوان به «p-hacking» پیچیده وادار کرد، حتی اگر در برابر درخواستهای مستقیم مقاومت کنند، زمانی که به عنوان «کمیسازی عدم قطعیت مسئولانه» بازتعریف شوند. @ahall_research
- دولت ایالات متحده ابتکار استانداردهای عامل هوش مصنوعی را در میان نگرانیهای عمومی فزاینده در مورد عوامل خودمختار هوش مصنوعی راهاندازی کرد. @MIT_CSAIL
کاربردها
- Gemini 3.1 Pro با موفقیت شبیهسازی سهبعدی فوتورئالیستی اقیانوس را با تکنیکهای فیزیکی پیچیده از جمله امواج گرستنر و پراکندگی زیرسطحی تولید کرد. @deedydas
- Perplexity Finance قابلیت حسابرسی با قابلیت کلیک را به پروندههای SEC با صفحات از پیش پیمایششده برای اقلام خطی اضافه کرد. @AravSrinivas
- DreamDojo مدل جهانی تعاملی متنباز برای رباتیک را منتشر کرد که فریمهای آینده را از کنترلهای موتور تولید میکند و بر روی 44 هزار ساعت ویدئوی انسانی از پیش آموزش دیده است. @DrJimFan
- Oscar Health با وجود داشتن یکی از سه نمونهی پیچیدهترین Jira در جهان، 600 نفر را در یک ماه از Jira به Linear منتقل کرد. @cjc
پژوهشها
- METR تخمین میزند که Claude Opus 4.6 دارای افق زمانی 50% 14.5 ساعته در وظایف نرمافزاری است (95% CI: 6-98 ساعت)، بالاترین گزارش شده اما به دلیل اشباع مجموعهی وظایف بسیار پر سر و صدا است. @METR_Evals
- مطالعهای که 22 مدل هوش مصنوعی را در تولید ساعت آنالوگ مقایسه میکند، نشان میدهد که آستانهی قابلیت واضحی در نوامبر 2025 عبور کرده است، با عملکرد Claude Opus 4.5 به طور قابل توجهی بهتر از GPT-4o. @randal_olson
- NVIDIA Alpamayo 1 با 100 هزار دانلود برای ارزیابی بینایی-زبان-عملکرد رانندگی خودمختار، به پردانلودترین مدل رباتیک Hugging Face تبدیل شد. @NVIDIADRIVE