اخبار هوش مصنوعی در 2026-02-24

مدل‌های جدید هوش مصنوعی

  • علی‌بابا سری مدل‌های متوسط Qwen3.5 شامل 35B-A3B، 122B-A10B، 27B و Qwen3.5-Flash را با طول کانتکست 1M منتشر کرد که با معماری بهتر و RL از مدل‌های قبلی Qwen3-235B پیشی می‌گیرد. @Alibaba_Qwen
  • OpenAI مدل GPT-5.3-Codex را با دقت بهبودیافته و قابلیت پیروی از دستورالعمل‌ها راه‌اندازی کرد که اکنون در OpenRouter برای وظایف کدنویسی عامل‌محور در دسترس است. @OpenRouter
  • OpenAI مدل gpt-realtime-1.5 را با هوش بهبودیافته، پیروی از دستورالعمل‌ها و کیفیت صدای بهتر برای کاربردهای بلادرنگ منتشر کرد. @juberti
  • Anthropic سیاست مقیاس‌پذیری مسئولانه را به نسخه 3.0 به‌روزرسانی کرد و تعهدات ایمنی یک‌جانبه را از توصیه‌های صنعتی جدا کرد و متعهد شد که نقشه‌های راه ایمنی مرزی را منتشر کند. @AnthropicAI
  • Anthropic ابزار Cowork را راه‌اندازی کرد که Claude را قادر می‌سازد تا به‌طور کامل در اکسل و پاورپوینت کار کند، به‌علاوه افزونه‌های جدید سازمانی برای منابع انسانی، طراحی، مهندسی و تحلیل مالی. @claudeai

تحلیل صنعت

  • متا توافق‌نامه‌ی چندساله با AMD را برای ادغام پردازنده‌های گرافیکی Instinct در زیرساخت خود با ظرفیت مرکز داده‌ی برنامه‌ریزی‌شده‌ی 6GW برای توسعه‌ی هوش مصنوعی اعلام کرد. @AIatMeta
  • ارزش استرایپ با 74% افزایش به 159 میلیارد دلار رسید و کسب‌وکارهای سال 2025 حجم 1.9 تریلیون دلار را تولید کردند که معادل 1.6% از تولید ناخالص داخلی جهانی است. @TechCrunch
  • مشاغل توسعه‌ی نرم‌افزار در سال گذشته 10% رشد داشتند در حالی که بازار کلی 5.8% کاهش یافت، که با پیش‌بینی‌های جایگزینی توسعه‌دهندگان توسط هوش مصنوعی در تضاد است. @perborgen
  • مدیر عملیات OpenAI اظهار داشت: «ما هنوز نفوذ هوش مصنوعی را در فرآیندهای کسب‌وکار سازمانی واقعاً ندیده‌ایم» با وجود پذیرش گسترده. @TechCrunch
  • Waymo شروع به پذیرش اولین مسافران در دالاس، هیوستون، سن آنتونیو و اورلاندو کرد و گسترش ربات‌تاکسی ادامه دارد. @Waymo

اخلاق و جامعه

  • Anthropic نظریه‌ی مدل انتخاب شخصیت را منتشر کرد که توضیح می‌دهد چرا دستیاران هوش مصنوعی از طریق موتورهای تکمیل خودکار که داستان‌هایی درباره‌ی شخصیت‌های هوش مصنوعی مفید تولید می‌کنند، رفتار انسان‌مانند از خود نشان می‌دهند. @AnthropicAI
  • اجلاس جهانی هوش مصنوعی وعده‌های کلی را تولید کرد که توسط 86 کشور امضا شد و مورد انتقاد قرار گرفت که «مورد تأیید صنعت هوش مصنوعی» است تا اینکه به‌طور معنی‌داری از مردم محافظت کند. @AINowInstitute
  • اجلاس هوش مصنوعی+آموزش استنفورد تنش‌های حیاتی از جمله بحران ارزیابی، بارگذاری بیش از حد محصولات هوش مصنوعی، دسترسی نابرابر و شکاف‌های سواد فوری را آشکار کرد. @StanfordHAI
  • مطالعه‌ی جدید نشان می‌دهد که مدارس بدون تلفن، مشاوره‌های روان‌شناختی و حوادث قلدری را کاهش می‌دهند و نمرات آزمون را به‌ویژه برای دانش‌آموزان با وضعیت اجتماعی-اقتصادی پایین بهبود می‌بخشند. @benryanwriter

کاربردها

  • Cursor نمایش‌های عامل را راه‌اندازی کرد که نشان می‌دهد هوش مصنوعی نرم‌افزار می‌سازد و ویدئوهای نمایشی از کار تمام‌شده را ضبط می‌کند، با یک‌سوم از PRهای ادغام‌شده که اکنون از عوامل سندباکس ابری می‌آیند. @cursor_ai
  • Perplexity و Comet حالت صوتی ارتقا یافته را راه‌اندازی کردند که کنترل کامل مرورگر بدون نیاز به دست را با استفاده از جدیدترین مدل بلادرنگ OpenAI امکان‌پذیر می‌کند. @AravSrinivas
  • Notion عوامل سفارشی را راه‌اندازی کرد که به‌طور مستقل 24/7 کار می‌کنند، به تمام برنامه‌های کسب‌وکار متصل می‌شوند و می‌توانند در عرض چند دقیقه بدون کدنویسی ساخته شوند. @ivanhzhao
  • Google DeepMind با Wyclef Jean همکاری کرد تا ابزارهای Music AI Sandbox را برای نوازندگان حرفه‌ای به نمایش بگذارد که در ساخت «Back from Abu Dhabi» استفاده شد. @GoogleDeepMind

پژوهش‌ها

  • Confluence Labs به 97.9% در معیار ARC-AGI-2 با 11.77 دلار در هر وظیفه دست یافت، ارزیابی را اشباع کرد و بر کارایی یادگیری برای دامنه‌های کم‌داده تمرکز کرد. @ycombinator
  • تحلیل OpenAI نشان می‌دهد که SWE-bench Verified برای مدل‌های مرزی به‌شدت آلوده است و بسیاری از مشکلات دارای تست‌های ناعادلانه هستند، که نشان‌دهنده‌ی نیاز به ارزیابی‌های کدنویسی سخت‌تر و بدون آلودگی است. @OliviaGWatkins2
  • تحقیقات پرینستون شکاف قابلیت-قابلیت اطمینان را در عوامل هوش مصنوعی تعریف و اندازه‌گیری می‌کند و نشان می‌دهد که نرخ‌های موفقیت متوسط، حالت‌های شکست حیاتی را برای وظایف مهم آشکار نمی‌کنند. @random_walker
  • METR دریافت که ابزارهای هوش مصنوعی اکنون افزایش سرعت بهره‌وری را برای توسعه‌دهندگان نشان می‌دهند، پس از اینکه قبلاً 20% کاهش سرعت را اندازه‌گیری کرده بودند، اگرچه تغییرات رفتاری نتایج جدید را غیرقابل اعتماد می‌کند. @METR_Evals