اخبار هوش مصنوعی در 2025-08-12

مدل‌های جدید هوش مصنوعی

  • آنتروپیک اعلام کرد Claude Sonnet 4 اکنون از یک میلیون توکن زمینه در API پشتیبانی می‌کند—افزایشی ۵ برابری، که امکان پردازش بیش از ۷۵,۰۰۰ خط کد یا صدها سند را در یک درخواست فراهم می‌کند @claudeai
  • میسترال ای‌آی Mistral Medium 3.1 را معرفی کرد که با بهبود کلی عملکرد، بهبود لحن و جستجوهای هوشمندتر وب همراه است و در Le Chat به‌عنوان مدل پیش‌فرض یا از طریق API با نام 'mistral-medium-2508' قابل‌دسترس است @MistralAI
  • جان Jan-v1 را منتشر کرد، یک مدل ۴ میلیارد پارامتری برای جستجوی وب که بر پایه Qwen3-4B-Thinking ساخته شده است، با دستیابی به دقت ۹۱٪ در SimpleQA و به‌عنوان جایگزینی متن‌باز برای Perplexity Pro عمل می‌کند @jandotai
  • لیکوئید ای‌آی دو مدل جدید بینایی-زبان منتشر کرد: LFM2-VL با ۴۵۰ میلیون و ۱.۶ میلیارد پارامتر، با عملکرد ۲ برابر سریع‌تر GPU، دقت رقابتی و پشتیبانی بومی از رزولوشن ۵۱۲x۵۱۲ @ramin_m_h
  • اسکای‌ورک ای‌آی از Matrix-Game 2.0 رونمایی کرد، اولین مدل جهانی تعاملی متن‌باز، بی‌درنگ و با توالی طولانی که با سرعت ۲۵ فریم بر ثانیه اجرا می‌شود و قابلیت‌های تعاملی چنددقیقه‌ای دارد @Skywork_ai

تحلیل صنعت

  • سم آلتمن استراتژی اولویت‌بندی محاسبات اوپن‌ای‌آی را برای تقاضای GPT-5 تشریح کرد: ابتدا اطمینان از دسترسی بیشتر کاربران فعلی و پولی ChatGPT، سپس تقاضای API تا ۳۰٪ ظرفیت رشد و پس از آن بهبود لایه‌ی رایگان، با برنامه‌هایی برای دو برابر کردن ظرفیت محاسباتی طی ۵ ماه @sama
  • آیدان مک‌لافلین علیه نظریه‌های انزوای AGI استدلال می‌کند و بیان می‌کند که در بازارهای کارا، قابلیت‌های سرمایه یک ابرمجموعه‌ی قابلیت‌های هوش هستند و شرکت‌ها همیشه باید محصولات را بفروشند تا بودجه‌ی پژوهش را حفظ کنند @aidan_mclau
  • آنتروپیک موانع هزینه‌ای دسترسی به Claude را برای هر سه قوه‌ی دولت ایالات متحده برداشته است، که این، گسترده‌ترین دسترسی دستیار هوش مصنوعی برای کارکنان فدرال تا به امروز را رقم می‌زند @AnthropicAI
  • ایتان مولیک تفاوت‌های عملکرد قابل‌توجهی را برای یک مدل GPT بسته به ارائه‌دهنده‌ی میزبانی مشاهده کرده است، به‌طوری که Azure و AWS در مقایسه با سایر میزبان‌ها عملکرد پایین‌تری از خود نشان می‌دهند، و پیشنهاد می‌کند که شرکت‌ها باید در استراتژی‌های میزبانی خود بازنگری کنند @emollick
  • کلر وو گزارش می‌دهد که کاربران GPT-5 را بین ۲۲ تا ۳۶ درصد کمتر از GPT-4.1 ترجیح می‌دهند، به‌دلیل کندتر بودن، پرگویی بیشتر و محبوبیت کمتر، که اهمیت آزمایش کاربر را فراتر از ارزیابی‌های دستی برجسته می‌کند @clairevo
  • تک‌کرانچ گزارش می‌دهد که برنامه‌های همراه هوش مصنوعی در مسیر تولید ۱۲۰ میلیون دلار درآمد در سال ۲۰۲۵ هستند، که نشان‌دهنده‌ی رشد قابل‌توجه بازار در بخش همراهی هوش مصنوعی است @TechCrunch

اخلاق و جامعه

  • فرانسوا شوله توضیح می‌دهد که چرا مدل‌های پیشرفته‌ی بینایی-زبان کنونی، علی‌رغم قابلیت‌های فوق‌بشری در متن و بینایی به‌صورت جداگانه، عملکرد ضعیفی دارند، و این را به کمبود نسبی جفت‌های تصویر-متن در مقایسه با هوش ترکیبی انسانی که نیاز به نمونه‌برداری داده‌ی متراکم ندارد، نسبت می‌دهد @fchollet
  • ایتان مولیک هشدار می‌دهد که با استفاده‌ی یک میلیارد نفر از چت‌بات‌های هوش مصنوعی به روش‌های غیرمنتظره که می‌توانند از موانع ایمنی عبور کنند، داستان‌های عجیب و بالقوه نگران‌کننده‌ای برای سال‌ها پدیدار خواهند شد @emollick
  • ایتان مولیک یک مشکل مداوم در LLMها را برجسته می‌کند: عملکرد خوب آن‌ها در سؤالات پزشکی استاندارد، اما افت عملکرد هنگام جایگزینی پاسخ‌های صحیح با «هیچ‌کدام از موارد بالا»، اگرچه مدل‌های اخیر افت‌های کمتری نشان می‌دهند @emollick

کاربردها

  • جردن سینگر Cobot را در مرحله‌ی بتا راه‌اندازی کرد، یک فضای کاری جدید که به جای تب‌ها توسط عوامل (agents) قدرت می‌گیرد و شامل برنامه‌های iOS و وب با قابلیت کشف عوامل (agent discovery) مشابه اپ‌استور و پشتیبانی از MCPها است @jsngr
  • گوگل قابلیت Storybook را برای کاربران Gemini در وب و موبایل به بیش از ۴۵ زبان راه‌اندازی کرد، که به کاربران امکان می‌دهد داستان‌های تعاملی بسازند @GeminiApp
  • گرگلی اوروس یک مورد استفاده‌ی چشمگیر برای Claude Code به اشتراک گذاشت: حذف موفقیت‌آمیز تمام محصولات ادوبی از یک مک، که قابلیت‌های اتوماسیون عملی را نشان می‌دهد @GergelyOrosz
  • بن بلومِنروز در مورد خدمات هوش مصنوعی برای تحلیل فایل‌های MRI و نظرات ثانویه پرس‌وجو می‌کند، که کاربردهای بالقوه‌ی هوش مصنوعی پزشکی را برجسته می‌کند @benblumenrose
  • کلر وو نحوه‌ی استفاده از Devin AI را برای بررسی درخواست‌های Pull (PR review)، به‌ویژه برای مسائل مربوط به دسترسی به داده‌ها و کوئری‌ها، نشان می‌دهد، که نیاز به درخواست کمک از همکاران برای بازبینی کد را از بین می‌برد @clairevo
  • Qwen ارتقاء قابلیت‌های پژوهش عمیق خود را اعلام کرد، شامل گزارش‌های هوشمندتر، جستجوی عمیق‌تر، کاهش توهم (hallucination)، ابزارهای ماژولار با اجرای موازی و پشتیبانی از ورودی چندوجهی @Alibaba_Qwen

پژوهش‌ها

  • ایتان مولیک پژوهشی را به اشتراک گذاشت که نشان می‌دهد GPT-4o در کارهای نوشتاری خلاقانه، هنگامی که با زمینه و تصادفی بودن تحریک می‌شود، به اندازه‌ی انسان‌ها متنوع می‌نویسد، که فرضیات مبنی بر اینکه هوش مصنوعی خروجی خلاقانه را همگن می‌کند، نقض می‌کند @emollick
  • ناتان لمبرت اشاره می‌کند که Claude احتمالاً از مقیاس‌بندی محاسبات در زمان آزمایش (test-time compute scaling) استفاده می‌کند اما آن را از کاربران پنهان نگه می‌دارد، و آن را در طیف مقیاس‌بندی بین طرز فکر GPT-4o و GPT-5 قرار می‌دهد @natolambert
  • ناتان لمبرت مشاهده می‌کند که GPT-OSS حتی در بنچمارک‌هایی که نیاز به فراخوانی مستقیم ابزار دارند، عملکرد ضعیفی از خود نشان می‌دهد، به‌طوری که DeepSeek V3 در CORE-Bench امتیاز ۱۸٪ کسب می‌کند در حالی که GPT-OSS تنها ۱۱٪ می‌گیرد @sayashk
  • مایکروسافت ریسرچ Dion را معرفی کرد، روش جدیدی برای بهینه‌سازی مدل‌های هوش مصنوعی که با اورتونرمال‌سازی تنها زیرمجموعه‌ای از بردارهای منفرد با رتبه‌ی بالا، مقیاس‌پذیری و عملکرد را افزایش می‌دهد و آموزش کارآمدتر مدل‌های بزرگ مانند LLaMA-3 را امکان‌پذیر می‌سازد @MSFTResearch
  • پژوهش هوش مصنوعی برکلی الگوریتم MOTORCYCLE 1.0 را معرفی کرد که به ربات‌های دومنظوره با ردیاب‌های کابل یادگرفته‌شده امکان می‌دهد کابل‌ها را در تنظیمات تولیدی مشابه استانداردهای NIST مسیردهی کنند @kavish_kondap
  • پژوهش Stanford HAI به بررسی استفاده از هوش مصنوعی برای ایجاد نقشه‌های بهتر برای بازمعرفی سگ آبی می‌پردازد که می‌تواند هم برای انسان‌ها و هم برای طبیعت مفید باشد، به رهبری لوون وان، پژوهشگر فوق‌دکتری @StanfordHAI
  • پای‌تورچ اعلام کرد Opacus اکنون از دقت مختلط و پایین (mixed and low precision) برای آموزش مدل خصوصی تفاضلی (differentially private model training) پشتیبانی می‌کند، که امکان توان عملیاتی بالاتر و اندازه‌های دسته‌ی بزرگ‌تر را برای آموزش مدل‌های زبان بزرگ فراهم می‌آورد @PyTorch
  • پای‌تورچ گزارش می‌دهد که Torch-TensorRT می‌تواند FLUX-1 Dev را تا ۲.۴ برابر با تنها یک خط کد تسریع کند، با استفاده از کوانتیزاسیون FP8 و پشتیبانی LoRA برای اوج عملکرد GPU @PyTorch