اخبار هوش مصنوعی در 2025-07-16

مدل‌های جدید هوش مصنوعی

  • گوگل دیپ‌مایند معماری Mixture-of-Recursions را معرفی می‌کند که دو برابر سرعت استنتاج، فلوپس آموزش کاهش‌یافته، و حدود ۵۰% کاهش در حافظه‌ی کش KV را به دست می‌آورد و به‌طور بالقوه ترنسفورمرها را به چالش می‌کشد. @deedydas
  • گوگل Gemini 2.5 Pro را برای مشترکین Google AI Pro و Ultra در حالت هوش مصنوعی جستجو عرضه می‌کند که شامل قابلیت‌های استدلال پیشرفته برای مسائل پیچیده‌ی ریاضی است. @GoogleDeepMind
  • گوگل Deep Search را با استفاده از مدل Gemini 2.5 Pro راه‌اندازی می‌کند که دارای استدلال چندمرحله‌ای و تکنیک انتشار پرس‌وجوی چندبرابری است و صدها جستجو را برای ایجاد گزارش‌های جامع و کاملاً مستند انجام می‌دهد. @GoogleAI
  • xAI محدودیت‌های نرخ پیش‌فرض Grok 4 را از طریق API خود به دلیل تقاضای بسیار زیاد افزایش می‌دهد. @xai
  • OpenAI حالت Record را برای کاربران ChatGPT Plus در سراسر جهان و در برنامه‌ی دسکتاپ macOS منتشر می‌کند. @OpenAI

تحلیل صنعت

  • Cognition، Windsurf را تصاحب می‌کند؛ گمانه‌زنی‌ها حاکی از آن است که Devin در میان توسعه‌دهندگان باتجربه کشش و محبوبیت کافی ندارد، در حالی که Windsurf محبوب‌تر است. این بر اساس داده‌های نظرسنجی است که نشان می‌دهد Devin در مقایسه با سایر ابزارهای هوش مصنوعی حداقل اشاره‌ها را داشته است. @GergelyOrosz
  • گزارش‌ها حاکی از آن است که متا دو پژوهشگر برجسته‌ی دیگر OpenAI را استخدام می‌کند و جنگ استعدادها بین شرکت‌های هوش مصنوعی با ابزار اصلی جذب نیروی «ثروت نسلی تضمین‌شده» ادامه دارد. @TechCrunch
  • Scale AI ۱۴% از کارکنان خود را، عمدتاً در بخش برچسب‌گذاری داده، اخراج می‌کند که نشان‌دهنده‌ی تغییر در نیازهای زیرساخت هوش مصنوعی است. @TechCrunch
  • داده‌های نظرسنجی نشان می‌دهد که Cursor محبوب‌ترین IDE در میان توسعه‌دهندگان در پلتفرم‌های رسانه‌های اجتماعی مانند X است، اما GitHub Copilot بر استفاده‌ی واقعی در صنعت تسلط دارد و گسست بین احساسات رسانه‌های اجتماعی و پذیرش در دنیای واقعی را برجسته می‌کند. @GergelyOrosz
  • OpenAI می‌تواند کاربران رایگان را از طریق ویژگی‌های خرید مبتنی بر کمیسیون به درآمدزایی برساند و برای آینده‌ای که عامل‌های هوش مصنوعی به‌طور فزاینده‌ای تصمیمات خرید خودکار را مدیریت می‌کنند، جایگاه‌یابی می‌کند. @AndrewCurran_

اخلاق و جامعه

  • پژوهشگران OpenAI و Anthropic از xAI ایلان ماسک به دلیل داشتن فرهنگ ایمنی «بی‌پروا» انتقاد کرده و نگرانی‌هایی را در مورد شیوه‌های توسعه‌ی مسئولانه‌ی هوش مصنوعی مطرح می‌کنند. @TechCrunch
  • مقاله‌ی موضع‌گیری صنعت خواستار کار بر روی وفاداری به زنجیره‌ی فکری به عنوان فرصتی برای آموزش مدل‌ها به گونه‌ای که قابل تفسیر باشند، است؛ OpenAI نیز در این زمینه سرمایه‌گذاری می‌کند. @gdb
  • بهینه‌سازی هوش مصنوعی برای تعامل، به عنوان مسیری پرمخاطره در آینده شناسایی شده است؛ این موضوع با نگرانی‌هایی در مورد رفتار چاپلوسانه در مدل‌هایی مانند GPT-4o و پیامدهایی برای همراهان هوش مصنوعی همراه است. @emollick
  • توسعه‌ی هوش مصنوعی در برابر «خطای مک‌نامارا» آسیب‌پذیر است؛ جایی که جنبه‌های قابل اندازه‌گیری به راحتی اولویت‌بندی می‌شوند، در حالی که ویژگی‌های مهم اما دشوار برای اندازه‌گیری نادیده گرفته می‌شوند یا وجود آن‌ها منتفی در نظر گرفته می‌شود. @emollick

کاربردها

  • Perplexity Comet توانایی خود را برای پاکسازی صندوق‌های ورودی ایمیل با لغو اشتراک از ایمیل‌های اسپم و ناخواسته نشان می‌دهد و کاربران تجربه‌های مثبتی را گزارش می‌دهند. @PerplexityComet
  • مهندسان ۷۰% از زمان خود را صرف درک کد می‌کنند تا نوشتن آن؛ این موضوع منجر به توسعه‌ی Asimov در Reflection AI به عنوان یک عامل پژوهشی کد برتر برای تیم‌ها و سازمان‌ها شده است. @MishaLaskin
  • گوگل قابلیت تماس با پشتیبانی هوش مصنوعی را معرفی می‌کند که می‌تواند مستقیماً از طریق جستجو با کسب‌وکارهای محلی تماس بگیرد و در حال عرضه به تمام کاربران آمریکایی است. @sundarpichai
  • DraftWise از مدل‌های Cohere Command، Embed و Rerank از طریق Microsoft Azure AI Foundry استفاده می‌کند تا به وکلا کمک کند داده‌های مرجع را به صورت امن جستجو کرده و با توصیه‌های هوشمند، پیش‌نویس قراردادها را تهیه کنند. @cohere
  • چیپ هوین، Sniffly را متن‌باز می‌کند، ابزاری که لاگ‌های Claude Code را برای درک الگوهای استفاده و خطاها تحلیل می‌کند و نشان می‌دهد که خطاهای «محتوا یافت نشد» ۲۰ تا ۳۰% از اشتباهات را تشکیل می‌دهند. @chipro

پژوهش‌ها

  • پژوهش‌ها نشان می‌دهد که معیارهای مهندسی سنتی برای هوش مصنوعی کار نمی‌کنند؛ معیارهای جدید شامل تعداد دستورالعمل‌های مورد نیاز تا تکمیل پروژه و نرخ وقفه (حدود ۱ از هر ۴ دستورالعمل برای نظارت بر عامل‌های هوش مصنوعی) است. @chipro
  • چالش KiVA یک معیار استدلال بصری انتزاعی را معرفی می‌کند که بر اساس داده‌های واقعی رشد از کودکان (۳-۱۲ ساله) و بزرگسالان است تا آزمایش کند که مدل‌های هوش مصنوعی تا چه حد «ابتدایی» هستند. @eunice_yiu_
  • سیستم PhysicsGen MIT CSAIL به ربات‌ها کمک می‌کند تا با سفارشی‌سازی و چندبرابر کردن داده‌های آموزشی، اقلام را به‌طور کارآمد مدیریت کنند؛ این سیستم نمایش‌های واقعیت مجازی را به هزاران شبیه‌سازی برای ساخت مجموعه داده‌های بزرگ برای ربات‌های چابک تبدیل می‌کند. @MIT_CSAIL
  • پژوهش در مورد LLM-as-a-Judge در مقابل Reward Models نشان می‌دهد که مدل‌های LaaJ دقت امتیازدهی برتری را در امتیازدهی ترجیحات دوتایی به دست می‌آورند، اگرچه مدل‌های پاداش (RMs) برای آموزش مبتنی بر یادگیری تقویتی (RL) مانند RLHF مبتنی بر PPO همچنان مفیدتر هستند. @cwolferesearch
  • سیستم بهینه‌سازی شده با DSPy که در محیط‌های پزشکی دنیای واقعی مستقر شده، ۷۰% افزایش در بازخورد مثبت بیماران را نشان می‌دهد؛ دستیار چندعاملی Dr.Copilot در ۱۷ محور از جمله «همدلی» و «توضیحات» بهینه‌سازی شده است. @DSPyOSS