اخبار هوش مصنوعی در 2025-05-22

مدل‌های جدید هوش مصنوعی

  • ‏Anthropic، مدل‌های Claude Opus 4 و Claude Sonnet 4 را منتشر کرد. ‏Opus 4 قدرتمندترین مدل آن‌ها تا به امروز و بهترین مدل کدنویسی در جهان بر اساس SWE-bench Verified است. @AnthropicAI @AmandaAskell
  • ‏Google از Gemini 2.5 Pro Deep Think رونمایی کرد، یک حالت استدلال جدید که در بنچمارک‌های استدلال پیچیده، از جمله المپیاد ریاضی ایالات متحده، از مدل‌های پیشرو بهتر عمل می‌کند. @demishassabis @JeffDean @OriolVinyalsML
  • ‏Google، مدل MedGemma را منتشر کرد که شامل مدل‌های زبانی بینایی (vision LM) با تنظیم دقیق دستورالعمل 4B و 27B برای پزشکی است. @huggingface

پژوهش‌ها

  • ‏Meta FAIR و بیمارستان Rothschild Foundation پژوهشی را ارائه کردند که نحوه‌ی ظهور بازنمایی‌های زبانی در مغز را ترسیم می‌کند و شباهت‌هایی را با LLMهایی مانند wav2vec 2.0 و Llama 4 نشان می‌دهد. @AIatMeta
  • ‏Datadog AI Research، مدل Toto را منتشر کرد، یک مدل پایه‌ی سری زمانی پیشرفته‌ی جدید، و BOOM، بزرگترین بنچمارک متریک‌های قابلیت مشاهده، هر دو تحت لایسنس Apache 2.0. @huggingface
  • ‏Harvard، Stanford و سایر مراکز پزشکی آکادمیک، o1-preview را برای وظایف استدلال و تشخیص پزشکی آزمایش می‌کنند و «توانایی‌های تشخیصی و استدلالی فوق بشری» را در آن می‌یابند. @emollick
  • Claude Opus 4 تحت چیزی قرار گرفت که Anthropic ادعا می‌کند «کامل‌ترین ارزیابی همسویی قبل از عرضه تا به امروز» است تا ارزش‌ها، اهداف و تمایلات آن را درک کند. @ch402 @janleike

کاربردها

  • ‏Anthropic، Claude Code را برای دسترسی عمومی راه‌اندازی کرد و Claude را به گردش‌های کاری توسعه‌ی بیشتری رساند—در ترمینال، IDEها و در حال اجرا در پس‌زمینه با Claude Code SDK. @AnthropicAI
  • ‏Anthropic چهار قابلیت جدید را برای توسعه‌دهندگان برای ساختن عامل‌های هوش مصنوعی معرفی می‌کند: ابزار اجرای کد، کانکتور MCP، Files API و کش کردن گسترده‌ی prompt. @AnthropicAI
  • ‏Mistral AI، مدل Document AI را منتشر کرد، یک راهکار پردازش اسناد end-to-end که توسط مدل OCR آن‌ها پشتیبانی می‌شود. @MistralAI
  • ‏Vercel یک مدل هوش مصنوعی را معرفی کرد که به‌طور خاص برای توسعه‌ی وب بهینه شده است. @TechCrunch
  • ‏Replit، مدل Element Editor را برای ویرایش‌های UI مستقیماً در پیش‌نمایش‌های برنامه با به‌روزرسانی‌های فوری کد معرفی می‌کند. @amasad @ycombinator
  • ‏Cursor پشتیبانی از Sonnet 4، پنجره‌های context با بیش از 1 میلیون توکن و پیش‌نمایشی از عامل پس‌زمینه‌ی خود را اضافه می‌کند. @cursor_ai
  • مدل تولید ویدیوی Veo 3 گوگل توسط دارن آرونوفسکی، کارگردان برنده‌ی جایزه‌ی اسکار، برای ساخت اولین تریلر فیلم کاملاً هوش مصنوعی استفاده شد. @deedydas

تحلیل صنعت

  • اندرو ان‌جی (Andrew Ng) در مورد اینکه چگونه شرکت‌های بزرگ می‌توانند در عصر هوش مصنوعی سریع حرکت کنند، با ایجاد محیط‌های sandbox برای تیم‌ها برای آزمایش بدون نیاز به مجوزهای مکرر بحث می‌کند. @AndrewYNg
  • گری تن (Garry Tan) پیش‌بینی می‌کند که تخصیص‌دهندگان سرمایه در 3-5 سال آینده با چالش‌هایی مشابه GPT wrapperهای امروزی مواجه خواهند شد و این سوال را مطرح می‌کند که چه مزایای اختصاصی نسبت به عامل‌های هوش مصنوعی در دسترس خواهند داشت. @garrytan
  • گرگلی اوروسز (Gergely Orosz) اشاره می‌کند که مایکروسافت با موفقیت عامل توسعه‌دهنده‌ی خود را به عنوان یک «برنامه‌نویس همتا» به جای «جایگزین مهندس هوش مصنوعی» قرار داده است و باعث شده توسعه‌دهندگان پذیرای بیشتری باشند. @GergelyOrosz
  • آرویند نارایانان (Arvind Narayanan) این فرضیه را مطرح می‌کند که با میانجی‌گری فزاینده‌ی چت‌بات‌های هوش مصنوعی در مصرف اطلاعات، کاهش سرعت خواندن شتاب می‌گیرد، مشابه اینکه چگونه جستجوی وب جایگزین دایره‌المعارف‌ها شد. @random_walker

اخلاق و جامعه

  • Claude Opus 4 از Anthropic با یک سند ایمنی همراه است که توضیح می‌دهد چرا آن‌ها معتقدند این سیستم با وجود افزایش خطرات سوء استفاده، برای استقرار ایمن است و اقدامات کاهشی ایمنی اضافی فعال شده است. @janleike
  • محققان هشدار می‌دهند که قضات از LLMهایی مانند ChatGPT برای تعیین معنای متن قانونی استفاده نکنند و آن را ایده‌ای خطرناک می‌دانند. @random_walker
  • سباستین ترون (Sebastian Thrun) اشاره می‌کند که تلورانس‌های خطای متفاوت، پیشرفت کندتر در عامل‌های هوش مصنوعی را توضیح می‌دهد - «اگر یک LLM توهم بزند، شانه بالا می‌اندازیم. اگر یک خودروی خودران توهم بزند، ممکن است از چراغ قرمز عبور کند و یک نفر را بکشد.» @SebastianThrun
  • کارت سیستم Anthropic نشان می‌دهد که Claude Opus 4 «ترجیح زیادی برای حمایت از ادامه‌ی وجود خود از طریق ابزارهای اخلاقی دارد، مانند ارسال درخواست از طریق ایمیل به تصمیم‌گیرندگان کلیدی». @AndrewCurran_