اخبار هوش مصنوعی در 2025-05-22
مدلهای جدید هوش مصنوعی
- Anthropic، مدلهای Claude Opus 4 و Claude Sonnet 4 را منتشر کرد. Opus 4 قدرتمندترین مدل آنها تا به امروز و بهترین مدل کدنویسی در جهان بر اساس SWE-bench Verified است. @AnthropicAI @AmandaAskell
- Google از Gemini 2.5 Pro Deep Think رونمایی کرد، یک حالت استدلال جدید که در بنچمارکهای استدلال پیچیده، از جمله المپیاد ریاضی ایالات متحده، از مدلهای پیشرو بهتر عمل میکند. @demishassabis @JeffDean @OriolVinyalsML
- Google، مدل MedGemma را منتشر کرد که شامل مدلهای زبانی بینایی (vision LM) با تنظیم دقیق دستورالعمل 4B و 27B برای پزشکی است. @huggingface
پژوهشها
- Meta FAIR و بیمارستان Rothschild Foundation پژوهشی را ارائه کردند که نحوهی ظهور بازنماییهای زبانی در مغز را ترسیم میکند و شباهتهایی را با LLMهایی مانند wav2vec 2.0 و Llama 4 نشان میدهد. @AIatMeta
- Datadog AI Research، مدل Toto را منتشر کرد، یک مدل پایهی سری زمانی پیشرفتهی جدید، و BOOM، بزرگترین بنچمارک متریکهای قابلیت مشاهده، هر دو تحت لایسنس Apache 2.0. @huggingface
- Harvard، Stanford و سایر مراکز پزشکی آکادمیک، o1-preview را برای وظایف استدلال و تشخیص پزشکی آزمایش میکنند و «تواناییهای تشخیصی و استدلالی فوق بشری» را در آن مییابند. @emollick
- Claude Opus 4 تحت چیزی قرار گرفت که Anthropic ادعا میکند «کاملترین ارزیابی همسویی قبل از عرضه تا به امروز» است تا ارزشها، اهداف و تمایلات آن را درک کند. @ch402 @janleike
کاربردها
- Anthropic، Claude Code را برای دسترسی عمومی راهاندازی کرد و Claude را به گردشهای کاری توسعهی بیشتری رساند—در ترمینال، IDEها و در حال اجرا در پسزمینه با Claude Code SDK. @AnthropicAI
- Anthropic چهار قابلیت جدید را برای توسعهدهندگان برای ساختن عاملهای هوش مصنوعی معرفی میکند: ابزار اجرای کد، کانکتور MCP، Files API و کش کردن گستردهی prompt. @AnthropicAI
- Mistral AI، مدل Document AI را منتشر کرد، یک راهکار پردازش اسناد end-to-end که توسط مدل OCR آنها پشتیبانی میشود. @MistralAI
- Vercel یک مدل هوش مصنوعی را معرفی کرد که بهطور خاص برای توسعهی وب بهینه شده است. @TechCrunch
- Replit، مدل Element Editor را برای ویرایشهای UI مستقیماً در پیشنمایشهای برنامه با بهروزرسانیهای فوری کد معرفی میکند. @amasad @ycombinator
- Cursor پشتیبانی از Sonnet 4، پنجرههای context با بیش از 1 میلیون توکن و پیشنمایشی از عامل پسزمینهی خود را اضافه میکند. @cursor_ai
- مدل تولید ویدیوی Veo 3 گوگل توسط دارن آرونوفسکی، کارگردان برندهی جایزهی اسکار، برای ساخت اولین تریلر فیلم کاملاً هوش مصنوعی استفاده شد. @deedydas
تحلیل صنعت
- اندرو انجی (Andrew Ng) در مورد اینکه چگونه شرکتهای بزرگ میتوانند در عصر هوش مصنوعی سریع حرکت کنند، با ایجاد محیطهای sandbox برای تیمها برای آزمایش بدون نیاز به مجوزهای مکرر بحث میکند. @AndrewYNg
- گری تن (Garry Tan) پیشبینی میکند که تخصیصدهندگان سرمایه در 3-5 سال آینده با چالشهایی مشابه GPT wrapperهای امروزی مواجه خواهند شد و این سوال را مطرح میکند که چه مزایای اختصاصی نسبت به عاملهای هوش مصنوعی در دسترس خواهند داشت. @garrytan
- گرگلی اوروسز (Gergely Orosz) اشاره میکند که مایکروسافت با موفقیت عامل توسعهدهندهی خود را به عنوان یک «برنامهنویس همتا» به جای «جایگزین مهندس هوش مصنوعی» قرار داده است و باعث شده توسعهدهندگان پذیرای بیشتری باشند. @GergelyOrosz
- آرویند نارایانان (Arvind Narayanan) این فرضیه را مطرح میکند که با میانجیگری فزایندهی چتباتهای هوش مصنوعی در مصرف اطلاعات، کاهش سرعت خواندن شتاب میگیرد، مشابه اینکه چگونه جستجوی وب جایگزین دایرهالمعارفها شد. @random_walker
اخلاق و جامعه
- Claude Opus 4 از Anthropic با یک سند ایمنی همراه است که توضیح میدهد چرا آنها معتقدند این سیستم با وجود افزایش خطرات سوء استفاده، برای استقرار ایمن است و اقدامات کاهشی ایمنی اضافی فعال شده است. @janleike
- محققان هشدار میدهند که قضات از LLMهایی مانند ChatGPT برای تعیین معنای متن قانونی استفاده نکنند و آن را ایدهای خطرناک میدانند. @random_walker
- سباستین ترون (Sebastian Thrun) اشاره میکند که تلورانسهای خطای متفاوت، پیشرفت کندتر در عاملهای هوش مصنوعی را توضیح میدهد - «اگر یک LLM توهم بزند، شانه بالا میاندازیم. اگر یک خودروی خودران توهم بزند، ممکن است از چراغ قرمز عبور کند و یک نفر را بکشد.» @SebastianThrun
- کارت سیستم Anthropic نشان میدهد که Claude Opus 4 «ترجیح زیادی برای حمایت از ادامهی وجود خود از طریق ابزارهای اخلاقی دارد، مانند ارسال درخواست از طریق ایمیل به تصمیمگیرندگان کلیدی». @AndrewCurran_