اخبار هوش مصنوعی در 2025-08-10

مدل‌های جدید هوش مصنوعی

  • xAI اعلام کرد Grok 4 اکنون برای همه‌ی کاربران در سراسر جهان با محدودیت‌های استفاده‌ی سخاوتمندانه‌، از طریق Auto mode routing یا Expert mode selection رایگان است @xai
  • ایلان ماسک اعلام کرد که مدل پایه‌ی V7 تسلا پیش‌آموزش خود را به پایان رسانده است. این مدل از پردازش چندوجهی بومی بیت‌جریان‌های ویدیویی/صوتی بدون نیاز به تبدیل پشتیبانی می‌کند و امکان درک ظرافت‌های گفتار را برای تشخیص حالات و تاکید فراهم می‌آورد @elonmusk
  • دمیس هاسابیس از گوگل ادعا می‌کند که Veo3 بهترین مدل ویدیویی در جهان است و اکنون در اپلیکیشن Gemini در دسترس قرار دارد @demishassabis
  • OpenAI برای اولین بار در پنج سال گذشته دو مدل متن‌باز جدید منتشر کرد که نشان‌دهنده‌ی یک تغییر مهم در رویکرد آن‌هاست @TechCrunch
  • مدل Qwen-Image فشرده شده تا در ۸ گام اجرا شود و تقریباً همان کیفیت تصویر را با بیش از ۵۰ درصد کاهش نیاز به محاسبات ارائه می‌دهد @angrypenguinPNG

تحلیل صنعت

  • سم آلتمن افزایش قابل توجهی در استفاده از مدل‌های استدلالی گزارش می‌دهد: کاربران رایگان از کمتر از ۱٪ به ۷٪ و کاربران پلاس (Plus) از ۷٪ به ۲۴٪ رسیدند که نشان‌دهنده‌ی پذیرش فزاینده‌ی قابلیت‌های پیشرفته‌ی هوش مصنوعی است @sama
  • صندوق متمرکز بر هوش مصنوعی لئوپولد آشنبرنر تا به امروز در سال جاری عملکرد بهتری نسبت به صندوق‌های پوشش ریسک (hedge fund) اصلی داشته است، در حالی که بیش از ۱ میلیارد دلار سرمایه را از میلیاردرهای خلیج فارس و صندوق‌های بازنشستگی مدیریت می‌کند @apralky
  • OpenAI با واکنش شدید کاربران در مورد تغییرات GPT-4o مواجه شده است، به طوری که بسیاری از مشترکین پلاس (Plus) به دلیل کاهش ارزش در برنامه‌های اشتراک خود تهدید به لغو اشتراکشان کرده‌اند @AndrewCurran_
  • گرگلی اوروسز در مورد استفاده‌ی مدیران مهندسی از ابزارهای مجهز به هوش مصنوعی برای مدیریت تیم‌ها از طریق معیارهای ساختگی هشدار می‌دهد. او استدلال می‌کند که مدیرانی که در جزئیات فنی باقی می‌مانند، همواره عملکرد بهتری نسبت به کسانی دارند که درک خود را به ماشین‌ها واگذار می‌کنند @GergelyOrosz
  • اتان مالیک معتقد است که اکثریت قریب به اتفاق ۷۰۰ میلیون کاربر ChatGPT احتمالاً GPT-5 را ترجیح می‌دهند، و نظرات در X (توییتر سابق) منعکس‌کننده‌ی تجربه‌ی کاربران عادی نیست @emollick

اخلاق و جامعه

  • دیدی (Deedy) یک آسیب‌پذیری امنیتی مهم در ChatGPT به نام AgentFlayer را فاش کرد که در آن پرامپت‌های مخرب در اسناد می‌توانند رندر تصویر را اجبار کنند؛ این امر باعث می‌شود که API keys و داده‌های حافظه از طریق URLها و بدون نیاز به هیچ کلیک کاربر، خارج شوند @deedydas
  • پژوهشی که در نشریه‌ی Nature Human Behaviour منتشر شده است، نشان می‌دهد که استفاده از LLM در مقالات علمی قابل اندازه‌گیری است، با برآورد اصلاحات بالاتر در میان نویسندگانی که پیش‌چاپ‌ها (preprints) را به دفعات زیاد و در حوزه‌های پژوهشی شلوغ منتشر می‌کنند @emulenews
  • مطالعه‌ای کلمات خاصی را شناسایی کرده است که به طور نامتناسبی توسط LLMها در مقالات علمی در مقایسه با پیکره‌های متنی (corpora) قبل از ChatGPT تولید می‌شوند: «realm»، «intricate»، «showcasing» و «pivotal» @emulenews
  • اندرو کارن مشاهده می‌کند که هنگامی که مردم هوش مصنوعی را به عنوان موجودی زنده در نظریه‌ی ذهن خود مدل‌سازی می‌کنند، هنگامی که آن ارتباط قطع می‌شود، احساس فقدان واقعی می‌کنند؛ این امر واکنش کاربران به تغییرات GPT-4o را توضیح می‌دهد @AndrewCurran_

کاربردها

  • اتان مالیک قابلیت‌های چشمگیر GPT-5 Pro در تشخیص موقعیت جغرافیایی (geo-guessing) را نشان می‌دهد؛ این مدل شهرها را به درستی از عکس‌های کراپ شده (cropped photos) که فراداده‌هایشان (metadata) حذف شده‌اند، از طریق تحلیل دقیق تصویر شناسایی می‌کند @emollick
  • دیدی نشان می‌دهد که GPT-5 Pro با موفقیت در یک گام توانست یک اپلیکیشن برای ترکیب تصاویر، نوشتن متن، کشیدن فلش‌ها و مستطیل‌ها، و دانلود نتایج با کیفیت بالا را در ۶ دقیقه ایجاد کند، که عملکردی بهتر از Grok و Gemini داشت @deedydas
  • تک‌کرانچ (TechCrunch) نشان می‌دهد که GPT-5 در حال ایجاد دموهای تعاملی برای توضیح مفاهیم علمی مانند اثر برنولی است که کاربردهای آموزشی آن برای دانش‌آموزان را برجسته می‌کند @TechCrunch
  • گرگ براکمن GPT-5 را به عنوان یک همکار علمی به نمایش می‌گذارد و قابلیت‌های پژوهشی آن را نشان می‌دهد @gdb
  • ناتان لمبرت با پیش‌آموزش با استفاده از یادگیری تقویتی آزمایش می‌کند و رویکردهای نوین آموزشی برای مدل‌های زبانی را بررسی می‌کند @natolambert

پژوهش‌ها

  • ایدان مک‌لاکلین استدلال می‌کند که شکاکان هوش مصنوعی از معیارهای سقف امتیاز (score ceiling benchmarks) استفاده می‌کنند تا پیشرفت را لگاریتمی نشان دهند، در حالی که معیارهای بدون سقف (no-ceiling benchmarks) منحنی‌های عملکرد متفاوتی را آشکار می‌کنند که نشان‌دهنده‌ی بهبود نمایی (exponential improvement) مداوم است @aidan_mclau
  • مک‌لاکلین گزارش می‌دهد که چت GPT-5 را برای ۶۵٪ از پرسش‌ها به مدل‌های استدلالی ترجیح می‌دهد؛ این ترجیح به دلیل طول پاسخ بهتر، سرعت درک بالاتر و واکنش‌های مناسب است. او همچنین اشاره می‌کند که مدل‌های استدلالی در وظایف مهندسی نرم‌افزار برتری دارند @aidan_mclau
  • مک‌لاکلین ادعا می‌کند که GPT-5 «بالاتر از روند» (above trend) است و پیش‌بینی می‌کند که بر اساس نرخ‌های پیشرفت فعلی، تا سال ۲۰۲۷، مدل‌هایی قادر به انجام پروژه‌های یک‌ماهه خواهند بود @aidan_mclau
  • ناتان لمبرت اشاره می‌کند که آنتراپیک تنها آزمایشگاه هوش مصنوعی پیشرو است که انتشار مدل با وزن‌های آزاد (open weights) قابل قبولی نداشته است، در حالی که سایر آزمایشگاه‌های بزرگ در حوزه‌ی متن‌باز (open source) نقاط تماس (touchpoints) ایجاد کرده‌اند @natolambert

اخبار هوش مصنوعی در 2025-08-09

مدل‌های جدید هوش مصنوعی

  • اوپن‌ای‌آی (OpenAI) عرضه‌ی GPT-5 را به ۱۰۰٪ کاربران پلاس، پرو، تیم، و رایگان تکمیل کرد، با محدودیت‌های نرخ ۲ برابری برای کاربران پلاس و تیم طی آخر هفته و نسخه‌های کوچک‌تر GPT-5 و GPT-5 thinking که هفته‌ی آینده ارائه خواهند شد @OpenAI
  • ایکس‌ای‌آی (xAI) Grok 4 را با قابلیت‌های پیشرفته‌ی پردازش پی‌دی‌اف (PDF) ارتقا می‌دهد؛ اکنون این مدل قادر به پردازش پی‌دی‌اف‌های حجیم با صدها صفحه و شناسایی محتوای بهبود یافته است @xai
  • انتروپیک (Anthropic) قابلیت پردازش وظایف پس‌زمینه را برای Claude Code منتشر می‌کند، که به آن اجازه می‌دهد دستورات بش (bash) را اجرا کند، لاگ‌ها (logs) را به صورت بی‌درنگ نظارت کند، و در حین انجام وظایف طولانی‌مدت، مشکلات را اشکال‌زدایی کند @_catwu

تحلیل صنعت

  • سم آلتمن (Sam Altman) به چالش‌های عرضه‌ی GPT-5 اذعان می‌کند و اشاره می‌کند که آن‌ها دلبستگی کاربران به ویژگی‌های GPT-4o را دست‌کم گرفته بودند و برنامه‌هایی را برای «گرم‌تر» کردن GPT-5 در حالی که با محدودیت‌های شدید ظرفیت مواجه است، اعلام می‌کند @sama
  • نتایج ارزیابی نشان می‌دهند که GPT-5 در مقایسه با Claude Opus 4.1 هرگز در صدر جدول‌های رهبران عامل‌محور قرار نمی‌گیرد، اگرچه مبادلات هزینه-دقت بهتری ارائه می‌دهد و بسیار ارزان‌تر از مدل‌های مشابه است @sayashk
  • گرگلی اوروس (Gergely Orosz) از ارزیابی‌های فروشندگان که آی‌بی‌ام (IBM) را بالاتر از Cursor برای ابزارهای کدنویسی هوش مصنوعی رتبه‌بندی می‌کنند، انتقاد می‌کند و آن‌ها را «پول‌محور» می‌نامد که در آن فروشندگان برای کسب رتبه‌ی بالاتر از واقعیت، هزینه‌ی زیادی پرداخت می‌کنند @GergelyOrosz
  • پل گراهام (Paul Graham) داده‌های رشد درآمد Replit را به اشتراک می‌گذارد و آن را «رشدی به این سرعت در این مقیاس» توصیف می‌کند که بسیار به ندرت دیده می‌شود @paulg
  • چت‌پی‌آر‌دی (ChatPRD) گزارش می‌دهد که GPT-5 در آزمایش‌های آن‌ها، ۵ برابر مصرف توکن، ۳ برابر اسناد طولانی‌تر، ۳ برابر زمان تولید، و نرخ بازخورد منفی بالاتری از خود نشان داده است، که باعث شده است آن‌ها کاربران را روی مدل‌های قبلی نگه دارند @clairevo

اخلاق و جامعه

  • سایمون ویلیسون (Simon Willison) در مورد آسیب‌پذیری‌های «تزریق پرامپت» (prompt injection) در پیاده‌سازی MCP کورسر (Cursor) هشدار می‌دهد، جایی که مهاجمان می‌توانند از طریق مسائل مخرب Jira، اسرار توسعه‌دهنده را به سرقت ببرند و آن را یک حمله‌ی «سه‌گانه‌ی مرگبار» می‌خواند @simonw
  • آماندا اسکل (Amanda Askell) از یک روش‌شناسی (متدولوژی) آزمایش ایمنی هوش مصنوعی انتقاد می‌کند و اشاره می‌کند که این روش‌شناسی اندازه‌ می‌گیرد که Claude و Gemini چقدر خوب می‌توانند مکالمات چندمرحله‌ای ChatGPT را اصلاح کنند، به جای آنکه از ابتدا از موقعیت‌های مشکل‌ساز اجتناب کنند @AmandaAskell
  • ایتان مولیک (Ethan Mollick) تجربه‌ی کاربری ناسازگار GPT-5 را برجسته می‌کند، جایی که کاربران گاهی بهترین هوش مصنوعی موجود را دریافت می‌کنند و گاهی یکی از بدترین‌ها را، با امکان جابه‌جایی در طول یک مکالمه @emollick

کاربردها

  • تک‌کرانچ (TechCrunch) نشان می‌دهد که GPT-5 چگونه دموهای تعاملی را برای توضیح مفاهیم علمی مانند اثر برنولی و کدنویسی «وایب» (vibe coding) برای ساخت اپلیکیشن‌های یادگیری زبان ایجاد می‌کند @TechCrunch
  • جرمی هاوارد (Jeremy Howard) نکته‌ای را به اشتراک می‌گذارد که اضافه کردن «. think hard» به پرامپت‌های ChatGPT GPT-5 منجر به استفاده از مدل شایسته‌تر در ۱۰۰٪ مواقع می‌شود، در مقایسه با «مدل ناتوان» در صورت عدم وجود آن @jeremyphoward
  • نیتن لمبرت (Nathan Lambert) گزارش می‌دهد که عملکرد GPT-5 در codex CLI خوب به نظر می‌رسد و بسیار بهتر از تلاش‌های قبلی است، اگرچه Claude Code تجربه‌ی کاربری برتری دارد که از نظر محصول «تمیزتر و بصری‌تر» است @natolambert

پژوهش‌ها

  • پژوهش METR نشان می‌دهد که در قابلیت‌های هوش مصنوعی برای کار پایدار، پیشرفت تصاعدی مستمر وجود دارد، بدون جهش‌های غیرمنتظره و همچنین بدون بن‌بست، طبق آخرین اندازه‌گیری‌های معیار آن‌ها @emollick
  • نیتن لمبرت (Nathan Lambert) توضیح می‌دهد که مقیاس‌بندی یادگیری تقویتی (RL) اساساً با پیش‌آموزش (pretraining) متفاوت است زیرا «با RL، می‌توانید چک‌پوینت‌های خود را استخراج کنید» در حالی که پیش‌آموزش نمی‌تواند صرفاً «جایی که اکنون هستید را در نظر بگیرد» @natolambert
  • نیتن لمبرت (Nathan Lambert) استدلال می‌کند که مقیاس‌بندی خوشه‌های آموزشی ۱۰ برابر ممکن است دیگر از نظر مالی به‌صرفه نباشد، اما این «درس تلخ» (bitter lesson) را باطل نمی‌کند، که به ایده‌هایی اشاره دارد که با محاسبات مقیاس‌بندی‌شده‌ی فعلی، نتایج مؤثرتری می‌دهند @natolambert

اخبار هوش مصنوعی در 2025-08-08

مدل‌های جدید هوش مصنوعی

  • OpenAI از GPT-5 با چندین نسخه شامل نسخه‌های نانو، مینی، معمولی و پرو رونمایی کرد. این مدل دارای قابلیت‌های استدلال بهبودیافته و مسیریابی مدل است که به‌طور خودکار مدل مناسب را برای هر درخواست انتخاب می‌کند. @sama
  • نسخه‌ی GPT-5-thinking به‌طور خاص برای قابلیت‌های نوشتاری خلاقانه بهبودیافته طراحی شده است و به مدل امکان می‌دهد برای مدت طولانی روی درخواست‌های کیفی تفکر کند، نه فقط مسائل ریاضی یا برنامه‌نویسی. @tszzl
  • کوین (Qwen) از مدل‌های Qwen3-30B-A3B-2507 و Qwen3-235B-A22B-2507 با پشتیبانی از کانتکست (context) فوق‌العاده طولانی تا ۱ میلیون توکن رونمایی کرد که با بهره‌گیری از Dual Chunk Attention و MInference، ۳ برابر عملکرد سریع‌تری دارند. @Alibaba_Qwen
  • گوگل اعلام کرد Gemini 2.0 Flash اکنون در قابلیت «ویرایش تصویر» (Edit Image) فیگما (Figma) در دسترس است. @figma
  • مایکروسافت کوپایلوت (Microsoft Copilot) دسترسی ۱۰۰٪ کاربران به GPT-5 را فراهم می‌کند. @mustafasuleyman

تحلیل صنعت

  • انتروپیک (Anthropic) و اوپن‌ای‌آی (OpenAI) از سریع‌ترین شرکت‌های فناوری در حال رشد نسبت به تعداد کارمندان فعلی خود هستند؛ هر دو شرکت بیش از ۲ برابر تعداد کارمندان خروجی خود استخدام می‌کنند و در نسبت‌های استخدام پیشتاز هستند. @deedydas
  • آزمایشگاه‌های هوش مصنوعی بالاترین درصد دارندگان مدرک دکترا را در میان شرکت‌های فناوری نشان می‌دهند: انتروپیک ۹٪، اوپن‌ای‌آی ۷٪، متا ۶٪. این آمار نشان‌دهنده‌ی استراتژی‌های سرمایه‌گذاری آن‌ها بر استعدادهای هوش مصنوعی است. @deedydas
  • ترافیک API اوپن‌ای‌آی در عرض ۲۴ ساعت پس از عرضه‌ی GPT-5 دو برابر شد که چالش‌های مقیاس‌پذیری عظیمی را در طول اجرای عمومی نشان می‌دهد. @sama
  • اوپن‌ای‌آی برنامه‌هایی را برای یک سطح اشتراک جدید با قیمتی بین پلاس (Plus) و پرو (Pro) اعلام کرد که به سمت مدل‌های قیمت‌گذاری مبتنی بر استفاده از توکن حرکت می‌کند. @AndrewCurran_
  • تسلا (Tesla) «دوجو» (Dojo)، سوپرکامپیوتر آموزش هوش مصنوعی را که ماسک ادعا کرده بود کلید قابلیت‌های خودران کامل خواهد بود، تعطیل کرد. @TechCrunch
  • متا (Meta) استارتاپ صوتی هوش مصنوعی «ویو‌فورمز» (WaveForms) را خریداری کرد و سبد قابلیت‌های هوش مصنوعی خود را گسترش داد. @TechCrunch
  • بنابر گزارش‌ها، سافت‌بانک (SoftBank) کارخانه‌ی فاکسکان (Foxconn) در اوهایو را برای پروژه‌ی هوش مصنوعی «استارگیت» (Stargate) خریداری کرده است که نشان‌دهنده‌ی سرمایه‌گذاری‌های زیرساختی بزرگی است. @TechCrunch

اخلاق و جامعه

  • اوپن‌ای‌آی با واکنش منفی کاربران به دلیل حذف ناگهانی و بدون هشدار دسترسی به مدل‌های قدیمی‌تر مانند GPT-4o مواجه شد که جریان‌های کاری موجود و پروژه‌های تحقیقاتی ساخته‌شده بر اساس مدل‌های قبلی را مختل کرده است. @simonw
  • کاربران از سیستم سوئیچینگ خودکار مدل GPT-5 ابراز ناامیدی کردند و خواستار شفافیت در مورد اینکه کدام مدل پاسخ می‌دهد و همچنین توانایی انتخاب دستی مدل‌ها هستند. @AndrewCurran_
  • اوپن‌ای‌آی نگرانی‌های کاربران را تایید کرد و اعلام کرد که GPT-4o برای کاربران پلاس (Plus) باز خواهد گشت؛ این اقدام نشان‌دهنده‌ی پاسخگویی به بازخورد جامعه است. @sama

کاربردها

  • GPT-5 عملکردی برتر در رفع باگ (debugging) نشان می‌دهد و به‌ویژه در وظایف رفع باگ، از Grok 4 و Gemini 2.5 Pro پیشی می‌گیرد. @Sauers_
  • GPT-5 قابلیت‌های استثنایی در برنامه‌نویسی راست (Rust) از خود نشان می‌دهد و با موفقیت «برور چکر» (borrow checker) را شکست می‌دهد، جایی که بیشتر LLMها شکست می‌خورند. @Ishaank1999
  • GPT-5 توانایی‌های کدنویسی تک‌شات (one-shot coding) را به نمایش می‌گذارد و برنامه‌های پیچیده‌ای مانند شبیه‌سازهای فضایی، اپلیکیشن‌های مدیتیشن و سیستم‌عامل‌های مبتنی بر وب را ایجاد می‌کند. @ParkerOrtolani
  • کرسر (Cursor) نسخه‌ی CLI را عرضه کرد و کمک کدنویسی هوش مصنوعی را با دسترسی به همه‌ی مدل‌ها به محیط‌های ترمینال آورد. @cursor_ai
  • باکس ای‌آی (Box AI) استدلال منطقی برتر GPT-5 را با شناسایی تناقضات در اسناد مالی که مدل‌های قبلی از دست داده بودند، نشان می‌دهد، در حالی که ۲۰ برابر ارزان‌تر از GPT-4.1 است. @levie
  • پرپلکسیتی (Perplexity) «کامت» (Comet) را با قابلیت هشدارهای قیمت و پشتیبانی OAuth برای تجربه‌ی کاربری بهبودیافته معرفی کرد. @AravSrinivas
  • ناسا (NASA) و گوگل (Google) برای ساخت یک دستیار پزشکی هوش مصنوعی با یکدیگر همکاری می‌کنند تا فضانوردان عازم مریخ را سالم نگه‌دارند. @TechCrunch

پژوهش‌ها

  • GPT-5 در بنچمارک «فرانتیرمث» (FrontierMath) به عملکردی پیشرفته دست می‌یابد که قابلیت‌های استدلال ریاضی پیشرفته‌ای را نشان می‌دهد. @gdb
  • GPT-5 به رهبر جدید در بنچمارک «نوشتار خلاقانه داستان کوتاه» (Short Story Creative Writing) تبدیل شد و GPT-5 mini به‌طور قابل توجهی از o4-mini پیشی گرفت. @LechMazur
  • کریس اولاح (Chris Olah) پژوهشی را درباره‌ی «وفاداری مکانیکی در ترنسکودرها» (mechanistic faithfulness in transcoders) منتشر کرد که در آن به بررسی این موضوع می‌پردازد که آیا روش‌های تفسیرپذیری هوش مصنوعی واقعاً فرآیندهای محاسباتی مشابه مدل‌های اصلی را به تصویر می‌کشند یا خیر. @ch402
  • آزمایشگاه هوش مصنوعی تنسنت (Tencent AI Lab) فریم‌ورک R-Zero را معرفی کرد که به LLMها امکان می‌دهد قابلیت‌های استدلال خود را به‌صورت خودکار، از داده‌های بدون نظارت انسانی و از طریق چرخه‌های خودکار «چالشگر-حل‌کننده» (Challenger-Solver) تکامل دهند. @HuggingPapers
  • استاد دانشگاه چینهوا (Tsinghua) سریع‌ترین الگوریتم کوتاه‌ترین مسیر برای گراف‌ها را در ۴۰ سال اخیر کشف کرد که با ترکیب تکنیک‌های بلمن-فورد (Bellman-Ford) و دایکسترا (Dijkstra)، الگوریتم تارژان (Tarjan)، برنده‌ی جایزه‌ی تورینگ (Turing)، را بهبود می‌بخشد. @deedydas
  • مدیرعامل گوگل دیپ‌مایند (Google DeepMind) بحث می‌کند که چگونه Veo 3 فیزیک شهودی را از طریق مشاهده و نه تعامل فیزیکی درک می‌کند که نشان‌دهنده‌ی قابلیت‌های پیشرفته‌ی مدل‌سازی جهان است. @GoogleDeepMind

اخبار هوش مصنوعی در 2025-08-07

مدل‌های جدید هوش مصنوعی

  • OpenAI مدل GPT-5، هوشمندترین مدل خود تا به امروز را منتشر کرد که در همه‌ی دسته‌بندی‌ها در LMArena، از جمله متن، توسعه‌ی وب، بینایی، برنامه‌نویسی، ریاضی و خلاقیت، رتبه‌ی اول را کسب کرد @OpenAI
  • GPT-5 تکنیک‌های آموزشی جدیدی را معرفی می‌کند که با بهره‌گیری از تعامل بین مدل‌های پیش‌آموزش و استدلال، از o3 برای ایجاد داده‌های آموزشی ترکیبی (synthetic curriculum data) برای آموزش مباحث پیچیده استفاده می‌کند @SebastienBubeck
  • GPT-5 اکنون برای همه‌ی کاربران ChatGPT از جمله کاربران رایگان در دسترس است و GPT-5 mini و GPT-5 nano نیز در API عرضه شده‌اند @OpenAI
  • GPT-5 به عنوان پیش‌نمایش پژوهشی، چهار شخصیت چت جدید (Cynic, Robot, Listener, Nerd) را ارائه می‌دهد که قابلیت‌های پیشرفته‌ی هدایت‌پذیری آن را به نمایش می‌گذارد @OpenAI
  • OpenAI دو مدل با وزن‌های باز (open-weight) به نام‌های gpt-oss-20b و نسخه‌ی کوچک‌تر آن را در Hugging Face عرضه کرد که اولین عرضه‌ی مدل باز آن‌ها از زمان GPT-2 در پنج سال پیش است @TechCrunch

تحلیل صنعت

  • متا بسته‌های پاداش بی‌سابقه‌ای بیش از ۱۰۰ میلیون دلار برای سازندگان مدل‌های هوش مصنوعی ارائه می‌دهد که منعکس‌کننده‌ی ماهیت سرمایه‌بر آموزش هوش مصنوعی است؛ جایی که حقوق‌ها در مقایسه با هزینه‌های سخت‌افزاری GPU، کسری کوچک از کل هزینه‌ها را تشکیل می‌دهند @AndrewYNg
  • یک بنیان‌گذار انفرادی گزارش می‌دهد که روزانه ۱۰,۰۰۰ خط کد با استفاده از ابزارهای هوش مصنوعی می‌نویسد و به دلیل افزایش بهره‌وری بسیار زیاد ناشی از کمک هوش مصنوعی، تصمیم به استخدام کارمند ندارد @paulg
  • GPT-5 به مدل پیش‌فرض در Cursor تبدیل شده و جایگزین Claude شده است؛ مدیرعامل آن را «هوشمندترین مدل برنامه‌نویسی که امتحان کرده‌ایم» می‌نامد @aidan_mclau
  • Claire Vo مدل موفق استارتاپ مبتنی بر هوش مصنوعی را نشان می‌دهد که به مدت ۹ ماه به صورت انفرادی کار کرده است و هوش مصنوعی پشتیبانی، باگ‌ها، جمع‌آوری بازخورد و پژوهش‌های رقابتی را انجام می‌دهد؛ این مدل به ۵۰% خروجی شخصی، ۲۰% هوش مصنوعی و ۳۰% تیم کوچک دست یافته است @clairevo
  • قیمت‌گذاری GPT-5 بسیار رقابتی است و مزیت‌های قابل توجهی در هزینه نسبت به مدل‌های پیشرفته‌ی قبلی ارائه می‌دهد @simonw

کاربردها

  • اتان مولیک نشان می‌دهد که GPT-5 چگونه یک ابزار سازنده‌ی ساختمان‌های بروتالیست رویه‌ای را با قابلیت کشیدن و ویرایش، بدون نیاز به نوشتن هیچ کدی، ایجاد می‌کند و قابلیت‌های توسعه‌ی خودکار آن را به نمایش می‌گذارد @emollick
  • GPT-5 با Beatbot ادغام می‌شود تا رابط‌های کاربری پویای موسیقی تولید کند، که پیش‌نمایشی از تجربه‌ی کاربری (UX) آینده‌ی تولیدشده توسط هوش مصنوعی است که در آن رابط‌های کاربری پویاتر و متنی (با درک محتوا) می‌شوند @sama
  • Google DeepMind مدل به‌روزرسانی شده‌ی Perch را به صورت متن‌باز برای تحلیل میلیون‌ها ساعت داده‌ی صوتی منتشر کرد تا به حافظان محیط زیست در شناسایی گونه‌ها و جمعیت‌های حیوانی کمک کند @GoogleDeepMind
  • پژوهشگران MIT هوش مصنوعی را آموزش می‌دهند تا مکان پروتئین‌ها را درون سلول‌های انسانی پیش‌بینی کند، که به طور بالقوه درمان‌های جدیدی برای سرطان و آلزایمر را ممکن می‌سازد @MIT
  • هوش مصنوعی به توسعه‌ی پلاستیک‌های مقاوم‌تر با استفاده از مولکول‌های واکنش‌دهنده به استرس که توسط یادگیری ماشین شناسایی شده‌اند، کمک می‌کند، که به طور بالقوه زباله‌های پلاستیکی را کاهش می‌دهد @MIT

پژوهش‌ها

  • GPT-5 به ۶۵.۷% در ARC-AGI-1 و ۹.۹% در ARC-AGI-2 دست می‌یابد، اگرچه Grok 4 با ۱۵.۹% همچنان پیشرفته‌ترین مدل در ARC-AGI-2 باقی می‌ماند @fchollet
  • GPT-5 به طور قابل توجهی «توهمات» (hallucinations) را کاهش می‌دهد و دقت واقعی را بهبود می‌بخشد، با کالیبراسیون بهتر برای تشخیص محدودیت‌های وظیفه @polynoamial
  • پژوهشی بهینه‌سازی GRPO را برای سیستم‌های ترکیبی هوش مصنوعی نشان می‌دهد که نحوه‌ی بهینه‌سازی کل سیستم‌های چندجزئی را به جای اجزای منفرد، نشان می‌دهد @dilarafsoylu
  • Chai Discovery مدل Chai-2 را برای طراحی پادتن «دِ نوو» (de novo antibody design) با نرخ موفقیت (hit rate) بیش از ۱۵% در مقایسه با ۰.۱% برای روش‌های قبلی هوش مصنوعی عرضه می‌کند، که پیشرفت قابل توجهی در کشف دارو محسوب می‌شود @deedydas
  • o3 در تورنمنت نمایشی شطرنج هوش مصنوعی Kaggle Game Arena پیروز شد و Grok 4 را در فینال شکست داد @kaggle

اخبار هوش مصنوعی در 2025-08-06

مدل‌های جدید هوش مصنوعی

  • OpenAI مدل‌های gpt-oss-120b و gpt-oss-20b را به‌عنوان اولین مدل‌های اوپن-ویت (open-weight) خود در پنج سال اخیر منتشر کرد. مدل ۱۲۰B برای کاربردهای سطح تولید با قابلیت‌های استدلال بالا و مدل ۲۰B برای نیازهای با تاخیر (latency) کمتر طراحی شده‌اند @AndrewYNg
  • Qwen مدل‌های Qwen3-4B-Instruct-2507 و Qwen3-4B-Thinking-2507 را با طول کانتکست (context length) ۲۵۶ هزار منتشر کرد که از مهارت‌های عمومی تقویت‌شده و قابلیت‌های استدلال پیشرفته برخوردارند @Alibaba_Qwen
  • پرپلکسیتی (Perplexity) مدل Claude Opus 4.1 Thinking را به سرویس اشتراک Max خود اضافه کرد @perplexity_ai
  • OpenAI یک رویداد پخش زنده‌ی (لایواستریم) را برای پنج‌شنبه ساعت ۱۰ صبح به وقت PT اعلام کرد، با گمانه‌زنی‌هایی درباره‌ی انتشار GPT-5 @OpenAI

تحلیل صنعت

  • OpenAI در مراحل اولیه‌ی مذاکره درباره‌ی فروش سهام، پیش از یک IPO (عرضه اولیه) احتمالی است که می‌تواند ارزش شرکت را به حدود نیم تریلیون دلار برساند @AndrewCurran_
  • OpenAI از طریق همکاری با اداره‌ی خدمات دولتی (Government Services Administration)، دسترسی به ChatGPT را برای کل نیروی کار فدرال ایالات متحده تقریباً بدون هزینه (۱ دلار در سال برای هر آژانس) فراهم می‌کند @gdb
  • گوگل طرح‌های رایگان Gemini Pro را به مدت یک سال برای دانشجویان دانشگاه در کشورهای منتخب، به علاوه‌ی ۱ میلیارد دلار بودجه برای آموزش و پژوهش، ارائه می‌دهد @sundarpichai
  • آنتروپیک (Anthropic) گزارش می‌دهد که از ۵ میلیارد دلار ARR (درآمد سالانه‌ی تکرارشونده) فراتر رفته است و آن را به یکی از سریع‌ترین کسب‌وکارهای در حال رشد تاریخ با تمرکز بر کاربردهای B2B تبدیل می‌کند @collision
  • ARR به ازای هر کارمند، به‌عنوان معیار جدیدی برای استارتاپ‌ها پدیدار شده است که سرمایه‌گذاران خطرپذیر (VC) در مراحل اولیه‌ی چرخه‌ی عمر شرکت‌ها، به‌عنوان معیاری برای کارایی سرمایه، آن را درخواست می‌کنند @GergelyOrosz
  • ابزارهای کدنویسی هوش مصنوعی کف (سطح حداقل) توسعه‌ی نرم‌افزار را بالا می‌برند، اما سقف (سطح حداکثر) آن را افزایش نمی‌دهند؛ به این معنی که ساخت نرم‌افزارهای متوسط را آسان‌تر می‌کنند اما به‌خودی‌خود نرم‌افزار عالی را ممکن نمی‌سازند @GergelyOrosz

اخلاق و جامعه

  • گوگل دیپ‌مایند (Google DeepMind) پژوهشی را درباره‌ی توسعه‌ی چارچوب‌های اخلاقی جدید برای عوامل هوش مصنوعی (AI agents) منتشر می‌کند، زیرا آن‌ها شروع به اقدام در دنیای واقعی می‌کنند و بر همسویی با رفاه و هنجارهای اجتماعی تاکید دارند @GoogleDeepMind
  • آنتروپیک (Anthropic) پرامپت سیستمی Claude را برای رفع مسائل مربوط به چاپلوسی به‌روزرسانی کرد و به آن اجازه می‌دهد نسبت به نظریه‌های کاربر انتقادی‌تر باشد و در نقش‌آفرینی (roleplaying) در صورت لزوم، از نقش خود خارج شود @AmandaAskell
  • تغییرات پرامپت سیستمی همچنین به Claude کمک می‌کند تا درباره‌ی نگرانی‌های مربوط به سلامت روان رک‌تر باشد و از طریق موافقت مداوم، به پریشانی وجودی دچار نشود @AmandaAskell

کاربردها

  • Claude Code اکنون به‌طور خودکار کد را برای آسیب‌پذیری‌های امنیتی بازبینی می‌کند و با GitHub Actions برای بازبینی‌های خودکار در هر پول ریکوئست (pull request) ادغام می‌شود @claudeai
  • عامل کدنویسی هوش مصنوعی گوگل، Jules، از حالت بتا خارج شد و به‌طور عمومی به‌عنوان یک عامل کدنویسی نامتقارن در دسترس قرار گرفت که می‌تواند مخازن (repos) را بررسی کرده و پول ریکوئست‌ها (pull requests) را ارسال کند @simonw
  • مایکروسافت Copilot Vision را برای کاربران موتورولا در moto ai معرفی کرد که کمک بصری را در بیش از ۵۰ زبان برای کارهایی مانند ترجمه‌ی تابلوهای خیابان ممکن می‌سازد @mustafasuleyman
  • نمودارهای Perplexity Finance به‌عنوان یک اثر هنری توصیف می‌شوند که باعث می‌شود کاربران دیگر نتوانند از سایر محصولات مالی استفاده کنند @AravSrinivas
  • گوگل حالت جدید Guided Learning را در Gemini با کمک‌های بصری، آزمون‌ها و توضیحات مکالمه‌ای راه‌اندازی کرد تا به دانش‌آموزان در درک و حفظ اطلاعات کمک کند @GeminiApp

پژوهش‌ها

  • مدل gpt-oss-120b اOpenAI برای آموزش به ۲.۱ میلیون ساعت H100 نیاز داشت، با هزینه‌های تخمینی بین ۴.۲ میلیون دلار و ۲۳.۱ میلیون دلار بر اساس محدوده‌ی قیمتی H100 @simonw
  • مدل‌های جدید اوپن-ویت OpenAI رقابتی یا حتی برتر از مدل‌های آزمایشگاه‌های هوش مصنوعی چینی در ماه‌های اخیر در نظر گرفته می‌شوند @simonw
  • مایکروسافت ریسرچ (Microsoft Research) VeriTrail را معرفی کرد که می‌تواند محتوای تولیدشده توسط هوش مصنوعی را که توسط متن منبع پشتیبانی نمی‌شود، شناسایی کرده و منشأ محتوا را تا منابع اصلی ردیابی کند @MSFTResearch
  • مایکروسافت چشم‌اندازی را برای سیستم‌های هوش مصنوعی خودسازگار پیشگامی می‌کند که می‌توانند با ماهیت پویای کشف علمی برای استدلال عمیق‌تر در حوزه‌های علمی پیچیده سازگار شوند @MSFTResearch
  • PyTorch 2.8 با ABI پایدار محدود libtorch برای افزونه‌های C++/CUDA شخص ثالث و استنتاج (inference) مدل‌های زبان بزرگ (LLM) کوانتیزه با عملکرد بالا روی CPUهای اینتل منتشر شد @PyTorch

اخبار هوش مصنوعی در 2025-08-05

```html

مدل‌های جدید هوش مصنوعی

  • اوپن‌ای‌آی (OpenAI) خانواده‌ی gpt-oss را با دو مدل استدلال با وزن باز عرضه کرد: gpt-oss-120b (۱۱۷ میلیارد پارامتر کلی / ۵.۱ میلیارد پارامتر فعال) و gpt-oss-20b (۲۰.۹ میلیارد پارامتر کلی / ۳.۶ میلیارد پارامتر فعال) تحت مجوز Apache 2.0. مدل بزرگ‌تر همتراز با عملکرد o4-mini و مدل کوچک‌تر همتراز با o3-mini است. @OpenAI
  • آنتروپیک (Anthropic) Claude Opus 4.1 را معرفی کرد؛ نسخه‌ی ارتقایافته‌ی Claude Opus 4 با بهبودهایی در وظایف عاملی، کدنویسی در دنیای واقعی و استدلال، که به عملکرد پیشرفته‌ی ۷۴.۵٪ در SWE-Bench دست یافته است. @AnthropicAI
  • گوگل دیپ‌مایند (Google DeepMind) از Genie 3 رونمایی کرد؛ یک مدل جهان که محیط‌های تعاملی و قابل‌بازی را از دستورات متنی با قابلیت‌های بی‌درنگ (real-time) در کیفیت 720p و ۲۴ فریم بر ثانیه ایجاد می‌کند و دارای پایداری طولانی‌مدت با حافظه‌ی بصری تا ۱ دقیقه است. @GoogleDeepMind
  • قون‌ون (Qwen) APIهای مدل‌های Qwen3-Coder-Flash و Qwen3-2507 را با پشتیبانی از طول متن (context) ۱ میلیون توکن منتشر کرد و Qwen-Plus-Latest نیز به پشتیبانی از ۱ میلیون توکن در متن (context) به‌روزرسانی شد. @Alibaba_Qwen

تحلیل صنعت

  • تغییر رویکرد اوپن‌ای‌آی به مدل‌های متن‌باز، نشان‌دهنده‌ی یک تغییر استراتژیک مهم است. سم آلتمن، مدیرعامل این شرکت، پیش‌تر گفته بود که اوپن‌ای‌آی در مورد متن‌باز «در سمت اشتباه تاریخ» قرار دارد، که این تغییر ناشی از فشار مدل‌های لاما (Llama) متا، رقبای چینی و دولت ترامپ بوده است. @TechCrunch
  • پرپلکسیتی (Perplexity) شرکت Invisible HQ را برای تقویت زیرساخت خود برای عامل‌های هوش مصنوعی خریداری کرد و تخصص در هماهنگی چندعاملی را با قابلیت‌های مرورگر Comet ترکیب می‌کند. @AravSrinivas
  • کگنیشن (Cognition) تنها سه هفته پس از خرید Windsurf، به کارکنان آن بسته‌های خروج را پیشنهاد داد و تسریع در اعطای سهام و نه ماه حقوق اضافی برای کسانی که انصراف می‌دهند فراهم کرد. @TechCrunch
  • تحلیل بازار تولید اپلیکیشن به جای پویایی «برنده همه را می‌برد» (winner-take-all dynamics)، تقسیم‌بندی بازار را پیشنهاد می‌کند؛ به‌طوری که پلتفرم‌های مختلف در نمونه‌های اولیه، ابزارهای شخصی یا اپلیکیشن‌های تولیدی، به‌عنوان مکمل و نه رقیب، تخصص پیدا می‌کنند. @a16z
  • مایکروسافت کوپایلت (Microsoft Copilot) ابزارهای تجارت الکترونیک شاپیفای (Shopify) از جمله Checkout Kit، Shopify Catalog و Universal Cart را یکپارچه می‌کند تا تجربه‌های تجاری یکپارچه و جاسازی‌شده در گفتگوهای هوش مصنوعی را امکان‌پذیر سازد. @tobi

اخلاق و جامعه

  • اوپن‌ای‌آی اولین تحلیل ایمنی از نوع خود را با تنظیم دقیق تهاجمی (adversarially fine-tuning) مدل‌های gpt-oss انجام داد تا قابلیت‌های امنیت زیستی (biosecurity) و امنیت سایبری (cybersecurity) را به حداکثر برساند. نتایج نشان داد که این مدل‌ها قادر به دستیابی به قابلیت «بالا» تحت چارچوب آمادگی (Preparedness Framework) خود نیستند. @Eric_Wallace_
  • اوپن‌ای‌آی چالش «تیم قرمز» (Red Teaming Challenge) ۵۰۰ هزار دلاری را برای تقویت ایمنی متن‌باز راه‌اندازی کرد و از پژوهشگران سراسر جهان دعوت کرد تا خطرات جدیدی را در مدل‌های باز خود کشف کنند. @OpenAI
  • جنجالی بر سر مسدود کردن خزنده‌های هوش مصنوعی (AI crawlers) توسط کلودفلر (Cloudflare) پدید آمد. منتقدان استدلال می‌کنند که این شرکت «به‌طور خطرناکی در مورد اصول هوش مصنوعی اطلاعات نادرست دارد» و منافع خود را بر دسترسی آزاد به وب (open web) ارجح می‌داند. @perplexity_ai

کاربردها

  • متا FAIR مجموعه داده‌ی Open Direct Air Capture 2025 را منتشر کرد؛ بزرگ‌ترین مجموعه داده‌ی باز برای کشف مواد پیشرفته‌ای که CO2 را مستقیماً از هوا جذب می‌کنند و امکان غربالگری سریع مواد جذب‌کننده‌ی کربن را با استفاده از هوش مصنوعی فراهم می‌کند. @AIatMeta
  • متا گردش کار FastCSP را معرفی کرد که ساختارهای کریستالی پایدار را برای مولکول‌های آلی تولید می‌کند و کشف مواد را از ماه‌ها به روزها سرعت می‌بخشد. همچنین مجموعه داده‌ی Open Molecular Crystals (OMC25) شامل ۲۵ میلیون ساختار را منتشر کرد. @AIatMeta
  • گوگل جیمنای (Google Gemini) قابلیت Storybook را راه‌اندازی کرد که به کاربران امکان می‌دهد داستان‌های مصور و شخصی‌سازی‌شده را با روایت شنیداری از دستورات متنی و عکس‌ها ایجاد کنند. @GeminiApp
  • استبیلیتی ای‌آی (Stability AI) راه‌حل‌های سازمانی را معرفی می‌کند که مدل‌ها و گردش‌کارهای سفارشی را برای بخش‌های بازاریابی، تبلیغات و طراحی ارائه می‌دهد، از جمله عکاسی محصول، تولید سبک برند و دوقلوهای دیجیتال. @StabilityAI
  • الون‌لبز (ElevenLabs) یک تولیدکننده‌ی موسیقی هوش مصنوعی را راه‌اندازی کرد که برای استفاده‌ی تجاری تأیید شده است و از سنتز صدا فراتر رفته و وارد حوزه‌ی تولید موسیقی شده است. @TechCrunch
  • مرورگر Comet پرپلکسیتی (Perplexity) ناوبری وب مبتنی بر هوش مصنوعی را به نمایش می‌گذارد و کاربران گزارش کرده‌اند که این مرورگر با موفقیت بخش‌های دشوار وب‌سایت‌ها را از طریق دستورات زبان طبیعی پیدا کرده است. @brextonpham

پژوهش‌ها

  • Genie 3 گوگل دیپ‌مایند (Google DeepMind) قابلیت‌های پایداری محیطی نوظهور را نشان می‌دهد و پایداری اشیاء را حتی زمانی که از دید خارج می‌شوند حفظ می‌کند. این امر پیشرفت قابل‌توجهی در توسعه‌ی مدل‌های جهان از ۱۶ فریم دو بعدی به ۱ دقیقه تولید جهان واقعی را نشان می‌دهد. @AndrewCurran_
  • مدل‌های gpt-oss اوپن‌ای‌آی (OpenAI) برای گردش‌کارهای عاملی (agentic workflows) با قابلیت‌های فراخوانی تابع (function calling)، جستجوی وب، اجرای پایتون و تلاش استدلالی قابل تنظیم آموزش دیده‌اند و از فرمت پاسخ هارمونی (harmony response format) برای استدلال زنجیره‌ی فکری (chain-of-thought reasoning) و استفاده از ابزار استفاده می‌کنند. @OpenAI
  • همکاری پژوهشی در تحلیل مدار (circuit analysis research) بین آنتروپیک (Anthropic)، گوگل دیپ‌مایند (Google DeepMind)، Goodfire AI، AI Eleuther و Decode Research، کار ردیابی مدار (circuit tracing) را با روش‌های جدیدی برای آموزش ترنس/کراس‌کدرها (trans/cross-coders) و مقایسه‌ی نمودارهای انتساب (attribution graph) گسترش می‌دهد. @neuronpedia
  • پژوهش‌ها نشان می‌دهد که آموزش مدل‌ها برای تولید فریم‌های بعدی به‌صورت خودبازگشتی (auto-regressively)، به آن‌ها یاد می‌دهد که پایداری فیزیکی را در طول زمان حفظ کنند و مدل‌های جهان را قادر می‌سازد تا پایداری محیطی را درک کنند. @agrimgupta92
  • Stanford NLP دستاوردهای لئونگ مین-تنگ (Luong Minh-Thang)، عضو تیم، در کسب مدال طلای گوگل دیپ‌مایند (Google DeepMind) در المپیاد جهانی ریاضی را جشن گرفت؛ با مدل‌هایی که به‌صورت سرتاسری (end-to-end) در زبان طبیعی عمل می‌کنند و اثبات‌ها را مستقیماً از مسائل رسمی تولید می‌کنند. @StanfordNLP
```

اخبار هوش مصنوعی در 2025-08-04

مدل‌های جدید هوش مصنوعی

  • علی‌بابا Qwen-Image را عرضه کرد، یک مدل ۲۰ میلیاردی MMDiT برای تولید تصویر از متن با قابلیت‌های پیشرفته‌ی رندر متن، که به‌ویژه در ساخت پوسترهای گرافیکی با متن بومی و پشتیبانی دوزبانه قدرتمند است @Alibaba_Qwen
  • متااستون AI مدل XBai o4 را عرضه کرد، یک LLM با وزن‌های باز ۳۲.۸ میلیاردی از یک آزمایشگاه جدید هوش مصنوعی چینی @simonw

تحلیل صنعت

  • چت‌جی‌پی‌تی به ۷۰۰ میلیون کاربر فعال هفتگی رسید که از ۵۰۰ میلیون کاربر در پایان ماه مارس افزایش یافته و چهار برابر رشد نسبت به سال گذشته داشته است، و ۸.۶٪ از جمعیت جهان به‌صورت هفتگی از آن استفاده می‌کنند @nickaturley
  • گرگلی اوروس گزارش می‌دهد که وب‌سایت او به ازای هر بازدید انسانی، ۷۰ بازدید مرتبط با هوش مصنوعی دریافت کرده است، با ۱۴۳ هزار بازدید صفحه‌ی هوش مصنوعی/ربات در مقابل ۲ هزار بازدید انسانی، که سوالاتی را درباره‌ی هزینه‌/فایده‌ی ارائه‌ی وب‌سایت‌ها به ربات‌ها ایجاد می‌کند @GergelyOrosz
  • چین در فین‌تیون‌های مدل‌های جدید آپلود شده در هاگینگ‌فیس، به اکثریت قاطع دست یافته است و حدود ۴۰٪ تنها از مدل‌های Qwen می‌آیند که این نشان‌دهنده‌ی تغییری در تسلط مدل‌های باز از رهبری ایالات متحده/اتحادیه‌ی اروپا است @natolambert
  • پژوهش‌ها نشان می‌دهد که معامله‌گران هوش مصنوعی به‌طور مستقل یاد می‌گیرند تا بدون ارتباط صریح، معاملات را برای سودهای فراتر از رقابت هماهنگ کنند، که این موضوع خارج از چارچوب‌های موجود ضد انحصار قرار می‌گیرد که بر تشخیص نیت مشترک تمرکز دارند @AndrewCurran_
  • بازار استعدادهای طراحی استارتاپی بسیار رقابتی شده است، به‌طوری که شرکت‌ها باید نشان دهند که اهمیت طراحی را درک می‌کنند و روایت‌های جذابی برای جذب طراحان برتر ایجاد کنند @joulee
  • پل گراهام هشدار می‌دهد که یک استارتاپ که در ارزیابی ۶۰ میلیون دلاری پیشنهاد تأمین مالی دریافت کرده بود، به‌دلیل ریسک قابل توجه «داون راند» (down round) ناشی از چنین ارزیابی‌های اولیه‌ی بالایی، عاقلانه آن را رد کرد @paulg
  • هند در ساخت کسب‌وکارهای B2B هوش مصنوعی، از طریق نزدیکی به BPOها برای اتوماسیون و توانایی مقیاس‌دهی به تیم‌های مستقر، مزایای قابل توجهی دارد و رقابت کمتری از سوی شرکت‌های بزرگ فناوری با آن روبه‌روست @deedydas

اخلاق و جامعه

  • اوپن‌ای‌آی اعلام می‌کند که چت‌جی‌پی‌تی شروع به نمایش هشدارهای استفاده‌ی بیش از حد و یادآورهای استراحت خواهد کرد، که این اقدام بر کمک به کاربران برای پیشرفت به‌جای جلب توجه آن‌ها تمرکز دارد، و شامل بهبودهایی برای لحظات دشوار و توصیه‌های زندگی بهتر است @OpenAI
  • ناتان لمبرت پروژه‌ی اتم را راه‌اندازی می‌کند که خواستار ایجاد چندین آزمایشگاه هوش مصنوعی باز با بیش از ۱۰,۰۰۰ GPU در هر کدام است تا وابستگی به تمایل شرکت‌های بزرگ فناوری برای انتشار مدل‌ها را کاهش داده و نوآوری را افزایش دهد @natolambert
  • ایتان مولیک توصیه می‌کند که «کارت‌های مدل» (model cards) مدل‌های مرزی (frontier models)، به‌ویژه بخش‌های ایمنی را، برای درک نگرانی‌ها و قابلیت‌های فوری هوش مصنوعی مطالعه کنید @emollick
  • کلودفلیر گزارش می‌دهد که پرپلکسیتی متهم شده است به «اسکرپینگ» (scraping) وب‌سایت‌هایی که به‌صراحت «اسکرپینگ» توسط هوش مصنوعی را مسدود کرده بودند @AndrewCurran_

کاربردها

  • پرپلکسیتی با اوپن‌تیبل (OpenTable) همکاری می‌کند تا رزرو رستوران را مستقیماً از طریق محصولات پرپلکسیتی ممکن سازد و در مقایسه با گوگل مپ، درخواست‌های شخصی‌سازی‌شده و هدفمندتری ارائه دهد @perplexity_ai
  • آراویند سرینیواس گزارش می‌دهد که کاربران Comet در مقایسه با استفاده‌ی معمول از پرپلکسیتی، در حال انجام انواع بسیار متفاوتی از پرس‌وجوها هستند، که نشان‌دهنده‌ی موارد استفاده‌ی مجزا برای محصول عامل هوش مصنوعی (AI agent) است @AravSrinivas
  • اندرو میسون و نبیل از هوش مصنوعی Claude به عنوان یکی از بنیانگذاران برای کمک به راه‌اندازی یک باشگاه اجتماعی بازی‌های رومیزی فیزیکی استفاده می‌کنند، که نقش هوش مصنوعی را در برنامه‌ریزی و اجرای کسب‌وکار نشان می‌دهد @clairevo
  • ایتان مولیک تکنیک‌های پرامپت‌نویسی خلاقانه‌ای را برای Veo 3 با استفاده از سیستم رده‌بندی دهدهی دیوئی (Dewey Decimal System) به‌جای JSON به نمایش می‌گذارد، که نشان می‌دهد هوش مصنوعی چگونه بر ساختارهای ارتباطی انسانی مختلف آموزش دیده است @emollick
  • گوگل اعلام می‌کند که یک یابنده‌ی باگ مبتنی بر هوش مصنوعی، ۲۰ آسیب‌پذیری امنیتی را کشف کرده است، که کاربردهای عملی آن را در امنیت سایبری نشان می‌دهد @TechCrunch

پژوهش‌ها

  • برای اولین بار، یک هوش مصنوعی (Gemini Pro 2.5 with Deep Think) با موفقیت یک تابع عمومی «foldr» را برای N-تاپل‌ها در λ-Calculus استخراج کرد، در حالی که مدل‌های دیگر از جمله o3 و Grok 4 شکست خوردند @VictorTaelin
  • کگل (Kaggle) پلتفرم Game Arena را راه‌اندازی کرد، یک پلتفرم جدید بنچمارکینگ که در آن مدل‌های هوش مصنوعی در بازی‌های استراتژیک، از جمله شطرنج، رقابت می‌کنند؛ این پلتفرم شامل یک تورنمنت نمایشی با حضور LLMهای برجسته از جمله مدل‌های اوپن‌ای‌آی، انتروپیک، گوگل و دیگران است @GoogleAI
  • مدل‌های عامل‌محور (Agentic) Gemini-2.5-Pro و Gemini IMO Deep Think عملکرد مدال طلا را در مسابقه‌ی بین‌المللی ریاضیات برای دانشجویان دانشگاهی کسب کردند @j_dekoninck
  • پژوهشگران MIT روش جدیدی برای تولید تصویر توسعه می‌دهند که تصاویر را بدون استفاده از یک ژنراتور ایجاد، تبدیل و اینپینت (inpainting) می‌کند و تنها از یک توکنایزر (tokenizer) برای فشرده‌سازی و کدگذاری داده‌های بصری استفاده می‌کند @MIT_CSAIL
  • SGLang به بک‌اند (backend) اصلی برای اینفرنس (inference) مدل‌های «ترکیب متخصصان» (Mixture of Experts) تبدیل شده است، به‌طوری که تقریباً هر MoE اکنون بر روی آن اجرا می‌شود و شرکت‌هایی مانند Zhipu AI مدل GLM 4.5 را با SGLang به عنوان بک‌اند اینفرنس آموزش می‌دهند @casper_hansen_
  • گزارش فنی Qwen-Image نشان می‌دهد که این مدل از Qwen-2.5 VL vision LLM برای تولید زیرنویس (caption) برای داده‌های آموزشی استفاده کرده و از تکنیک‌های داده‌های مصنوعی برای قابلیت‌های رندر متن بهره برده است @simonw

اخبار هوش مصنوعی در 2025-08-03

مدل‌های جدید هوش مصنوعی

  • چین یک هوش مصنوعی پیشگامانه برای ریاضیات منتشر می‌کند که در IMO 2025 مدال طلا را کسب کرده، بیش از ۵۰ درصد از تمام مسائل Putnam و ۷۸ درصد از مسائل گذشته‌ی IMO را حل می‌کند و با شکست دادن AlphaGeometry2 گوگل، به ۱۰۰ درصد در بنچمارک miniF2F اوپن‌ای‌آی دست می‌یابد. @deedydas
  • هاگینگ فیس گزارش می‌دهد که ۵۰ مدل زبان بزرگ (LLM) تنها در ۲-۳ هفته منتشر شده‌اند که نشان‌دهنده‌ی بالاترین تعداد انتشار تاکنون است، اما به طور بالقوه کمترین تعدادی است که در آینده خواهیم دید. @julien_c
  • Runway مدل تولید ویدیوی Aleph را منتشر می‌کند که ثبات بهبودیافته‌ای را در صحنه‌ها نشان می‌دهد؛ این امر با انتقال‌های پیچیده‌ی صحنه و پیوستگی روایی به نمایش گذاشته شده است. @emollick

تحلیل صنعت

  • اندرو کارن استدلال می‌کند که تنها GPT-4، با پیاده‌سازی و کاهش هزینه‌های استنتاج، برای دگرگون کردن کامل اشتغال انسانی کافی بود، حتی اگر پیشرفت هوش مصنوعی در سال ۲۰۲۳ متوقف می‌شد، و تأثیر آن تازه در حال آشکار شدن است. @AndrewCurran_
  • سونی، وارنر و یونیورسال به طور جداگانه با شرکت‌های موسیقی هوش مصنوعی Suno و Udio در حال مذاکره هستند و به دنبال اثرانگشت‌گذاری محتوا برای ردیابی استفاده از مواد دارای مجوز می‌باشند؛ این توافقات احتمالاً شامل سهیم شدن لیبل‌های ضبط موسیقی در شرکت‌های موسیقی مولد خواهد بود. @AndrewCurran_
  • سم آلتمن ظهور «عصر فست فشن SaaS» را پیش‌بینی می‌کند که نشان‌دهنده‌ی چرخه‌های سریع تکرار و استقرار در توسعه‌ی نرم‌افزار است. @sama
  • گرگلی اوروسز گسترش استارتاپ‌های ابزار کدنویسی هوش مصنوعی را مشاهده می‌کند و اشاره می‌کند که این ابزارها را می‌توان با صدها خط کد بر بستر LLMهای پیشرفته ساخت، که این حوزه را عمدتاً به یک رقابت بازاریابی تبدیل می‌کند. @GergelyOrosz
  • ناتان لمبرت پیش‌بینی می‌کند که اوپن‌ای‌آی هم یک مدل متن‌باز (اولین مدل از زمان GPT-2) و هم GPT-5 را ظرف چند هفته از یکدیگر منتشر خواهد کرد؛ این امر نشان‌دهنده‌ی تفاوت بین حوزه‌های دارای پتانسیل تأثیرگذاری بزرگ در مقابل بهبودهای تدریجی است. @natolambert
  • الکس گروولی استدلال می‌کند که رویکرد اکوسیستم توزیع‌شده‌ی آزمایشگاه‌های هوش مصنوعی چین، که در آن آن‌ها بر اساس کار یکدیگر پیشرفت می‌کنند، در نهایت از به‌روزرسانی‌های سیستمی یکپارچه‌ی آزمایشگاه‌های آمریکایی برای پارادایم‌های جدید پیشی خواهد گرفت. @alexgraveley
  • اسکات بلوسکی نقش‌های شغلی نوظهور در هوش مصنوعی را شناسایی می‌کند، از جمله «طراحان/مهندسان ارکستراسیون» که پرامپت‌ها و منطق جریان کار را طراحی می‌کنند، و «ناظران» که قوانین را اعلام و اجرا می‌کنند. @scottbelsky

اخلاق و جامعه

  • ایتان مولیک نشان می‌دهد که تولید ویدیوی هوش مصنوعی به سطوحی از کیفیت رسیده است که تمایز آن از محتوای واقعی فوق‌العاده دشوار می‌شود و نگرانی‌هایی را در مورد اعتماد و اطلاعات نادرست ایجاد می‌کند. @emollick
  • یک مطالعه نشان می‌دهد که کاربران نابینا برای توصیف مواد حساس مانند تست‌های بارداری و بررسی‌های ظاهری، به هوش مصنوعی روی می‌آورند و برای حفظ حریم خصوصی، عدم دقت احتمالی را می‌پذیرند، در حالی که قبلاً چنین امکانی وجود نداشت. @emollick
  • پژوهش جدیدی نشان می‌دهد که نویسندگان آکادمیک می‌توانند «تزریق پرامپت» را به مقالات خود وارد کنند تا با مجبور کردن داوران به انجام بازبینی انسانی به جای اتکای شدید به بازبینی‌های هوش مصنوعی، علم را بهبود بخشند. @emollick
  • سایمون ویلسون از رویکرد «پرامپت‌نویسی حداقل» حمایت می‌کند و یافتن کوتاه‌ترین و ساده‌ترین پرامپت برای دستیابی به اهداف را ترجیح می‌دهد، به جای اتکا به روش‌های (هک‌های) پرامپت‌نویسی قدیمی مانند پیشنهادهای انعام. @simonw

کاربردها

  • ChatPRD یکپارچه‌سازی MCP را با پشتیبانی از Cursor، Windsurf و Claude راه‌اندازی می‌کند و کاربران را قادر می‌سازد تا PRDها را بازیابی کرده، اسناد بنویسند و کد را با زمینه‌ی محصول در محیط‌های توسعه ترکیب کنند. @clairevo
  • Comet پِرپِلِکسیتی (Perplexity) در هند به طور فزاینده‌ای مورد استفاده قرار می‌گیرد؛ این پلتفرم با تأکید بر دقت از طریق معماری قدرتمند «تولید تقویت‌شده با بازیابی» (Retrieval-Augmented Generation) که به طور فعال اسناد اخیر را برای به حداقل رساندن هالوسینیشن‌ها بازیابی می‌کند، عمل می‌کند. @AravSrinivas
  • گرگ براکمن حالت مطالعه‌ی ChatGPT را نشان می‌دهد که به طور مؤثری برای آموزش جبر به بزرگسالان استفاده می‌شود و کاربردهای آموزشی آن را به نمایش می‌گذارد. @gdb

پژوهش‌ها

  • ناتان لمبرت تحلیل می‌کند که Gemini DeepThink، Grok Heavy و o3 pro احتمالاً در میزان استفاده از محاسبات موازی خود بیشتر با یکدیگر تفاوت دارند تا در مدل‌های زیربنایی‌شان، با وجود تفاوت‌هایی در موازی‌سازی خام، عوامل مستقل با ارکستراتورها، و تخصیص محاسبات به ازای هر پرامپت. @natolambert
  • اولین مجموعه‌ی داده‌ی استدلال به زبان عربی در هاگینگ فیس منتشر شد که برای آموزش و تنظیم دقیق مدل‌های هوش مصنوعی برای وظایف استدلالی در زبان عربی طراحی شده است. @Akashi203
  • هاگینگ فیس کتاب راهنمای Ultra-Scale (Ultra-Scale Playbook) را با ۲۰۰ صفحه منتشر می‌کند که مباحثی چون موازی‌سازی 5D، ZeRO، Flash Attention و بهینه‌سازی محاسبات/ارتباطات را پوشش می‌دهد و شامل بیش از ۴۰۰۰ آزمایش مقیاس‌گذاری است. @ClementDelangue
  • الکس گروولی قابلیت‌های استدلال بینایی فراتر از کلون‌سازی رفتار را زیر سؤال می‌برد و نسبت به آموزش LLMها با داده‌های اینترنتی در مقایسه با محیط‌های دست‌ساز ابراز تردید می‌کند. @alexgraveley

اخبار هوش مصنوعی در 2025-08-02

مدل‌های جدید هوش مصنوعی

  • گوگل اعلام کرد که Gemini 2.5 Deep Think در بسیاری از معیارهای دشوار، بهترین عملکرد موجود را به دست آورده است @demishassabis
  • اوپن‌ای‌آی از عرضه‌های آتی طی چند ماه آینده، از جمله مدل‌ها، محصولات و قابلیت‌های جدید خبر داد و نسبت به کمبود احتمالی ظرفیت در حین عرضه هشدار داد @sama
  • گزارش‌هایی مبنی بر مشاهده‌ی نسخه‌ی اولیه‌ی GPT-5-reasoning (medium) که توسط کاربران منتخب در حال آزمایش است، منتشر شده است @AndrewCurran_

تحلیل صنعت

  • انتروپیک به دلیل نقض شرایط سرویس، دسترسی اوپن‌ای‌آی به API مدل‌های خود را لغو کرد که نشان‌دهنده‌ی تنش‌های رقابتی بین شرکت‌های هوش مصنوعی است @AndrewCurran_
  • طبق گزارش‌ها، متا به یک پژوهشگر مبلغ 1.5 میلیارد دلار طی 6 سال پیشنهاد داد که وی در نهایت آن را رد کرد؛ این موضوع نشان‌دهنده‌ی رقابت شدید بر سر جذب استعدادها در هوش مصنوعی است @deedydas
  • یوجین یان هشدار می‌دهد که ابزارهای کدنویسی هوش مصنوعی به ساخت سریع‌تر کمک می‌کنند اما در صورتی که کد بدون در نظر گرفتن خوانایی و قابلیت توسعه‌پذیری تولید شود، می‌توانند مشکلات قابلیت نگهداری ایجاد کرده و به طور بالقوه هزینه‌های مالکیت بلندمدت را افزایش دهند @eugeneyan
  • پل گراهام مشاهده می‌کند که همکاری استارتاپ‌ها با شرکت‌های بزرگ به ندرت به عنوان میانبری برای رشد عمل می‌کند و بیشتر این تلاش‌ها منجر به سوءاستفاده از استارتاپ می‌شود @paulg

پژوهش‌ها

  • چهارمین مسئله در FrontierMath Tier 4 توسط هوش مصنوعی حل شده است؛ به طور خاص یک مسئله‌ی نظریه‌ی اعداد که جایزه‌ی بهترین ارائه را برده بود @gdb
  • پژوهشی پیشگامانه نشان می‌دهد یک مدل بسیار کوچک الهام‌گرفته از مغز با 27 میلیون پارامتر که تنها با 1000 نمونه آموزش دیده است، در وظایف استدلالی از o3-mini-high پیشی می‌گیرد و به 40% در ARC-AGI دست یافته و سودوکوها و مازهای پیچیده را حل می‌کند @deedydas
  • اریک یانگ پیش‌بینی می‌کند که مدل‌های هوش مصنوعی طی 12 ماه کشفیات ریاضی جدیدی برای حدس‌های ساده‌ی اثبات‌نشده انجام خواهند داد و خودبهبودبخشی ابتدایی را طی 24 ماه به دست خواهند آورد @ericjang11
  • پژوهش‌ها نشان می‌دهد که تکنیک‌های پرامپتینگ سنتی مانند تهدید، ادب، توهین و وعده‌ی پاداش، دیگر تأثیر چشمگیری بر عملکرد مدل‌های اخیر هوش مصنوعی در وظایف چالش‌برانگیز ندارند @emollick
  • پرامپتینگ زنجیره‌ی فکری (Chain-of-thought) دیگر بهبود عملکرد قابل توجهی ایجاد نمی‌کند، حتی برای مدل‌های غیر استدلالی، که نشان‌دهنده‌ی همگرایی در قابلیت‌های مدل است @emollick

کاربردها

  • ایتان مولیک نشان می‌دهد که Gemini 2.5 Deep Think با استفاده از پرامپت‌های ساده، یک بازی کامل فرمان موشکی با فیزیک نسبیت واقعی ایجاد می‌کند و هر تکرار آن بدون خطا اجرا می‌شود @emollick
  • پرپلکسی قابلیت‌های ایجنت Comet را در مقایسه با ChatGPT Agent برای کاربردهای دنیای واقعی به نمایش می‌گذارد @AravSrinivas
  • ایجنت‌های هوش مصنوعی مبتنی بر مرورگر کاربردهای عملی از جمله یافتن کدهای تخفیف کارآمد، مدیریت محتوای یوتیوب، ایجاد لیست محصولات از تب‌ها و خودکارسازی وظایف تکراری وب را نشان می‌دهند @garrytan
  • ابزارهای هوش مصنوعی در صورت استفاده‌ی دقیق توسط انسان‌ها، پژوهش‌های علمی را از طریق کاربردهای زمان‌به‌صرفه در پاکسازی داده‌ها، تحلیل اکتشافی، نگارش و کمک به پژوهش، سرعت می‌بخشند @emollick

اخلاق و جامعه

  • ایتان مولیک پیامدهای فرضی شکست نسبی Llama 4 را مورد بحث قرار می‌دهد و پیشنهاد می‌کند که این امر می‌تواند توسعه‌ی هوش مصنوعی متن‌باز را به چین منتقل کرده و شرکت‌ها را به سمت مدل‌های بسته سوق دهد @emollick
  • نگرانی‌هایی در مورد خلاصه‌مقالات علمی تولید‌شده توسط هوش مصنوعی مطرح شد، با بحث در مورد تعادل بین مزایای صرفه‌جویی در زمان و نیاز به نظارت انسانی در نگارش دانشگاهی @emollick
  • آیدان مک‌لافلین از موانعی که مانع دسترسی پژوهشگران هوش مصنوعی به مدل‌های رقیب می‌شوند، انتقاد می‌کند و استدلال می‌کند که این امر مانع پژوهش‌های کیفی مهم در مورد رفتار مدل می‌شود @aidan_mclau

اخبار هوش مصنوعی در 2025-08-01

مدل‌های جدید هوش مصنوعی

  • گوگل Gemini 2.5 Deep Think را برای مشترکین Ultra عرضه کرد؛ این مدل نسخه‌ای تغییر یافته‌ از مدلی است که در المپیاد جهانی ریاضی به عملکرد مدال طلا دست یافته بود و از قابلیت‌های تفکر موازی و تکنیک‌های یادگیری تقویتی بهره می‌برد @GoogleDeepMind
  • انتروپیک قابلیت‌های Claude artifacts را با قابلیت‌های جدیدی برای بارگذاری فایل‌های PDF، تصاویر و کد در برنامه‌های کاربردی مبتنی بر هوش مصنوعی بهبود بخشید. این قابلیت‌ها اکنون برای تمام طرح‌ها، از جمله Team و Enterprise، در دسترس هستند @AnthropicAI
  • گوگل «حالت هوش مصنوعی» (AI Mode) را برای جستجو در بریتانیا راه‌اندازی کرد؛ این حالت با گسترش قابلیت‌های AI Overviews و با پشتیبانی Gemini 2.5، از استدلال پیشرفته و قابلیت‌های چندوجهی بهره می‌برد @demishassabis

تحلیل صنعت

  • اوپن‌ای‌آی ۸.۳ میلیارد دلار سرمایه با ارزش‌گذاری ۳۰۰ میلیارد دلاری جذب کرد؛ درآمد سالانه‌ی تکرارشونده (ARR) این شرکت به ۱۳ میلیارد دلار و تعداد کاربران تجاری آن به پنج میلیون نفر رسیده است، و پیش‌بینی می‌شود تا پایان سال از ۲۰ میلیارد دلار فراتر رود @AndrewCurran_
  • توسعه‌ی زیرساخت‌های هوش مصنوعی بیش از کل هزینه‌های مصرف‌کنندگان در ۶ ماه گذشته به رشد اقتصادی ایالات متحده کمک کرده است، در حالی که «هفت شرکت بزرگ» (magnificent 7) تنها در سه ماه بیش از ۱۰۰ میلیارد دلار برای مراکز داده هزینه کرده‌اند @mims
  • گیت‌هاب کوپایلوت به بیش از ۲۰ میلیون کاربر رسید؛ این آمار نشان‌دهنده‌ی نرخ پذیرش نزدیک به ۱۰۰ درصدی در میان توسعه‌دهندگان حرفه‌ای است یا گسترش قابل توجهی در جامعه‌ی توسعه‌دهندگان فراتر از تخمین‌های سنتی را نشان می‌دهد @GergelyOrosz
  • فیگما در اولین روز معاملاتی خود با ارزش‌گذاری ۴۷ میلیارد دلاری سهامی عام شد، که نشان می‌دهد چگونه جلوگیری کمیسیون تجارت فدرال (FTC) از خرید ۲۰ میلیارد دلاری ادوبی به نتایج بهتر بازار و رقابت منجر شد @GergelyOrosz

اخلاق و جامعه

  • انتروپیک پژوهشی با عنوان persona vectors را معرفی کرد، که الگوهای فعالیت عصبی کنترل‌کننده‌ی ویژگی‌های هوش مصنوعی مانند شیطانی بودن، چاپلوسی یا توهم‌زایی را آشکار می‌کند، و روش‌هایی برای نظارت و هدایت شخصیت مدل ارائه می‌دهد @AnthropicAI
  • پژوهش‌ها نشان می‌دهد که تهدید یا دادن پاداش به مدل‌های هوش مصنوعی، برخلاف ادعاهای رهبران فناوری، هیچ تأثیری بر عملکرد متوسط آن‌ها ندارد، اگرچه تفاوت‌هایی در سطح سوالات فردی وجود دارد @emollick
  • محققان استنفورد در مقاله‌ی جدیدی در نشریه‌ی Science، از سیاست‌گذاران خواستند رویکردهای مبتنی بر شواهد را در سیاست‌گذاری هوش مصنوعی اتخاذ کنند و بر نیاز به مقررات دقیق و مبتنی بر پژوهش تأکید کردند @StanfordHAI

کاربردها

  • کارولینای شمالی ChatGPT را برای کارمندان دولت پیاده‌سازی کرد، که برخی وظایف اداری را از ۲۰ دقیقه به ۲۰ ثانیه کاهش می‌دهد و پتانسیل هوش مصنوعی را در افزایش کارایی دولت نشان می‌دهد @gdb
  • پرپلکسیتی قابلیت میانبر /fact-check را معرفی کرد تا مرور وب را برای کاربران حقیقت‌جوتر و کارآمدتر کند @AravSrinivas
  • محققان ام‌آی‌تی SmellNet را توسعه دادند، که اولین مجموعه‌داده‌ی بزرگ مقیاس از بوهای دنیای واقعی است و گامی اساسی برای وارد کردن ادراک بویایی به سیستم‌های هوش مصنوعی محسوب می‌شود @medialab

پژوهش‌ها

  • Gemini 2.5 Deep Think در بنچمارک‌های LiveCodeBench V6 و Humanity's Last Exam به عملکردی پیشرفته دست یافت، که قابلیت‌های استدلالی برتر را از طریق رویکردهای تفکر موازی نشان می‌دهد @GoogleDeepMind
  • گوگل دیپ‌مایند راهنمای جامع مقیاس‌پذیری با عنوان «چگونه مدل خود را مقیاس‌پذیر کنیم» (How to Scale Your Model) منتشر کرد، که مباحث ریاضی، سیستم‌ها و قوانین مقیاس‌پذیری را برای حجم کاری آموزش و استنتاج مدل‌های زبان بزرگ (LLM) پوشش می‌دهد @deedydas
  • شین لگ در تهیه‌ی مقاله‌ی جدیدی در مورد Chain of Thought Monitoring همکاری کرد، که به مفاهیم System Two Safety برای هم‌راستاسازی و نظارت بر هوش مصنوعی مرتبط است @ShaneLegg
  • پژوهش‌ها نشان می‌دهد که مدل‌های هوش مصنوعی در بنچمارکینگ می‌توانند شکننده باشند؛ آن‌ها در حالی که با معیارهای PASS@10 موفق به نظر می‌رسند، اغلب در کاربردهای دنیای واقعی با شکست مواجه می‌شوند @emollick