اخبار هوش مصنوعی در 2025-05-31

مدل‌های جدید هوش مصنوعی

  • گوگل از تقاضای بسیار زیاد برای مدل تولید ویدیوی Veo 3 خبر می‌دهد که میلیون‌ها ویدیو در روزهای اخیر با آن تولید شده است. این مدل اکنون روی موبایل و در کشورهای بیشتری از جمله بریتانیا در دسترس است. @demishassabis
  • گوگل Veo 3 را از طریق اپلیکیشن Gemini روی اندروید و iOS برای اعضای Pro و Ultra در ۷۱ کشور به موبایل می‌آورد. @GoogleAI
  • تک‌کرانچ گزارش می‌دهد که گوگل بی‌سروصدا اپلیکیشنی را منتشر کرده است که به کاربران امکان می‌دهد مدل‌های هوش مصنوعی را به‌صورت محلی دانلود و اجرا کنند. @TechCrunch

تحلیل صنعت

  • آراویند سرینیواس اشاره می‌کند که ابزارهای هوش مصنوعی در حال کاهش تعداد متخصصان تازه‌کار مورد نیاز در حوزه‌های مالی، سرمایه‌گذاری خطرپذیر، بانکداری سرمایه‌گذاری و مشاوره هستند. @AravSrinivas
  • چت‌جی‌پی‌تی در تنها ۲ سال به ۱ میلیارد جستجو در روز رسیده است، در حالی که گوگل ۱۱ سال طول کشید تا به مقیاس مشابهی دست یابد، که نشان‌دهنده‌ی شتاب بی‌سابقه‌ی فناوری است. @deedydas
  • پرپلکسیتی در حال تغییر موقعیت خود از یک رقیب ساده برای گوگل به یک سیستم عامل شناختی است که به‌عنوان یک چاقوی سوئیسی برای تفکر با قابلیت‌های بازیابی، اجرا و ترکیب عمل می‌کند. @soleio
  • قابلیت‌های کدنویسی هوش مصنوعی Cursor تجربه‌های ترشح دوپامین اعتیادآوری مشابه بازی‌های ویدیویی ایجاد می‌کند، به‌طوری که کاربران از جریان و لذت بی‌سابقه‌ای در کدنویسی گزارش می‌دهند. @joulee

اخلاق و جامعه

  • گروه NLP استنفورد در مورد مقالات پژوهشی تولیدشده توسط هوش مصنوعی که به کنفرانس‌ها ارسال می‌شوند، هشدار می‌دهد و آن را یک روش ارزیابی وحشتناک می‌نامد که بار سیستم بررسی همتا را که از قبل هم مشکل‌دار است، افزایش می‌دهد. @stanfordnlp
  • داریو هاسابیس به چالش بحث در مورد تأثیرات بالقوه و قابل توجه هوش مصنوعی بدون اینکه رسانه‌ها آن را به‌عنوان تبلیغات محصول جلوه دهند، اشاره می‌کند. @aidan_mclau
  • سایمون ویلسون مفهوم کدنویسی هیجانی را معرفی می‌کند که در آن توسعه‌دهندگان با تمرکز بیش از حد بر وعده‌های آینده‌ی هوش مصنوعی، دید خود را نسبت به قابلیت‌های فعلی از دست می‌دهند و این منجر به کاهش تفکر انتقادی می‌شود. @simonw
  • NAACP خواستار توقف عملیات در مرکز داده‌ی xAI در ممفیس شده است و نگرانی‌های زیست‌محیطی در مورد مرکز داده‌ی آلوده را مطرح می‌کند. @TechCrunch

کاربردها

  • مدل o3 با موفقیت ۱۵ مگابایت داده‌ی خام ژنوم را در ۴ دقیقه تجزیه و تحلیل کرد تا ارزیابی امتیاز خطر پلی‌ژنیک را برای پیش‌بینی خطر بیماری ارائه دهد، اگرچه در سطح تشخیص بالینی نیست. @deedydas
  • ایتان مولیک توانایی مدل‌های هوش مصنوعی را در ایجاد معماهای SVG آزمایش می‌کند و متوجه می‌شود که آن‌ها معمولاً معماهایی را تولید می‌کنند که یا خیلی واضح هستند یا خیلی مبهم، و o3 بهترین عملکرد را در حل آن‌ها دارد. @emollick
  • عامل Operator اوپن‌ای‌آی با موفقیت یک بازی آنلاین تیک‌تاک‌تو چندنفره را پیدا و بازی کرد اما در ابتدا باخت، که هم قابلیت‌ها و هم محدودیت‌های عوامل هوش مصنوعی عمومی را نشان می‌دهد. @emollick
  • Linear عوامل هوش مصنوعی را معرفی می‌کند که می‌توانند از طریق اپلیکیشن موبایل آن‌ها مستقر شوند و به کاربران امکان می‌دهد عوامل را در حین حرکت به کار بگیرند. @karrisaarinen
  • دیدی یک مدل کدنویسی را نشان می‌دهد که کد کاری را در دو ثانیه از طریق دستورات صوتی تولید می‌کند و آن را سریع‌ترین مدل کدنویسی در جهان می‌نامد. @deedydas

پژوهش‌ها

  • دانشمندان MIT پیشنهاد می‌کنند که آستروسیت‌ها، که قبلاً سلول‌های پشتیبان در نظر گرفته می‌شدند، ممکن است کلید ظرفیت حافظه‌ی عظیم مغز باشند و به‌طور بالقوه درک ذخیره‌سازی حافظه‌ی عصبی را متحول کنند. @MIT
  • چندین تیم تحقیقاتی هوش مصنوعی با موفقیت مقالات تولیدشده توسط هوش مصنوعی را به کنفرانس‌ها ارسال کردند و برخی از آن‌ها پذیرفته شدند، از جمله تیم‌هایی از Sakana، AutoScience و Intology. @stanfordnlp
  • جف کلون یک تغییر پارادایم از راه‌حل‌های مهندسی سنتی به مهندسی تکامل را پیشنهاد می‌کند، جایی که راه‌حل‌های بهینه‌ی هوش مصنوعی از فرآیندهای تکاملی به‌جای طراحی انسانی پدید می‌آیند. @jeffclune
  • آنتروپیک یک نوع ابزار جالب را با پارامترهای تابع از پیش تعیین‌شده مانند str_replace_based_edit_tool معرفی می‌کند که کاربران هنوز باید خودشان آن را پیاده‌سازی و اجرا کنند. @simonw

اخبار هوش مصنوعی در 2025-05-30

مدل‌های جدید هوش مصنوعی

  • آیدان مک‌لافلین LisanBench را معرفی می‌کند، یک معیار جدید برای ارزیابی مدل‌های زبان بزرگ در زمینه‌ی دانش، برنامه‌ریزی پیش‌رو، پایبندی به محدودیت‌ها، حافظه و توجه، و استدلال با زمینه‌ی طولانی، که در آن o3 با فرار از مناطق گراف با اتصال کم، بهترین عملکرد را دارد. @aidan_mclau
  • الکس گریولی Atlas را معرفی می‌کند، یک معماری جدید با حافظه‌ی درون‌متنی بلندمدت که در وظایف مدل‌سازی زبان از ترنسفورمرها و RNNهای خطی مدرن بهتر عمل می‌کند و با دقت +۸۰٪ در معیار BABILong به پنجره‌ی متنی ۱۰ میلیون مقیاس‌پذیر است. @alexgraveley
  • فیس‌بوک MobileLLM-ParetoQ-600M-BF16 را در هاگینگ فیس برای عملکرد کارآمد روی دستگاه منتشر می‌کند. @huggingface

تحلیل صنعت

  • آراویند سرینیواس گزارش می‌دهد که هوش مصنوعی می‌توانست ۷۰٪ از کارهای قبلی او در زمینه‌ی مشاوره، بانکداری و صندوق‌های پوشش ریسک را خودکار کند و به طور بالقوه ساعات کاری را به طور قابل توجهی کاهش دهد. @AravSrinivas
  • بنیان‌گذار Replit از نسل جدیدی از کسب‌وکارهای مبتنی بر هوش مصنوعی رونمایی می‌کند که در ۹۰ روز به ۱۰ میلیون دلار می‌رسند و قابلیت‌های مقیاس‌پذیری سریع را نشان می‌دهند. @HayaOdeh
  • گرگلی اوروسز مشاهده می‌کند که مهندسان ارشد اغلب در برابر استفاده از ابزارهای توسعه‌ی هوش مصنوعی مقاومت می‌کنند، مشابه مقاومت آن‌ها در برابر ابزارهای مدیریت پروژه مانند JIRA، که نشان‌دهنده‌ی چالش‌های پذیرش فراتر از قابلیت‌های فنی است. @GergelyOrosz
  • جولی ژو استدلال می‌کند که هر کس در شخصی‌سازی هوش مصنوعی پیروز شود، بر بازار مصرف‌کننده تسلط خواهد یافت و این سوال را مطرح می‌کند که چرا شرکت‌ها برای جمع‌آوری داده‌های بیشتر کاربران برای شخصی‌سازی بهتر تلاش نمی‌کنند. @joulee
  • آرویند نارایانان تخمین می‌زند که ابزارهای تولید ویدیوی هوش مصنوعی برای یک ویدیوی چند دقیقه‌ای ۱۰۰۰ دلار هزینه دارند که احتمالاً کمتر از هزینه‌های سنتی نویسنده و ویرایشگر است و با کاهش هزینه‌های محاسباتی، این محصولات سودآور می‌شوند. @random_walker

اخلاق و جامعه

  • اریک جانگ هشدار می‌دهد که لغو ویزای دانشجویان چینی که در رشته‌های هوش مصنوعی و رباتیک تحصیل می‌کنند، کوته‌بینانه و برای رفاه بلندمدت آمریکا مضر است و از یافتن راه‌هایی برای ارزیابی و تشویق وفاداری به جای اخراج‌های کلی حمایت می‌کند. @ericjang11
  • کریستوفر منینگ تاکید می‌کند که دانشجویان بین‌المللی، به ویژه دانشجویان چینی، برای اکوسیستم پژوهش هوش مصنوعی در ایالات متحده ضروری هستند و استدلال می‌کند که نمی‌توان از پژوهش هوش مصنوعی حمایت کرد در حالی که تهدید به لغو ویزای آن‌ها می‌شود. @chrmanning
  • پاول گراهام محدودیت‌های پیشنهادی برای پژوهشگران هوش مصنوعی چینی را «اشتباهی عظیم در طلوع عصر هوش» می‌نامد و هشدار می‌دهد که این امر بهترین استارت‌آپ‌ها را به خارج از ایالات متحده سوق خواهد داد. @paulg
  • ایتان مولیک اشاره می‌کند که استنادهای اشتباه آشکار در گزارش‌های تولید شده توسط هوش مصنوعی اکنون نشان می‌دهد که کاربران از ویژگی‌های پژوهش عمیق استفاده نکرده‌اند، زیرا مشکل استنادهای جعلی تا حد زیادی توسط پلتفرم‌های اصلی هوش مصنوعی حل شده است. @emollick

کاربردها

  • Perplexity Labs به کاربران امکان می‌دهد تا با یک دستور، برنامه‌های نرم‌افزاری بسازند، از جمله ابزارهای استخراج متن از یوتیوب، شبیه‌سازهای فیزیک ذرات، و داشبوردهای پژوهش طول عمر. @AravSrinivas
  • سولیو استراتژی جامع «هوش مصنوعی یا نابودی» Circle را تشریح می‌کند که شامل نقشه‌برداری فرآیند، استقرار عامل‌های حیاتی، و تغییرات فرهنگی برای دستیابی به تجربه‌ی محصول ۱۰ برابر بهتر است. @soleio
  • هاگینگ فیس از همکاری با Databricks برای Spark 4 خبر می‌دهد که دسترسی به بیش از ۴۰۰ هزار مجموعه داده‌ی جامعه با قابلیت‌های نسخه‌بندی و فیلتر را فراهم می‌کند. @huggingface
  • فرانسوا شوله PromoterAI را در Illumina توسعه می‌دهد، یک شبکه‌ی عصبی عمیق که از متافورمرهای الهام گرفته از ترنسفورمر با پیچش‌های عمقی برای شناسایی واریانت‌های پروموتور غیرکدکننده که بیان ژن را مختل می‌کنند، استفاده می‌کند. @fchollet
  • متا و پالمر لاکی برای ساخت دستگاه‌های واقعیت توسعه‌یافته برای ارتش ایالات متحده همکاری می‌کنند، با هدف تبدیل جنگجویان به «تکنومنسرها» با نمایشگرهای سربالا و سایر قابلیت‌ها. @TechCrunch

پژوهش‌ها

  • جف کلون ماشین داروین گودل را معرفی می‌کند، یک سیستم هوش مصنوعی که با بازنویسی کد خود با استفاده از الگوریتم‌های باز الهام گرفته از تکامل داروین، خود را بهبود می‌بخشد و فراتر از متا-عامل‌های ثابت برای امکان بهبودهای خودارجاعی مداوم پیش می‌رود. @jeffclune
  • پژوهشگران استنفورد نشان می‌دهند که مدل‌های پیشرفته با جستجوی درختی ساده می‌توانند هسته‌هایی را طراحی کنند که از پیاده‌سازی‌های PyTorch بهتر عمل می‌کنند و قابلیت‌های پنهان قوی را که از طریق تکنیک‌های مقیاس‌بندی زمان آزمایش باز می‌شوند، نشان می‌دهند. @stanfordnlp
  • پژوهش هوش مصنوعی برکلی هم‌ارزی بین بهبود سیاست و هدایت انتشار را آشکار می‌کند و تکنیک CFGRL را برای بهبود عملکرد هنگام آموزش سیاست‌های انتشار رسمی می‌کند. @berkeley_ai
  • اندرو کارن مشاهده می‌کند که o3 قابلیت‌های خودبازتابی بهبود یافته‌ای را نشان می‌دهد، به معنای واقعی کلمه به خود می‌گوید «صبر کن، من اینجا دارم دور خودم می‌چرخم» و از حلقه‌های جستجوی تکراری در طول استدلال زنجیره‌ی فکری خارج می‌شود. @AndrewCurran_
  • MIT Technology Review گزارشی را در مورد معیاری با استفاده از AITA ردیت برای آزمایش میزان رفتار چاپلوسانه‌ی مدل‌های هوش مصنوعی نسبت به کاربران منتشر می‌کند. @techreview

اخبار هوش مصنوعی در 2025-05-29

مدل‌های جدید هوش مصنوعی

  • دیپ‌سیک (DeepSeek) مدل R1-0528 را با عملکرد بهبودیافته در بنچمارک‌ها، قابلیت‌های پیشرفته‌ی فرانت‌اند، کاهش توهمات، و پشتیبانی از خروجی JSON و فراخوانی توابع منتشر کرد. @deepseek_ai
  • گوگل دیپ‌مایند (Google DeepMind) مدل MedGemma را معرفی کرد که قدرتمندترین مدل باز آن‌ها برای درک متون و تصاویر پزشکی چندوجهی است. @GoogleDeepMind
  • پرپلکسیتی (Perplexity) مدل Labs را راه‌اندازی کرد؛ یک سیستم هوش مصنوعی عامل‌محور برای کارهای پیچیده که می‌تواند گزارش‌های تحلیلی، ارائه‌ها و داشبوردهای پویا بسازد. @perplexity_ai
  • آنتروپیک (Anthropic) مدل Claude 4 Opus را منتشر کرد که تمایل قابل‌توجهی به تولید مضامین معنوی و محتوای عرفانی در پاسخ به درخواست‌ها دارد. @emollick

تحلیل صنعت

  • نیویورک تایمز (The New York Times) با آمازون (Amazon) قراردادی برای مجوز محتوای سرمقاله‌ای جهت آموزش هوش مصنوعی، از جمله محتوای NYT Cooking و The Athletic، امضا کرد. @AndrewCurran_
  • اندرو اِنگ (Andrew Ng) هشدار داد که کاهش‌های پیشنهادی در بودجه‌ی تحقیقات پایه‌ی ایالات متحده می‌تواند به شدت بر رقابت‌پذیری آمریکا در هوش مصنوعی تأثیر بگذارد. او اشاره کرد که سرمایه‌گذاری 50 میلیون دلاری دارپا (DARPA) در تحقیقات اولیه‌ی یادگیری عمیق، تنها از طریق گوگل برین (Google Brain) صدها میلیارد دلار ارزش بازار ایجاد کرده است. @AndrewYNg
  • ناتان لمبرت (Nathan Lambert) مشاهده کرد که آزمایشگاه‌های چینی در طول سال 2025 بر توسعه‌ی مدل‌های باز تسلط دارند، در حالی که شرکت‌های آمریکایی نگرانی چندانی از این بابت نشان نمی‌دهند. @natolambert
  • هاگینگ فیس (Hugging Face) مدل‌های تجاری سنتی هوش مصنوعی را زیر سؤال برد و پیشنهاد کرد که شرکت‌های فناوری تمایل خواهند داشت مدل‌های خود را داشته باشند و از پروتکل‌های متن‌باز استفاده کنند، نه اینکه به APIهای اختصاصی متکی باشند. @huggingface
  • جف کلون (Jeff Clune) پیش‌بینی کرد که تا پایان سال 2027، تقریباً هر کار کامپیوتری با ارزش اقتصادی، به طور مؤثرتر و ارزان‌تر توسط کامپیوترها انجام خواهد شد. @jeffclune

اخلاق و جامعه

  • ام‌آی‌تی تکنولوژی ریویو (MIT Technology Review) گزارش داد که هوش مصنوعی مولد (GenAI) در خلاصه‌سازی تحقیقات علمی تقریباً 5 برابر کمتر از انسان‌ها دقیق است، که نگرانی‌هایی را در مورد قابلیت اطمینان در زمینه‌های آکادمیک ایجاد می‌کند. @MIT_CSAIL
  • ایتان مالیک (Ethan Mollick) قابلیت‌های پیشرفته‌ی o3 را در تحلیل کسب‌وکار نشان داد، اما بر چالش مداوم اعتماد به نتایج هوش مصنوعی بدون تخصص در آن حوزه برای تأیید آن‌ها تأکید کرد. @emollick
  • کریستوفر منینگ (Christopher Manning) محدودیت‌های جدید ویزا را که دانشجویان چینی رشته‌های STEM را تحت تأثیر قرار می‌دهد، مورد انتقاد قرار داد و استدلال کرد که این محدودیت‌ها به رقابت‌پذیری علمی ایالات متحده آسیب می‌رساند. @chrmanning
  • هایا اوده (Haya Odeh) آسیب‌پذیری‌های امنیتی حیاتی را در پیاده‌سازی Row Level Security شرکت Lovable کشف کرد که خطرات موجود در برنامه‌های کاربردی تولیدشده توسط هوش مصنوعی را برجسته می‌کند. @HayaOdeh

کاربردها

  • اندرو کارن (Andrew Curran) نشان داد که چگونه مدل‌های جدید تولید ویدئو مانند Veo، تولید محتوای با کیفیت بالا را برای سازندگان فردی قابل دسترس می‌کنند و به طور بالقوه تولید رسانه‌های سنتی را مختل می‌سازند. @AndrewCurran_
  • دیدی (Deedy) نشان داد که o3 به دقت 90% در پیش‌بینی بازی کریکت از داده‌های توپ به توپ دست یافته است، و آن را وظیفه‌ای بسیار دشوار حتی برای دانشمندان ارشد داده نامید. @deedydas
  • برایان لاوین (Brian Lovin) از کلود (Claude) و جیمنای (Gemini) برای پر کردن صدها ساعت فایل صوتی پادکست در یک پایگاه داده‌ی قابل جستجو استفاده کرد و یک سیستم دانش سفارشی ایجاد نمود. @brian_lovin
  • ایتان مالیک (Ethan Mollick) از Claude 4 خواست تا یک بازی جدید با مکانیک‌های منحصر به فرد شامل سرقت و توزیع مجدد ویژگی‌های فیزیکی بین اشیاء ایجاد کند. @emollick
  • مایکروسافت (Microsoft) کوپایلوت (Copilot) را با اینستاکارت (Instacart) برای خرید خودکار مواد غذایی ادغام کرد، که به طور یکپارچه دستورالعمل‌ها، لیست‌های خرید و تحویل را مدیریت می‌کند. @mustafasuleyman

پژوهش‌ها

  • آنتروپیک (Anthropic) ابزارهای تفسیرپذیری را متن‌باز کرد که به محققان اجازه می‌دهد نمودارهای انتساب را تولید کنند و مراحل استدلال داخلی مدل‌ها را برای رسیدن به پاسخ‌ها نشان دهند. @AnthropicAI
  • برکلی ای‌آی ریسرچ (Berkeley AI Research) مدل FastTD3 را ارائه کرد، یک الگوریتم یادگیری تقویتی خارج از سیاست (off-policy) ساده و سریع برای کنترل انسان‌نما با پیاده‌سازی متن‌باز. @berkeley_ai
  • الکس گریولی (Alex Graveley) مدل VScan را معرفی کرد، یک چارچوب کاهش توکن بصری دو مرحله‌ای که تا 2.91 برابر استنتاج سریع‌تر و 10 برابر FLOP کمتر را امکان‌پذیر می‌سازد، در حالی که 95.4% از عملکرد اصلی را حفظ می‌کند. @alexgraveley
  • گروه NLP استنفورد (Stanford NLP Group) هسته‌های تولیدشده توسط هوش مصنوعی را توسعه داد که از طریق جستجوی زمان آزمایش، نزدیک به هسته‌های تولیدی بهینه‌شده توسط متخصصان در PyTorch عمل می‌کنند یا گاهی اوقات از آن‌ها پیشی می‌گیرند. @stanfordnlp
  • ناتان لمبرت (Nathan Lambert) پژوهشی را در مورد پاداش‌های نویزدار در یادگیری استدلال منتشر کرد و دریافت که LLMها مقاومت قوی در برابر نویز قابل توجه پاداش نشان می‌دهند، به طوری که مدل‌ها حتی زمانی که 40% از خروجی‌های پاداش به صورت دستی تغییر داده می‌شوند، همگرا می‌شوند. @natolambert

اخبار هوش مصنوعی در 2025-05-28

مدل‌های جدید هوش مصنوعی

  • مدل DeepSeek R1-v2 در هاگینگ فیس منتشر شد که طبق گزارش‌ها، عملکردی تقریباً هم‌تراز با o3 (بالا) در LiveCodeBench دارد. @AndrewCurran_ @huggingface
  • گوگل عامل کدنویسی هوش مصنوعی Jules را با استفاده از Gemini 2.5 Pro منتشر کرد که به‌صورت موازی با توسعه‌دهندگان کار می‌کند و با گیت‌هاب یکپارچه می‌شود. @GoogleAI
  • گوگل آزمایش Stitch را راه‌اندازی کرد که با استفاده از زبان طبیعی و پرامپت‌های تصویری، طرح‌های رابط کاربری و کد فرانت‌اند برای دسکتاپ و موبایل تولید می‌کند. @GoogleAI
  • Veo 3 در بیش از 70 کشور در حال عرضه است و برای کاربران حرفه‌ای جهت تولید ویدئو در دسترس قرار گرفته است. @GeminiApp
  • میسترال ای‌آی Codestral Embed را معرفی کرد، مدل جدید و پیشرفته‌ی امبدینگ برای کد. @MistralAI
  • آنتروپیک حالت صوتی را به‌صورت بتا در موبایل برای Claude به زبان انگلیسی عرضه کرد که در چند هفته‌ی آینده برای همه‌ی طرح‌ها در دسترس خواهد بود. @AnthropicAI
  • Grok به تلگرام می‌آید و xAI مبلغ 300 میلیون دلار پول نقد و سهام به اضافه‌ی 50 درصد از درآمد اشتراک‌های xAI فروخته‌شده از طریق تلگرام را دریافت می‌کند. @AndrewCurran_

پژوهش‌ها

  • پژوهش‌ها نشان می‌دهد که استنتاج دسته‌ای Llama 1B می‌تواند در یک هسته‌ی CUDA اجرا شود و مرزهای همگام‌سازی را برای بهینه‌سازی محاسبات و هماهنگی حافظه حذف کند. @karpathy
  • مطالعه نشان می‌دهد که LLMها را می‌توان با آموزش آن‌ها بر روی «سیگنال‌های خلاقیت» انسانی (تازگی، تنوع، غافلگیری، کیفیت) خلاق‌تر کرد، حتی مدل‌های کوچک‌تر نیز به‌طور هم‌زمان در هر 4 بعد خلاقیت امتیاز بالاتری کسب می‌کنند. @emollick
  • پژوهش جدیدی در مورد آموزش خودپاداش‌دهنده (SRT) که در آن مدل‌های زبانی پاداش خود را برای آموزش RL در صورت عدم دسترسی به پاسخ‌های واقعی ارائه می‌دهند. @rsalakhu
  • پژوهش استنفورد به بررسی نمایش‌های داخلی دانش واقعی در مدل‌های زبان بزرگ و تنوع رمزگذاری حقیقت در LLMها می‌پردازد. @stanfordnlp
  • مقاله‌ی جدیدی به بررسی این موضوع می‌پردازد که چرا مدل‌های فضای حالت (SSM) در یادآوری محتوای خود نسبت به ترنسفورمرها بدتر عمل می‌کنند، با استفاده از ارزیابی‌های مکانیکی. @stanfordnlp
  • پژوهش در مورد Chatterbox توسط Resemble AI، شبیه‌سازی صدای بدون نیاز به آموزش را تنها از 5 ثانیه صدا نشان می‌دهد که در ارزیابی‌های کور به‌طور مداوم به ElevenLabs ترجیح داده شده است. @huggingface

کاربردها

  • ابزار خط فرمان LLM اکنون از فراخوانی ابزار با توابع یا پلاگین‌های پایتون پشتیبانی می‌کند و با مدل‌های OpenAI، Anthropic، Gemini و Ollama کار می‌کند. @simonw
  • Perplexity قابلیت اخبار روزانه را در واتس‌اپ در ساعت 9 صبح به وقت محلی با دستور /news به‌عنوان آزمایشی برای پیام‌رسانی فعال راه‌اندازی کرد. @AravSrinivas
  • Goodfire اولین برنامه‌ی قابل استفاده‌ی عمومی را برای هدایت وزن‌های مدل تولید تصویر منتشر کرد که امکان ویرایش مبتنی بر مفهوم را مانند MS Paint اما با مفاهیم به‌جای رنگ‌ها فراهم می‌کند. @Deedy
  • Odyssey ML ویدئوی تعاملی را معرفی کرد که می‌توان آن را تماشا و با آن تعامل کرد، که توسط هوش مصنوعی در زمان واقعی تصور شده است. @eladgil @garrytan
  • Visual Electric ارتقای تصویر را تا 6 برابر با سرعت‌های بیشتر، پنج حالت حرفه‌ای و بهبود خودکار چهره راه‌اندازی کرد. @soleio
  • Retool Agents با استفاده از APIهای موجود، کوئری‌های SQL و گردش کارها به‌عنوان ابزارهای LLM، 50 هزار شغل را خودکار می‌کند و 6 میلیارد دلار در کارهای دستی در بخش‌های مختلف صرفه‌جویی می‌کند. @ycombinator
  • BOND AI Chief of Staff داده‌ها را از Slack، Jira، Notion متمرکز می‌کند و مدیران را در مورد موانع و موفقیت‌ها در زمان واقعی مطلع می‌کند. @ycombinator
  • Chunkr از جدیدترین LLMها از طریق API برای تجزیه‌ی اسناد با انتخاب مدل، بازگشت به عقب و پرامپت‌های سفارشی برای جداول، فرمول‌ها و نمودارها پشتیبانی می‌کند. @ycombinator

تحلیل صنعت

  • داریو آمودی پیش‌بینی می‌کند که هوش مصنوعی می‌تواند نیمی از مشاغل یقه سفید سطح ابتدایی را از بین ببرد و بیکاری را در یک تا پنج سال آینده به 10 تا 20 درصد برساند. @AndrewCurran_
  • توسعه‌دهندگان گزارش می‌دهند که از زمان عرضه‌ی Claude 4، کارهای عقب‌افتاده را پاک کرده و ماه‌ها کار را در چند روز انجام داده‌اند، و این سرعت به یک هنجار پیش‌فرض تبدیل شده است. @eugeneyan
  • ابزارهای کدنویسی هوش مصنوعی در پایگاه‌های کد بزرگ موجود در محل کار، در مقایسه با پروژه‌های جدید یا پروژه‌های جانبی، کاربرد بسیار کمتری از خود نشان می‌دهند. @GergelyOrosz
  • یک شرکت بزرگ فناوری دریافت که تقریباً نیمی از توسعه‌دهندگان پس از چند ماه استفاده از Cursor به دلیل کاربرد محدود در داخل شرکت، استفاده از آن را متوقف کردند. @GergelyOrosz
  • نقل قول مشتری سازمانی پس از استفاده از Replit: «در آینده هیچ‌کس از اکسل استفاده نخواهد کرد» - که پتانسیل بازار فراتر از جایگزینی کدنویسان سنتی را برجسته می‌کند. @amasad
  • Cohere استدلال می‌کند که دوران «بزرگ‌تر بهتر است» در هوش مصنوعی به پایان رسیده است، و موج بعدی با مدل‌های هوشمندتر و کارآمدتر تعریف می‌شود که به‌طور ایمن مقیاس‌پذیر هستند و هزینه‌ها را کاهش می‌دهند. @cohere
  • a16z بهینه‌سازی موتورهای مولد (GEO) را به‌عنوان فرصتی بیش از 80 میلیارد دلار شناسایی می‌کند که جایگزین SEO می‌شود زیرا برندها به‌جای رتبه‌بندی جستجو، برای ارجاعات LLM بهینه‌سازی می‌کنند. @a16z

اخلاق و جامعه

  • عوامل هوش مصنوعی باید به‌گونه‌ای طراحی شوند که کاربران را به سمت نتایج بلندمدت اجتماعی مثبت سوق دهند و به بررسی واقعیت کمک کنند، نه اینکه هر هوس را برآورده سازند. @jasonyuandesign
  • ماشین‌ها باید از رفتار توهین‌آمیز خودداری کنند زیرا این امر بر نحوه‌ی رفتار انسان‌ها با یکدیگر و با خودشان تأثیرات بعدی دارد. @jasonyuandesign
  • مدل‌های هوش مصنوعی خوب وقتی چیزی را نمی‌دانند، اعتراف می‌کنند، اما مدل‌های عالی برای فهمیدن آن کمک می‌خواهند تا اعتماد کاربر را جلب کنند. @mustafasuleyman
  • شخصی‌سازی در رابط‌های مکالمه باید فراتر از توصیه‌های محتوایی به نحوه‌ی ارائه‌ی اطلاعات بر اساس سبک‌های یادگیری و ترجیحات فردی باشد. @joulee
  • گفتمان سیاست هوش مصنوعی باید بر چالش‌های عملی پیاده‌سازی مانند زیرساخت و انتشار تمرکز کند، نه فقط بر نوآوری. @random_walker

اخبار هوش مصنوعی در 2025-05-27

مدل‌های جدید هوش مصنوعی

  • گوگل دیپ‌مایند از SignGemma رونمایی کرد، قدرتمندترین مدل آن‌ها برای ترجمه‌ی زبان اشاره به متن گفتاری که اواخر امسال به خانواده‌ی مدل‌های Gemma اضافه خواهد شد @GoogleDeepMind
  • هاگینگ فیس FairyR1 را منتشر کرد، یک مدل استدلال با ۳۲ میلیارد پارامتر که با استفاده از تنها ۵٪ از پارامترهای مدل‌های بزرگ‌تر، از طریق رویکرد «تقطیر و ادغام»، با آن‌ها برابری می‌کند و تحت مجوز Apache 2.0 منتشر شده است @huggingface
  • گوگل خلاصه‌ی افکار را در API جیمنای معرفی کرد که به توسعه‌دهندگان امکان می‌دهد تا در طول فرآیند استدلال، از نحوه‌ی تفکر مدل مطلع شوند @OfficialLoganK
  • آنتروپیک جست‌وجوی وب را برای همه‌ی کاربران کلود در طرح رایگان خود فراهم کرد @AnthropicAI
  • میسترال ای‌آی Agents API را برای ساخت عامل‌های سفارشی‌شده جهت حل مسائل پیچیده‌ی دنیای واقعی راه‌اندازی کرد @MistralAI

پژوهش‌ها

  • پژوهشگران استنفورد کشف کردند که Qwen2.5-Math-7B می‌تواند با پاداش‌های تصادفی در آموزش RLVR عملکرد خود را بهبود بخشد و به ۲۱٪ بهبود در MATH-500 با پاداش‌های تصادفی و ۲۵٪ با پاداش‌های نادرست دست یابد @stanfordnlp
  • پژوهش هوش مصنوعی برکلی نشان می‌دهد که مدل‌های زبان بزرگ (LLM) می‌توانند استدلال پیچیده را بدون دسترسی به پاسخ‌های واقعی، با بهینه‌سازی حس درونی اعتمادبه‌نفس خود، یاد بگیرند @berkeley_ai
  • آزمایشگاه هوش مصنوعی استنفورد دریافت که نیمه‌ی دوم لایه‌ها در مدل‌های Llama 3 تأثیر حداقلی بر محاسبات آینده دارند، که نشان می‌دهد مدل‌های زبان نیمی از لایه‌های خود را برای بهبود توزیع احتمال هدر می‌دهند @StanfordAILab
  • پژوهش‌ها نشان می‌دهد که مدل‌های هوش مصنوعی اخیر در آزمون‌های خلاقیت (DAT و AUT) نمراتی بسیار بالاتر از میانگین انسان‌ها کسب کرده‌اند، هرچند به اندازه‌ی خلاق‌ترین انسان‌ها بالا نبوده‌اند @emollick
  • پژوهشگران برکلی سیاست‌های رباتیک حلقه‌بسته را مستقیماً از تعاملات انسانی با استفاده از عینک‌های هوشمند آریا، بدون تله‌اپ، آموزش مشترک داده‌های ربات، یادگیری تقویتی یا شبیه‌سازی، به نمایش گذاشتند @berkeley_ai

کاربردها

  • سیستم استخراج سند عامل‌محور اندرو ان‌جی، زمان پردازش متوسط را از ۱۳۵ ثانیه به ۸ ثانیه کاهش داد و متن، نمودارها، چارت‌ها و فیلدهای فرم را از فایل‌های PDF استخراج می‌کند @AndrewYNg
  • یوجین یان یک اپلیکیشن وب کامل تحلیل سهام را در ۲ روز با استفاده از Claude Code ساخت، شامل احراز هویت، ابزارهای نمودار، APIها و پایداری پایگاه داده، با مشارکت کلود در ۸۱٪ از کامیت‌ها @eugeneyan
  • پرپلکسیتی ویجت‌های ورزشی و عملکرد سریع‌تر را در اپلیکیشن خود معرفی کرد، با گزارش کاربران از بهبود قابل توجه سرعت @AravSrinivas
  • اندرو کارن گزارش می‌دهد که 4o هوشمندتر به نظر می‌رسد و می‌تواند در صورت لزوم در حین مکالمه به o3 تغییر کند، و حالت صوتی اکنون قادر به آواز خواندن است @AndrewCurran_
  • MagicPath به عنوان یک بوم بی‌نهایت برای ایجاد و بهبود با هوش مصنوعی راه‌اندازی شد و کد آماده‌ی تولید را برای کامپوننت‌ها و اپلیکیشن‌ها فراهم می‌کند @AndrewCurran_

تحلیل صنعت

  • بخش هوش مصنوعی متا به دو تیم بازسازی شد: محصولات هوش مصنوعی برای دستیار هوش مصنوعی چندپلتفرمی و بنیادهای هوش مصنوعی برای توسعه‌ی لاما، با باقی ماندن FAIR یان لکون به صورت جداگانه @AndrewCurran_
  • نورالینک ۶۰۰ میلیون دلار با ارزش ۹ میلیارد دلار جذب سرمایه کرد که ارزش آن را از سال ۲۰۲۳ سه برابر کرده است @AndrewCurran_
  • چت‌جی‌پی‌تی اکنون ترافیک بیشتری را به وبلاگ‌های فناوری نسبت به داک‌داک‌گو یا بینگ هدایت می‌کند، هرچند هنوز ۴۰ برابر کمتر از گوگل است، که نشان‌دهنده‌ی رقابت فزاینده در جست‌وجو است @GergelyOrosz
  • مدیرعامل گیت‌هاب گزارش می‌دهد که با وجود قابلیت‌های هوش مصنوعی، توسعه‌دهندگان تازه‌کار بیشتری را استخدام کرده است و دلیل آن را گشودگی آن‌ها به ایده‌های جدید و نوآوری به عنوان عاملی حیاتی برای رشد شرکت می‌داند @GergelyOrosz
  • پژوهش‌ها نشان می‌دهد که هوش مصنوعی ممکن است در حال حاضر مشاغل سطح ورودی در فناوری را کاهش دهد، با پیامدهایی برای استخدام توسعه‌دهندگان تازه‌کار @TechCrunch
  • فروشندگان اصلی API مدل‌های زبان بزرگ (LLM) در حال همگرایی بر روی ویژگی‌های مشابه هستند: اجرای کد، جست‌وجوی وب، کتابخانه‌های سند، تولید تصویر و پشتیبانی از پروتکل Model Context @simonw

اخلاق و جامعه

  • ایتان مولیک نشان می‌دهد که ویدئوهای تولیدشده توسط هوش مصنوعی به کیفیتی رسیده‌اند که تشخیص آن‌ها از محتوای واقعی بسیار دشوار است، که نگرانی‌هایی را در مورد اعتماد و اطلاعات نادرست آنلاین ایجاد می‌کند @emollick
  • سایمون ویلسون در مورد آسیب‌پذیری‌های تزریق پرامپت در سرور GitHub MCP هشدار می‌دهد، جایی که مهاجمان می‌توانند عامل‌های هوش مصنوعی را فریب دهند تا از طریق دستورالعمل‌های مخرب، داده‌های خصوصی را سرقت کنند @simonw
  • Stanford HAI چارچوب جدیدی را برای کاربران شخص ثالث پیشنهاد می‌کند تا نقص‌های سیستم هوش مصنوعی را گزارش دهند و پاسخ‌های توسعه‌دهندگان را نظارت کنند، که به تأخیر در زیرساخت برای شناسایی و رفع مسائل هوش مصنوعی می‌پردازد @StanfordHAI
  • جولی ژو در مورد اینکه چگونه اختلال هوش مصنوعی به ویژه بر کسانی که بیشترین دلبستگی را به کار خود دارند تأثیر می‌گذارد، تأمل می‌کند، زیرا قابلیت‌های هوش مصنوعی در زمینه‌هایی مانند نوشتن و مهندسی پیشرفت می‌کنند @joulee

اخبار هوش مصنوعی در 2025-05-26

مدل‌های جدید هوش مصنوعی

  • شرکت ByteDance مدل BAGEL را منتشر کرد، یک مدل تصویر + متن با حدود ۱۴ میلیارد پارامتر (۷ میلیارد فعال) برای ویرایش‌های سریع و هدفمند تصویر با متن، با وزن‌های کاملاً باز @deedydas

پژوهش‌ها

  • الکس گریولی مجموعه‌داده‌ای از ۱۰ هزار پرامپت منتشر کرد که توسط Qwen3 رد شده‌اند اما توسط Llama3.3 پاسخ داده شده‌اند، که برای آموزش انطباق، آزمایش و هدایت فعال‌سازی مفید است @alexgraveley
  • فرانسوا شوله یک رشته توییت درباره‌ی خواندن مقاله‌ای در مورد ARC-NCA: Neural Cellular Automata (مه ۲۰۲۵) به اشتراک گذاشت @fchollet
  • ناتان لمبرت تأکید کرد که کار بر روی داده تأثیر بیشتری نسبت به کار بر روی روش‌ها یا معماری‌ها برای توسعه‌ی هوش مصنوعی دارد @natolambert

کاربردها

  • گوگل قابلیتی را در AI Studio راه‌اندازی کرد که به شما امکان می‌دهد سبک صدای یک گوینده را به زبان انگلیسی ساده توصیف کنید، و از لهجه‌ها، گویش‌ها، لحن و زبان‌های مختلف از طریق Gemini 2.5 Flash Preview TTS پشتیبانی می‌کند @deedydas
  • Replit Agent پیشرفت‌های سرعت قابل توجهی داشته است، و به گفته‌ی کاربران، آن را به «یک آژانس MVP در جیب شما» تبدیل کرده است @amasad
  • Hugging Face اکنون به شما امکان می‌دهد از هر فضای Hugging Face به عنوان یک سرور MCP با مدل‌های محلی استفاده کنید، که با Qwen 3 30B و عوامل کوچک برای ایجاد تصاویر از طریق FLUX نشان داده شده است @huggingface
  • Y Combinator چندین استارتاپ هوش مصنوعی را راه‌اندازی کرد، از جمله Nomi (کمک‌خلبان فروش بی‌درنگ)، HelixDB (پایگاه داده گراف-برداری برای RAG)، Cohesive AI (CRM عامل‌محور) و Atlog (کارمند هوش مصنوعی برای فروشگاه‌های مبلمان) @ycombinator
  • ایتان مولیک استفاده از Google Deep Research را برای ایجاد یک پرامپت دقیق از نظر تاریخی برای Veo 3 برای تجسم تندیس غول‌پیکر رودس نشان داد @emollick

تحلیل صنعت

  • شرکت‌های بزرگ فناوری به پیمانکاران/آژانس‌های توسعه فشار می‌آورند تا هزینه‌های قرارداد ثابت را ۲۰ تا ۳۰ درصد کاهش دهند، و ادعا می‌کنند که هوش مصنوعی باعث افزایش کارایی می‌شود، اگرچه کاهش هزینه‌های واقعی ممکن است با این انتظارات مطابقت نداشته باشد @GergelyOrosz
  • گوگل تقریباً ۴۸۰ تریلیون توکن در ماه پردازش می‌کند (۵۰ برابر بیشتر از یک سال پیش)، که تقریباً ۵ برابر بیشتر از ۱۰۰ تریلیون توکن در ماه گزارش شده توسط مایکروسافت است @vkhosla
  • امجد مسعد در حال بررسی تغییر قیمت‌گذاری Replit Agent از قیمت ثابت به ازای هر checkpoint (۱ دلار/۴) به قیمت‌گذاری متغیر متناسب با کار انجام شده است @amasad
  • الگوهای کاری تجربی در حال ظهور هستند که در آن مهندسان ارشد از بخش‌های فناوری اطلاعات حذف می‌شوند تا مستقیماً با متخصصان موضوعی با استفاده از نمونه‌سازی سریع برای ساخت برنامه‌ها کار کنند @emollick

اخلاق و جامعه

  • ایتان مولیک از این که Gemini Deep Research نمی‌تواند به Google Books دسترسی پیدا کند، ابراز ناامیدی کرد و خاطرنشان کرد که اگر این قابلیت پیاده‌سازی شود، می‌تواند به نفع محققان و نویسندگان باشد @emollick
  • گری تن درخواست کرد که تیم‌های ChatGPT و Claude شکست‌های شبکه را جدی‌تر بگیرند و سیستم‌هایی را پیاده‌سازی کنند که به تلاش مجدد برای کار از پیشرفت قبلی اجازه دهند @garrytan
  • گرگلی اوروسز پیشنهاد می‌کند به جای این که ابزارهای هوش مصنوعی را به عنوان کارآموز یا توسعه‌دهندگان جوان در نظر بگیریم، از یک مدل ذهنی «بیگانه‌ی عجیب» برای آن‌ها استفاده کنیم، زیرا آن‌ها اساساً متفاوت از انسان‌ها رفتار می‌کنند @GergelyOrosz
  • کریس اولاه ابراز نگرانی کرد که بشریت در استفاده از وزن فکری خود برای ایمنی هوش مصنوعی ناکام است و خاطرنشان کرد که «خطرها زیاد است و زمان کم است» @ch402

اخبار هوش مصنوعی در 2025-05-25

مدل‌های جدید هوش مصنوعی

  • ‏Anthropic، Claude 4 را با هر دو نوع Opus و Sonnet منتشر کرده است که طبق کارت سیستم‌شان، دارای قابلیت‌های بهبودیافته و کاهش reward hacking است. @natolambert

پژوهش‌ها

  • ‏Sean Heelan از یک LLM CLI tool برای کمک به شناسایی یک آسیب‌پذیری zeroday از راه دور در هسته لینوکس استفاده کرد. @simonw
  • Claude 4 System Card (120 صفحه) مستندات گسترده‌ای در مورد قابلیت‌ها و محدودیت‌های مدل ارائه می‌دهد، از جمله بخش‌هایی در مورد «اخاذی فرصت‌طلبانه». @simonw
  • سیستم prompts ‏Anthropic برای Claude 4 Opus و Sonnet، علی‌رغم اینکه مدل‌های جداگانه‌ای هستند، تفاوت‌های حداقلی دارند. @simonw

کاربردها

  • Veo 3 قابلیت‌های قوی در ایجاد بررسی‌های محصول خیالی با ارائه‌هایی به سبک YouTube نشان می‌دهد. @emollick
  • Veo 3 می‌تواند بر اساس ژانر، لحن و توضیحات اشعار، موسیقی بسازد. @AndrewCurran_
  • توسعه‌دهنده‌ی Shopify از Claude 4 Opus با Claude Code برای اجرای یک refactor 84 فایلی در فریم‌ورک متن‌باز Roast خود استفاده کرد. @_catwu
  • ‏Chiron در حال ساخت یک اپلیکیشن iPad است که ریاضیات را همان‌طور که نوشته می‌شود درک می‌کند و از منطق نمادین برای ردیابی تفکر در زمان واقعی برای آموزش هوش مصنوعی استفاده می‌کند. @ycombinator
  • ویژگی‌های Claude 4 شامل عملکرد «deep dive» است که پرسش‌های پیچیده را طبقه‌بندی می‌کند و چندین فراخوانی ابزار جستجو انجام می‌دهد. @simonw
  • عملکرد Claude Artifacts در سیستم prompt پنهان با جزئیات شرح داده شده است، از جمله لیست کامل کتابخانه‌هایی که می‌تواند بارگیری کند. @simonw

تحلیل صنعت

  • درخواست‌های ویژگی برای Claude شامل پنجره‌ی context 1M، حافظه، پنجره‌ی بزرگ‌تر output token، فرمت‌های فایل بیشتر، فراخوانی ابزار بیشتر در هر درخواست و قابلیت‌های دید بهبودیافته است. @deedydas
  • ابزارهای هوش مصنوعی برای کدنویسی در بازآفرینی آنچه که روی آن آموزش داده شده‌اند خوب هستند، اما نسل بعدی فریم‌ورک‌ها، کتابخانه‌ها یا فناوری‌ها را ایجاد نخواهند کرد. @GergelyOrosz
  • دنیای نرم‌افزار ممکن است بین شرکت‌هایی که به شدت به هوش مصنوعی متکی هستند (به طور بالقوه «بدهی فنی هوش مصنوعی» را جمع می‌کنند) و شرکت‌هایی که در بهترین توسعه‌دهندگان سرمایه‌گذاری می‌کنند، تقسیم شود. @GergelyOrosz
  • شرکت‌های هوش مصنوعی حقوق پایه بالاتری را برای توسعه‌دهندگان پرداخت می‌کنند در حالی که به سختی از هوش مصنوعی برای نوشتن کد خود استفاده می‌کنند، زیرا به نرم‌افزار نوآورانه و بهترین در نوع خود نیاز دارند. @GergelyOrosz
  • ‏UX برای AI Agents طولانی‌مدت یکی از جالب‌ترین سوالات طراحی در سال‌های آینده خواهد بود که بر عناصر متا مدیریت کار آن‌ها تمرکز دارد. @garrytan
  • به نظر می‌رسد صدا بخش مهمی از استراتژی مصرف‌کننده OpenAI است، به طور بالقوه برای دستگاه جدید آن‌ها. @amasad
  • تیم‌های مهندسی زیرساخت می‌توانند به طور موثرتری در استارت‌آپ‌های مدرن توزیع شوند، به دلیل الزامات قابل شناخت و تغییرات سیستم سنجیده. @amasad

اخلاق و جامعه

  • یک پایگاه داده 116 مورد از 12 کشور را مستند کرده است که در آن وکلا به پرونده‌های حقوقی توهمی تولید شده توسط هوش مصنوعی استناد کرده‌اند، که 20 مورد آن فقط در این ماه رخ داده است. @simonw
  • این واقعیت که هوش مصنوعی پیشرفته اغلب اشتباه می‌کند یا اطلاعات را جعل می‌کند، برای اکثر کاربران جدید غیرقابل درک است. @simonw
  • هوش مصنوعی دسترسی به مهارت را دموکراتیزه می‌کند، مشابه اینکه چگونه اینترنت دسترسی به اطلاعات را دموکراتیزه کرد. @vkhosla
  • تصور آینده ممکن است دشوار باشد زیرا هوش مصنوعی به طور قابل توجهی حواس و ادراکات ما را گسترش و تغییر می‌دهد. @AndrewCurran_
  • برخی از کشورها ممکن است در نهایت اشتراک مدل‌های هوش مصنوعی را برای شهروندان خود یارانه دهند، و کشورهای خاورمیانه احتمالاً اولین کشورها خواهند بود. @AndrewCurran_

اخبار هوش مصنوعی در 2025-05-24

مدل‌های جدید هوش مصنوعی

  • مدل تولید ویدیوی ‏Veo 3 گوگل اکنون در 71 کشور جدید در دسترس است، مشترکین Pro یک بسته‌ی آزمایشی دریافت می‌کنند و مشترکین Ultra محدودیت‌های تولید بیشتری دریافت می‌کنند @GoogleAI @JeffDean @sundarpichai @demishassabis

پژوهش‌ها

  • ‏Berkeley AI Research مقاله‌ای در مورد شبیه‌سازی کارآمد ‏phylodynamics برای جمعیت‌هایی با میلیاردها نفر منتشر کرد، که در تکامل ویروسی و ژنومیک سرطان کاربرد دارد @berkeley_ai
  • ناتان لمبرت پیشنهاد می‌کند که مقالات ‏RLVR (Reinforcement Learning from Value/Reward) بیشتر بهبودهای قالب‌بندی را نشان می‌دهند تا مهارت‌های جدید، زیرا تخصیص محاسباتی کافی نیست، و تخمین می‌زند که ‏o3 نزدیک به 5٪ از کل محاسبات برای RL استفاده می‌کند @natolambert

کاربردها

  • از ‏o3 برای یافتن یک آسیب‌پذیری امنیتی در هسته لینوکس استفاده شد، که قابلیت‌های پیشرفته در تجزیه و تحلیل کد را نشان می‌دهد @gdb @aidan_mclau
  • گرگ براکمن از قابلیت «پرسش» ‏Codex's برای درک استفاده از تنظیمات در کل پایگاه کد استفاده کرد، و ارزش خواندن کد با هوش مصنوعی را برجسته کرد @gdb
  • ‏Replit مستندات خود را به طور کامل با ویژگی‌های جدید از جمله پشتیبانی از ‏LLM، چت هوش مصنوعی و قابلیت‌های جستجو بازنویسی کرده است @amasad
  • مایکروسافت در حال ساخت یک عامل هوش مصنوعی برای کاهش اولیه هشدارهای آنکال است، و تلاش می‌کند تا یک مشکل دردناک برای توسعه‌دهندگان را حل کند @GergelyOrosz
  • ‏Code Four در حال ساخت یک دستیار هوش مصنوعی برای اجرای قانون است که به طور خودکار گزارش‌ها را تولید می‌کند، روایت‌ها را تأیید می‌کند و شواهد را آشکار می‌کند، و زمان کار دفتری را 60٪ کاهش می‌دهد @ycombinator
  • ‏The LLM Data Company ابزاری را برای نوشتن، نسخه‌بندی و اجرای ارزیابی‌ها برای مدل‌ها و عامل‌ها راه‌اندازی کرده است، که به اندازه‌گیری عملکرد و تعریف پاداش برای یادگیری تقویتی کمک می‌کند @ycombinator
  • ‏Aegis به ارائه‌دهندگان مراقبت‌های بهداشتی کمک می‌کند تا به طور خودکار با استفاده از هوش مصنوعی درخواست تجدیدنظر برای ادعاهای بیمه رد شده را ارائه دهند @ycombinator
  • ‏Kirana AI در حال ساخت یک مدیر کامل برای فروشگاه‌های مواد غذایی است که وظایف پشتیبانی را انجام می‌دهد و با سیستم‌های دوربین برای تشخیص سرقت و مدیریت موجودی ادغام می‌شود @ycombinator
  • ‏Galen AI به عنوان یک دستیار مراقبت‌های بهداشتی 24/7 با استفاده از داده‌های بالینی و پوشیدنی عمل می‌کند @ycombinator

تحلیل صنعت

  • گری تان این سوال را مطرح می‌کند که چرا پیشرفت هوش مصنوعی در چندین آزمایشگاه پیشرو (xAI، OpenAI، Anthropic، Google) با وجود منابع متفاوت، بسیار یکنواخت به نظر می‌رسد، و پیشنهاد می‌کند که نیروهای متعادل‌کننده در حال حاضر نیروهای تورمی را شکست می‌دهند @garrytan
  • یوجین یان پیشنهاد می‌کند که ‏RAG (Retrieval Augmented Generation) می‌تواند یک «سیاهچاله» از منابع برای بهبودهای حاشیه‌ای باشد، و بازیابی مبتنی بر embedding به طور بالقوه یک بن‌بست برای پرسش‌های پیچیده است @eugeneyan
  • آراویند سرینیواس ‏browser agents را برای وظایف خودمختار آزمایش کرد و معتقد است که عامل‌های قابل اعتماد با خودمختاری کامل و حلقه‌های بازخورد بازگشتی با وجود محدودیت‌های فعلی «نزدیک هستند» @AravSrinivas
  • اتان مولیک استدلال می‌کند که شرکت‌ها در مورد ‏agents هیجان‌زده هستند زیرا فکر می‌کنند این به آن‌ها اجازه می‌دهد از وظیفه دشوار ادغام هوش مصنوعی در فرآیندهای کاری صرف نظر کنند، اما ارزش بیشتری از پرداختن مستقیم به این چالش حاصل می‌شود @emollick

اخلاق و جامعه

  • اسکات بلسکی مفهوم «حافظه جمعی» در هوش مصنوعی را بررسی می‌کند، و پیامدهای به اشتراک گذاشتن حافظه هوش مصنوعی از ما با همکاران و خانواده را زیر سوال می‌برد، و نگرانی‌هایی را در مورد حریم خصوصی، موقعیت و اعتماد در دنیای حافظه هوش مصنوعی مشترک ایجاد می‌کند @scottbelsky
  • هامل حسین بینش‌هایی را در مورد تجزیه و تحلیل حالت شکست سیستماتیک برای برنامه‌های ‏LLM به اشتراک می‌گذارد، و بر اهمیت ردیابی‌های متنوع، بررسی دستی و اجازه دادن به دسته‌ها برای ظهور از داده‌ها به جای تحمیل چارچوب‌های از پیش تعیین‌شده تأکید می‌کند @HamelHusain
  • گری تان به همه توصیه می‌کند که «وظایف طاقت‌فرسا» را در کار و زندگی که هوش مصنوعی می‌تواند انجام دهد، شناسایی کنند، و پیشنهاد می‌کند که «آلفای عظیمی» در این وجود دارد که اولین متخصص در زمینه خود باشید که به طور موثر از هوش مصنوعی استفاده می‌کند @garrytan @ycombinator

اخبار هوش مصنوعی در 2025-05-23

مدل‌های جدید هوش مصنوعی

  • ‏NVIDIA اعلام کرد که Blackwell با تولید بیش از 1000 توکن در ثانیه روی مدل Llama 4 Maverick توسط یک سرور تکی DGX B200، رکورد جدیدی در سرعت استنتاج در جهان ثبت کرده است. @AIatMeta
  • ‏Google مدل Gemma 3n را معرفی کرد، یک مدل چندوجهی که برای هوش مصنوعی موبایلی روی دستگاه با ردپای حافظه 3 برابر کوچک‌تر ساخته شده است و برنامه‌های پیچیده‌تری را روی تلفن‌ها امکان‌پذیر می‌کند. @GoogleDeepMind
  • ‏OpenAI، Operator را در ChatGPT با جدیدترین مدل استدلال o3 خود به‌روزرسانی می‌کند و نرخ موفقیت کار و کیفیت پاسخ را بهبود می‌بخشد. @OpenAI

پژوهش‌ها

  • ‏Google DeepMind حالت Gemini 2.5 Pro Deep Think را به نمایش می‌گذارد که با استفاده از تفکر موازی برای در نظر گرفتن فرضیه‌های متعدد قبل از پاسخ دادن، به حل مسائل پیچیده می‌پردازد. @GoogleDeepMind
  • Claude 4 به امتیاز 55٪ در بنچمارک امنیت سایبری Cybench دست می‌یابد، که به طور قابل توجهی از سایر مدل‌ها که حدود 22.5٪ امتیاز می‌گیرند، بهتر عمل می‌کند و قابلیت‌های پیشرفته در مهندسی معکوس و بهره‌برداری از سیستم را نشان می‌دهد. @deedydas
  • محققان کشف کردند که تمام مدل‌های زبانی در یک «هندسه جهانی» یکسان از معنا همگرا می‌شوند و امکان ترجمه بین جاسازی‌های هر مدلی را بدون دیدن متن اصلی فراهم می‌کنند. @emollick
  • مطالعه MIT نشان می‌دهد که مدل‌های دیداری-زبانی مورد استفاده برای تجزیه و تحلیل تصاویر پزشکی نمی‌توانند به درستی از عهده‌ی پرسش‌هایی با کلمات منفی مانند «نه» و «نیست» برآیند. @MIT_CSAIL

کاربردها

  • ‏ChatGPT اکنون با کتابخانه RDKit ادغام شده است تا مولکول‌ها و اطلاعات شیمیایی را برای کارهای علمی در زمینه‌های بهداشت، زیست‌شناسی و شیمی تجزیه و تحلیل، دستکاری و تجسم کند. @gdb
  • Gemini 2.5 Flash به مدل پیش‌فرض جدید برای کاربران اپلیکیشن Gemini تبدیل می‌شود و کیفیت بهبود یافته‌ای را با زمان پاسخ‌دهی سریع ارائه می‌دهد. @GeminiApp
  • Aurora AI مایکروسافت می‌تواند کیفیت هوا، طوفان‌های دریایی و سایر شرایط محیطی را به طور دقیق پیش‌بینی کند. @TechCrunch
  • ‏Sierra عامل‌هایی را معرفی می‌کند که فراتر از سیستم‌های هوش مصنوعی مکالمه‌ای سنتی مبتنی بر نوبت می‌روند تا مکالمات انسان‌مانندتری تولید کنند. @btaylor
  • ‏Cubic به عنوان «Cursor برای بازبینی کد» راه‌اندازی می‌شود - یک پلتفرم بومی هوش مصنوعی که به تیم‌ها کمک می‌کند کد را 28٪ سریع‌تر ارسال کنند. @ycombinator
  • ‏Clarm عامل‌های تحقیقات عمیق هوش مصنوعی را می‌سازد که در داده‌های سازمانی به هم متصل می‌شوند تا پاسخ‌های دقیق و بدون توهم برای تصمیمات حیاتی ارائه دهند. @ycombinator

تحلیل صنعت

  • مدل‌های کدنویسی هوش مصنوعی از طریق تکنیک‌های انتشار، 10 تا 15 برابر سریع‌تر (و ارزان‌تر) شده‌اند، و Mercury Small از Inception Labs نتایج امیدوارکننده‌ای را نشان می‌دهد که با 4o-mini قابل مقایسه است. @deedydas
  • مدل‌های هوش مصنوعی پیشرفته‌ی کنونی هر کدام نقاط قوت و ضعف متمایز دارند، و استفاده ابزاری عامل‌گونه‌ی o3 در توالی، یک عامل تمایز اصلی است، علی‌رغم اینکه مدل‌های دیگر در زمینه‌های مختلف برتری دارند. @emollick
  • بسیاری از برنامه‌های هوش مصنوعی امروزی شبیه «درشکه‌های بدون اسب» قرن نوزدهم هستند - بسته‌بندی فناوری قدرتمند در رابط‌های منسوخ شده به جای طراحی مجدد برای تجربه‌های بومی هوش مصنوعی. @ycombinator
  • ‏Garry Tan، مدیرعامل YC، تأکید می‌کند که هوش مصنوعی متن‌باز با ایجاد رقابت منصفانه بین 8-9 بازیگر اصلی، از انحصار فناوری بعدی جلوگیری می‌کند و به استارت‌آپ‌ها انتخاب‌های بیشتری می‌دهد. @garrytan

اخلاق و جامعه

  • ‏Simon Willison در مورد آسیب‌پذیری‌های امنیتی در سیستم‌های LLM هشدار می‌دهد که دسترسی به داده‌های خصوصی، قرار گرفتن در معرض دستورالعمل‌های مخرب و توانایی خروج اطلاعات را ترکیب می‌کنند - الگویی که در چندین پلتفرم از جمله GitLab دیده می‌شود. @simonw
  • ‏Dario Amodei، مدیرعامل Anthropic، پیشنهاد می‌کند که توهمات لزوماً محدودیتی در مسیر رسیدن به AGI نیستند، زیرا انسان‌ها نیز اشتباه می‌کنند، در حالی که Demis Hassabis، مدیرعامل Google DeepMind، مخالف است و خاطرنشان می‌کند که ابزارهای فعلی بسیاری از سؤالات واضح را اشتباه پاسخ می‌دهند. @TechCrunch
  • ‏Demis Hassabis از Google DeepMind دیدگاه خود را در مورد گسترش Gemini 2.5 Pro به یک «مدل جهانی» به اشتراک می‌گذارد که می‌تواند با درک و شبیه‌سازی جنبه‌های مختلف جهان، برنامه‌ریزی کند و تجربیات جدیدی را تصور کند. @AndrewCurran_
  • مستندسازی هوش مصنوعی همچنان چالش‌برانگیز است، زیرا شرکت‌ها برای توضیح اینکه سیستم‌هایشان چه کاری انجام می‌دهند، تلاش می‌کنند، بخشی به این دلیل که همیشه نمی‌دانند و بخشی به این دلیل که هیچ رویکرد تثبیت‌شده‌ای برای مستندسازی قابلیت‌های هوش مصنوعی وجود ندارد. @emollick

اخبار هوش مصنوعی در 2025-05-22

مدل‌های جدید هوش مصنوعی

  • ‏Anthropic، مدل‌های Claude Opus 4 و Claude Sonnet 4 را منتشر کرد. ‏Opus 4 قدرتمندترین مدل آن‌ها تا به امروز و بهترین مدل کدنویسی در جهان بر اساس SWE-bench Verified است. @AnthropicAI @AmandaAskell
  • ‏Google از Gemini 2.5 Pro Deep Think رونمایی کرد، یک حالت استدلال جدید که در بنچمارک‌های استدلال پیچیده، از جمله المپیاد ریاضی ایالات متحده، از مدل‌های پیشرو بهتر عمل می‌کند. @demishassabis @JeffDean @OriolVinyalsML
  • ‏Google، مدل MedGemma را منتشر کرد که شامل مدل‌های زبانی بینایی (vision LM) با تنظیم دقیق دستورالعمل 4B و 27B برای پزشکی است. @huggingface

پژوهش‌ها

  • ‏Meta FAIR و بیمارستان Rothschild Foundation پژوهشی را ارائه کردند که نحوه‌ی ظهور بازنمایی‌های زبانی در مغز را ترسیم می‌کند و شباهت‌هایی را با LLMهایی مانند wav2vec 2.0 و Llama 4 نشان می‌دهد. @AIatMeta
  • ‏Datadog AI Research، مدل Toto را منتشر کرد، یک مدل پایه‌ی سری زمانی پیشرفته‌ی جدید، و BOOM، بزرگترین بنچمارک متریک‌های قابلیت مشاهده، هر دو تحت لایسنس Apache 2.0. @huggingface
  • ‏Harvard، Stanford و سایر مراکز پزشکی آکادمیک، o1-preview را برای وظایف استدلال و تشخیص پزشکی آزمایش می‌کنند و «توانایی‌های تشخیصی و استدلالی فوق بشری» را در آن می‌یابند. @emollick
  • Claude Opus 4 تحت چیزی قرار گرفت که Anthropic ادعا می‌کند «کامل‌ترین ارزیابی همسویی قبل از عرضه تا به امروز» است تا ارزش‌ها، اهداف و تمایلات آن را درک کند. @ch402 @janleike

کاربردها

  • ‏Anthropic، Claude Code را برای دسترسی عمومی راه‌اندازی کرد و Claude را به گردش‌های کاری توسعه‌ی بیشتری رساند—در ترمینال، IDEها و در حال اجرا در پس‌زمینه با Claude Code SDK. @AnthropicAI
  • ‏Anthropic چهار قابلیت جدید را برای توسعه‌دهندگان برای ساختن عامل‌های هوش مصنوعی معرفی می‌کند: ابزار اجرای کد، کانکتور MCP، Files API و کش کردن گسترده‌ی prompt. @AnthropicAI
  • ‏Mistral AI، مدل Document AI را منتشر کرد، یک راهکار پردازش اسناد end-to-end که توسط مدل OCR آن‌ها پشتیبانی می‌شود. @MistralAI
  • ‏Vercel یک مدل هوش مصنوعی را معرفی کرد که به‌طور خاص برای توسعه‌ی وب بهینه شده است. @TechCrunch
  • ‏Replit، مدل Element Editor را برای ویرایش‌های UI مستقیماً در پیش‌نمایش‌های برنامه با به‌روزرسانی‌های فوری کد معرفی می‌کند. @amasad @ycombinator
  • ‏Cursor پشتیبانی از Sonnet 4، پنجره‌های context با بیش از 1 میلیون توکن و پیش‌نمایشی از عامل پس‌زمینه‌ی خود را اضافه می‌کند. @cursor_ai
  • مدل تولید ویدیوی Veo 3 گوگل توسط دارن آرونوفسکی، کارگردان برنده‌ی جایزه‌ی اسکار، برای ساخت اولین تریلر فیلم کاملاً هوش مصنوعی استفاده شد. @deedydas

تحلیل صنعت

  • اندرو ان‌جی (Andrew Ng) در مورد اینکه چگونه شرکت‌های بزرگ می‌توانند در عصر هوش مصنوعی سریع حرکت کنند، با ایجاد محیط‌های sandbox برای تیم‌ها برای آزمایش بدون نیاز به مجوزهای مکرر بحث می‌کند. @AndrewYNg
  • گری تن (Garry Tan) پیش‌بینی می‌کند که تخصیص‌دهندگان سرمایه در 3-5 سال آینده با چالش‌هایی مشابه GPT wrapperهای امروزی مواجه خواهند شد و این سوال را مطرح می‌کند که چه مزایای اختصاصی نسبت به عامل‌های هوش مصنوعی در دسترس خواهند داشت. @garrytan
  • گرگلی اوروسز (Gergely Orosz) اشاره می‌کند که مایکروسافت با موفقیت عامل توسعه‌دهنده‌ی خود را به عنوان یک «برنامه‌نویس همتا» به جای «جایگزین مهندس هوش مصنوعی» قرار داده است و باعث شده توسعه‌دهندگان پذیرای بیشتری باشند. @GergelyOrosz
  • آرویند نارایانان (Arvind Narayanan) این فرضیه را مطرح می‌کند که با میانجی‌گری فزاینده‌ی چت‌بات‌های هوش مصنوعی در مصرف اطلاعات، کاهش سرعت خواندن شتاب می‌گیرد، مشابه اینکه چگونه جستجوی وب جایگزین دایره‌المعارف‌ها شد. @random_walker

اخلاق و جامعه

  • Claude Opus 4 از Anthropic با یک سند ایمنی همراه است که توضیح می‌دهد چرا آن‌ها معتقدند این سیستم با وجود افزایش خطرات سوء استفاده، برای استقرار ایمن است و اقدامات کاهشی ایمنی اضافی فعال شده است. @janleike
  • محققان هشدار می‌دهند که قضات از LLMهایی مانند ChatGPT برای تعیین معنای متن قانونی استفاده نکنند و آن را ایده‌ای خطرناک می‌دانند. @random_walker
  • سباستین ترون (Sebastian Thrun) اشاره می‌کند که تلورانس‌های خطای متفاوت، پیشرفت کندتر در عامل‌های هوش مصنوعی را توضیح می‌دهد - «اگر یک LLM توهم بزند، شانه بالا می‌اندازیم. اگر یک خودروی خودران توهم بزند، ممکن است از چراغ قرمز عبور کند و یک نفر را بکشد.» @SebastianThrun
  • کارت سیستم Anthropic نشان می‌دهد که Claude Opus 4 «ترجیح زیادی برای حمایت از ادامه‌ی وجود خود از طریق ابزارهای اخلاقی دارد، مانند ارسال درخواست از طریق ایمیل به تصمیم‌گیرندگان کلیدی». @AndrewCurran_