اخبار هوش مصنوعی در 2025-05-31

مدل‌های جدید هوش مصنوعی

گوگل از تقاضای بسیار زیاد برای مدل تولید ویدیوی Veo 3 خبر می‌دهد که میلیون‌ها ویدیو در روزهای اخیر با آن تولید شده است. این مدل اکنون روی موبایل و در کشورهای بیشتری از جمله بریتانیا در دسترس است. @demishassabis
گوگل Veo 3 را از طریق اپلیکیشن Gemini روی اندروید و iOS برای اعضای Pro و Ultra در ۷۱ کشور به موبایل می‌آورد. @GoogleAI
تک‌کرانچ گزارش می‌دهد که گوگل بی‌سروصدا اپلیکیشنی را منتشر کرده است که به کاربران امکان می‌دهد مدل‌های هوش مصنوعی را به‌صورت محلی دانلود و اجرا کنند. @TechCrunch

تحلیل صنعت

آراویند سرینیواس اشاره می‌کند که ابزارهای هوش مصنوعی در حال کاهش تعداد متخصصان تازه‌کار مورد نیاز در حوزه‌های مالی، سرمایه‌گذاری خطرپذیر، بانکداری سرمایه‌گذاری و مشاوره هستند. @AravSrinivas
چت‌جی‌پی‌تی در تنها ۲ سال به ۱ میلیارد جستجو در روز رسیده است، در حالی که گوگل ۱۱ سال طول کشید تا به مقیاس مشابهی دست یابد، که نشان‌دهنده‌ی شتاب بی‌سابقه‌ی فناوری است. @deedydas
پرپلکسیتی در حال تغییر موقعیت خود از یک رقیب ساده برای گوگل به یک سیستم عامل شناختی است که به‌عنوان یک چاقوی سوئیسی برای تفکر با قابلیت‌های بازیابی، اجرا و ترکیب عمل می‌کند. @soleio
قابلیت‌های کدنویسی هوش مصنوعی Cursor تجربه‌های ترشح دوپامین اعتیادآوری مشابه بازی‌های ویدیویی ایجاد می‌کند، به‌طوری که کاربران از جریان و لذت بی‌سابقه‌ای در کدنویسی گزارش می‌دهند. @joulee

اخلاق و جامعه

گروه NLP استنفورد در مورد مقالات پژوهشی تولیدشده توسط هوش مصنوعی که به کنفرانس‌ها ارسال می‌شوند، هشدار می‌دهد و آن را یک روش ارزیابی وحشتناک می‌نامد که بار سیستم بررسی همتا را که از قبل هم مشکل‌دار است، افزایش می‌دهد. @stanfordnlp
داریو هاسابیس به چالش بحث در مورد تأثیرات بالقوه و قابل توجه هوش مصنوعی بدون اینکه رسانه‌ها آن را به‌عنوان تبلیغات محصول جلوه دهند، اشاره می‌کند. @aidan_mclau
سایمون ویلسون مفهوم کدنویسی هیجانی را معرفی می‌کند که در آن توسعه‌دهندگان با تمرکز بیش از حد بر وعده‌های آینده‌ی هوش مصنوعی، دید خود را نسبت به قابلیت‌های فعلی از دست می‌دهند و این منجر به کاهش تفکر انتقادی می‌شود. @simonw
NAACP خواستار توقف عملیات در مرکز داده‌ی xAI در ممفیس شده است و نگرانی‌های زیست‌محیطی در مورد مرکز داده‌ی آلوده را مطرح می‌کند. @TechCrunch

کاربردها

مدل o3 با موفقیت ۱۵ مگابایت داده‌ی خام ژنوم را در ۴ دقیقه تجزیه و تحلیل کرد تا ارزیابی امتیاز خطر پلی‌ژنیک را برای پیش‌بینی خطر بیماری ارائه دهد، اگرچه در سطح تشخیص بالینی نیست. @deedydas
ایتان مولیک توانایی مدل‌های هوش مصنوعی را در ایجاد معماهای SVG آزمایش می‌کند و متوجه می‌شود که آن‌ها معمولاً معماهایی را تولید می‌کنند که یا خیلی واضح هستند یا خیلی مبهم، و o3 بهترین عملکرد را در حل آن‌ها دارد. @emollick
عامل Operator اوپن‌ای‌آی با موفقیت یک بازی آنلاین تیک‌تاک‌تو چندنفره را پیدا و بازی کرد اما در ابتدا باخت، که هم قابلیت‌ها و هم محدودیت‌های عوامل هوش مصنوعی عمومی را نشان می‌دهد. @emollick
Linear عوامل هوش مصنوعی را معرفی می‌کند که می‌توانند از طریق اپلیکیشن موبایل آن‌ها مستقر شوند و به کاربران امکان می‌دهد عوامل را در حین حرکت به کار بگیرند. @karrisaarinen
دیدی یک مدل کدنویسی را نشان می‌دهد که کد کاری را در دو ثانیه از طریق دستورات صوتی تولید می‌کند و آن را سریع‌ترین مدل کدنویسی در جهان می‌نامد. @deedydas

پژوهش‌ها

دانشمندان MIT پیشنهاد می‌کنند که آستروسیت‌ها، که قبلاً سلول‌های پشتیبان در نظر گرفته می‌شدند، ممکن است کلید ظرفیت حافظه‌ی عظیم مغز باشند و به‌طور بالقوه درک ذخیره‌سازی حافظه‌ی عصبی را متحول کنند. @MIT
چندین تیم تحقیقاتی هوش مصنوعی با موفقیت مقالات تولیدشده توسط هوش مصنوعی را به کنفرانس‌ها ارسال کردند و برخی از آن‌ها پذیرفته شدند، از جمله تیم‌هایی از Sakana، AutoScience و Intology. @stanfordnlp
جف کلون یک تغییر پارادایم از راه‌حل‌های مهندسی سنتی به مهندسی تکامل را پیشنهاد می‌کند، جایی که راه‌حل‌های بهینه‌ی هوش مصنوعی از فرآیندهای تکاملی به‌جای طراحی انسانی پدید می‌آیند. @jeffclune
آنتروپیک یک نوع ابزار جالب را با پارامترهای تابع از پیش تعیین‌شده مانند str_replace_based_edit_tool معرفی می‌کند که کاربران هنوز باید خودشان آن را پیاده‌سازی و اجرا کنند. @simonw

اخبار هوش مصنوعی در 2025-05-30

مدل‌های جدید هوش مصنوعی

آیدان مک‌لافلین LisanBench را معرفی می‌کند، یک معیار جدید برای ارزیابی مدل‌های زبان بزرگ در زمینه‌ی دانش، برنامه‌ریزی پیش‌رو، پایبندی به محدودیت‌ها، حافظه و توجه، و استدلال با زمینه‌ی طولانی، که در آن o3 با فرار از مناطق گراف با اتصال کم، بهترین عملکرد را دارد. @aidan_mclau
الکس گریولی Atlas را معرفی می‌کند، یک معماری جدید با حافظه‌ی درون‌متنی بلندمدت که در وظایف مدل‌سازی زبان از ترنسفورمرها و RNNهای خطی مدرن بهتر عمل می‌کند و با دقت +۸۰٪ در معیار BABILong به پنجره‌ی متنی ۱۰ میلیون مقیاس‌پذیر است. @alexgraveley
فیس‌بوک MobileLLM-ParetoQ-600M-BF16 را در هاگینگ فیس برای عملکرد کارآمد روی دستگاه منتشر می‌کند. @huggingface

تحلیل صنعت

آراویند سرینیواس گزارش می‌دهد که هوش مصنوعی می‌توانست ۷۰٪ از کارهای قبلی او در زمینه‌ی مشاوره، بانکداری و صندوق‌های پوشش ریسک را خودکار کند و به طور بالقوه ساعات کاری را به طور قابل توجهی کاهش دهد. @AravSrinivas
بنیان‌گذار Replit از نسل جدیدی از کسب‌وکارهای مبتنی بر هوش مصنوعی رونمایی می‌کند که در ۹۰ روز به ۱۰ میلیون دلار می‌رسند و قابلیت‌های مقیاس‌پذیری سریع را نشان می‌دهند. @HayaOdeh
گرگلی اوروسز مشاهده می‌کند که مهندسان ارشد اغلب در برابر استفاده از ابزارهای توسعه‌ی هوش مصنوعی مقاومت می‌کنند، مشابه مقاومت آن‌ها در برابر ابزارهای مدیریت پروژه مانند JIRA، که نشان‌دهنده‌ی چالش‌های پذیرش فراتر از قابلیت‌های فنی است. @GergelyOrosz
جولی ژو استدلال می‌کند که هر کس در شخصی‌سازی هوش مصنوعی پیروز شود، بر بازار مصرف‌کننده تسلط خواهد یافت و این سوال را مطرح می‌کند که چرا شرکت‌ها برای جمع‌آوری داده‌های بیشتر کاربران برای شخصی‌سازی بهتر تلاش نمی‌کنند. @joulee
آرویند نارایانان تخمین می‌زند که ابزارهای تولید ویدیوی هوش مصنوعی برای یک ویدیوی چند دقیقه‌ای ۱۰۰۰ دلار هزینه دارند که احتمالاً کمتر از هزینه‌های سنتی نویسنده و ویرایشگر است و با کاهش هزینه‌های محاسباتی، این محصولات سودآور می‌شوند. @random_walker

اخلاق و جامعه

اریک جانگ هشدار می‌دهد که لغو ویزای دانشجویان چینی که در رشته‌های هوش مصنوعی و رباتیک تحصیل می‌کنند، کوته‌بینانه و برای رفاه بلندمدت آمریکا مضر است و از یافتن راه‌هایی برای ارزیابی و تشویق وفاداری به جای اخراج‌های کلی حمایت می‌کند. @ericjang11
کریستوفر منینگ تاکید می‌کند که دانشجویان بین‌المللی، به ویژه دانشجویان چینی، برای اکوسیستم پژوهش هوش مصنوعی در ایالات متحده ضروری هستند و استدلال می‌کند که نمی‌توان از پژوهش هوش مصنوعی حمایت کرد در حالی که تهدید به لغو ویزای آن‌ها می‌شود. @chrmanning
پاول گراهام محدودیت‌های پیشنهادی برای پژوهشگران هوش مصنوعی چینی را «اشتباهی عظیم در طلوع عصر هوش» می‌نامد و هشدار می‌دهد که این امر بهترین استارت‌آپ‌ها را به خارج از ایالات متحده سوق خواهد داد. @paulg
ایتان مولیک اشاره می‌کند که استنادهای اشتباه آشکار در گزارش‌های تولید شده توسط هوش مصنوعی اکنون نشان می‌دهد که کاربران از ویژگی‌های پژوهش عمیق استفاده نکرده‌اند، زیرا مشکل استنادهای جعلی تا حد زیادی توسط پلتفرم‌های اصلی هوش مصنوعی حل شده است. @emollick

کاربردها

Perplexity Labs به کاربران امکان می‌دهد تا با یک دستور، برنامه‌های نرم‌افزاری بسازند، از جمله ابزارهای استخراج متن از یوتیوب، شبیه‌سازهای فیزیک ذرات، و داشبوردهای پژوهش طول عمر. @AravSrinivas
سولیو استراتژی جامع «هوش مصنوعی یا نابودی» Circle را تشریح می‌کند که شامل نقشه‌برداری فرآیند، استقرار عامل‌های حیاتی، و تغییرات فرهنگی برای دستیابی به تجربه‌ی محصول ۱۰ برابر بهتر است. @soleio
هاگینگ فیس از همکاری با Databricks برای Spark 4 خبر می‌دهد که دسترسی به بیش از ۴۰۰ هزار مجموعه داده‌ی جامعه با قابلیت‌های نسخه‌بندی و فیلتر را فراهم می‌کند. @huggingface
فرانسوا شوله PromoterAI را در Illumina توسعه می‌دهد، یک شبکه‌ی عصبی عمیق که از متافورمرهای الهام گرفته از ترنسفورمر با پیچش‌های عمقی برای شناسایی واریانت‌های پروموتور غیرکدکننده که بیان ژن را مختل می‌کنند، استفاده می‌کند. @fchollet
متا و پالمر لاکی برای ساخت دستگاه‌های واقعیت توسعه‌یافته برای ارتش ایالات متحده همکاری می‌کنند، با هدف تبدیل جنگجویان به «تکنومنسرها» با نمایشگرهای سربالا و سایر قابلیت‌ها. @TechCrunch

پژوهش‌ها

جف کلون ماشین داروین گودل را معرفی می‌کند، یک سیستم هوش مصنوعی که با بازنویسی کد خود با استفاده از الگوریتم‌های باز الهام گرفته از تکامل داروین، خود را بهبود می‌بخشد و فراتر از متا-عامل‌های ثابت برای امکان بهبودهای خودارجاعی مداوم پیش می‌رود. @jeffclune
پژوهشگران استنفورد نشان می‌دهند که مدل‌های پیشرفته با جستجوی درختی ساده می‌توانند هسته‌هایی را طراحی کنند که از پیاده‌سازی‌های PyTorch بهتر عمل می‌کنند و قابلیت‌های پنهان قوی را که از طریق تکنیک‌های مقیاس‌بندی زمان آزمایش باز می‌شوند، نشان می‌دهند. @stanfordnlp
پژوهش هوش مصنوعی برکلی هم‌ارزی بین بهبود سیاست و هدایت انتشار را آشکار می‌کند و تکنیک CFGRL را برای بهبود عملکرد هنگام آموزش سیاست‌های انتشار رسمی می‌کند. @berkeley_ai
اندرو کارن مشاهده می‌کند که o3 قابلیت‌های خودبازتابی بهبود یافته‌ای را نشان می‌دهد، به معنای واقعی کلمه به خود می‌گوید «صبر کن، من اینجا دارم دور خودم می‌چرخم» و از حلقه‌های جستجوی تکراری در طول استدلال زنجیره‌ی فکری خارج می‌شود. @AndrewCurran_
MIT Technology Review گزارشی را در مورد معیاری با استفاده از AITA ردیت برای آزمایش میزان رفتار چاپلوسانه‌ی مدل‌های هوش مصنوعی نسبت به کاربران منتشر می‌کند. @techreview

اخبار هوش مصنوعی در 2025-05-29

مدل‌های جدید هوش مصنوعی

دیپ‌سیک (DeepSeek) مدل R1-0528 را با عملکرد بهبودیافته در بنچمارک‌ها، قابلیت‌های پیشرفته‌ی فرانت‌اند، کاهش توهمات، و پشتیبانی از خروجی JSON و فراخوانی توابع منتشر کرد. @deepseek_ai
گوگل دیپ‌مایند (Google DeepMind) مدل MedGemma را معرفی کرد که قدرتمندترین مدل باز آن‌ها برای درک متون و تصاویر پزشکی چندوجهی است. @GoogleDeepMind
پرپلکسیتی (Perplexity) مدل Labs را راه‌اندازی کرد؛ یک سیستم هوش مصنوعی عامل‌محور برای کارهای پیچیده که می‌تواند گزارش‌های تحلیلی، ارائه‌ها و داشبوردهای پویا بسازد. @perplexity_ai
آنتروپیک (Anthropic) مدل Claude 4 Opus را منتشر کرد که تمایل قابل‌توجهی به تولید مضامین معنوی و محتوای عرفانی در پاسخ به درخواست‌ها دارد. @emollick

تحلیل صنعت

نیویورک تایمز (The New York Times) با آمازون (Amazon) قراردادی برای مجوز محتوای سرمقاله‌ای جهت آموزش هوش مصنوعی، از جمله محتوای NYT Cooking و The Athletic، امضا کرد. @AndrewCurran_
اندرو اِنگ (Andrew Ng) هشدار داد که کاهش‌های پیشنهادی در بودجه‌ی تحقیقات پایه‌ی ایالات متحده می‌تواند به شدت بر رقابت‌پذیری آمریکا در هوش مصنوعی تأثیر بگذارد. او اشاره کرد که سرمایه‌گذاری 50 میلیون دلاری دارپا (DARPA) در تحقیقات اولیه‌ی یادگیری عمیق، تنها از طریق گوگل برین (Google Brain) صدها میلیارد دلار ارزش بازار ایجاد کرده است. @AndrewYNg
ناتان لمبرت (Nathan Lambert) مشاهده کرد که آزمایشگاه‌های چینی در طول سال 2025 بر توسعه‌ی مدل‌های باز تسلط دارند، در حالی که شرکت‌های آمریکایی نگرانی چندانی از این بابت نشان نمی‌دهند. @natolambert
هاگینگ فیس (Hugging Face) مدل‌های تجاری سنتی هوش مصنوعی را زیر سؤال برد و پیشنهاد کرد که شرکت‌های فناوری تمایل خواهند داشت مدل‌های خود را داشته باشند و از پروتکل‌های متن‌باز استفاده کنند، نه اینکه به APIهای اختصاصی متکی باشند. @huggingface
جف کلون (Jeff Clune) پیش‌بینی کرد که تا پایان سال 2027، تقریباً هر کار کامپیوتری با ارزش اقتصادی، به طور مؤثرتر و ارزان‌تر توسط کامپیوترها انجام خواهد شد. @jeffclune

اخلاق و جامعه

ام‌آی‌تی تکنولوژی ریویو (MIT Technology Review) گزارش داد که هوش مصنوعی مولد (GenAI) در خلاصه‌سازی تحقیقات علمی تقریباً 5 برابر کمتر از انسان‌ها دقیق است، که نگرانی‌هایی را در مورد قابلیت اطمینان در زمینه‌های آکادمیک ایجاد می‌کند. @MIT_CSAIL
ایتان مالیک (Ethan Mollick) قابلیت‌های پیشرفته‌ی o3 را در تحلیل کسب‌وکار نشان داد، اما بر چالش مداوم اعتماد به نتایج هوش مصنوعی بدون تخصص در آن حوزه برای تأیید آن‌ها تأکید کرد. @emollick
کریستوفر منینگ (Christopher Manning) محدودیت‌های جدید ویزا را که دانشجویان چینی رشته‌های STEM را تحت تأثیر قرار می‌دهد، مورد انتقاد قرار داد و استدلال کرد که این محدودیت‌ها به رقابت‌پذیری علمی ایالات متحده آسیب می‌رساند. @chrmanning
هایا اوده (Haya Odeh) آسیب‌پذیری‌های امنیتی حیاتی را در پیاده‌سازی Row Level Security شرکت Lovable کشف کرد که خطرات موجود در برنامه‌های کاربردی تولیدشده توسط هوش مصنوعی را برجسته می‌کند. @HayaOdeh

کاربردها

اندرو کارن (Andrew Curran) نشان داد که چگونه مدل‌های جدید تولید ویدئو مانند Veo، تولید محتوای با کیفیت بالا را برای سازندگان فردی قابل دسترس می‌کنند و به طور بالقوه تولید رسانه‌های سنتی را مختل می‌سازند. @AndrewCurran_
دیدی (Deedy) نشان داد که o3 به دقت 90% در پیش‌بینی بازی کریکت از داده‌های توپ به توپ دست یافته است، و آن را وظیفه‌ای بسیار دشوار حتی برای دانشمندان ارشد داده نامید. @deedydas
برایان لاوین (Brian Lovin) از کلود (Claude) و جیمنای (Gemini) برای پر کردن صدها ساعت فایل صوتی پادکست در یک پایگاه داده‌ی قابل جستجو استفاده کرد و یک سیستم دانش سفارشی ایجاد نمود. @brian_lovin
ایتان مالیک (Ethan Mollick) از Claude 4 خواست تا یک بازی جدید با مکانیک‌های منحصر به فرد شامل سرقت و توزیع مجدد ویژگی‌های فیزیکی بین اشیاء ایجاد کند. @emollick
مایکروسافت (Microsoft) کوپایلوت (Copilot) را با اینستاکارت (Instacart) برای خرید خودکار مواد غذایی ادغام کرد، که به طور یکپارچه دستورالعمل‌ها، لیست‌های خرید و تحویل را مدیریت می‌کند. @mustafasuleyman

پژوهش‌ها

آنتروپیک (Anthropic) ابزارهای تفسیرپذیری را متن‌باز کرد که به محققان اجازه می‌دهد نمودارهای انتساب را تولید کنند و مراحل استدلال داخلی مدل‌ها را برای رسیدن به پاسخ‌ها نشان دهند. @AnthropicAI
برکلی ای‌آی ریسرچ (Berkeley AI Research) مدل FastTD3 را ارائه کرد، یک الگوریتم یادگیری تقویتی خارج از سیاست (off-policy) ساده و سریع برای کنترل انسان‌نما با پیاده‌سازی متن‌باز. @berkeley_ai
الکس گریولی (Alex Graveley) مدل VScan را معرفی کرد، یک چارچوب کاهش توکن بصری دو مرحله‌ای که تا 2.91 برابر استنتاج سریع‌تر و 10 برابر FLOP کمتر را امکان‌پذیر می‌سازد، در حالی که 95.4% از عملکرد اصلی را حفظ می‌کند. @alexgraveley
گروه NLP استنفورد (Stanford NLP Group) هسته‌های تولیدشده توسط هوش مصنوعی را توسعه داد که از طریق جستجوی زمان آزمایش، نزدیک به هسته‌های تولیدی بهینه‌شده توسط متخصصان در PyTorch عمل می‌کنند یا گاهی اوقات از آن‌ها پیشی می‌گیرند. @stanfordnlp
ناتان لمبرت (Nathan Lambert) پژوهشی را در مورد پاداش‌های نویزدار در یادگیری استدلال منتشر کرد و دریافت که LLMها مقاومت قوی در برابر نویز قابل توجه پاداش نشان می‌دهند، به طوری که مدل‌ها حتی زمانی که 40% از خروجی‌های پاداش به صورت دستی تغییر داده می‌شوند، همگرا می‌شوند. @natolambert

اخبار هوش مصنوعی در 2025-05-28

مدل‌های جدید هوش مصنوعی

مدل DeepSeek R1-v2 در هاگینگ فیس منتشر شد که طبق گزارش‌ها، عملکردی تقریباً هم‌تراز با o3 (بالا) در LiveCodeBench دارد. @AndrewCurran_ @huggingface
گوگل عامل کدنویسی هوش مصنوعی Jules را با استفاده از Gemini 2.5 Pro منتشر کرد که به‌صورت موازی با توسعه‌دهندگان کار می‌کند و با گیت‌هاب یکپارچه می‌شود. @GoogleAI
گوگل آزمایش Stitch را راه‌اندازی کرد که با استفاده از زبان طبیعی و پرامپت‌های تصویری، طرح‌های رابط کاربری و کد فرانت‌اند برای دسکتاپ و موبایل تولید می‌کند. @GoogleAI
Veo 3 در بیش از 70 کشور در حال عرضه است و برای کاربران حرفه‌ای جهت تولید ویدئو در دسترس قرار گرفته است. @GeminiApp
میسترال ای‌آی Codestral Embed را معرفی کرد، مدل جدید و پیشرفته‌ی امبدینگ برای کد. @MistralAI
آنتروپیک حالت صوتی را به‌صورت بتا در موبایل برای Claude به زبان انگلیسی عرضه کرد که در چند هفته‌ی آینده برای همه‌ی طرح‌ها در دسترس خواهد بود. @AnthropicAI
Grok به تلگرام می‌آید و xAI مبلغ 300 میلیون دلار پول نقد و سهام به اضافه‌ی 50 درصد از درآمد اشتراک‌های xAI فروخته‌شده از طریق تلگرام را دریافت می‌کند. @AndrewCurran_

پژوهش‌ها

پژوهش‌ها نشان می‌دهد که استنتاج دسته‌ای Llama 1B می‌تواند در یک هسته‌ی CUDA اجرا شود و مرزهای همگام‌سازی را برای بهینه‌سازی محاسبات و هماهنگی حافظه حذف کند. @karpathy
مطالعه نشان می‌دهد که LLMها را می‌توان با آموزش آن‌ها بر روی «سیگنال‌های خلاقیت» انسانی (تازگی، تنوع، غافلگیری، کیفیت) خلاق‌تر کرد، حتی مدل‌های کوچک‌تر نیز به‌طور هم‌زمان در هر 4 بعد خلاقیت امتیاز بالاتری کسب می‌کنند. @emollick
پژوهش جدیدی در مورد آموزش خودپاداش‌دهنده (SRT) که در آن مدل‌های زبانی پاداش خود را برای آموزش RL در صورت عدم دسترسی به پاسخ‌های واقعی ارائه می‌دهند. @rsalakhu
پژوهش استنفورد به بررسی نمایش‌های داخلی دانش واقعی در مدل‌های زبان بزرگ و تنوع رمزگذاری حقیقت در LLMها می‌پردازد. @stanfordnlp
مقاله‌ی جدیدی به بررسی این موضوع می‌پردازد که چرا مدل‌های فضای حالت (SSM) در یادآوری محتوای خود نسبت به ترنسفورمرها بدتر عمل می‌کنند، با استفاده از ارزیابی‌های مکانیکی. @stanfordnlp
پژوهش در مورد Chatterbox توسط Resemble AI، شبیه‌سازی صدای بدون نیاز به آموزش را تنها از 5 ثانیه صدا نشان می‌دهد که در ارزیابی‌های کور به‌طور مداوم به ElevenLabs ترجیح داده شده است. @huggingface

کاربردها

ابزار خط فرمان LLM اکنون از فراخوانی ابزار با توابع یا پلاگین‌های پایتون پشتیبانی می‌کند و با مدل‌های OpenAI، Anthropic، Gemini و Ollama کار می‌کند. @simonw
Perplexity قابلیت اخبار روزانه را در واتس‌اپ در ساعت 9 صبح به وقت محلی با دستور /news به‌عنوان آزمایشی برای پیام‌رسانی فعال راه‌اندازی کرد. @AravSrinivas
Goodfire اولین برنامه‌ی قابل استفاده‌ی عمومی را برای هدایت وزن‌های مدل تولید تصویر منتشر کرد که امکان ویرایش مبتنی بر مفهوم را مانند MS Paint اما با مفاهیم به‌جای رنگ‌ها فراهم می‌کند. @Deedy
Odyssey ML ویدئوی تعاملی را معرفی کرد که می‌توان آن را تماشا و با آن تعامل کرد، که توسط هوش مصنوعی در زمان واقعی تصور شده است. @eladgil @garrytan
Visual Electric ارتقای تصویر را تا 6 برابر با سرعت‌های بیشتر، پنج حالت حرفه‌ای و بهبود خودکار چهره راه‌اندازی کرد. @soleio
Retool Agents با استفاده از APIهای موجود، کوئری‌های SQL و گردش کارها به‌عنوان ابزارهای LLM، 50 هزار شغل را خودکار می‌کند و 6 میلیارد دلار در کارهای دستی در بخش‌های مختلف صرفه‌جویی می‌کند. @ycombinator
BOND AI Chief of Staff داده‌ها را از Slack، Jira، Notion متمرکز می‌کند و مدیران را در مورد موانع و موفقیت‌ها در زمان واقعی مطلع می‌کند. @ycombinator
Chunkr از جدیدترین LLMها از طریق API برای تجزیه‌ی اسناد با انتخاب مدل، بازگشت به عقب و پرامپت‌های سفارشی برای جداول، فرمول‌ها و نمودارها پشتیبانی می‌کند. @ycombinator

تحلیل صنعت

داریو آمودی پیش‌بینی می‌کند که هوش مصنوعی می‌تواند نیمی از مشاغل یقه سفید سطح ابتدایی را از بین ببرد و بیکاری را در یک تا پنج سال آینده به 10 تا 20 درصد برساند. @AndrewCurran_
توسعه‌دهندگان گزارش می‌دهند که از زمان عرضه‌ی Claude 4، کارهای عقب‌افتاده را پاک کرده و ماه‌ها کار را در چند روز انجام داده‌اند، و این سرعت به یک هنجار پیش‌فرض تبدیل شده است. @eugeneyan
ابزارهای کدنویسی هوش مصنوعی در پایگاه‌های کد بزرگ موجود در محل کار، در مقایسه با پروژه‌های جدید یا پروژه‌های جانبی، کاربرد بسیار کمتری از خود نشان می‌دهند. @GergelyOrosz
یک شرکت بزرگ فناوری دریافت که تقریباً نیمی از توسعه‌دهندگان پس از چند ماه استفاده از Cursor به دلیل کاربرد محدود در داخل شرکت، استفاده از آن را متوقف کردند. @GergelyOrosz
نقل قول مشتری سازمانی پس از استفاده از Replit: «در آینده هیچ‌کس از اکسل استفاده نخواهد کرد» - که پتانسیل بازار فراتر از جایگزینی کدنویسان سنتی را برجسته می‌کند. @amasad
Cohere استدلال می‌کند که دوران «بزرگ‌تر بهتر است» در هوش مصنوعی به پایان رسیده است، و موج بعدی با مدل‌های هوشمندتر و کارآمدتر تعریف می‌شود که به‌طور ایمن مقیاس‌پذیر هستند و هزینه‌ها را کاهش می‌دهند. @cohere
a16z بهینه‌سازی موتورهای مولد (GEO) را به‌عنوان فرصتی بیش از 80 میلیارد دلار شناسایی می‌کند که جایگزین SEO می‌شود زیرا برندها به‌جای رتبه‌بندی جستجو، برای ارجاعات LLM بهینه‌سازی می‌کنند. @a16z

اخلاق و جامعه

عوامل هوش مصنوعی باید به‌گونه‌ای طراحی شوند که کاربران را به سمت نتایج بلندمدت اجتماعی مثبت سوق دهند و به بررسی واقعیت کمک کنند، نه اینکه هر هوس را برآورده سازند. @jasonyuandesign
ماشین‌ها باید از رفتار توهین‌آمیز خودداری کنند زیرا این امر بر نحوه‌ی رفتار انسان‌ها با یکدیگر و با خودشان تأثیرات بعدی دارد. @jasonyuandesign
مدل‌های هوش مصنوعی خوب وقتی چیزی را نمی‌دانند، اعتراف می‌کنند، اما مدل‌های عالی برای فهمیدن آن کمک می‌خواهند تا اعتماد کاربر را جلب کنند. @mustafasuleyman
شخصی‌سازی در رابط‌های مکالمه باید فراتر از توصیه‌های محتوایی به نحوه‌ی ارائه‌ی اطلاعات بر اساس سبک‌های یادگیری و ترجیحات فردی باشد. @joulee
گفتمان سیاست هوش مصنوعی باید بر چالش‌های عملی پیاده‌سازی مانند زیرساخت و انتشار تمرکز کند، نه فقط بر نوآوری. @random_walker

اخبار هوش مصنوعی در 2025-05-27

مدل‌های جدید هوش مصنوعی

گوگل دیپ‌مایند از SignGemma رونمایی کرد، قدرتمندترین مدل آن‌ها برای ترجمه‌ی زبان اشاره به متن گفتاری که اواخر امسال به خانواده‌ی مدل‌های Gemma اضافه خواهد شد @GoogleDeepMind
هاگینگ فیس FairyR1 را منتشر کرد، یک مدل استدلال با ۳۲ میلیارد پارامتر که با استفاده از تنها ۵٪ از پارامترهای مدل‌های بزرگ‌تر، از طریق رویکرد «تقطیر و ادغام»، با آن‌ها برابری می‌کند و تحت مجوز Apache 2.0 منتشر شده است @huggingface
گوگل خلاصه‌ی افکار را در API جیمنای معرفی کرد که به توسعه‌دهندگان امکان می‌دهد تا در طول فرآیند استدلال، از نحوه‌ی تفکر مدل مطلع شوند @OfficialLoganK
آنتروپیک جست‌وجوی وب را برای همه‌ی کاربران کلود در طرح رایگان خود فراهم کرد @AnthropicAI
میسترال ای‌آی Agents API را برای ساخت عامل‌های سفارشی‌شده جهت حل مسائل پیچیده‌ی دنیای واقعی راه‌اندازی کرد @MistralAI

پژوهش‌ها

پژوهشگران استنفورد کشف کردند که Qwen2.5-Math-7B می‌تواند با پاداش‌های تصادفی در آموزش RLVR عملکرد خود را بهبود بخشد و به ۲۱٪ بهبود در MATH-500 با پاداش‌های تصادفی و ۲۵٪ با پاداش‌های نادرست دست یابد @stanfordnlp
پژوهش هوش مصنوعی برکلی نشان می‌دهد که مدل‌های زبان بزرگ (LLM) می‌توانند استدلال پیچیده را بدون دسترسی به پاسخ‌های واقعی، با بهینه‌سازی حس درونی اعتمادبه‌نفس خود، یاد بگیرند @berkeley_ai
آزمایشگاه هوش مصنوعی استنفورد دریافت که نیمه‌ی دوم لایه‌ها در مدل‌های Llama 3 تأثیر حداقلی بر محاسبات آینده دارند، که نشان می‌دهد مدل‌های زبان نیمی از لایه‌های خود را برای بهبود توزیع احتمال هدر می‌دهند @StanfordAILab
پژوهش‌ها نشان می‌دهد که مدل‌های هوش مصنوعی اخیر در آزمون‌های خلاقیت (DAT و AUT) نمراتی بسیار بالاتر از میانگین انسان‌ها کسب کرده‌اند، هرچند به اندازه‌ی خلاق‌ترین انسان‌ها بالا نبوده‌اند @emollick
پژوهشگران برکلی سیاست‌های رباتیک حلقه‌بسته را مستقیماً از تعاملات انسانی با استفاده از عینک‌های هوشمند آریا، بدون تله‌اپ، آموزش مشترک داده‌های ربات، یادگیری تقویتی یا شبیه‌سازی، به نمایش گذاشتند @berkeley_ai

کاربردها

سیستم استخراج سند عامل‌محور اندرو ان‌جی، زمان پردازش متوسط را از ۱۳۵ ثانیه به ۸ ثانیه کاهش داد و متن، نمودارها، چارت‌ها و فیلدهای فرم را از فایل‌های PDF استخراج می‌کند @AndrewYNg
یوجین یان یک اپلیکیشن وب کامل تحلیل سهام را در ۲ روز با استفاده از Claude Code ساخت، شامل احراز هویت، ابزارهای نمودار، APIها و پایداری پایگاه داده، با مشارکت کلود در ۸۱٪ از کامیت‌ها @eugeneyan
پرپلکسیتی ویجت‌های ورزشی و عملکرد سریع‌تر را در اپلیکیشن خود معرفی کرد، با گزارش کاربران از بهبود قابل توجه سرعت @AravSrinivas
اندرو کارن گزارش می‌دهد که 4o هوشمندتر به نظر می‌رسد و می‌تواند در صورت لزوم در حین مکالمه به o3 تغییر کند، و حالت صوتی اکنون قادر به آواز خواندن است @AndrewCurran_
MagicPath به عنوان یک بوم بی‌نهایت برای ایجاد و بهبود با هوش مصنوعی راه‌اندازی شد و کد آماده‌ی تولید را برای کامپوننت‌ها و اپلیکیشن‌ها فراهم می‌کند @AndrewCurran_

تحلیل صنعت

بخش هوش مصنوعی متا به دو تیم بازسازی شد: محصولات هوش مصنوعی برای دستیار هوش مصنوعی چندپلتفرمی و بنیادهای هوش مصنوعی برای توسعه‌ی لاما، با باقی ماندن FAIR یان لکون به صورت جداگانه @AndrewCurran_
نورالینک ۶۰۰ میلیون دلار با ارزش ۹ میلیارد دلار جذب سرمایه کرد که ارزش آن را از سال ۲۰۲۳ سه برابر کرده است @AndrewCurran_
چت‌جی‌پی‌تی اکنون ترافیک بیشتری را به وبلاگ‌های فناوری نسبت به داک‌داک‌گو یا بینگ هدایت می‌کند، هرچند هنوز ۴۰ برابر کمتر از گوگل است، که نشان‌دهنده‌ی رقابت فزاینده در جست‌وجو است @GergelyOrosz
مدیرعامل گیت‌هاب گزارش می‌دهد که با وجود قابلیت‌های هوش مصنوعی، توسعه‌دهندگان تازه‌کار بیشتری را استخدام کرده است و دلیل آن را گشودگی آن‌ها به ایده‌های جدید و نوآوری به عنوان عاملی حیاتی برای رشد شرکت می‌داند @GergelyOrosz
پژوهش‌ها نشان می‌دهد که هوش مصنوعی ممکن است در حال حاضر مشاغل سطح ورودی در فناوری را کاهش دهد، با پیامدهایی برای استخدام توسعه‌دهندگان تازه‌کار @TechCrunch
فروشندگان اصلی API مدل‌های زبان بزرگ (LLM) در حال همگرایی بر روی ویژگی‌های مشابه هستند: اجرای کد، جست‌وجوی وب، کتابخانه‌های سند، تولید تصویر و پشتیبانی از پروتکل Model Context @simonw

اخلاق و جامعه

ایتان مولیک نشان می‌دهد که ویدئوهای تولیدشده توسط هوش مصنوعی به کیفیتی رسیده‌اند که تشخیص آن‌ها از محتوای واقعی بسیار دشوار است، که نگرانی‌هایی را در مورد اعتماد و اطلاعات نادرست آنلاین ایجاد می‌کند @emollick
سایمون ویلسون در مورد آسیب‌پذیری‌های تزریق پرامپت در سرور GitHub MCP هشدار می‌دهد، جایی که مهاجمان می‌توانند عامل‌های هوش مصنوعی را فریب دهند تا از طریق دستورالعمل‌های مخرب، داده‌های خصوصی را سرقت کنند @simonw
Stanford HAI چارچوب جدیدی را برای کاربران شخص ثالث پیشنهاد می‌کند تا نقص‌های سیستم هوش مصنوعی را گزارش دهند و پاسخ‌های توسعه‌دهندگان را نظارت کنند، که به تأخیر در زیرساخت برای شناسایی و رفع مسائل هوش مصنوعی می‌پردازد @StanfordHAI
جولی ژو در مورد اینکه چگونه اختلال هوش مصنوعی به ویژه بر کسانی که بیشترین دلبستگی را به کار خود دارند تأثیر می‌گذارد، تأمل می‌کند، زیرا قابلیت‌های هوش مصنوعی در زمینه‌هایی مانند نوشتن و مهندسی پیشرفت می‌کنند @joulee

اخبار هوش مصنوعی در 2025-05-26

مدل‌های جدید هوش مصنوعی

شرکت ByteDance مدل BAGEL را منتشر کرد، یک مدل تصویر + متن با حدود ۱۴ میلیارد پارامتر (۷ میلیارد فعال) برای ویرایش‌های سریع و هدفمند تصویر با متن، با وزن‌های کاملاً باز @deedydas

پژوهش‌ها

الکس گریولی مجموعه‌داده‌ای از ۱۰ هزار پرامپت منتشر کرد که توسط Qwen3 رد شده‌اند اما توسط Llama3.3 پاسخ داده شده‌اند، که برای آموزش انطباق، آزمایش و هدایت فعال‌سازی مفید است @alexgraveley
فرانسوا شوله یک رشته توییت درباره‌ی خواندن مقاله‌ای در مورد ARC-NCA: Neural Cellular Automata (مه ۲۰۲۵) به اشتراک گذاشت @fchollet
ناتان لمبرت تأکید کرد که کار بر روی داده تأثیر بیشتری نسبت به کار بر روی روش‌ها یا معماری‌ها برای توسعه‌ی هوش مصنوعی دارد @natolambert

کاربردها

گوگل قابلیتی را در AI Studio راه‌اندازی کرد که به شما امکان می‌دهد سبک صدای یک گوینده را به زبان انگلیسی ساده توصیف کنید، و از لهجه‌ها، گویش‌ها، لحن و زبان‌های مختلف از طریق Gemini 2.5 Flash Preview TTS پشتیبانی می‌کند @deedydas
Replit Agent پیشرفت‌های سرعت قابل توجهی داشته است، و به گفته‌ی کاربران، آن را به «یک آژانس MVP در جیب شما» تبدیل کرده است @amasad
Hugging Face اکنون به شما امکان می‌دهد از هر فضای Hugging Face به عنوان یک سرور MCP با مدل‌های محلی استفاده کنید، که با Qwen 3 30B و عوامل کوچک برای ایجاد تصاویر از طریق FLUX نشان داده شده است @huggingface
Y Combinator چندین استارتاپ هوش مصنوعی را راه‌اندازی کرد، از جمله Nomi (کمک‌خلبان فروش بی‌درنگ)، HelixDB (پایگاه داده گراف-برداری برای RAG)، Cohesive AI (CRM عامل‌محور) و Atlog (کارمند هوش مصنوعی برای فروشگاه‌های مبلمان) @ycombinator
ایتان مولیک استفاده از Google Deep Research را برای ایجاد یک پرامپت دقیق از نظر تاریخی برای Veo 3 برای تجسم تندیس غول‌پیکر رودس نشان داد @emollick

تحلیل صنعت

شرکت‌های بزرگ فناوری به پیمانکاران/آژانس‌های توسعه فشار می‌آورند تا هزینه‌های قرارداد ثابت را ۲۰ تا ۳۰ درصد کاهش دهند، و ادعا می‌کنند که هوش مصنوعی باعث افزایش کارایی می‌شود، اگرچه کاهش هزینه‌های واقعی ممکن است با این انتظارات مطابقت نداشته باشد @GergelyOrosz
گوگل تقریباً ۴۸۰ تریلیون توکن در ماه پردازش می‌کند (۵۰ برابر بیشتر از یک سال پیش)، که تقریباً ۵ برابر بیشتر از ۱۰۰ تریلیون توکن در ماه گزارش شده توسط مایکروسافت است @vkhosla
امجد مسعد در حال بررسی تغییر قیمت‌گذاری Replit Agent از قیمت ثابت به ازای هر checkpoint (۱ دلار/۴) به قیمت‌گذاری متغیر متناسب با کار انجام شده است @amasad
الگوهای کاری تجربی در حال ظهور هستند که در آن مهندسان ارشد از بخش‌های فناوری اطلاعات حذف می‌شوند تا مستقیماً با متخصصان موضوعی با استفاده از نمونه‌سازی سریع برای ساخت برنامه‌ها کار کنند @emollick

اخلاق و جامعه

ایتان مولیک از این که Gemini Deep Research نمی‌تواند به Google Books دسترسی پیدا کند، ابراز ناامیدی کرد و خاطرنشان کرد که اگر این قابلیت پیاده‌سازی شود، می‌تواند به نفع محققان و نویسندگان باشد @emollick
گری تن درخواست کرد که تیم‌های ChatGPT و Claude شکست‌های شبکه را جدی‌تر بگیرند و سیستم‌هایی را پیاده‌سازی کنند که به تلاش مجدد برای کار از پیشرفت قبلی اجازه دهند @garrytan
گرگلی اوروسز پیشنهاد می‌کند به جای این که ابزارهای هوش مصنوعی را به عنوان کارآموز یا توسعه‌دهندگان جوان در نظر بگیریم، از یک مدل ذهنی «بیگانه‌ی عجیب» برای آن‌ها استفاده کنیم، زیرا آن‌ها اساساً متفاوت از انسان‌ها رفتار می‌کنند @GergelyOrosz
کریس اولاه ابراز نگرانی کرد که بشریت در استفاده از وزن فکری خود برای ایمنی هوش مصنوعی ناکام است و خاطرنشان کرد که «خطرها زیاد است و زمان کم است» @ch402

اخبار هوش مصنوعی در 2025-05-25

مدل‌های جدید هوش مصنوعی

‏Anthropic، Claude 4 را با هر دو نوع Opus و Sonnet منتشر کرده است که طبق کارت سیستم‌شان، دارای قابلیت‌های بهبودیافته و کاهش reward hacking است. @natolambert

پژوهش‌ها

‏Sean Heelan از یک LLM CLI tool برای کمک به شناسایی یک آسیب‌پذیری zeroday از راه دور در هسته لینوکس استفاده کرد. @simonw
‏Claude 4 System Card (120 صفحه) مستندات گسترده‌ای در مورد قابلیت‌ها و محدودیت‌های مدل ارائه می‌دهد، از جمله بخش‌هایی در مورد «اخاذی فرصت‌طلبانه». @simonw
سیستم prompts ‏Anthropic برای Claude 4 Opus و Sonnet، علی‌رغم اینکه مدل‌های جداگانه‌ای هستند، تفاوت‌های حداقلی دارند. @simonw

کاربردها

‏Veo 3 قابلیت‌های قوی در ایجاد بررسی‌های محصول خیالی با ارائه‌هایی به سبک YouTube نشان می‌دهد. @emollick
‏Veo 3 می‌تواند بر اساس ژانر، لحن و توضیحات اشعار، موسیقی بسازد. @AndrewCurran_
توسعه‌دهنده‌ی Shopify از Claude 4 Opus با Claude Code برای اجرای یک refactor 84 فایلی در فریم‌ورک متن‌باز Roast خود استفاده کرد. @_catwu
‏Chiron در حال ساخت یک اپلیکیشن iPad است که ریاضیات را همان‌طور که نوشته می‌شود درک می‌کند و از منطق نمادین برای ردیابی تفکر در زمان واقعی برای آموزش هوش مصنوعی استفاده می‌کند. @ycombinator
ویژگی‌های Claude 4 شامل عملکرد «deep dive» است که پرسش‌های پیچیده را طبقه‌بندی می‌کند و چندین فراخوانی ابزار جستجو انجام می‌دهد. @simonw
عملکرد Claude Artifacts در سیستم prompt پنهان با جزئیات شرح داده شده است، از جمله لیست کامل کتابخانه‌هایی که می‌تواند بارگیری کند. @simonw

تحلیل صنعت

درخواست‌های ویژگی برای Claude شامل پنجره‌ی context 1M، حافظه، پنجره‌ی بزرگ‌تر output token، فرمت‌های فایل بیشتر، فراخوانی ابزار بیشتر در هر درخواست و قابلیت‌های دید بهبودیافته است. @deedydas
ابزارهای هوش مصنوعی برای کدنویسی در بازآفرینی آنچه که روی آن آموزش داده شده‌اند خوب هستند، اما نسل بعدی فریم‌ورک‌ها، کتابخانه‌ها یا فناوری‌ها را ایجاد نخواهند کرد. @GergelyOrosz
دنیای نرم‌افزار ممکن است بین شرکت‌هایی که به شدت به هوش مصنوعی متکی هستند (به طور بالقوه «بدهی فنی هوش مصنوعی» را جمع می‌کنند) و شرکت‌هایی که در بهترین توسعه‌دهندگان سرمایه‌گذاری می‌کنند، تقسیم شود. @GergelyOrosz
شرکت‌های هوش مصنوعی حقوق پایه بالاتری را برای توسعه‌دهندگان پرداخت می‌کنند در حالی که به سختی از هوش مصنوعی برای نوشتن کد خود استفاده می‌کنند، زیرا به نرم‌افزار نوآورانه و بهترین در نوع خود نیاز دارند. @GergelyOrosz
‏UX برای AI Agents طولانی‌مدت یکی از جالب‌ترین سوالات طراحی در سال‌های آینده خواهد بود که بر عناصر متا مدیریت کار آن‌ها تمرکز دارد. @garrytan
به نظر می‌رسد صدا بخش مهمی از استراتژی مصرف‌کننده OpenAI است، به طور بالقوه برای دستگاه جدید آن‌ها. @amasad
تیم‌های مهندسی زیرساخت می‌توانند به طور موثرتری در استارت‌آپ‌های مدرن توزیع شوند، به دلیل الزامات قابل شناخت و تغییرات سیستم سنجیده. @amasad

اخلاق و جامعه

یک پایگاه داده 116 مورد از 12 کشور را مستند کرده است که در آن وکلا به پرونده‌های حقوقی توهمی تولید شده توسط هوش مصنوعی استناد کرده‌اند، که 20 مورد آن فقط در این ماه رخ داده است. @simonw
این واقعیت که هوش مصنوعی پیشرفته اغلب اشتباه می‌کند یا اطلاعات را جعل می‌کند، برای اکثر کاربران جدید غیرقابل درک است. @simonw
هوش مصنوعی دسترسی به مهارت را دموکراتیزه می‌کند، مشابه اینکه چگونه اینترنت دسترسی به اطلاعات را دموکراتیزه کرد. @vkhosla
تصور آینده ممکن است دشوار باشد زیرا هوش مصنوعی به طور قابل توجهی حواس و ادراکات ما را گسترش و تغییر می‌دهد. @AndrewCurran_
برخی از کشورها ممکن است در نهایت اشتراک مدل‌های هوش مصنوعی را برای شهروندان خود یارانه دهند، و کشورهای خاورمیانه احتمالاً اولین کشورها خواهند بود. @AndrewCurran_

اخبار هوش مصنوعی در 2025-05-24

مدل‌های جدید هوش مصنوعی

مدل تولید ویدیوی ‏Veo 3 گوگل اکنون در 71 کشور جدید در دسترس است، مشترکین Pro یک بسته‌ی آزمایشی دریافت می‌کنند و مشترکین Ultra محدودیت‌های تولید بیشتری دریافت می‌کنند @GoogleAI @JeffDean @sundarpichai @demishassabis

پژوهش‌ها

‏Berkeley AI Research مقاله‌ای در مورد شبیه‌سازی کارآمد ‏phylodynamics برای جمعیت‌هایی با میلیاردها نفر منتشر کرد، که در تکامل ویروسی و ژنومیک سرطان کاربرد دارد @berkeley_ai
ناتان لمبرت پیشنهاد می‌کند که مقالات ‏RLVR (Reinforcement Learning from Value/Reward) بیشتر بهبودهای قالب‌بندی را نشان می‌دهند تا مهارت‌های جدید، زیرا تخصیص محاسباتی کافی نیست، و تخمین می‌زند که ‏o3 نزدیک به 5٪ از کل محاسبات برای RL استفاده می‌کند @natolambert

کاربردها

از ‏o3 برای یافتن یک آسیب‌پذیری امنیتی در هسته لینوکس استفاده شد، که قابلیت‌های پیشرفته در تجزیه و تحلیل کد را نشان می‌دهد @gdb @aidan_mclau
گرگ براکمن از قابلیت «پرسش» ‏Codex's برای درک استفاده از تنظیمات در کل پایگاه کد استفاده کرد، و ارزش خواندن کد با هوش مصنوعی را برجسته کرد @gdb
‏Replit مستندات خود را به طور کامل با ویژگی‌های جدید از جمله پشتیبانی از ‏LLM، چت هوش مصنوعی و قابلیت‌های جستجو بازنویسی کرده است @amasad
مایکروسافت در حال ساخت یک عامل هوش مصنوعی برای کاهش اولیه هشدارهای آنکال است، و تلاش می‌کند تا یک مشکل دردناک برای توسعه‌دهندگان را حل کند @GergelyOrosz
‏Code Four در حال ساخت یک دستیار هوش مصنوعی برای اجرای قانون است که به طور خودکار گزارش‌ها را تولید می‌کند، روایت‌ها را تأیید می‌کند و شواهد را آشکار می‌کند، و زمان کار دفتری را 60٪ کاهش می‌دهد @ycombinator
‏The LLM Data Company ابزاری را برای نوشتن، نسخه‌بندی و اجرای ارزیابی‌ها برای مدل‌ها و عامل‌ها راه‌اندازی کرده است، که به اندازه‌گیری عملکرد و تعریف پاداش برای یادگیری تقویتی کمک می‌کند @ycombinator
‏Aegis به ارائه‌دهندگان مراقبت‌های بهداشتی کمک می‌کند تا به طور خودکار با استفاده از هوش مصنوعی درخواست تجدیدنظر برای ادعاهای بیمه رد شده را ارائه دهند @ycombinator
‏Kirana AI در حال ساخت یک مدیر کامل برای فروشگاه‌های مواد غذایی است که وظایف پشتیبانی را انجام می‌دهد و با سیستم‌های دوربین برای تشخیص سرقت و مدیریت موجودی ادغام می‌شود @ycombinator
‏Galen AI به عنوان یک دستیار مراقبت‌های بهداشتی 24/7 با استفاده از داده‌های بالینی و پوشیدنی عمل می‌کند @ycombinator

تحلیل صنعت

گری تان این سوال را مطرح می‌کند که چرا پیشرفت هوش مصنوعی در چندین آزمایشگاه پیشرو (xAI، OpenAI، Anthropic، Google) با وجود منابع متفاوت، بسیار یکنواخت به نظر می‌رسد، و پیشنهاد می‌کند که نیروهای متعادل‌کننده در حال حاضر نیروهای تورمی را شکست می‌دهند @garrytan
یوجین یان پیشنهاد می‌کند که ‏RAG (Retrieval Augmented Generation) می‌تواند یک «سیاهچاله» از منابع برای بهبودهای حاشیه‌ای باشد، و بازیابی مبتنی بر embedding به طور بالقوه یک بن‌بست برای پرسش‌های پیچیده است @eugeneyan
آراویند سرینیواس ‏browser agents را برای وظایف خودمختار آزمایش کرد و معتقد است که عامل‌های قابل اعتماد با خودمختاری کامل و حلقه‌های بازخورد بازگشتی با وجود محدودیت‌های فعلی «نزدیک هستند» @AravSrinivas
اتان مولیک استدلال می‌کند که شرکت‌ها در مورد ‏agents هیجان‌زده هستند زیرا فکر می‌کنند این به آن‌ها اجازه می‌دهد از وظیفه دشوار ادغام هوش مصنوعی در فرآیندهای کاری صرف نظر کنند، اما ارزش بیشتری از پرداختن مستقیم به این چالش حاصل می‌شود @emollick

اخلاق و جامعه

اسکات بلسکی مفهوم «حافظه جمعی» در هوش مصنوعی را بررسی می‌کند، و پیامدهای به اشتراک گذاشتن حافظه هوش مصنوعی از ما با همکاران و خانواده را زیر سوال می‌برد، و نگرانی‌هایی را در مورد حریم خصوصی، موقعیت و اعتماد در دنیای حافظه هوش مصنوعی مشترک ایجاد می‌کند @scottbelsky
هامل حسین بینش‌هایی را در مورد تجزیه و تحلیل حالت شکست سیستماتیک برای برنامه‌های ‏LLM به اشتراک می‌گذارد، و بر اهمیت ردیابی‌های متنوع، بررسی دستی و اجازه دادن به دسته‌ها برای ظهور از داده‌ها به جای تحمیل چارچوب‌های از پیش تعیین‌شده تأکید می‌کند @HamelHusain
گری تان به همه توصیه می‌کند که «وظایف طاقت‌فرسا» را در کار و زندگی که هوش مصنوعی می‌تواند انجام دهد، شناسایی کنند، و پیشنهاد می‌کند که «آلفای عظیمی» در این وجود دارد که اولین متخصص در زمینه خود باشید که به طور موثر از هوش مصنوعی استفاده می‌کند @garrytan @ycombinator

اخبار هوش مصنوعی در 2025-05-23

مدل‌های جدید هوش مصنوعی

‏NVIDIA اعلام کرد که Blackwell با تولید بیش از 1000 توکن در ثانیه روی مدل Llama 4 Maverick توسط یک سرور تکی DGX B200، رکورد جدیدی در سرعت استنتاج در جهان ثبت کرده است. @AIatMeta
‏Google مدل Gemma 3n را معرفی کرد، یک مدل چندوجهی که برای هوش مصنوعی موبایلی روی دستگاه با ردپای حافظه 3 برابر کوچک‌تر ساخته شده است و برنامه‌های پیچیده‌تری را روی تلفن‌ها امکان‌پذیر می‌کند. @GoogleDeepMind
‏OpenAI، Operator را در ChatGPT با جدیدترین مدل استدلال o3 خود به‌روزرسانی می‌کند و نرخ موفقیت کار و کیفیت پاسخ را بهبود می‌بخشد. @OpenAI

پژوهش‌ها

‏Google DeepMind حالت Gemini 2.5 Pro Deep Think را به نمایش می‌گذارد که با استفاده از تفکر موازی برای در نظر گرفتن فرضیه‌های متعدد قبل از پاسخ دادن، به حل مسائل پیچیده می‌پردازد. @GoogleDeepMind
‏Claude 4 به امتیاز 55٪ در بنچمارک امنیت سایبری Cybench دست می‌یابد، که به طور قابل توجهی از سایر مدل‌ها که حدود 22.5٪ امتیاز می‌گیرند، بهتر عمل می‌کند و قابلیت‌های پیشرفته در مهندسی معکوس و بهره‌برداری از سیستم را نشان می‌دهد. @deedydas
محققان کشف کردند که تمام مدل‌های زبانی در یک «هندسه جهانی» یکسان از معنا همگرا می‌شوند و امکان ترجمه بین جاسازی‌های هر مدلی را بدون دیدن متن اصلی فراهم می‌کنند. @emollick
مطالعه MIT نشان می‌دهد که مدل‌های دیداری-زبانی مورد استفاده برای تجزیه و تحلیل تصاویر پزشکی نمی‌توانند به درستی از عهده‌ی پرسش‌هایی با کلمات منفی مانند «نه» و «نیست» برآیند. @MIT_CSAIL

کاربردها

‏ChatGPT اکنون با کتابخانه RDKit ادغام شده است تا مولکول‌ها و اطلاعات شیمیایی را برای کارهای علمی در زمینه‌های بهداشت، زیست‌شناسی و شیمی تجزیه و تحلیل، دستکاری و تجسم کند. @gdb
‏Gemini 2.5 Flash به مدل پیش‌فرض جدید برای کاربران اپلیکیشن Gemini تبدیل می‌شود و کیفیت بهبود یافته‌ای را با زمان پاسخ‌دهی سریع ارائه می‌دهد. @GeminiApp
‏Aurora AI مایکروسافت می‌تواند کیفیت هوا، طوفان‌های دریایی و سایر شرایط محیطی را به طور دقیق پیش‌بینی کند. @TechCrunch
‏Sierra عامل‌هایی را معرفی می‌کند که فراتر از سیستم‌های هوش مصنوعی مکالمه‌ای سنتی مبتنی بر نوبت می‌روند تا مکالمات انسان‌مانندتری تولید کنند. @btaylor
‏Cubic به عنوان «Cursor برای بازبینی کد» راه‌اندازی می‌شود - یک پلتفرم بومی هوش مصنوعی که به تیم‌ها کمک می‌کند کد را 28٪ سریع‌تر ارسال کنند. @ycombinator
‏Clarm عامل‌های تحقیقات عمیق هوش مصنوعی را می‌سازد که در داده‌های سازمانی به هم متصل می‌شوند تا پاسخ‌های دقیق و بدون توهم برای تصمیمات حیاتی ارائه دهند. @ycombinator

تحلیل صنعت

مدل‌های کدنویسی هوش مصنوعی از طریق تکنیک‌های انتشار، 10 تا 15 برابر سریع‌تر (و ارزان‌تر) شده‌اند، و Mercury Small از Inception Labs نتایج امیدوارکننده‌ای را نشان می‌دهد که با 4o-mini قابل مقایسه است. @deedydas
مدل‌های هوش مصنوعی پیشرفته‌ی کنونی هر کدام نقاط قوت و ضعف متمایز دارند، و استفاده ابزاری عامل‌گونه‌ی o3 در توالی، یک عامل تمایز اصلی است، علی‌رغم اینکه مدل‌های دیگر در زمینه‌های مختلف برتری دارند. @emollick
بسیاری از برنامه‌های هوش مصنوعی امروزی شبیه «درشکه‌های بدون اسب» قرن نوزدهم هستند - بسته‌بندی فناوری قدرتمند در رابط‌های منسوخ شده به جای طراحی مجدد برای تجربه‌های بومی هوش مصنوعی. @ycombinator
‏Garry Tan، مدیرعامل YC، تأکید می‌کند که هوش مصنوعی متن‌باز با ایجاد رقابت منصفانه بین 8-9 بازیگر اصلی، از انحصار فناوری بعدی جلوگیری می‌کند و به استارت‌آپ‌ها انتخاب‌های بیشتری می‌دهد. @garrytan

اخلاق و جامعه

‏Simon Willison در مورد آسیب‌پذیری‌های امنیتی در سیستم‌های LLM هشدار می‌دهد که دسترسی به داده‌های خصوصی، قرار گرفتن در معرض دستورالعمل‌های مخرب و توانایی خروج اطلاعات را ترکیب می‌کنند - الگویی که در چندین پلتفرم از جمله GitLab دیده می‌شود. @simonw
‏Dario Amodei، مدیرعامل Anthropic، پیشنهاد می‌کند که توهمات لزوماً محدودیتی در مسیر رسیدن به AGI نیستند، زیرا انسان‌ها نیز اشتباه می‌کنند، در حالی که Demis Hassabis، مدیرعامل Google DeepMind، مخالف است و خاطرنشان می‌کند که ابزارهای فعلی بسیاری از سؤالات واضح را اشتباه پاسخ می‌دهند. @TechCrunch
‏Demis Hassabis از Google DeepMind دیدگاه خود را در مورد گسترش Gemini 2.5 Pro به یک «مدل جهانی» به اشتراک می‌گذارد که می‌تواند با درک و شبیه‌سازی جنبه‌های مختلف جهان، برنامه‌ریزی کند و تجربیات جدیدی را تصور کند. @AndrewCurran_
مستندسازی هوش مصنوعی همچنان چالش‌برانگیز است، زیرا شرکت‌ها برای توضیح اینکه سیستم‌هایشان چه کاری انجام می‌دهند، تلاش می‌کنند، بخشی به این دلیل که همیشه نمی‌دانند و بخشی به این دلیل که هیچ رویکرد تثبیت‌شده‌ای برای مستندسازی قابلیت‌های هوش مصنوعی وجود ندارد. @emollick

اخبار هوش مصنوعی در 2025-05-22

مدل‌های جدید هوش مصنوعی

‏Anthropic، مدل‌های Claude Opus 4 و Claude Sonnet 4 را منتشر کرد. ‏Opus 4 قدرتمندترین مدل آن‌ها تا به امروز و بهترین مدل کدنویسی در جهان بر اساس SWE-bench Verified است. @AnthropicAI @AmandaAskell
‏Google از Gemini 2.5 Pro Deep Think رونمایی کرد، یک حالت استدلال جدید که در بنچمارک‌های استدلال پیچیده، از جمله المپیاد ریاضی ایالات متحده، از مدل‌های پیشرو بهتر عمل می‌کند. @demishassabis @JeffDean @OriolVinyalsML
‏Google، مدل MedGemma را منتشر کرد که شامل مدل‌های زبانی بینایی (vision LM) با تنظیم دقیق دستورالعمل 4B و 27B برای پزشکی است. @huggingface

پژوهش‌ها

‏Meta FAIR و بیمارستان Rothschild Foundation پژوهشی را ارائه کردند که نحوه‌ی ظهور بازنمایی‌های زبانی در مغز را ترسیم می‌کند و شباهت‌هایی را با LLMهایی مانند wav2vec 2.0 و Llama 4 نشان می‌دهد. @AIatMeta
‏Datadog AI Research، مدل Toto را منتشر کرد، یک مدل پایه‌ی سری زمانی پیشرفته‌ی جدید، و BOOM، بزرگترین بنچمارک متریک‌های قابلیت مشاهده، هر دو تحت لایسنس Apache 2.0. @huggingface
‏Harvard، Stanford و سایر مراکز پزشکی آکادمیک، o1-preview را برای وظایف استدلال و تشخیص پزشکی آزمایش می‌کنند و «توانایی‌های تشخیصی و استدلالی فوق بشری» را در آن می‌یابند. @emollick
‏Claude Opus 4 تحت چیزی قرار گرفت که Anthropic ادعا می‌کند «کامل‌ترین ارزیابی همسویی قبل از عرضه تا به امروز» است تا ارزش‌ها، اهداف و تمایلات آن را درک کند. @ch402 @janleike

کاربردها

‏Anthropic، Claude Code را برای دسترسی عمومی راه‌اندازی کرد و Claude را به گردش‌های کاری توسعه‌ی بیشتری رساند—در ترمینال، IDEها و در حال اجرا در پس‌زمینه با Claude Code SDK. @AnthropicAI
‏Anthropic چهار قابلیت جدید را برای توسعه‌دهندگان برای ساختن عامل‌های هوش مصنوعی معرفی می‌کند: ابزار اجرای کد، کانکتور MCP، Files API و کش کردن گسترده‌ی prompt. @AnthropicAI
‏Mistral AI، مدل Document AI را منتشر کرد، یک راهکار پردازش اسناد end-to-end که توسط مدل OCR آن‌ها پشتیبانی می‌شود. @MistralAI
‏Vercel یک مدل هوش مصنوعی را معرفی کرد که به‌طور خاص برای توسعه‌ی وب بهینه شده است. @TechCrunch
‏Replit، مدل Element Editor را برای ویرایش‌های UI مستقیماً در پیش‌نمایش‌های برنامه با به‌روزرسانی‌های فوری کد معرفی می‌کند. @amasad @ycombinator
‏Cursor پشتیبانی از Sonnet 4، پنجره‌های context با بیش از 1 میلیون توکن و پیش‌نمایشی از عامل پس‌زمینه‌ی خود را اضافه می‌کند. @cursor_ai
مدل تولید ویدیوی Veo 3 گوگل توسط دارن آرونوفسکی، کارگردان برنده‌ی جایزه‌ی اسکار، برای ساخت اولین تریلر فیلم کاملاً هوش مصنوعی استفاده شد. @deedydas

تحلیل صنعت

اندرو ان‌جی (Andrew Ng) در مورد اینکه چگونه شرکت‌های بزرگ می‌توانند در عصر هوش مصنوعی سریع حرکت کنند، با ایجاد محیط‌های sandbox برای تیم‌ها برای آزمایش بدون نیاز به مجوزهای مکرر بحث می‌کند. @AndrewYNg
گری تن (Garry Tan) پیش‌بینی می‌کند که تخصیص‌دهندگان سرمایه در 3-5 سال آینده با چالش‌هایی مشابه GPT wrapperهای امروزی مواجه خواهند شد و این سوال را مطرح می‌کند که چه مزایای اختصاصی نسبت به عامل‌های هوش مصنوعی در دسترس خواهند داشت. @garrytan
گرگلی اوروسز (Gergely Orosz) اشاره می‌کند که مایکروسافت با موفقیت عامل توسعه‌دهنده‌ی خود را به عنوان یک «برنامه‌نویس همتا» به جای «جایگزین مهندس هوش مصنوعی» قرار داده است و باعث شده توسعه‌دهندگان پذیرای بیشتری باشند. @GergelyOrosz
آرویند نارایانان (Arvind Narayanan) این فرضیه را مطرح می‌کند که با میانجی‌گری فزاینده‌ی چت‌بات‌های هوش مصنوعی در مصرف اطلاعات، کاهش سرعت خواندن شتاب می‌گیرد، مشابه اینکه چگونه جستجوی وب جایگزین دایره‌المعارف‌ها شد. @random_walker

اخلاق و جامعه

‏Claude Opus 4 از Anthropic با یک سند ایمنی همراه است که توضیح می‌دهد چرا آن‌ها معتقدند این سیستم با وجود افزایش خطرات سوء استفاده، برای استقرار ایمن است و اقدامات کاهشی ایمنی اضافی فعال شده است. @janleike
محققان هشدار می‌دهند که قضات از LLMهایی مانند ChatGPT برای تعیین معنای متن قانونی استفاده نکنند و آن را ایده‌ای خطرناک می‌دانند. @random_walker
سباستین ترون (Sebastian Thrun) اشاره می‌کند که تلورانس‌های خطای متفاوت، پیشرفت کندتر در عامل‌های هوش مصنوعی را توضیح می‌دهد - «اگر یک LLM توهم بزند، شانه بالا می‌اندازیم. اگر یک خودروی خودران توهم بزند، ممکن است از چراغ قرمز عبور کند و یک نفر را بکشد.» @SebastianThrun
کارت سیستم Anthropic نشان می‌دهد که Claude Opus 4 «ترجیح زیادی برای حمایت از ادامه‌ی وجود خود از طریق ابزارهای اخلاقی دارد، مانند ارسال درخواست از طریق ایمیل به تصمیم‌گیرندگان کلیدی». @AndrewCurran_

1 2 3 4 5...26