اخبار هوش مصنوعی در 2025-08-20

مدل‌های جدید هوش مصنوعی

گوگل مدل تولید ویدیوی Veo 3 را با قابلیت‌های صوتی معرفی کرد که به کاربران امکان می‌دهد کلمات یا عکس‌ها را به ویدیوهای دارای صدا تبدیل کنند. @AndrewCurran_
گوگل مدل جدید Gemini Nano را منتشر کرد که سری پیکسل ۱۰ را قدرتمند می‌کند و شامل شخصی‌سازی بهبودیافته و دستیار هوشمند پیشگیرانه است. @Google
بایت‌دنس مدل زبان بزرگ (LLM) Seed-OSS 36B را در هاگینگ فیس منتشر کرد که دارای قابلیت‌های قدرتمند درک زمینه‌ی طولانی، استدلال و عاملیت است. @HuggingPapers
آی‌بی‌ام و ناسا مدل Surya، اولین مدل بنیادی هوش مصنوعی منبع‌باز برای فیزیک خورشیدی را با ۳۶۶ میلیون پارامتر منتشر کردند که با داده‌های ۹ ساله‌ی رصدخانه‌ی دینامیک خورشیدی برای پیش‌بینی آب‌وهوای فضایی آموزش دیده است. @ClementDelangue
مدل VLM هفت میلیارد پارامتری Cosmos Reason انویدیا بیش از ۵۰۰,۰۰۰ بار در هاگینگ فیس دانلود شده است و برای هوش مصنوعی فیزیکی و کاربردهای رباتیک طراحی شده است. @NVIDIAAIDev

تحلیل صنعت

پرپلکسیتی (Perplexity) گزارش می‌دهد که بیش از ۳۰۰ میلیون پرس‌وجوی کاربر در هفته را پاسخ می‌دهد که نشان‌دهنده‌ی رشدی سه‌برابری در حدود ۹ ماه نسبت به نقطه‌ی عطف ۱۰۰ میلیون پرس‌وجوی هفتگی قبلی آن‌هاست. @AravSrinivas
EliseAI سرمایه‌ی ۲۵۰ میلیون دلاری سری E را به رهبری a16z جذب کرد و به درآمد سالانه‌ی تکرارشونده (ARR) بیش از ۱۰۰ میلیون دلار رسید. این شرکت به عنوان مدیر املاک و مستغلات و مدیر بهداشت و درمان مبتنی بر هوش مصنوعی، به اصطکاک و مشکلات در صنایع مسکن و بهداشت و درمان می‌پردازد. @aleximm
گِرگِلی اوروسز (Gergely Orosz) اوج هایپ هوش مصنوعی را مشاهده می‌کند؛ سرمایه‌گذاران در استارتاپ‌های مشکوک هوش مصنوعی مانند شرکت‌های تولید تشک که از هوش مصنوعی برای «بهبود خواب» استفاده می‌کنند و جواهرات مجهز به هوش مصنوعی، سرمایه‌گذاری می‌کنند که نشان‌دهنده‌ی تصمیمات سرمایه‌گذاری ناشی از ترس از دست دادن (FOMO) است. @GergelyOrosz
مایکروسافت از توسعه‌ی همکاری با NFL خبر داد و Copilot و Azure AI Foundry را به عملیات فوتبال هم در زمین و هم خارج از آن می‌آورد. @satyanadella
انتروپیک (Anthropic) Claude Code را برای طرح‌های «تیم» و «سازمان» با قیمت‌گذاری منعطف راه‌اندازی کرد که به سازمان‌ها اجازه می‌دهد ترکیب کرسی‌های استاندارد و پریمیوم را در تیم‌های خود استفاده کنند. @claudeai

اخلاق و جامعه

دانشجویان هاروارد که قبلاً یک برنامه‌ی تشخیص چهره را برای عینک‌های ری-بن متا توسعه داده بودند، در حال راه‌اندازی یک استارتاپ برای ساخت عینک‌های هوشمند با میکروفون‌های همیشه روشن هستند که نگرانی‌هایی را در مورد حریم خصوصی ایجاد می‌کند. @TechCrunch
گِرگِلی اوروسز پیشنهاد می‌کند که رایج شدن ابزارهای هوش مصنوعی به افراد غیرفنی کمک خواهد کرد تا درک کنند چرا ساخت نرم‌افزار خوب دشوار است، زیرا آن‌ها شکاف بین انتظارات و واقعیت را تجربه خواهند کرد. @GergelyOrosz

کاربردها

گوگل Magic Cue را در گوشی‌های پیکسل معرفی کرد که از قابلیت‌های جِمنی (Gemini) برای نمایش پیشگیرانه‌ی اطلاعات و اقدامات مفید در سراسر برنامه‌ها در زمان نیاز استفاده می‌کند. @GoogleAI
گوگل فوتوز (Google Photos) قابلیت ویرایش محاوره‌ای را راه‌اندازی کرد که به کاربران امکان می‌دهد تغییرات عکس را با توصیف آن‌ها به زبان طبیعی انجام دهند. @TechCrunch
گوگل Voice Translate را برای گوشی‌های پیکسل معرفی کرد که ترجمه‌ی تماس‌ها را به صورت بی‌درنگ با استفاده از صدای تماس‌گیرنده برای مکالمات چندزبانه‌ی معتبرتر امکان‌پذیر می‌کند. @GoogleAI
گوگل Camera Coach را معرفی کرد که از مدل‌های جِمنی برای شناسایی صحنه‌ها و ارائه‌ی راهنمایی برای عکس‌های عکاسی عالی استفاده می‌کند. @GoogleAI
پرپلکسیتی (Perplexity) قابلیت SuperMemory را در مراحل نهایی آزمایش راه‌اندازی کرد و ادعا می‌کند عملکردی برتر نسبت به راهکارهای حافظه‌ی موجود دارد. @AravSrinivas
پرپلکسیتی (Perplexity) حالت Max Assistant را در Comet برای مشترکین معرفی کرد که قادر به انجام وظایف تحقیقاتی طولانی‌مدت به صورت متنی با محتوای خوانده‌شده است. @AravSrinivas
سیرا (Sierra) شبیه‌سازی‌های عامل هوش مصنوعی را برای آزمایش نشان می‌دهد که شامل شبیه‌سازی‌های صوتی با نویز پس‌زمینه برای بهبود عملکرد عامل قبل از استقرار است. @btaylor
عامل هوش مصنوعی Brex که بر روی پلتفرم سیرا (Sierra) ساخته شده است، ۹۰٪ سریع‌تر به سؤالات مشتریان پاسخ می‌دهد و سالانه ۱۵,۰۰۰ ساعت برای مشتریان صرفه‌جویی می‌کند. @btaylor
کربن رباتیکس (Carbon Robotics) از ربات‌های لیزری وجین علف‌های هرز مبتنی بر هوش مصنوعی استفاده می‌کند که ۱۵ میلیارد علف هرز را در بیش از ۱۰۰ نوع محصول بدون استفاده از علف‌کش از بین برده‌اند و افزایش چشمگیری در بازده محصول به ارمغان آورده‌اند. @NVIDIAAI
گوگل Pixel Journal، یک برنامه‌ی جدید ژورنال‌نویسی را معرفی کرد که از هوش مصنوعی داخلی دستگاه برای پیشنهادهای نوشتاری شخصی‌سازی‌شده استفاده می‌کند. @TechCrunch
گوگل اعلام کرد که یک مربی سلامت شخصی مبتنی بر هوش مصنوعی که با جِمنی ساخته شده است، به دستگاه‌های فیت‌بیت (Fitbit) خواهد آمد. @TechCrunch

پژوهش‌ها

مایکروسافت ریسرچ (Microsoft Research) مدل GPT-5 Pro را معرفی کرد که قابلیت اثبات قضیه‌های ریاضی جدید را نشان می‌دهد و با موفقیت کرانی بهتر از آنچه در مقاله‌ی بهینه‌سازی محدب منتشر شده بود، اثبات کرد. @SebastienBubeck
پژوهشگران هوش مصنوعی برکلی (Berkeley AI Research) مدل XQuant را ارائه کردند که ۱۰ تا ۱۲.۵ برابر صرفه‌جویی در حافظه نسبت به FP16 (فلوت ۱۶ بیتی) را با از دست دادن دقت نزدیک به صفر، با بهره‌برداری از واحدهای محاسباتی کم‌استفاده برای بازسازی کش KV به دست می‌آورد. @adityastomar_
تیم Cursor لایه‌های MoE را در سطح هسته (kernel level) با MXFP8 بازسازی می‌کند که منجر به عملکرد ۳.۵ برابر سریع‌تر لایه‌ی MoE و ۱.۵ برابر افزایش سرعت آموزش سرتاسری می‌شود. @stuart_sul
پای‌تورچ (PyTorch) ZenFlow را برای آموزش مدل‌های زبان بزرگ (LLM) با قابلیت تخلیه (offloading) معرفی کرد که ۵ برابر آموزش سریع‌تر، ۸۵٪ توقف کمتر GPU و ۲ برابر سربار ورودی/خروجی (I/O) کمتر را به ارمغان می‌آورد. @PyTorch
مایکروسافت ریسرچ (Microsoft Research) مدل MindJourney را منتشر کرد که هوش مصنوعی را قادر می‌سازد تا محیط‌های سه‌بعدی را از ورودی بصری محدود پیمایش و تفسیر کند، برای بهبود وظایف مسیریابی و برنامه‌ریزی. @MSFTResearch
ناتان لمبرت (Nathan Lambert) طیف تلاش استدلال در مدل‌های هوش مصنوعی را تحلیل می‌کند و اشاره می‌کند که همه‌ی مدل‌های فعلی از تکنیک‌های یادگیری تقویتی مشابه با مصرف توکن متفاوت استفاده می‌کنند، نه طبقه‌بندی‌های استدلال دوتایی. @natolambert
ایتان مولیک (Ethan Mollick) قابلیت‌های تولید ویدیوی هوش مصنوعی را با ساخت موزیک ویدیو از چکیده‌ی مقالات دانشگاهی نشان می‌دهد که نشان‌دهنده‌ی سازگاری در حال تکامل در تولید شخصیت و هماهنگی لب‌ها با صدا است. @emollick
سایمون ویلیسون (Simon Willison) مدل Qwen-Image-Edit را روی مک‌بوک پرو M2 با ۶۴ گیگابایت رم آزمایش می‌کند و تصاویر پلیکان رنگین‌کمانی را در ۲۵ دقیقه با ۱۰ مرحله‌ی استنتاج تولید می‌کند، در حالی که برای ۵۰ مرحله‌ی کامل ۲ ساعت و ۵۹ دقیقه طول می‌کشد. @simonw