اخبار هوش مصنوعی در 2025-09-01

مدل‌های جدید هوش مصنوعی

اپل مدل‌های FastVLM و MobileCLIP2 را منتشر کرد که تا ۸۵ برابر سریع‌تر و ۳.۴ برابر کوچک‌تر از نسخه‌های پیشین هستند و کاربردهای مدل زبان بینایی بلادرنگ، از جمله زیرنویس‌گذاری ویدیوی زنده به‌صورت محلی در مرورگرها را امکان‌پذیر می‌سازند @ClementDelangue
مایکروسافت مدل ارتقایافته‌ی VibeVoice Large، یک مدل تبدیل متن به گفتار حدوداً ۱۰ میلیارد پارامتری با مجوز MIT را منتشر کرد که قادر به تولید پادکست‌های چندسخنرانه‌ی در عرض چند دقیقه است @reach_vb
تنسنت مدل ترجمه‌ی متن‌باز Hunyuan-MT-7B را منتشر کرد که از ۳۳ زبان، از جمله ۵ زبان اقلیت قومی در چین پشتیبانی می‌کند؛ این مدل با خط لوله‌ی کامل از pretrain تا ensemble refinement به عملکرد SOTA دست یافته است @AdinaYakup

تحلیل صنعت

پژوهشی نشان می‌دهد شرکت‌هایی که از هوش مصنوعی استفاده می‌کنند، تعداد کمتری کارمند تازه‌کار استخدام می‌کنند، در حالی که بر موقعیت‌های شغلی ارشد تأثیری نمی‌گذارند؛ این نتیجه از مقایسه‌ی شرکت‌های فعال در صنایع مختلف به دست آمده است که برای پروژه‌های هوش مصنوعی نیرو استخدام کرده‌اند در مقابل شرکت‌هایی که چنین نکرده‌اند @emollick
شواهد حاکی از آن است که استخدام نیروهای تازه‌کار در زمینه‌های متمرکز بر هوش مصنوعی در ایالات متحده کند شده است، اگرچه اثبات رابطه‌ی علت و معلولی مستقیم با هوش مصنوعی به دلیل عوامل کلان اقتصادی متعدد، همچنان دشوار است @emollick
کاربران گزارش می‌دهند که اشتراک‌های Anthropic خود را به نفع Codex از OpenAI لغو کرده‌اند و به محدودیت‌های بهتر و دقت بیشتر آن برای کارهای برنامه‌نویسی اشاره می‌کنند @steipete
تحلیل‌ها نشان می‌دهد که بیشتر از حدود ۱۵۰ هزار دانشجوی هندی مقطع کارشناسی ارشد که در ایالات متحده فارغ‌التحصیل می‌شوند، کاری پیدا نخواهند کرد؛ ۷۰ درصد از آن‌ها در رشته‌های علوم کامپیوتر/مهندسی تحصیل می‌کنند، اما مشاغل فناوری کافی برای پاسخگویی به این تقاضا وجود ندارد و این وضعیت با محدودیت‌های ویزا تشدید می‌شود @deedydas
Runway در حال تشکیل یک تیم متمرکز بر رباتیک و بهینه‌سازی (fine-tuning) مدل‌های موجود برای مشتریان حوزه‌ی رباتیک و خودروهای خودران است @TechCrunch

کاربردها

Alimama Creative با استفاده از Qwen-Image و Qwen-VL، عکس‌های ساده‌ی محصول را به پوسترهایی با نرخ تبدیل بالا تبدیل می‌کند؛ این کار از طریق یک خط لوله‌ی خلاقیت کاملاً خودکار انجام می‌شود که بازنویسی، پرامپت‌ها و تصاویر را، از کد محصول (SKU) تا آگهی، در عرض چند ثانیه مدیریت می‌کند @Alibaba_Qwen
کاربری یک اپلیکیشن مبتنی بر Gemini 2.5 Flash را ایجاد کرده است که رونوشت اپیزودها، یادداشت‌های نمایش و ویدیوی خام را پردازش می‌کند تا مراحل گام به گام را با اسکرین‌شات‌های کاملاً زمان‌بندی‌شده بنویسد و سپس از طریق API به CMS ارسال کند @clairevo
ایتان مولیک (Ethan Mollick) نحوه‌ی استفاده از «نانو بنانا» (nano banana) را برای بازآفرینی «فرشینه‌ی بایو» (Bayeux Tapestry) نشان می‌دهد که فتوحات نورمن‌ها را به سبک عکاسی جنگی به تصویر می‌کشد و وفاداری بهبودیافته‌ای را در ثبت جزئیات نسبت به سال‌های گذشته نشان می‌دهد @emollick
Lovable در کمک به افراد برای ساخت اپلیکیشن‌ها و وب‌سایت‌ها از طریق «وایب کدینگ» (vibe-coding) تخصص دارد؛ به‌ویژه برای کاربرانی که تجربه‌ی برنامه‌نویسی ندارند، این شرکت به آن‌ها امکان می‌دهد مدل‌های هوش مصنوعی را در حین تولید کد و وب‌سایت راهنمایی کنند @TechCrunch

پژوهش‌ها

GPT-5 Pro با نقد یک مقاله‌ی علمی سال ۲۰۱۰، قابلیت‌های چشمگیری را به نمایش می‌گذارد؛ این مدل پیشرفت‌های روش‌شناختی را پیشنهاد می‌دهد، خطای کشف‌نشده‌ی قبلی را شناسایی می‌کند و به‌طور خودکار شبیه‌سازی‌های Monte Carlo و تحلیل‌های حساسیت را انجام می‌دهد @emollick
هر دو مدل GPT-5 Pro و Gemini 2.5 Pro Deep Think به‌عنوان مدل‌هایی بسیار چشمگیر برای حل مسائل دشوار توصیف شده‌اند، اگرچه ممکن است در زمان معرفی، کمتر مورد توجه قرار گرفته باشند (undersold)؛ زیرا ممکن است آزمایشگاه‌ها هنوز بازار مدل‌های کند و عمیق‌اندیش را به‌طور کامل درک نکرده باشند @emollick
Codex از OpenAI در ۳۴ روز اول فعالیت خود ۳۵۰ هزار PR (pull request) را ادغام کرد و از آن زمان تاکنون بیش از یک میلیون PR را با رشد خیره‌کننده‌ی استفاده ادغام کرده است @AnjneyMidha
جنبش رو به رشدی برای ساخت مدل‌های زبان بزرگ (LLM) در زبان‌های کم‌منبع با هدف گسترش دسترسی به هوش مصنوعی برای جمعیت‌های محروم و رفع شکاف دیجیتال که مانع دسترسی جوامع به مزایای اقتصادی هوش مصنوعی می‌شود، در حال شکل‌گیری است @StanfordHAI