اخبار هوش مصنوعی در 2025-09-01

مدل‌های جدید هوش مصنوعی

  • اپل مدل‌های FastVLM و MobileCLIP2 را منتشر کرد که تا ۸۵ برابر سریع‌تر و ۳.۴ برابر کوچک‌تر از نسخه‌های پیشین هستند و کاربردهای مدل زبان بینایی بلادرنگ، از جمله زیرنویس‌گذاری ویدیوی زنده به‌صورت محلی در مرورگرها را امکان‌پذیر می‌سازند @ClementDelangue
  • مایکروسافت مدل ارتقایافته‌ی VibeVoice Large، یک مدل تبدیل متن به گفتار حدوداً ۱۰ میلیارد پارامتری با مجوز MIT را منتشر کرد که قادر به تولید پادکست‌های چندسخنرانه‌ی در عرض چند دقیقه است @reach_vb
  • تنسنت مدل ترجمه‌ی متن‌باز Hunyuan-MT-7B را منتشر کرد که از ۳۳ زبان، از جمله ۵ زبان اقلیت قومی در چین پشتیبانی می‌کند؛ این مدل با خط لوله‌ی کامل از pretrain تا ensemble refinement به عملکرد SOTA دست یافته است @AdinaYakup

تحلیل صنعت

  • پژوهشی نشان می‌دهد شرکت‌هایی که از هوش مصنوعی استفاده می‌کنند، تعداد کمتری کارمند تازه‌کار استخدام می‌کنند، در حالی که بر موقعیت‌های شغلی ارشد تأثیری نمی‌گذارند؛ این نتیجه از مقایسه‌ی شرکت‌های فعال در صنایع مختلف به دست آمده است که برای پروژه‌های هوش مصنوعی نیرو استخدام کرده‌اند در مقابل شرکت‌هایی که چنین نکرده‌اند @emollick
  • شواهد حاکی از آن است که استخدام نیروهای تازه‌کار در زمینه‌های متمرکز بر هوش مصنوعی در ایالات متحده کند شده است، اگرچه اثبات رابطه‌ی علت و معلولی مستقیم با هوش مصنوعی به دلیل عوامل کلان اقتصادی متعدد، همچنان دشوار است @emollick
  • کاربران گزارش می‌دهند که اشتراک‌های Anthropic خود را به نفع Codex از OpenAI لغو کرده‌اند و به محدودیت‌های بهتر و دقت بیشتر آن برای کارهای برنامه‌نویسی اشاره می‌کنند @steipete
  • تحلیل‌ها نشان می‌دهد که بیشتر از حدود ۱۵۰ هزار دانشجوی هندی مقطع کارشناسی ارشد که در ایالات متحده فارغ‌التحصیل می‌شوند، کاری پیدا نخواهند کرد؛ ۷۰ درصد از آن‌ها در رشته‌های علوم کامپیوتر/مهندسی تحصیل می‌کنند، اما مشاغل فناوری کافی برای پاسخگویی به این تقاضا وجود ندارد و این وضعیت با محدودیت‌های ویزا تشدید می‌شود @deedydas
  • Runway در حال تشکیل یک تیم متمرکز بر رباتیک و بهینه‌سازی (fine-tuning) مدل‌های موجود برای مشتریان حوزه‌ی رباتیک و خودروهای خودران است @TechCrunch

کاربردها

  • Alimama Creative با استفاده از Qwen-Image و Qwen-VL، عکس‌های ساده‌ی محصول را به پوسترهایی با نرخ تبدیل بالا تبدیل می‌کند؛ این کار از طریق یک خط لوله‌ی خلاقیت کاملاً خودکار انجام می‌شود که بازنویسی، پرامپت‌ها و تصاویر را، از کد محصول (SKU) تا آگهی، در عرض چند ثانیه مدیریت می‌کند @Alibaba_Qwen
  • کاربری یک اپلیکیشن مبتنی بر Gemini 2.5 Flash را ایجاد کرده است که رونوشت اپیزودها، یادداشت‌های نمایش و ویدیوی خام را پردازش می‌کند تا مراحل گام به گام را با اسکرین‌شات‌های کاملاً زمان‌بندی‌شده بنویسد و سپس از طریق API به CMS ارسال کند @clairevo
  • ایتان مولیک (Ethan Mollick) نحوه‌ی استفاده از «نانو بنانا» (nano banana) را برای بازآفرینی «فرشینه‌ی بایو» (Bayeux Tapestry) نشان می‌دهد که فتوحات نورمن‌ها را به سبک عکاسی جنگی به تصویر می‌کشد و وفاداری بهبودیافته‌ای را در ثبت جزئیات نسبت به سال‌های گذشته نشان می‌دهد @emollick
  • Lovable در کمک به افراد برای ساخت اپلیکیشن‌ها و وب‌سایت‌ها از طریق «وایب کدینگ» (vibe-coding) تخصص دارد؛ به‌ویژه برای کاربرانی که تجربه‌ی برنامه‌نویسی ندارند، این شرکت به آن‌ها امکان می‌دهد مدل‌های هوش مصنوعی را در حین تولید کد و وب‌سایت راهنمایی کنند @TechCrunch

پژوهش‌ها

  • GPT-5 Pro با نقد یک مقاله‌ی علمی سال ۲۰۱۰، قابلیت‌های چشمگیری را به نمایش می‌گذارد؛ این مدل پیشرفت‌های روش‌شناختی را پیشنهاد می‌دهد، خطای کشف‌نشده‌ی قبلی را شناسایی می‌کند و به‌طور خودکار شبیه‌سازی‌های Monte Carlo و تحلیل‌های حساسیت را انجام می‌دهد @emollick
  • هر دو مدل GPT-5 Pro و Gemini 2.5 Pro Deep Think به‌عنوان مدل‌هایی بسیار چشمگیر برای حل مسائل دشوار توصیف شده‌اند، اگرچه ممکن است در زمان معرفی، کمتر مورد توجه قرار گرفته باشند (undersold)؛ زیرا ممکن است آزمایشگاه‌ها هنوز بازار مدل‌های کند و عمیق‌اندیش را به‌طور کامل درک نکرده باشند @emollick
  • Codex از OpenAI در ۳۴ روز اول فعالیت خود ۳۵۰ هزار PR (pull request) را ادغام کرد و از آن زمان تاکنون بیش از یک میلیون PR را با رشد خیره‌کننده‌ی استفاده ادغام کرده است @AnjneyMidha
  • جنبش رو به رشدی برای ساخت مدل‌های زبان بزرگ (LLM) در زبان‌های کم‌منبع با هدف گسترش دسترسی به هوش مصنوعی برای جمعیت‌های محروم و رفع شکاف دیجیتال که مانع دسترسی جوامع به مزایای اقتصادی هوش مصنوعی می‌شود، در حال شکل‌گیری است @StanfordHAI