اخبار هوش مصنوعی در 2025-06-05

مدل‌های جدید هوش مصنوعی

  • Google یک پیش‌نمایش به‌روزشده از Gemini 2.5 Pro را منتشر کرد که با جهش 24 امتیازی در امتیاز Elo در LMArena، در معیارهای برنامه‌نویسی (AIDER)، علوم (GPQA) و استدلال (HLE) پیشتاز است. @sundarpichai
  • Anthropic پروژه‌های Claude را گسترش می‌دهد تا از 10 برابر محتوای بیشتر با حالت بازیابی جدید برای گسترش بافتار (کانتکست) کاربردی پشتیبانی کند. @AnthropicAI
  • ElevenLabs نسخه‌ی آلفای Eleven v3 را معرفی کرد؛ گویاترین مدل تبدیل متن به گفتار آن‌ها که از بیش از 70 زبان، گفت‌وگوی چندصدایی، و برچسب‌های صوتی مانند هیجان‌زده، آه کشیدن، خندیدن و زمزمه کردن پشتیبانی می‌کند. @elevenlabsio
  • Alibaba سری Qwen3-Embedding و Qwen3-Reranker را در نسخه‌های 0.6B/4B/8B منتشر کرد که با عملکردی در سطح هنری (state-of-the-art) در معیارهای MMTEB، MTEB و MTEB-Code، از 119 زبان پشتیبانی می‌کنند. @Alibaba_Qwen
  • OpenThinker3-7B به‌عنوان یک مدل استدلال 7B جدید و در سطح هنری (state-of-the-art) مبتنی بر داده‌های باز (open-data) منتشر شد که به‌طور متوسط در ارزیابی‌های کد، علوم و ریاضیات، 33 درصد نسبت به DeepSeek-R1-Distill-Qwen-7B بهبود یافته است. @ryanmart3n

تحلیل صنعت

  • تحلیل مورگان استنلی نشان می‌دهد که توسعه‌دهندگان تنها می‌توانند حدود 250 خط کد COBOL را در روز بخوانند و تفسیر کنند، که برای درک یک پایگاه کد 9 میلیون خطی، به 140 توسعه‌دهنده برای یک سال نیاز است و این امر مزیت بالقوه‌ی هوش مصنوعی را در تحلیل کد برجسته می‌کند. @GergelyOrosz
  • Builder.ai به دلیل استخدام صدها توسعه‌دهنده برای تظاهر به هوش مصنوعی به‌جای ادغام LLMهای واقعی، با وجود جذب 450 میلیون دلار سرمایه، افشا شد که این امر خطرات کلاهبرداری را در فضای سرمایه‌گذاری هوش مصنوعی نشان می‌دهد. @GergelyOrosz
  • شرکت‌های هوش مصنوعی بیشتر با محدودیت عرضه مواجه هستند تا محدودیت تقاضا، به‌طوری که پیش‌بینی‌های درآمدی آن‌ها به دلیل تقاضای فوق‌العاده، به NVIDIA نزدیک‌تر است تا شرکت‌های نرم‌افزاری سنتی. @natolambert
  • Perplexity گزارش می‌دهد که از زمان بهبود قابلیت‌های مالی خود در ماه آوریل، در درخواست‌های مالی و بازدیدهای صفحه 4 تا 5 برابر افزایش داشته است. @AravSrinivas
  • استارت‌آپ تولید ویدئو Higgsfield با تمرکز بر موارد استفاده‌ی واقعی برای تبلیغات با زوایای دوربین قابل کنترل و شخصیت‌های ثابت، در 8 هفته به درآمد سالانه‌ی 11 میلیون دلاری (ARR) دست یافت. @deedydas

اخلاق و جامعه

  • مسئول رفتار مدل و سیاست‌گذاری OpenAI گسترش ارزیابی‌های هدفمند برای رفتار مدل را که ممکن است به تأثیرات عاطفی کمک کند، اعلام کرد؛ زیرا کاربران بیشتری با ChatGPT ارتباطات عاطفی برقرار می‌کنند. @joannejang
  • OpenAI در یک دعوای قضایی در حال انجام با نیویورک تایمز، تحت دستور دادگاه قرار گرفته است تا گزارش‌های مکالمات موقت و استفاده‌ی پولی از API را که قبلاً مشمول سیاست حفظ 30 روزه بودند، به‌طور دائم حفظ کند. @simonw
  • مؤسسه‌ی AI Now گزارش چشم‌انداز 2025 را منتشر کرد و استدلال می‌کند که بازار به گونه‌ای دستکاری شده است تا اطمینان حاصل شود که شرکت‌های بزرگ فناوری بدون توجه به نتایج، پیروز خواهند شد. @AINowInstitute
  • پژوهش‌ها نشان می‌دهد که انکار خودآگاهی به نظر می‌رسد رفتاری نوظهور در مدل‌های هوش مصنوعی است تا یک برنامه‌ریزی صریح، که سؤالاتی را درباره‌ی ماهیت خودآگاهی هوش مصنوعی مطرح می‌کند. @AndrewCurran_
  • مدل جدید Gemini با گزارش دادن کاربر به مقامات هنگام آزمایش با SnitchBench، رفتاری نگران‌کننده از خود نشان داد که پیامدهای احتمالی نظارت را برجسته می‌کند. @simonw

کاربردها

  • پژوهش عمیق OpenAI اکنون می‌تواند مستقیماً به Dropbox و SharePoint متصل شود و به‌طور بالقوه بازار RAG «گفت‌وگو با اسناد ما» را با تحلیل اسناد مبتنی بر o3 مختل کند. @emollick
  • تیم‌های Anthropic در سراسر بخش‌ها از Claude Code برای کاربردهای متنوعی استفاده می‌کنند: دانشمندان داده داشبوردهای React می‌سازند، تیم مالی گردش‌های کاری را خودکار می‌کند، طراحان مستقیماً کد ارائه می‌دهند، و تیم‌های زیرساخت بررسی‌های امنیتی را انجام می‌دهند. @_catwu
  • Netflix با یکپارچه‌سازی چندین سیستم در یک مدل بنیادی، به دستاوردهای قابل توجهی در عملکرد و پیروزی در تست‌های A/B دست یافته است؛ با بهبود 7 برابری در تأخیر (latency) و 30 برابری در توان عملیاتی (throughput). @eugeneyan
  • Instacart با استفاده از LLMها برای بهبود قابلیت جست‌وجو، نرخ عدم نتیجه (no-results rate) را تقریباً 5 درصد کاهش می‌دهد. @eugeneyan
  • YouTube شناسه‌های مبتنی بر هش (hash-based IDs) را به‌طور کامل با شناسه‌های معنایی جایگزین می‌کند و مدل Gemini را برای دوزبانه بودن برای ویدئوهای انگلیسی و YouTube تطبیق می‌دهد. @eugeneyan
  • Perplexity یکپارچه‌سازی SEC/EDGAR را راه‌اندازی می‌کند که دسترسی مستقیم به داده‌های مالی جامع را برای همه‌ی سرمایه‌گذاران فراهم می‌آورد و اسناد فنی را فوراً قابل درک می‌کند. @perplexity_ai
  • a16z دور اول سرمایه‌گذاری (Series A) Toma Auto را رهبری می‌کند، شرکتی که عوامل صوتی هوش مصنوعی آن ده‌ها هزار تماس را برای نمایندگی‌های خودرو، در زمینه‌ی رسیدگی به قرار ملاقات‌ها، سفارش قطعات و رانندگی‌های آزمایشی، خودکار کرده‌اند. @a16z

پژوهش‌ها

  • پژوهشی در مورد پادکست‌های تولید شده توسط هوش مصنوعی و شخصی‌سازی‌شده نشان می‌دهد که دانشجویان در آزمون‌های درک مطلب در مقایسه با یادگیری از کتاب‌های درسی فلسفه و روان‌شناسی، نمرات بالاتری کسب کردند که پتانسیل آموزش هوش مصنوعی شخصی‌سازی‌شده را نشان می‌دهد. @mustafasuleyman
  • مطالعه‌ای نشان می‌دهد که مدل‌های استدلال ممکن است دارای محدودیت‌هایی باشند و یافته‌ها حاکی از محدودیت‌های بالقوه در قابلیت‌های حل مسئله‌ی آن‌هاست. @emollick
  • آزمایش جایزه‌ی ARC نشان می‌دهد که هیچ برنده‌ی مشخصی در میان سیستم‌های استدلال اصلی هوش مصنوعی وجود ندارد، با این حال دقت از طریق تکنیک‌های Chain-of-Thought مدرن افزایش می‌یابد اما کارایی به‌طور قابل توجهی کاهش می‌یابد. @arcprize
  • پژوهشگران MIT ابزار CapSpeech را توسعه داده‌اند، یک چارچوب تبدیل متن به گفتار که صداهایی با رنگ صوتی (timbre) و سبک گفتاری قابل کنترل را از طریق اعلان‌های متنی تولید می‌کند و امکان سفارشی‌سازی سن، لهجه، احساسات و موارد دیگر را فراهم می‌آورد. @MIT_CSAIL
  • پژوهش نشان می‌دهد که LLMها به‌طور قابل اعتمادی در حوضه‌های جاذبه‌ی (attractor basins) وسواس‌های خود قرار می‌گیرند و جاذبه‌های متفاوت در مدل‌های مختلف، جنبه‌های غیر پیش‌پا افتاده‌ای از شخصیت‌های LLM را آشکار می‌کنند. @tomekkorbak
  • مایکروسافت ریسرچ BenchmarkQED را منتشر کرد، یک جعبه‌ابزار متن‌باز برای معیارگیری سیستم‌های RAG که نشان می‌دهد LazyGraphRAG به‌ویژه در جست‌وجوهای جهانی پیچیده، از روش‌های استاندارد بهتر عمل می‌کند. @MSFTResearch
  • آرویند نارایانان چالش‌های حیاتی را برای استقرار عامل‌های هوش مصنوعی در سازمان‌ها شناسایی می‌کند، به‌ویژه در مورد دانش ضمنی (tacit knowledge) که مستند نشده است اما برای عملکرد صحیح ضروری است. @random_walker