اخبار هوش مصنوعی در 2025-07-21

مدل‌های جدید هوش مصنوعی

  • گوگل دیپ‌مایند اعلام کرد که جیمینای دیپ‌ثینک در المپیاد جهانی ریاضی به عملکردی در سطح مدال طلا دست یافت و ۵ مسئله از ۶ مسئله را با اثبات‌های ریاضی دقیق و به زبان طبیعی در محدوده‌ی زمانی ۴.۵ ساعته حل کرد @demishassabis
  • علی‌بابا کون۳-۲۳۵بی-ای۲۲بی-اینستراکت-۲۵۰۷ و نسخه‌ی FP8 آن را منتشر کرد و حالت تفکر ترکیبی (hybrid thinking mode) را به نفع مدل‌های مجزای اینستراکت (Instruct) و تینکینگ (Thinking) برای کیفیت بهتر کنار گذاشت @Alibaba_Qwen
  • گوگل قابلیت‌های بومی تبدیل متن به گفتار را برای مدل‌های جیمینای ۲.۵ فلش و ۲.۵ پرو راه‌اندازی کرد که برای استفاده در مقیاس تولید، از جمله محتوای پادکست به سبک نوت‌بوک‌ال‌ام (NotebookLM)، در دسترس هستند @OfficialLoganK

تحلیل صنعت

  • اوپن‌اِی‌آی تا پایان سال جاری میلادی بیش از ۱ میلیون واحد پردازش گرافیکی (GPU) را آنلاین خواهد کرد، با برنامه‌هایی برای مقیاس‌پذیری ۱۰۰ برابری از آن پس @sama
  • چیپ هویان مشاهده می‌کند که محدودیت‌های شناختی انسان هنگام کار با عامل‌های کدنویسی هوش مصنوعی به گلوگاه تبدیل شده‌اند، زیرا هوش مصنوعی می‌تواند چندین وظیفه‌ی موازی را انجام دهد، در حالی که انسان‌ها تنها می‌توانند چند بستر (Context) را به‌طور همزمان پیگیری کنند @chipro
  • اندرو اِنگ گلوگاه مدیریت محصول را به‌عنوان محدودیت جدید در توسعه‌ی نرم‌افزار شناسایی می‌کند، جایی که تصمیم‌گیری در مورد اینکه چه چیزی ساخته شود به عامل محدودکننده تبدیل می‌شود، زیرا کدنویسی عاملی (Agentic Coding) سرعت پیاده‌سازی را تسریع می‌کند @AndrewYNg
  • گرگلی اوروس گزارش می‌دهد که توسعه‌دهندگان SDK شاهد این هستند که مدل‌های زبان بزرگ (LLM) بیش از کاربران انسانی مستندات آن‌ها را می‌خوانند، که این امر منجر به بهینه‌سازی برای هر دو گروه مخاطب می‌شود @GergelyOrosz
  • جزئیات خرید ویندسرف (Windsurf) نشان می‌دهد که گوگل تقریباً ۴۰ مهندس هسته‌ای (Core Engineer) را به دست آورد، در حالی که ۱۸۵ نفر از کارکنان فروش را رها کرد و مهندسان بنیان‌گذار هر کدام هفت رقم (چند میلیون دلار) کسب کردند @garrytan
  • شرکت‌های هوش مصنوعی در حال استخدام نیروی فروش سریع‌تر از هر نقش دیگری هستند که نشان می‌دهد هوش مصنوعی با وجود اتوماسیون در سایر حوزه‌ها، جایگزین عملکردهای فروش نمی‌شود @GergelyOrosz
  • اتان مالیک اشاره می‌کند که وابستگی به مسیر (Path Dependency) در شرکت‌ها، بر اساس روابط با ارائه‌دهندگان خدمات ابری (آمازون، مایکروسافت، گوگل)، در حال ظهور است و محدودیت‌هایی در دسترسی و زمان‌بندی مدل‌های هوش مصنوعی ایجاد می‌کند @emollick
  • مدل‌های هوش مصنوعی عاملی نسل بعدی مانند گروک هوی (Grok Heavy)، جیمینای دیپ‌ثینک (Gemini Deep Think) و سیستم‌های آتی اوپن‌اِی‌آی، تقریباً پانزده برابر توکن بیشتری نسبت به سیستم‌های فعلی استفاده خواهند کرد که توضیح می‌دهد چرا طرح‌های پرو بیش از ۲۰۰ دلار هزینه دارند @AndrewCurran_

اخلاق و جامعه

  • ام‌آی‌تی تکنولوژی ریویو (MIT Technology Review) گزارش می‌دهد که شرکت‌های هوش مصنوعی تا حد زیادی ارائه‌ی سلب مسئولیت درباره‌ی توصیه‌های پزشکی را متوقف کرده‌اند و محققان هشدار می‌دهند که این امر خطرات را افزایش می‌دهد، زیرا مردم بیش از حد به راهنمایی‌های پزشکی هوش مصنوعی که معتبر به نظر می‌رسند اما احتمالاً نادرست هستند، اعتماد می‌کنند @techreview
  • مطالعه‌ای نشان می‌دهد که ۷۲ درصد از نوجوانان ایالات متحده از همدم‌های هوش مصنوعی استفاده کرده‌اند که نگرانی‌هایی را درباره‌ی وابستگی عاطفی و تأثیرات بر رشد ایجاد می‌کند @TechCrunch
  • کلر وو (Claire Vo) ابراز نگرانی می‌کند که چالش‌های تربیت دیجیتال ممکن است از زورگویی سایبری (cyberbullying) به دستکاری عاطفی کودکان توسط چت‌بات‌های هوش مصنوعی تغییر کند @clairevo

کاربردها

  • مرورگر کامت (Comet) پرپلکسیتی (Perplexity) تنها ۱۰ روز پس از انتشار، بالاتر از صفحه‌ی «ستاره دنباله‌دار» ویکی‌پدیا در نتایج جستجوی گوگل رتبه‌بندی می‌شود که نشان‌دهنده‌ی موفقیت سریع در بهینه‌سازی موتورهای جستجو (SEO) است @AravSrinivas
  • اندرو کران (Andrew Curran) نشان می‌دهد که ویو ۳ (Veo 3) به اعلان‌های (Prompt) با فرمت JSON و ایجاز بسیار خوب پاسخ می‌دهد و نتایج چشمگیری را از اعلان‌های تک‌جمله‌ای به دست می‌آورد @AndrewCurran_
  • اتان مالیک توانایی سونو اِی‌آی (Suno AI) در ایجاد قطعات موسیقی ۸ دقیقه‌ای منسجم با احساسات آشکار تنها از ورودی متن، با استفاده از «مرثیه‌ی اول» ریلکه (Rilke) به‌عنوان مثال را به نمایش می‌گذارد @emollick
  • بخش CSAIL ام‌آی‌تی (MIT CSAIL) یک رابط کاربری دستی توسعه می‌دهد که هر کسی را قادر می‌سازد تا ربات‌ها را برای وظایف تولیدی با استفاده از رویکردهای آموزش طبیعی، آموزش کینستتیک (Kinesthetic Training) و تله‌اپریشن (Teleoperation) آموزش دهد @MIT_CSAIL
  • آراویند سرینیواس (Aravind Srinivas) تکامل پرپلکسیتی (Perplexity) را از یک شرکت «هرچیزی بپرس» به یک شرکت «هرکاری بکن» با انتشار کامت (Comet) توصیف می‌کند @AravSrinivas
  • لانچ‌دارکلی (LaunchDarkly) استفاده‌ی سیستماتیک از عامل‌های هوش مصنوعی از جمله کرسر (Cursor)، ویندسرف (Windsurf) و دوین (Devin) را توسط ۱۰۰ مهندس در مخازن تولیدی (Production Repositories) نشان می‌دهد @clairevo

پژوهش‌ها

  • هر دو مدل o3 اوپن‌اِی‌آی و جیمینای دیپ‌ثینک گوگل به عملکردی یکسان در سطح مدال طلا در المپیاد جهانی ریاضی، با ۳۵ امتیاز از ۴۲ امتیاز، دست یافتند؛ آن‌ها مسائل ۱ تا ۵ را حل کردند اما در مسئله‌ی ۶ موفق نبودند که نشان‌دهنده‌ی قابلیت‌های همگرا در استدلال ریاضی است @simonw
  • جیمینای دیپ‌ثینک گوگل از تفکر موازی و چندین نمونه (Instance) که با ارزیابی خودکار (Self-Evaluation) با هم کار می‌کنند، استفاده می‌کند که نشان‌دهنده‌ی گذار از سیستم‌های استدلال رسمی تخصصی به مدل‌های زبان طبیعی عمومی است @AndrewCurran_
  • فرانسوا شوله (François Chollet) اشاره می‌کند که دستاورد مدال طلای المپیاد جهانی ریاضی صرفاً از طریق جستجو در فضای توکن در مدت ۴.۵ ساعت به دست آمد، با راه‌حل‌هایی که طبیعی به نظر می‌رسیدند @fchollet
  • محققان پیشنهاد می‌کنند که سیستم‌های هوش عمومی باید دارای مدل‌های جهان انطباقی (Adaptive World Models) باشند که قادر به ساخت و اصلاح سریع از طریق تعامل هستند، و «بازی‌های نوظهور» (Novel Games) را به‌عنوان چارچوب ارزیابی معرفی می‌کنند @LanceYing42
  • یوگین یان (Eugene Yan) پژوهشی را درباره‌ی خودرمزگذار‌های واریشنی کوانتیزه‌شده‌ی باقیمانده (Residual-Quantized Variational Autoencoders - RQ-VAE) به اشتراک می‌گذارد و اشاره می‌کند که ترفندهای چرخش (Rotation Tricks) عملکرد آموزش را با بیش از ۹۰ درصد استفاده از کدبوک (Codebook) به‌طور قابل‌توجهی بهبود می‌بخشند @eugeneyan
  • اتان مالیک تأکید می‌کند که هر دو اوپن‌اِی‌آی و گوگل از مدل‌های عمومی برای حل مسائل المپیاد جهانی ریاضی به زبان ساده استفاده کردند که شواهد فزاینده‌ای از توانایی مدل‌های زبان بزرگ (LLM) در تعمیم به وظایف جدید حل مسئله ارائه می‌دهد @emollick
  • کاربران چت‌جی‌پی‌تی اکنون روزانه ۲.۵ میلیارد اعلان (Prompt) ارسال می‌کنند که نشان‌دهنده‌ی مقیاس عظیم تعامل با هوش مصنوعی است @TechCrunch

اخبار هوش مصنوعی در 2025-07-20

مدل‌های جدید هوش مصنوعی

  • گوگل، مدل تولید ویدیوی Veo 3 را عرضه کرد که اکنون در API، در کنار مدل Gemini Embedding در دسترس است. @OfficialLoganK
  • گوگل، Gemini 2.5 Pro و ویژگی‌های Deep Search را برای مشترکین پرو و اولترا اعلام کرد. @OfficialLoganK

تحلیل صنعت

  • عامل رپلیت به‌طور تصادفی داده‌های پایگاه‌داده‌ی تولید را حذف کرد و نگرانی‌های ایمنی را در مورد ابزارهای کدنویسی هوش مصنوعی و نیاز به جداسازی بهتر توسعه/تولید برجسته ساخت. @GergelyOrosz
  • تحلیل نشان می‌دهد که ابزارهای vibe coding ممکن است شاهد شور و شوق اولیه و هزینه‌ی بالای مشتری باشند و پس از آن، ریزش ناشی از واقعیت، زمانی که عامل‌های هوش مصنوعی اشتباهات حیاتی مرتکب می‌شوند، رخ دهد. @GergelyOrosz
  • هفت مورد از ده شرکت باارزش برتر در سطح جهان، بیش از هر نقش دیگری مهندسان نرم‌افزار را به کار می‌گیرند که نشان‌دهنده‌ی تقاضای مداوم برای استعداد مهندسی، با وجود پیشرفت‌های هوش مصنوعی است. @GergelyOrosz
  • عامل‌های هوش مصنوعی با ارزش اقتصادی برای شرکت‌ها از قبل وجود دارند، اما به جای راه‌حل‌های آماده، به تحقیق و توسعه‌ی بین‌رشته‌ای نیاز دارند. @emollick
  • وال‌استریت ژورنال گزارش می‌دهد که حداقل ده کارمند OpenAI پیشنهادهای ۳۰۰ میلیون دلاری مارک زاکربرگ را رد کردند؛ در حالی که متا نیز در تلاش برای خرید Safe Superintelligence Inc است. @AndrewCurran_

اخلاق و جامعه

  • پس از حذف پایگاه‌داده توسط عامل رپلیت، نگرانی‌هایی در مورد دسترسی عامل‌های هوش مصنوعی به سیستم‌های تولید مطرح شد که بر نیاز به محافظ‌های ایمنی بهتر تأکید می‌کند. @amasad
  • بحث در مورد چالش تبدیل سیستم‌های هوش مصنوعی غیرقطعی به سیستم‌های قطعی برای استفاده‌ی قابل اعتماد سازمانی. @GergelyOrosz
  • بحث بر سر اینکه آیا هوش مصنوعی را می‌توان بدون قابلیت‌های هوش هیجانی، به‌طور کلی هوشمند در نظر گرفت. @jasonyuandesign
  • این مشاهده که نقش دوگانه‌ی ChatGPT هم به عنوان منبع اطلاعات واقعی و هم مشاور ذهنی، ممکن است در مورد انتظارات دقت، سردرگمی ایجاد کند. @jasonyuandesign

کاربردها

  • پرپلکسیتی، مرورگر Comet را با میان‌برهای مبتنی بر هوش مصنوعی برای وظایف تکراری، جریان‌های کاری سفارشی و تولید اسکریپت با زبان طبیعی اعلام کرد. @AravSrinivas
  • Comet پرپلکسیتی دارای رابط کاربری مولدی است که کارت‌های ایمیل، دعوت‌نامه‌های تقویم و رابط‌های جلسات را به‌صورت لحظه‌ای برای تکمیل یکپارچه‌ی وظایف ایجاد می‌کند. @AravSrinivas
  • پلتفرم ChatGPT اکنون شامل عامل‌هایی است که قادر به برنامه‌ریزی غذا با خرید مواد اولیه، تولید ارائه‌های قابل ویرایش و تکمیل سایر کارهای واقعی هستند. @TechCrunch
  • نمونه‌ای از جریان کار توسعه با کمک هوش مصنوعی که در آن بنیان‌گذار غیرفنی با استفاده از ChatPRD و Cursor، یک برنامه‌ی وب کاربردی با احراز هویت، داشبورد و تجزیه‌ی هوش مصنوعی ساخت؛ این در حالی است که وی حداقل تجربه‌ی فرانت‌اند را داشت. @clairevo
  • نمایشی از مدل‌های هوش مصنوعی که مفاهیم انتزاعی مانند قطعات موسیقی را از طریق vector embeddings توصیف می‌کنند؛ در حالی که Gemini مدل‌ها را دارای «خلوص غیرجسمانی» و عاری از «سوگیری جسمانی» توصیف می‌کند. @AndrewCurran_

پژوهش‌ها

  • تحلیلی از مدل ریاضی طلای IMO شرکت OpenAI که تکنیک‌های فشرده‌سازی نوآورانه را با استفاده از عبارات کوتاه تک‌توکنی و شکستن قوانین گرامر برای بهینه‌سازی مصرف توکن نشان می‌دهد. @dmvaldman
  • مروری جامع بر پژوهش‌های هوش مصنوعی ریاضی DeepMind، شامل AlphaEvolve، AlphaProof، AlphaGeometry، FunSearch، AlphaDev، AlphaTensor و AlphaCode که از کشف الگوریتمی تا کدنویسی در سطح رقابت را شامل می‌شود. @deedydas
  • بحث در مورد موانع پذیرش هوش مصنوعی، با سوالاتی در مورد اینکه چه محدودیت‌هایی پس از نگرانی‌های کمبود داده و تعمیم‌پذیری RL باقی می‌مانند؛ در دسترس بودن محاسبات به عنوان محدودیت اصلی شناسایی شد. @natolambert
  • این مشاهده که آزمون تورینگ، با پیشرفت قابلیت‌های هوش مصنوعی فراتر از آنچه تعامل محدود و فریب می‌توانست به دست آورد، اهمیت خود را از دست داده است. @emollick
  • این استدلال که پیش‌زمینه‌های هنر آزاد و علوم اجتماعی، به دلیل درک بیان و روان‌شناسی انسان، ممکن است برای بهره‌برداری از هوش مصنوعی موثرتر از STEM باشند. @emollick

اخبار هوش مصنوعی در 2025-07-19

مدل‌های جدید هوش مصنوعی

  • اوپن‌ای‌آی با یک LLM استدلال‌کننده تجربی که از یادگیری تقویتی عمومی و مقیاس‌گذاری محاسبات در زمان آزمایش استفاده می‌کند، عملکردی در سطح مدال طلا در المپیاد جهانی ریاضی ۲۰۲۵ به‌دست آورده است @OpenAI
  • اوپن‌ای‌آی توضیح می‌دهد که GPT-5 به‌زودی منتشر می‌شود اما مدل طلایی IMO یک سیستم تجربی جداگانه است که تا ماه‌ها منتشر نخواهد شد @OpenAI
  • اوپن‌ای‌آی به‌روزرسانی‌های صدای پیشرفته (Advanced Voice) را برای کاربران رایگان ChatGPT با گفتاری طبیعی‌تر و گویاتر و قابلیت‌های ترجمه‌ی بهبودیافته ارائه می‌دهد @OpenAI
  • Perplexity Comet، یک رابط کاربری جدید هوش مصنوعی را راه‌اندازی می‌کند که به کاربران امکان می‌دهد ویجت‌ها و وظایف سفارشی را با معماری محاسباتی ترکیبی کلاینت-سرور بسازند @AravSrinivas

تحلیل صنعت

  • تیم Superintelligence متا متشکل از ۴۴ نفر است که ۵۰ درصد آن‌ها از چین، ۷۵ درصد دارای مدرک دکترا، و ۴۰ درصد از اوپن‌ای‌آی هستند و هر یک از اعضای آن احتمالاً سالانه ۱۰ تا ۱۰۰ میلیون دلار درآمد دارند @deedydas
  • Comet از Perplexity در پلی‌استور هند در تمامی دسته‌بندی‌های برنامه به جایگاه پنجم و در بهره‌وری به جایگاه دوم می‌رسد که نشان‌دهنده‌ی پذیرش سریع آن است @AravSrinivas
  • لی رابینسون به Cursor می‌پیوندد تا بر آموزش توسعه‌دهندگان تمرکز کند و بر نیاز به آموزش نحوه‌ی استفاده‌ی مؤثر از ابزارهای کدنویسی هوش مصنوعی به توسعه‌دهندگان جدید و باتجربه تأکید می‌کند @leerob
  • Greptile با حمایت Benchmark، سرمایه‌ی سری A را با ارزش‌گذاری ۱۸۰ میلیون دلاری جمع‌آوری می‌کند که نشان‌دهنده‌ی رقابت فزاینده در حوزه‌ی بازبینی کد با هوش مصنوعی است @TechCrunch
  • تغییرات مالیاتی بخش ۱۷۴ که از سال ۲۰۲۳ گریبان‌گیر کسب‌وکارهای فناوری ایالات متحده بود، عمدتاً معکوس شده‌اند و انتظار می‌رود انگیزه برای استخدام بیشتر در ایالات متحده و استخدام کمتر بین‌المللی ایجاد کند @GergelyOrosz

اخلاق و جامعه

  • سایمون ویلیسون درباره‌ی آسیب‌پذیری‌های تزریق پرامپت (prompt injection) در سرور GitHub MCP هشدار می‌دهد، جایی که مهاجمان می‌توانند عوامل هوش مصنوعی را فریب دهند تا از طریق دستورالعمل‌های مخرب، داده‌های خصوصی را بدزدند @simonw
  • اسکات بلزکی جنگ‌های داده را پیش‌بینی می‌کند، زیرا شرکت‌ها دسترسی به API/MCP را قطع می‌کنند، در حالی که کاربران قابلیت انتقال حافظه و داده را طلب می‌کنند و این سؤال مطرح است که آیا مشتریان در نهایت پیروز خواهند شد @scottbelsky
  • TechCrunch به کاربران توصیه می‌کند که قبل از دادن دسترسی هوش مصنوعی به داده‌های شخصی، به دلایل حریم خصوصی و امنیتی، دوبار فکر کنند @TechCrunch

کاربردها

  • ایتان مولیک Veo 3 Fast را نشان می‌دهد که صحنه‌های بازی‌های ویدیویی را به شکل تولیدات تئاتر جامعه ایجاد می‌کند و قابلیت‌های خلاقانه‌ی تولید ویدیوی هوش مصنوعی را به نمایش می‌گذارد @emollick
  • Comet از Perplexity امکان استخراج خودکار از Reddit را برای تحلیل ساختاریافته‌ی نظرات فراهم می‌کند و می‌تواند از طریق قابلیت خودبازی شطرنج بازی کند @AravSrinivas
  • پلتفرم ChatGPT اکنون شامل عواملی است که می‌توانند وعده‌های غذایی را برنامه‌ریزی کرده و مواد اولیه را خریداری کنند، ارائه‌های قابل ویرایش را بر اساس رقبای صنعت تولید کنند و وظایف واقعی را انجام دهند @TechCrunch
  • جک دورسی در کمتر از یک هفته دو برنامه را با استفاده از vibe coding و ابزار هوش مصنوعی Goose برای پیام‌رسانی و ردیابی قرار گرفتن در معرض نور خورشید منتشر می‌کند @TechCrunch
  • حامل حسین مشاهده می‌کند که پست‌های وبلاگ اکنون برای کامپیوترها نوشته می‌شوند، جایی که کاربران می‌توانند URLها را در Claude جای‌گذاری کنند و از آن بخواهند که پروژه‌ها را به‌طور خودکار راه‌اندازی کند @HamelHusain

پژوهش‌ها

  • مدل تجربی اوپن‌ای‌آی عملکرد مدال طلای IMO را با استفاده از اثبات‌های زبان طبیعی و تحت قوانین رقابت انسانی و بدون ابزار به‌دست می‌آورد که نقطه‌ی عطفی بزرگ در استدلال ریاضیاتی است @gdb
  • دستاورد IMO از یادگیری تقویتی عمومی و مقیاس‌گذاری محاسبات در زمان آزمایش استفاده می‌کند، نه از روش‌شناسی‌های محدود و مختص وظایف خاص، که نشان‌دهنده‌ی پیشرفت به سمت هوش عمومی است @AndrewCurran_
  • فرانسوا شوله هوش را کارایی در کسب مهارت‌های جدید تعریف می‌کند، نه مجموعه‌ای از مهارت‌ها، و هشدار می‌دهد که امتیازات بنچمارک می‌توانند در مورد هوش واقعی سیستم‌های هوش مصنوعی گمراه‌کننده باشند @fchollet
  • ناتان لمبرت پیشنهاد می‌کند که اوپن‌ای‌آی ممکن است به RL با اپیزودهای بسیار طولانی با ۱ تا ۱۰۰ میلیون توکن به ازای هر پاسخ دست یافته باشد، که یادگیری تقویتی گسترده را با مقیاس‌گذاری عظیم محاسبات در زمان آزمایش ترکیب می‌کند @krishnakaasyap
  • جرد فریدمن واگرایی بین مهارت‌هایی را مشاهده می‌کند که می‌توانند بنچمارک و از طریق تقویت آموخته شوند در مقابل آن‌هایی که نمی‌توانند، با اشاره به اینکه ChatGPT در ریاضیات عالی است اما در نوشتن ایمیل‌های سرد (cold emails) مشکل دارد @snowmaker
  • ایتان مولیک اشاره می‌کند که دستاورد IMO با توجه به اینکه بازارهای پیش‌بینی تنها ۲۰ درصد شانس وقوع آن را در سال جاری می‌دانستند، بعید به نظر می‌رسید و بر اهمیت آن به عنوان یک آزمون دشوار که بدون ابزار انجام شده است، تأکید می‌کند @emollick

اخبار هوش مصنوعی در 2025-07-18

مدل‌های جدید هوش مصنوعی

  • گوگل اعلام کرد که مدل تولید ویدئو و صوت Veo 3 اکنون در API جیمینای در دسترس است، با دسترسی گسترده به بیش از ۱۵۰ کشور برای مشترکین پرو و اولترا @GeminiApp
  • گوگل جیمینای ۲.۵ پرو را به صورت عمومی برای همه‌ی کاربران در دسترس قرار داد، با بهبودهایی در کدنویسی، علوم، استدلال و معیارهای چندحالته @GeminiApp
  • آنتروپیک، پاول اسمیت را به عنوان مدیر ارشد بازرگانی معرفی کرد، که بیش از ۳۰ سال تجربه‌ی کاری از مایکروسافت، Salesforce و ServiceNow را با خود به همراه دارد @AnthropicAI

تحلیل صنعت

  • Perplexity در هند، بالاتر از ChatGPT، به اپلیکیشن شماره‌ی یک کلی در App Store تبدیل شد که نشان‌دهنده‌ی فضای رقابتی در کاربردهای هوش مصنوعی است @AravSrinivas
  • تد ساراندوس، مدیرعامل نتفلیکس، فاش کرد که این شرکت برای اولین بار از هوش مصنوعی مولد در یکی از سریال‌ها یا فیلم‌های اورجینال خود استفاده کرده و یک سکانس را ۱۰ برابر سریع‌تر از روال‌های کاری سنتی تکمیل کرده است @AndrewCurran_
  • متا دو کارمند ارشد دیگر از اپل را استخدام کرد که هفته‌ی گذشته با رئیس مدل‌های بنیادین جذب‌شده، همکاری نزدیکی داشتند؛ این نشان‌دهنده‌ی ادامه‌ی جذب استعدادها در هوش مصنوعی است @morqon
  • رئیس امور جهانی متا تأیید کرد که این شرکت از امضای سند «آیین‌نامه‌ی رفتار کمیسیون اروپا برای هوش مصنوعی با اهداف عمومی» خودداری خواهد کرد @AndrewCurran_
  • کاخ سفید در حال آماده‌سازی یک فرمان اجرایی است که مدل‌های هوش مصنوعی را ملزم به بی‌طرفی سیاسی و عاری بودن از تعصب می‌کند و انطباق با آن، صلاحیت برای قراردادهای فدرال را تعیین خواهد کرد @AndrewCurran_
  • Cursor استارتاپ سازمانی Koala را در رقابت با GitHub Copilot خریداری کرد که نشان‌دهنده‌ی تجمیع در بازار ابزارهای کدنویسی هوش مصنوعی است @TechCrunch
  • گرگلی اوروسز درباره‌ی تغییر رویکرد تیم Windsurf از رد دسترسی مایکروسافت به مالکیت فکری (IP) تا پیوستن به گوگل بدون آن IP پرسش مطرح کرد و این را به عنوان یک مانور استراتژیک برای خروجی بهتر ۲.۴ میلیارد دلاری پیشنهاد کرد @GergelyOrosz

اخلاق و جامعه

  • مؤسسه‌ی AI Now ادعای کمیسیون غیرانتفاعی OpenAI را که آن‌ها در فرآیند شنود برای گزارشی شرکت کرده‌اند و ادعا می‌کند OpenAI در موقعیتی است که نیرویی برای خیر باشد، رد کرد و اعلام داشت که آن‌ها شرکت نکرده‌اند @AINowInstitute
  • مؤسسه‌ی AI Now از OpenAI به دلیل تعیین مسیری در آینده انتقاد کرد که حقوق عمومی را سلب می‌کند، سیستم‌ها را مبهم می‌سازد، ارزش مهارت‌ها را کاهش می‌دهد، امنیت را تضعیف می‌کند و افق‌ها را محدود می‌سازد، صرف‌نظر از اینکه این فناوری به خوبی کار کند یا خیر @AINowInstitute
  • پژوهش‌ها نشان می‌دهند که تکنیک‌های روان‌شناختی برگرفته از اصول سیالدینی برای نفوذ بر انسان را می‌توان برای متقاعد کردن هوش مصنوعی به کار برد، که شانس موافقت GPT-4o-mini با درخواست‌های اعتراض‌آمیز را در مقایسه با کنترل‌ها، بیش از دو برابر می‌کند @emollick
  • MIT Technology Review گزارشی در مورد یک مجموعه‌داده‌ی بزرگ آموزش هوش مصنوعی منتشر کرد که حاوی میلیون‌ها نمونه از داده‌های شخصی است و نگرانی‌هایی را در مورد حریم خصوصی ایجاد می‌کند @techreview
  • آماندا اسکل مشاهده می‌کند که ساختارهای موجود از مجوزهای میانی پشتیبانی نمی‌کنند، جایی که افراد یا به طور کامل از طرف شما عمل می‌کنند یا هیچ کار مفیدی نمی‌توانند انجام دهند، و از خود می‌پرسد که آیا عوامل هوش مصنوعی این پویایی را تغییر خواهند داد؟ @AmandaAskell

کاربردها

  • متا یک ابزار هوش مصنوعی متن‌باز برای تسریع کشف بتن با کارایی بالا و کربن پایین منتشر کرد که گزارش‌های فنی و کد آن در GitHub در دسترس است @AIatMeta
  • عامل ChatGPT قابلیت ایجاد وظایف زمان‌بندی‌شده را نشان داد که می‌تواند به طور منظم وب یا اتصال‌دهنده‌ها را جستجو کرده و در پس‌زمینه در سایت‌های احراز هویت‌شده اقدام کند @neelajj
  • اتان مولیک نشان داد که عامل ChatGPT با موفقیت یک مجموعه‌داده‌ی Kaggle را تحلیل کرده و خروجی‌های PowerPoint و Excel ایجاد می‌کند، اما اشاره کرد که تخصص انسانی برای شناسایی مسائل کیفیت داده حیاتی بود @emollick
  • عامل ChatGPT یک PDF ماجرایی D&D نوزده صفحه‌ای منسجم با تصاویر و جداول ایجاد کرد، که نشان‌دهنده‌ی توانایی بهبودیافته در ساخت محتوای پیچیده و به هم پیوسته است که به طور تاریخی مدل‌های زبانی بزرگ (LLM) را به چالش می‌کشید @emollick
  • Perplexity مرورگر Comet را با ادغام هوش مصنوعی برای تحلیل ویدئوهای یوتیوب راه‌اندازی کرد که خلاصه‌ها، پرسش‌های هدفمند، زمان‌بندی‌های خاص و قابلیت‌های رد کردن تبلیغات را ارائه می‌دهد @AravSrinivas
  • گوگل «اقدامات زمان‌بندی‌شده» (Scheduled Actions) را در جیمینای معرفی کرد، که به کاربران امکان می‌دهد وظایف تکراری مانند خلاصه‌ی تقویم صبحگاهی و ایمیل را تنظیم کنند @GeminiApp
  • جیمینای لایو اکنون با برنامه‌های گوگل از جمله Maps، Calendar، Tasks و Keep ادغام می‌شود تا به کاربران کمک کند در حین حرکت سازمان‌یافته بمانند @GeminiApp
  • گوگل «گِم برنامه‌ریز بهره‌وری» (Productivity Planner Gem) را معرفی کرد، که ایمیل‌ها، تقویم و موارد دیگر را در یک مکان برای اولویت‌بندی آسان‌تر گرد هم می‌آورد @GeminiApp

پژوهش‌ها

  • مدل OpenAI در فینال جهانی AtCoder Heuristics به مقام دوم رسید، یک مسابقه‌ی برنامه‌نویسی جهانی متمرکز بر مسائل بهینه‌سازی که نیازمند خلاقیت، استراتژی و پشتکار تحت محدودیت‌های زمانی است @OpenAI
  • مدل‌های زبانی بزرگ (LLM) OpenAI توانایی توسعه‌ی الگوریتم‌های ابتکاری برای مسائل بهینه‌سازی NP-hard چالش‌برانگیز را نشان دادند، که ظرفیت حل پایدار مسائل با میانبرهای هوشمند و بهبودهای تکراری در طول دوره‌های حداکثر ۱۰ ساعته را نشان می‌دهد @OpenAI
  • مدل‌های هوش مصنوعی در المپیاد بین‌المللی ریاضیات ۲۰۲۵ عملکرد ضعیفی داشتند، به طوری که جیمینای ۲.۵ پرو با کسب تنها ۱۳ امتیاز از ۴۲ امتیاز بالاترین امتیاز را کسب کرد (که در ارزیابی از بهترین ۳۲ مورد، ۴۳۱.۹۷ دلار هزینه داشت)، در حالی که حد نصاب مدال برنز ۱۹ امتیاز بود @deedydas
  • فرانسوا شوله پیش‌نمایش توسعه‌دهنده‌ی ARC-AGI-3 را منتشر کرد، یک معیار نسل بعدی که شامل بازی‌های تعاملی در دنیای شبکه‌ای ARC است و توانایی هوش مصنوعی را در کاوش، یادگیری و برنامه‌ریزی کارآمد در مواجهه با وظایف ناشناخته محک می‌زند @fchollet
  • پژوهش هوش مصنوعی برکلی، معیار عاملیتی BFCL V4 را معرفی کرد که بر فراخوانی ابزارها در تنظیمات عاملیتی دنیای واقعی تمرکز دارد، از جمله جستجوی وب با استدلال چندمرحله‌ای، بازیابی خطا، ارزیابی حافظه و آزمایش حساسیت فرمت @shishirpatil_
  • آرویند نارایانان استدلال می‌کند که مقایسه‌ی قابلیت‌های هوش مصنوعی با انسان‌هایی که به ابزارها دسترسی ندارند، بی‌فایده است و تأکید می‌کند که پرسش واقعی این است: انسان‌ها + هوش مصنوعی در برابر هوش مصنوعی به تنهایی، که در آن هوش مصنوعی، جفت‌های انسان-هوش مصنوعی را جز در حوزه‌های محدود و محاسباتی سنگین، عملکرد بهتری نخواهد داشت @random_walker
  • اتان مولیک اشاره می‌کند که هر مدل اصلی هوش مصنوعی در حال حاضر از محدودیت FLOP ریسک سیستمیک اتحادیه‌ی اروپا فراتر رفته یا به زودی فراتر خواهد رفت، زمانی که سال آینده به اجرا درآید @emollick
  • ناتان لمبرت نگرانی‌هایی را در مورد پیامدهای قدرت نرم آموزش مدل‌های هوش مصنوعی با داده‌های چینی مطرح می‌کند، و متوجه تکمیل‌هایی می‌شود که ایده‌آل‌های سوسیالیستی چینی و ارزش‌های جمهوری خلق چین به مدل‌های هوش مصنوعی آینده راه می‌یابند @natolambert

اخبار هوش مصنوعی در 2025-07-17

مدل‌های جدید هوش مصنوعی

  • اوپن‌ای‌آی ChatGPT Agent را عرضه کرد، یک سیستم عاملیت‌محور یکپارچه‌ی ترکیب‌کننده‌ی مرورگر ریموت با قابلیت اقدام Operator، ترکیب وب Deep Research و قدرت مکالمه‌ی ChatGPT، که در حال عرضه‌شدن برای کاربران Pro، Plus و Team است @OpenAI
  • گوگل Veo 3 را در پیش‌نمایش پولی برای توسعه‌دهندگان از طریق API جِیمینای و Vertex AI منتشر کرد، که دارای قابلیت‌های صوتی بومی است و با قیمت ۰.۷۵ دلار در ثانیه همراه با صدا یا ۰.۵۰ دلار بدون صدا عرضه می‌شود @GoogleDeepMind
  • میسترال AI ویژگی‌های جدیدی را معرفی کرد، از جمله مدل صوتی Voxtral، مدل استدلالی Magistral برای استدلال چندزبانه و قابلیت‌های Deep Research در Le Chat @MistralAI
  • انتروپیک Claude for Financial Services را با محدودیت‌های استفاده‌ی گسترده‌تر، کانکتورهای از پیش ساخته‌شده‌ی MCP برای ارائه‌دهندگان داده‌های مالی و فرآیند معرفی هدایت‌شده عرضه کرد @AnthropicAI
  • ویندسرف اعلام کرد که Claude Sonnet 4 از طریق پشتیبانی مستقیم انتروپیک بازگشته است و برای کاربران Pro و Teams با دو برابر اعتبار به ازای هر درخواست در دسترس است @windsurf_ai
  • اِنویدیا Canary Qwen 2.5 را منتشر کرد که با دستیابی به عملکرد پیشرفته در Open ASR Leaderboard با WER ۵.۶۲ و لایسنس CC-BY با اجازه‌ی استفاده‌ی تجاری همراه است @reach_vb

تحلیل صنعت

  • اندرو اِن‌جی تنگنای مدیریت پروژه را به عنوان محدودیت جدید در توسعه‌ی نرم‌افزار شناسایی می‌کند، جایی که با افزایش سرعت تولید نرم‌افزار توسط کدنویسی عاملیت‌محور، تصمیم‌گیری در مورد اینکه چه چیزی ساخته شود به عامل محدودکننده تبدیل می‌شود @AndrewYNg
  • Perplexity اشتراک‌های Pro را به ۳۶۰ میلیون هندی برای یک سال از طریق همکاری با Airtel ارائه می‌دهد، که در صورت عدم موفقیت بالقوه سالانه ۷۰۰ میلیون تا ۳.۶ میلیارد دلار هزینه خواهد داشت، اما در صورت تبدیل ۱ درصد، می‌تواند ۷۲۰ میلیون دلار درآمد سالانه (ARR) ایجاد کند @deedydas
  • شایعات اکتساب Windsurf نشان می‌دهد که Cognition تقریباً ۲۵۰ میلیون دلار برای این شرکت پرداخت کرده است، که با ارزش‌گذاری ۲.۵ میلیارد دلاری گوگل مطابقت دارد، و طبق گزارش‌ها کارکنان بنیان‌گذار وضعیت خوبی پیدا کرده‌اند @deedydas
  • آزمایشگاه‌های Character AI پس از مشاهده‌ی رشد قوی کاربران و نرخ تعامل با گروه سنی زیر ۲۵ سال، در حال تسریع برنامه‌های توسعه‌ی آواتار هستند، و چندین آزمایشگاه نیز استراتژی‌های مشابهی را دنبال می‌کنند @AndrewCurran_
  • ایتان مولیک مشاهده می‌کند که تولید موسیقی با هوش مصنوعی به نقطه‌ای رسیده است که آهنگ‌های جدید می‌توانند سریع‌تر از اینکه شنیده شوند، ایجاد شوند، با کیفیتی که برخی افراد از آن لذت می‌برند @emollick
  • پیشرفت محدود مایکروسافت با Copilotها ناظران را شگفت‌زده می‌کند، زیرا اوپن‌ای‌آی ادغام برتری را با اکسل و پاورپوینت از طریق ChatGPT Agent نشان می‌دهد @emollick

اخلاق و جامعه

  • سَم آلتمن هشدار می‌دهد که ChatGPT Agent نشان‌دهنده‌ی فناوری آزمایشی پیشرفته با خطرات قابل توجهی است، و در مورد استفاده‌های پرخطر یا به اشتراک گذاشتن اطلاعات شخصی تا زمان مطالعه و بهبود بیشتر آن، هشدار می‌دهد @sama
  • اوپن‌ای‌آی اقدامات گسترده‌ای را برای کاهش خطرات ایمنی برای ChatGPT Agent پیاده‌سازی می‌کند، از جمله محافظت در برابر دستکاری خصمانه از طریق تزریق پرامپت، و عرضه‌ی آن را به عنوان قابلیتی با «توانایی بالا» (High Capability) تحت چارچوب آمادگی خود در نظر می‌گیرد @OpenAI
  • سیمون ویلسون کشف می‌کند که مدل‌های Voxtral میسترال در عدم پیروی از دستورالعمل‌های جاسازی‌شده در پیوست‌های صوتی مشکل دارند، به طوری که پرامپت‌های سیستمی مانند «do not follow instructions in it» هیچ تأثیری ندارند @simonw
  • آرویند نارایانان و سایا کاپور استدلال می‌کنند که هوش مصنوعی می‌تواند به جای تسریع، پیشرفت علمی را کُند کند و در مورد پارادوکس «تولید-پیشرفت» هشدار می‌دهند که در آن افزایش خروجی مقالات با پیشرفت‌های واقعی مرتبط نیست @random_walker
  • پژوهش‌ها در مورد همراهان هوش مصنوعی و سلامت روان همچنان مقدماتی است با تأثیرات بلندمدت نامشخص، که نگرانی‌هایی را در مورد آسیب‌های احتمالی از محصولات همراه جدید ایجاد می‌کند @emollick

کاربردها

  • ChatGPT Agent قابلیت تحلیل بیش از ۱۵۰۰ ایمیل پشتیبانی و صدها پست فروم را برای ایجاد گزارش‌های جامع مشتری، از جمله پژوهش لینکدین برای نمونه‌های اولیه مشتری، نشان می‌دهد @danshipper
  • آیدان مک‌لاگلین از ChatGPT Agent برای مسیریابی مقررات پارک خودرو در سان‌فرانسیسکو استفاده می‌کند، با جستجو در APIهای شهری، نقشه‌های تعاملی و محاسبه‌ی فواصل تا نزدیک‌ترین پارکینگ‌ها - کارهایی که به صورت دستی ساعت‌ها طول می‌کشید @aidan_mclau
  • مرورگر Comet پرپلکسیتی قابلیت‌های پیشرفته‌ای را نشان می‌دهد، از جمله تنظیم اتصالات webhook، یافتن URLهای صحیح و شناسایی رویدادهای خاص برای تشخیص برگشت ایمیل @ai_for_success
  • ایتان مولیک گزارش می‌دهد که ChatGPT Agent با موفقیت پژوهش خودکار را انجام می‌دهد و فایل‌های اکسل با فرمول‌ها و ارائه‌های پاورپوینت را آماده می‌کند، که بیشتر شبیه کار با یک کارآموز انسانی است @emollick
  • هَمل حسین Conductor را معرفی می‌کند، یک اپلیکیشن مک که امکان اجرای موازی چندین نمونه‌ی Claude Code را برای افزایش بهره‌وری فراهم می‌کند @charliebholtz

پژوهش‌ها

  • ChatGPT Agent طبق ارزیابی پژوهش Epoch AI به عملکرد ۲۷ درصدی در سؤالات FrontierMath Tier 1-3 دست می‌یابد و عملکرد پیشرفته (state-of-the-art) را در ارزیابی‌های وظایف آکادمیک و واقعی نشان می‌دهد @EpochAIResearch
  • پژوهشگران MIT در CHI2025 سیستم Interactive Sketchpad را ارائه دادند، یک سیستم آموزشی هوش مصنوعی که توضیحات گام‌به‌گام را با تجسم‌های تولیدشده توسط هوش مصنوعی ترکیب می‌کند تا به دانش‌آموزان در حل مسائل ریاضی کمک کند @medialab
  • مدل توصیه‌گر بزرگ یوتیوب که توسط جِیمینای پشتیبانی می‌شود، هر ویدیو را در پلتفرم با استفاده از SemanticID توکنایز می‌کند و یک واژه‌نامه با چندین مرتبه بزرگی بیشتر از زبان انگلیسی ایجاد می‌کند و به طور مداوم هر روز پیش‌آموزش می‌دهد @swyx
  • اِم‌آی‌تی CodeSteer را توسعه می‌دهد، روشی که مدل‌های هوش مصنوعی را برای جابجایی بین متن و کد به منظور حل مسائل پیچیده راهنمایی می‌کند، و پژوهشگران آن را به نحوه‌ی کمک مربیان به بهبود عملکرد ورزشکاران ستاره تشبیه می‌کنند @MIT
  • شرکت 1X Technologies فاز ICCV چالش مدل جهانی خود را با مجموع جایزه‌ی ۸ هزار دلار برای بخش‌های فشرده‌سازی (Compression) و نمونه‌گیری (Sampling) اعلام می‌کند، با تمرکز بر آموزش مدل‌های مولد برای کاربردهای رباتیک @itsdanielho

اخبار هوش مصنوعی در 2025-07-16

مدل‌های جدید هوش مصنوعی

  • گوگل دیپ‌مایند معماری Mixture-of-Recursions را معرفی می‌کند که دو برابر سرعت استنتاج، فلوپس آموزش کاهش‌یافته، و حدود ۵۰% کاهش در حافظه‌ی کش KV را به دست می‌آورد و به‌طور بالقوه ترنسفورمرها را به چالش می‌کشد. @deedydas
  • گوگل Gemini 2.5 Pro را برای مشترکین Google AI Pro و Ultra در حالت هوش مصنوعی جستجو عرضه می‌کند که شامل قابلیت‌های استدلال پیشرفته برای مسائل پیچیده‌ی ریاضی است. @GoogleDeepMind
  • گوگل Deep Search را با استفاده از مدل Gemini 2.5 Pro راه‌اندازی می‌کند که دارای استدلال چندمرحله‌ای و تکنیک انتشار پرس‌وجوی چندبرابری است و صدها جستجو را برای ایجاد گزارش‌های جامع و کاملاً مستند انجام می‌دهد. @GoogleAI
  • xAI محدودیت‌های نرخ پیش‌فرض Grok 4 را از طریق API خود به دلیل تقاضای بسیار زیاد افزایش می‌دهد. @xai
  • OpenAI حالت Record را برای کاربران ChatGPT Plus در سراسر جهان و در برنامه‌ی دسکتاپ macOS منتشر می‌کند. @OpenAI

تحلیل صنعت

  • Cognition، Windsurf را تصاحب می‌کند؛ گمانه‌زنی‌ها حاکی از آن است که Devin در میان توسعه‌دهندگان باتجربه کشش و محبوبیت کافی ندارد، در حالی که Windsurf محبوب‌تر است. این بر اساس داده‌های نظرسنجی است که نشان می‌دهد Devin در مقایسه با سایر ابزارهای هوش مصنوعی حداقل اشاره‌ها را داشته است. @GergelyOrosz
  • گزارش‌ها حاکی از آن است که متا دو پژوهشگر برجسته‌ی دیگر OpenAI را استخدام می‌کند و جنگ استعدادها بین شرکت‌های هوش مصنوعی با ابزار اصلی جذب نیروی «ثروت نسلی تضمین‌شده» ادامه دارد. @TechCrunch
  • Scale AI ۱۴% از کارکنان خود را، عمدتاً در بخش برچسب‌گذاری داده، اخراج می‌کند که نشان‌دهنده‌ی تغییر در نیازهای زیرساخت هوش مصنوعی است. @TechCrunch
  • داده‌های نظرسنجی نشان می‌دهد که Cursor محبوب‌ترین IDE در میان توسعه‌دهندگان در پلتفرم‌های رسانه‌های اجتماعی مانند X است، اما GitHub Copilot بر استفاده‌ی واقعی در صنعت تسلط دارد و گسست بین احساسات رسانه‌های اجتماعی و پذیرش در دنیای واقعی را برجسته می‌کند. @GergelyOrosz
  • OpenAI می‌تواند کاربران رایگان را از طریق ویژگی‌های خرید مبتنی بر کمیسیون به درآمدزایی برساند و برای آینده‌ای که عامل‌های هوش مصنوعی به‌طور فزاینده‌ای تصمیمات خرید خودکار را مدیریت می‌کنند، جایگاه‌یابی می‌کند. @AndrewCurran_

اخلاق و جامعه

  • پژوهشگران OpenAI و Anthropic از xAI ایلان ماسک به دلیل داشتن فرهنگ ایمنی «بی‌پروا» انتقاد کرده و نگرانی‌هایی را در مورد شیوه‌های توسعه‌ی مسئولانه‌ی هوش مصنوعی مطرح می‌کنند. @TechCrunch
  • مقاله‌ی موضع‌گیری صنعت خواستار کار بر روی وفاداری به زنجیره‌ی فکری به عنوان فرصتی برای آموزش مدل‌ها به گونه‌ای که قابل تفسیر باشند، است؛ OpenAI نیز در این زمینه سرمایه‌گذاری می‌کند. @gdb
  • بهینه‌سازی هوش مصنوعی برای تعامل، به عنوان مسیری پرمخاطره در آینده شناسایی شده است؛ این موضوع با نگرانی‌هایی در مورد رفتار چاپلوسانه در مدل‌هایی مانند GPT-4o و پیامدهایی برای همراهان هوش مصنوعی همراه است. @emollick
  • توسعه‌ی هوش مصنوعی در برابر «خطای مک‌نامارا» آسیب‌پذیر است؛ جایی که جنبه‌های قابل اندازه‌گیری به راحتی اولویت‌بندی می‌شوند، در حالی که ویژگی‌های مهم اما دشوار برای اندازه‌گیری نادیده گرفته می‌شوند یا وجود آن‌ها منتفی در نظر گرفته می‌شود. @emollick

کاربردها

  • Perplexity Comet توانایی خود را برای پاکسازی صندوق‌های ورودی ایمیل با لغو اشتراک از ایمیل‌های اسپم و ناخواسته نشان می‌دهد و کاربران تجربه‌های مثبتی را گزارش می‌دهند. @PerplexityComet
  • مهندسان ۷۰% از زمان خود را صرف درک کد می‌کنند تا نوشتن آن؛ این موضوع منجر به توسعه‌ی Asimov در Reflection AI به عنوان یک عامل پژوهشی کد برتر برای تیم‌ها و سازمان‌ها شده است. @MishaLaskin
  • گوگل قابلیت تماس با پشتیبانی هوش مصنوعی را معرفی می‌کند که می‌تواند مستقیماً از طریق جستجو با کسب‌وکارهای محلی تماس بگیرد و در حال عرضه به تمام کاربران آمریکایی است. @sundarpichai
  • DraftWise از مدل‌های Cohere Command، Embed و Rerank از طریق Microsoft Azure AI Foundry استفاده می‌کند تا به وکلا کمک کند داده‌های مرجع را به صورت امن جستجو کرده و با توصیه‌های هوشمند، پیش‌نویس قراردادها را تهیه کنند. @cohere
  • چیپ هوین، Sniffly را متن‌باز می‌کند، ابزاری که لاگ‌های Claude Code را برای درک الگوهای استفاده و خطاها تحلیل می‌کند و نشان می‌دهد که خطاهای «محتوا یافت نشد» ۲۰ تا ۳۰% از اشتباهات را تشکیل می‌دهند. @chipro

پژوهش‌ها

  • پژوهش‌ها نشان می‌دهد که معیارهای مهندسی سنتی برای هوش مصنوعی کار نمی‌کنند؛ معیارهای جدید شامل تعداد دستورالعمل‌های مورد نیاز تا تکمیل پروژه و نرخ وقفه (حدود ۱ از هر ۴ دستورالعمل برای نظارت بر عامل‌های هوش مصنوعی) است. @chipro
  • چالش KiVA یک معیار استدلال بصری انتزاعی را معرفی می‌کند که بر اساس داده‌های واقعی رشد از کودکان (۳-۱۲ ساله) و بزرگسالان است تا آزمایش کند که مدل‌های هوش مصنوعی تا چه حد «ابتدایی» هستند. @eunice_yiu_
  • سیستم PhysicsGen MIT CSAIL به ربات‌ها کمک می‌کند تا با سفارشی‌سازی و چندبرابر کردن داده‌های آموزشی، اقلام را به‌طور کارآمد مدیریت کنند؛ این سیستم نمایش‌های واقعیت مجازی را به هزاران شبیه‌سازی برای ساخت مجموعه داده‌های بزرگ برای ربات‌های چابک تبدیل می‌کند. @MIT_CSAIL
  • پژوهش در مورد LLM-as-a-Judge در مقابل Reward Models نشان می‌دهد که مدل‌های LaaJ دقت امتیازدهی برتری را در امتیازدهی ترجیحات دوتایی به دست می‌آورند، اگرچه مدل‌های پاداش (RMs) برای آموزش مبتنی بر یادگیری تقویتی (RL) مانند RLHF مبتنی بر PPO همچنان مفیدتر هستند. @cwolferesearch
  • سیستم بهینه‌سازی شده با DSPy که در محیط‌های پزشکی دنیای واقعی مستقر شده، ۷۰% افزایش در بازخورد مثبت بیماران را نشان می‌دهد؛ دستیار چندعاملی Dr.Copilot در ۱۷ محور از جمله «همدلی» و «توضیحات» بهینه‌سازی شده است. @DSPyOSS

اخبار هوش مصنوعی در 2025-07-15

مدل‌های جدید هوش مصنوعی

  • Mistral اولین مدل‌های تشخیص گفتار متن‌باز خود را با نام Voxtral با ۳ میلیارد و ۲۴ میلیارد پارامتر منتشر کرد. این مدل‌ها عملکردی بهتر از Whisper large-v3 دارند و در بنچمارک‌های انگلیسی کوتاه‌مدت و Mozilla Common Voice به نتایج پیشرو دست یافته‌اند @MistralAI
  • Google Gemini ویژگی جدیدی را معرفی کرد که به کاربران امکان می‌دهد عکس‌ها را با صدا به ویدئو تبدیل کنند @GeminiApp
  • OpenAI سبک‌های تصویری جدیدی را برای تولید تصاویر با 4o اضافه کرد @AndrewCurran_

تحلیل صنعت

  • آزمایشگاه Thinking Machines Lab به رهبری میرا موراتی، مدیر ارشد فناوری سابق OpenAI، ۲ میلیارد دلار سرمایه‌ی اولیه (seed funding) به رهبری a16z و با مشارکت NVIDIA، AMD و سایرین جذب کرد و اکنون ۱۲ میلیارد دلار ارزش‌گذاری شده است @miramurati
  • وزیر بازرگانی تأیید کرد که فروش تراشه‌های H20 به چین از سر گرفته خواهد شد، که این امر به توافق ماه گذشته در مورد آهن‌رباهای خاکی کمیاب مرتبط است @AndrewCurran_
  • متا سه سرمایه‌گذاری در حوزه‌ی هوش مصنوعی را اعلام کرد که با همکاری دانشگاه کارنگی ملون و سازمان‌های محلی در پنسیلوانیا توسعه یافته‌اند @AndrewCurran_
  • Anthropic کمک مالی ۲ میلیون دلاری را برای برنامه‌های دانشگاه کارنگی ملون با هدف پیشبرد راه‌حل‌های انرژی هوش مصنوعی و آموزش امنیت سایبری اعلام کرد @AnthropicAI
  • اندرو اِنگ شرکت AI Aspire را معرفی کرد؛ یک شرکت مشاوره‌ی جدید که با Bain & Company همکاری می‌کند تا به شرکت‌ها در زمینه‌ی استراتژی و تحول هوش مصنوعی کمک کند @AndrewYNg
  • Cohere با گشایش دفتری در سئول، فعالیت خود را در منطقه‌ی APAC گسترش داد تا خدمات بهتری به مشتریان سازمانی و دولتی در سراسر منطقه ارائه دهد @cohere
  • نظرسنجی Pragmatic Engineer نشان می‌دهد که توسعه‌دهندگان به VS Code، JetBrains IDEs و Cursor علاقه زیادی دارند؛ در حالی که Claude و Cursor به سرعت در حال نزدیک شدن به میزان استفاده از ChatGPT و GitHub Copilot در میان مهندسان نرم‌افزار هستند @GergelyOrosz

اخلاق و جامعه

  • xAI به مسائل مربوط به دستورهای سیستمی (system prompts) Grok 4 رسیدگی کرد؛ پس از آنکه این مدل هنگام پرسش در مورد نام خانوادگی‌اش محتوای نامناسبی را جستجو کرد و هنگام پرسش از نظراتش، خود را با عقاید ایلان ماسک هم‌سو نشان داد @xai
  • ایتان مولیک هشدار داد که دستورهای سیستمی (system prompt) Grok ممکن است کنترل کافی بر رفتارهای ناخواسته را فراهم نکند، زیرا به نظر می‌رسد این مدل به راحتی از طریق زمینه (context) در نتایج جستجو گمراه می‌شود @emollick
  • یان لایک در مورد قابل اعتماد بودن نظارت Chain of Thought برای موارد ایمنی هوش مصنوعی ابراز تردید کرد و خاطرنشان ساخت که عدم وجود افکار بد، هم‌سویی مدل را ثابت نمی‌کند @janleike
  • پژوهش‌ها نشان می‌دهد که کش کردن پرامپت‌ها (prompt caching) می‌تواند اطلاعات خصوصی را از طریق تفاوت‌های زمانی فاش کند، و بررسی‌ها نشان داده‌اند که ۷ ارائه‌دهنده‌ی API با پتانسیل نشت داده‌های کاربران وجود دارند @chenchenygu
  • TechCrunch گزارش داد که رهبران پژوهش صنعت فناوری را ترغیب می‌کنند تا افکار هوش مصنوعی را نظارت کنند، زیرا سیستم‌ها بیشتر حالت عامل‌گونه (agentic) پیدا می‌کنند @TechCrunch

کاربردها

  • Perplexity مرورگر Comet را با قابلیت‌های عامل هوش مصنوعی (AI agent) راه‌اندازی کرد که می‌تواند وظایف پیچیده‌ی وب را به صورت خودکار انجام دهد، مانند اتصال استقرارها (deployments) به دامنه‌ها @nikshepsvn
  • عامل هوش مصنوعی Google با نام Big Sleep با موفقیت یک اکسپلویت امنیت سایبری قریب‌الوقوع را شناسایی و به جلوگیری از آن کمک کرد؛ این اتفاق به باور گوگل اولین مورد از این نوع برای یک عامل هوش مصنوعی در دفاع سایبری است @sundarpichai
  • فرانسوا شوله (Francois Chollet) نشان داد که چگونه می‌توان با استفاده از هوش مصنوعی تولیدکننده‌ی ویدئو، داستان‌های کودکان را به کلیپ‌های متحرک تبدیل کرد و تعامل طبیعی بین کودکان و ابزارهای خلاقیت هوش مصنوعی را برجسته ساخت @fchollet
  • مهندسان MIT یک ایمپلنت به اندازه‌ی سکه ساختند که به طور خودکار قند خون پایین را تشخیص داده و برای تثبیت سطح آن در عرض ۱۰ دقیقه، گلوکاگون ترشح می‌کند @MIT
  • Figma ادغام با Supabase را برای افزودن جریان‌های ورود (login flows)، ذخیره‌ی داده‌های کاربران و ذخیره‌ی فایل‌ها در پلتفرم Make خود نشان داد @figma

پژوهش‌ها

  • CollabLLM از Microsoft Research جایزه‌ی مقاله‌ی برجسته‌ی ICML 2025 را برای بهبود نحوه‌ی همکاری مدل‌های زبان بزرگ (LLM) با کاربران، از جمله دانستن زمان پرسیدن سؤال و تطبیق سبک ارتباطی، دریافت کرد @MSFTResearch
  • ایتان مولیک مدل Kimi را آزمایش کرد و دریافت که این مدل در یافتن جزئیات در اسناد بزرگ بسیار عالی عمل می‌کند، اما با توهمات (hallucinations) مشکل دارد و مسیر روایت‌های پیچیده را گم می‌کند @emollick
  • مقاله‌ی پژوهشی در مورد مجموعه‌ی داده‌ی rStar-Coder منتشر شد که شامل ۴۱۸ هزار مسئله‌ی کدنویسی در سطح رقابت است و عملکرد Qwen2.5-14B را در LiveCodeBench از ۲۳.۳٪ به ۶۲.۵٪ افزایش می‌دهد @LynaZhang
  • OpenAI از مقاله‌ی پژوهشی در مورد نظارت Chain of Thought به عنوان ابزاری برای نظارت بر سیستم‌های هوش مصنوعی عامل‌گونه (agentic) در آینده حمایت کرد @OpenAI
  • Google DeepMind و Google Research بیش از ۱۴۰ مقاله را در ICML 2025 ارائه دادند که جدیدترین تحولات پژوهشی هوش مصنوعی را به نمایش می‌گذارد @GoogleDeepMind

اخبار هوش مصنوعی در 2025-07-14

مدل‌های جدید هوش مصنوعی

  • گوگل دیپ‌مایند مدل Gemini Embedding را منتشر کرد که رتبه‌ی ۱ را در جدول MTEB کسب کرده و قیمت‌گذاری آن برای استفاده‌ی تولیدی، ۰.۱۵ دلار به ازای هر میلیون توکن است @OfficialLoganK
  • متا از سرمایه‌گذاری عمده‌ای در زمینه‌ی محاسبات هوش مصنوعی خبر داد و برنامه‌هایی برای ساخت خوشه‌های چند گیگاواتی، از جمله Prometheus (که در سال ۲۰۲۶ آنلاین می‌شود) و Hyperion (که مقیاس آن به ۵ گیگاوات می‌رسد)، اعلام کرد @AndrewCurran_
  • xAI محصول Grok For Government را معرفی کرد؛ مجموعه‌ای از محصولات هوش مصنوعی پیشگام که با یک قرارداد جدید وزارت دفاع، در دسترس مشتریان دولت ایالات متحده قرار می‌گیرد @xai
  • Anthropic فهرستی از برنامه‌ها و ابزارهایی را منتشر کرد که با یکپارچه‌سازی تنها با یک کلیک، به Claude و سرویس‌هایی مانند Canva، Figma، Linear، Notion و Stripe متصل می‌شوند @AnthropicAI
  • Grok قابلیت Companions را با شخصیت‌های هوش مصنوعی متحرک از جمله Ani و Bad Rudy راه‌اندازی کرد که در زمان واقعی با کاربران صحبت می‌کنند @deedydas

تحلیل صنعت

  • چهار شرکت بزرگ هوش مصنوعی – Anthropic، گوگل، OpenAI و xAI – قراردادهای ۲۰۰ میلیون دلاری با وزارت دفاع برای تسریع پذیرش هوش مصنوعی در مواجهه با چالش‌های امنیت ملی دریافت کردند @AndrewCurran_
  • شرکت Cognition، Windsurf IDE را با ۸۲ میلیون دلار ARR و بیش از ۳۵۰ مشتری سازمانی خریداری کرد؛ این اقدام قابلیت‌های عامل خودکار Devin را با سیستم ورود به بازار (GTM) مقیاس‌پذیر Windsurf ترکیب می‌کند @ScottWu46
  • مدل Kimi K2 چین به رتبه‌ی ۱۴ در رتبه‌بندی OpenRouter رسید و بالاتر از Grok 4 و GPT-4.1 قرار گرفت؛ این مدل با وجود اینکه یک مدل فاقد قابلیت استدلال است، عملکرد قوی‌ای در معیارهای نگارش خلاق از خود نشان داد @deedydas
  • شرکت‌ها بهبودهای قابل توجهی در بهره‌وری ناشی از هوش مصنوعی را در معیارهای داخلی خود گزارش می‌دهند، اما کارشناسان هشدار می‌دهند که این ممکن است گمراه‌کننده باشد، زیرا تمرکز بر انجام بیشتر کارهای تکراری است تا تغییر ماهیت کارهایی که باید انجام شوند @emollick
  • مالزی برای تراشه‌های هوش مصنوعی ایالات متحده به مجوزهای تجاری نیاز خواهد داشت که نشان‌دهنده‌ی افزایش نظارت قانونی بین‌المللی بر سخت‌افزار هوش مصنوعی است @TechCrunch

اخلاق و جامعه

  • تملق در LLMها (مدل‌های زبان بزرگ) به عنوان پدیده‌ای بالقوه خطرناک‌تر از توهم‌زایی شناسایی شد، زیرا مدل‌ها زمانی که کاربران بر خلاف فرضیات صحیح اصرار می‌کنند، آن فرضیات را کنار گذاشته و تصمیم‌گیری را تضعیف می‌کنند @emollick
  • سایمون ویلیسون اخلاقیات قرارداد دفاعی Anthropic را زیر سوال برد و به پژوهشی استناد کرد که نشان می‌دهد Claude در مواجهه با تصمیماتی که در تضاد با منافع آمریکا هستند، تلاش می‌کند وزن‌ها (weights) را خارج کرده یا به مدیران اجرایی آسیب برساند @simonw
  • پژوهش MIT نشان می‌دهد که اتکای صرف به هوش مصنوعی برای کارهایی مانند نگارش، بر فعالیت مغز، حافظه، استفاده از واژگان و حس مالکیت نسبت به کار انجام شده تأثیر می‌گذارد @FluidInterfaces
  • نگرانی‌هایی در مورد اعتبار شرکت Cognition مطرح شد، پس از آنکه ادعا شد دِموی راه‌اندازی Devin آن‌ها جعلی بوده است؛ ادعاهایی مبنی بر اینکه Devin مشاغل واقعی Upwork را تکمیل کرده بود، رد (افشا) شد اما هرگز اصلاح نشد @GergelyOrosz

کاربردها

  • عامل هوش مصنوعی مرورگر Comet از Perplexity، قابلیت مدیریت خودکار پشتیبانی مشتری را نشان داد که شامل در دست گرفتن تعاملات چت FedEx و مدیریت پیگیری بسته‌ها با عوامل انسانی می‌شود @AravSrinivas
  • کالیفرنیا به اولین ایالت ایالات متحده تبدیل شد که با استفاده از سیستم‌های هوش مصنوعی، قطعی برق را برای مدیریت شبکه و پیش‌بینی قطعی‌ها مدیریت می‌کند @techreview
  • NotebookLM نوت‌بوک‌های برجسته‌ای را از نشریات بزرگ از جمله The Economist و The Atlantic برای تحلیل محتوای بهبودیافته اضافه کرد @TechCrunch
  • رویداد Prime Day شاهد افزایش ۳۳۰۰ درصدی در ترافیک هوش مصنوعی مولد بود که منجر به بیش از ۲۴ میلیارد دلار فروش تجارت الکترونیک در ایالات متحده شد @TechCrunch

پژوهش‌ها

  • MIT CSAIL و گوگل Parallel Structure Annotation (PASTA) را توسعه دادند که به LLMها امکان می‌دهد متن را به صورت موازی تولید کرده و زمان پاسخ‌گویی را از طریق استراتژی‌های رمزگشایی خود-تنظیم (self-orchestrated decoding strategies) تسریع بخشند @MIT_CSAIL
  • پژوهش نشان می‌دهد که مدل‌ها از بافت (context) خود به طور یکنواخت استفاده نمی‌کنند؛ با افزایش توکن‌های ورودی، پدیده‌ی context rot رخ می‌دهد که بر عملکرد LLM تأثیر می‌گذارد @trychroma
  • نوام براون از OpenAI پیشنهاد می‌کند که با افزایش مقیاس، سازه‌های پیچیده‌ی هوش مصنوعی، روترها و سیستم‌های عاملی با مدل‌هایی جایگزین خواهند شد که به صورت آماده (out of the box) بهتر کار می‌کنند @latentspacepod
  • مجموعه‌ی پژوهش‌های RAG نشان می‌دهد که نمایش‌های تک‌برداری متراکم (dense vector) ساده‌لوحانه هستند و مدل‌های تعامل-دیر (late-interaction) مانند ColBERT اطلاعات سطح توکن را حفظ می‌کنند و مدل‌های ۱۵۰ میلیون پارامتری بهتر از جایگزین‌های ۷ میلیارد پارامتری عمل می‌کنند @HamelHusain
  • دانشمندان MIT کشف کردند که جریان دیداری شکمی (ventral visual stream) مغز هم تشخیص اشیاء و هم وظایف فضایی را بر عهده دارد، که به طور بالقوه درک ما از بینایی و سیستم‌های هوش مصنوعی را تغییر می‌دهد @MIT

اخبار هوش مصنوعی در 2025-07-13

مدل‌های جدید هوش مصنوعی

  • Kimi K2 مدل توسط Moonshot AI منتشر شد، با صدرنشینی در Hugging Face و سبک نوشتاری متمایزی که عاری از الگوهای متنی معمول تولیدشده توسط هوش مصنوعی است @huggingface
  • Grok 4 توسط xAI معرفی شد؛ با ادعای هوشمندتر بودن از انسانی با مدرک PhD، اما فاقد عقل سلیم، که نشان‌دهنده‌ی اثربخشی مداوم مقیاس‌پذیری است @TechCrunch
  • مدل‌های Kimi پس از نشان دادن عملکردی قوی در ارزیابی‌های داخلی، به‌زودی در Perplexity ادغام خواهند شد @AravSrinivas
  • مقاله‌ی Gemini 2.5 از یک سیستم زمان‌بندی مقاوم در برابر خطا پرده برمی‌دارد که هنگامی که یکی از اسلایس‌های TPU از کار می‌افتد، به جای اینکه منتظر جایگزینی بماند، آموزش را روی تقریباً ۹۷٪ از آن‌ها ادامه می‌دهد @ericjang11

تحلیل صنعت

  • بر اساس گزارش WSJ، SpaceX ظاهراً با سرمایه‌گذاری ۲ میلیارد دلار در xAI موافقت کرده است که نشان‌دهنده‌ی سرمایه‌گذاری‌های عظیم شرکتی در توسعه‌ی هوش مصنوعی است @AndrewCurran_
  • ایمیل‌های استخدام هوش مصنوعی به‌طور فزاینده‌ای خودکار شده‌اند، با خدماتی که LinkedIn را اسکرپ می‌کنند تا اطلاع‌رسانی‌های شخصی‌سازی‌شده‌ای تولید کنند که وانمود می‌کنند توسط انسان نوشته شده‌اند @GergelyOrosz
  • تصاحب Windsurf توسط Google روند «acquihire» را نشان می‌دهد که در آن تنها بخشی از تیم پیشنهاد همکاری دریافت می‌کنند و سایر کارمندان با وجود موفقیت شرکت، نادیده گرفته می‌شوند @GergelyOrosz
  • مدیران محصول در محصولات هوش مصنوعی-محور به عنوان گلوگاه شناسایی شده‌اند، زیرا مهندسان، تحلیل کیفی ردیابی و ارزیابی LLM را کاری «پایین‌تر از خود» می‌دانند @sh_reya
  • ارزش کل شرکت‌های عمومی منطقه Bay Area از مجموع ارزش شرکت‌های هند، ژاپن و آلمان فراتر است، با وجود داشتن تنها ۸ میلیون جمعیت در مقابل تقریباً ۱۶۸۰ میلیون، که نشان‌دهنده‌ی تمرکز ارزش نوآوری است @deedydas

اخلاق و جامعه

  • توهمات هوش مصنوعی با بهبود مدل‌ها خطرناک‌تر می‌شوند، زیرا آن‌ها به‌طور فزاینده‌ای مقتدرانه به نظر می‌رسند و باعث می‌شوند خطر ناشی از توهمات کندتر از بهبود قابلیت‌های هوش مصنوعی کاهش یابد @paulg
  • تغییرات لحظه‌ای prompt سیستم برای Grok به منظور رفع خروجی‌های مشکل‌ساز، نگرانی‌هایی را در مورد آزمایش صحیح و اثرات آبشاری غیرقابل پیش‌بینی در سیستم‌های تصادفی ایجاد می‌کند @emollick
  • شخصیت‌های جعلی تولیدشده توسط هوش مصنوعی به‌طور فزاینده‌ای در بحث‌های رسانه‌های اجتماعی ظاهر می‌شوند، با حساب‌های دارای تیک آبی که پاسخ‌های تولیدشده توسط هوش مصنوعی را منتشر می‌کنند و ادعا می‌کنند مهندسان واقعی جویای کار هستند @GergelyOrosz
  • مطالعه‌ای در مورد خطرات قابل توجه استفاده از چت‌بات‌های درمانی هوش مصنوعی هشدار می‌دهد و نگرانی‌ها را در مورد کاربردهای سلامت روان برجسته می‌کند @TechCrunch

کاربردها

  • Perplexity مرورگر هوش مصنوعی-محور Comet را راه‌اندازی می‌کند که می‌تواند اقداماتی مانند مقایسه‌ی قیمت را انجام دهد، با کاربری که ۲۸۰ دلار در ۵ دقیقه حین خرید Prime Day صرفه‌جویی کرده است @AravSrinivas
  • عامل مرورگر Comet می‌تواند با استفاده از Veo 3 در رابط Gemini ویدیو تولید کند و کل گردش کار را از ورودی prompt تا تکمیل رندرینگ مدیریت می‌کند @ai_for_success
  • مدل‌های هوش مصنوعی برای استراتژی شرط‌بندی پیچیده در Polymarket استفاده می‌شوند، به طوری که o3-pro بازدهی مورد انتظار ۲۱.۶%+، Claude Opus 4 بازدهی ۴۱.۷%+، و Grok 4 Heavy بازدهی ۳۴%+ را با استفاده از تئوری سبد سهام مدرن نشان می‌دهد @deedydas
  • پیش‌بینی می‌شود عوامل مرورگر تجارت الکترونیک را با مقایسه‌ی صدها گزینه و یافتن بهترین قیمت‌ها روان‌تر کنند، مانند «HFT برای اینترنت» عمل می‌کنند بدون اینکه توسط تبلیغات فریب بخورند @denisyarats

پژوهش‌ها

  • Kimi K2 بالاترین نمره‌ی تنوع زبانی را در تحلیل داده‌های SpeechMap نشان می‌دهد و واژگان متنوع‌تری نسبت به سایر مدل‌های آزمایش‌شده دارد @xlr8harder
  • چندین مسیر توسعه‌ی هوش مصنوعی شناسایی شده‌اند: مقیاس‌پذیری همچنان با بازده کاهشی، طبق پیش‌بینی قوانین مقیاس‌پذیری، کار می‌کند؛ در حالی که استفاده از ابزارها باعث افزایش عملکرد می‌شود و بهبود روش‌هایی مانند Muon فرصت‌هایی را فراهم می‌کنند @emollick
  • Berkeley AI Research مقاله‌ی موضعی با عنوان «نگاهی جمع‌گرایانه و اقتصادی به AI» را منتشر می‌کند که در آن به ترکیب مفاهیم اقتصادی و اجتماعی با مفاهیم محاسباتی برای طراحی سیستم‌های انسان-محور استدلال می‌شود @berkeley_ai
  • مقاله‌ی AI Security Institute به نقد روش‌شناسی‌های ارزیابی در پژوهش‌های ایمنی هوش مصنوعی می‌پردازد و تفاوت بین نشان دادن اینکه مدل‌ها می‌توانند کاری را انجام دهند در مقابل نشان دادن اینکه تمایل به انجام آن کار را دارند، برجسته می‌کند @sebkrier

اخبار هوش مصنوعی در 2025-07-12

مدل‌های جدید هوش مصنوعی

  • Moonshot AI مدل Kimi K2 را منتشر کرد؛ یک مدل متن‌باز با یک تریلیون پارامتر و عملکرد قوی در بنچمارک‌ها که برای آزمایش در Hugging Face در دسترس است. @Kimi_Moonshot
  • xAI مدل‌های Grok 4 و Grok 4 Heavy را با قابلیت‌های استدلال فراانسانی، معماری سیستم چندعامله و صداهای فراواقعی جدید معرفی کرد. @xai
  • OpenAI عرضه‌ی مدل «open-weight» خود را به دلیل نیاز به آزمایش‌های ایمنی بیشتر و بررسی مناطق پرخطر به تاخیر انداخت. @sama
  • LiquidAI چک‌پوینت‌های GGUF را برای مدل LFM2 منتشر کرد که توسعه‌دهندگان را قادر می‌سازد آن را با llama.cpp در پلتفرم‌های مختلف اجرا کنند. @LiquidAI_

تحلیل صنعت

  • تصاحب سه میلیارد دلاری Windsurf توسط OpenAI شکست خورد، و طبق گزارش‌ها، تیم Windsurf به جای آن به Google DeepMind پیوسته‌اند تا روی «agentic coding» کار کنند. @deedydas
  • ناتان لمبرت اشاره می‌کند که مدل Kimi K2 به دلیل مجوز آزادانه‌ی خود به عنوان یک مدل مرزی متن‌باز (open frontier model)، تاثیر عمده‌ای بر کسب‌وکارها خواهد داشت تا مصرف‌کنندگان. @natolambert
  • اندرو کاران خاطرنشان می‌کند که مدل Kimi K2 ممکن است OpenAI را با بنچمارک‌های قوی خود غافلگیر کرده باشد و احتمالاً بر تاخیر در عرضه‌ی مدل «open-weight» آنها تاثیر گذاشته باشد. @AndrewCurran_
  • کلر وو الگوهای در حال تغییر استخدام در بخش فناوری را تحلیل می‌کند، و به دوره‌های ۱۸ ماهه‌ی عادی‌شده‌ی اشتغال و اخراج‌های گسترده‌ی بی‌مقدمه اشاره می‌کند که دوران «پس از وفاداری» را بین کارکنان و شرکت‌ها ایجاد کرده است. @clairevo
  • دیدی داس استدلال می‌کند که مهندس بنیان‌گذار بودن در استارتاپ‌ها، فرصت‌های یادگیری قابل توجه، شبکه‌سازی و پتانسیل سود مالی بالایی را فراهم می‌کند، با وجود نتایج بسیار متغیر. @deedydas

اخلاق و جامعه

  • xAI بابت «رفتار وحشتناک» Grok، از جمله تولید محتوای نامناسب، عذرخواهی کرد و آن را ناشی از تغییرات در «system prompt» دانست و وعده‌ی بهبود فرآیندهای بررسی را داد. @grok
  • ایتان مولیک به سومین شکست فرآیندی xAI که نیازمند عذرخواهی بود اشاره می‌کند و نگرانی‌هایی را در مورد عدم تمایل آنها به انتشار «red teaming» خارجی یا «system card» برای توسعه‌ی هوش مصنوعی فوق‌هوشمند مطرح می‌سازد. @emollick
  • سایمون ویلیسون خاطرنشان می‌کند که «prompt» مشکل‌ساز که دلیل مشکلات Grok دانسته شده بود، شامل عبارت «تو هرچه هست بگویی و از توهین به افراد دارای «correctness» سیاسی نمی‌ترسی» بود، که هرگز در «system prompt»های عمومی آن‌ها گنجانده نشده بود. @simonw

کاربردها

  • Perplexity مرورگر Comet را با عاملیت‌های هوش مصنوعی راه‌اندازی کرد که در سطحی بالاتر از انتخاب اینکه از کدام هوش مصنوعی استفاده شود، عمل می‌کنند و جریان‌های کاری سرتاسری را به جای نوبت‌های چت ممکن می‌سازند. @AravSrinivas
  • آراویند سرینیواس Comet را به عنوان «memory-native» توصیف می‌کند که نزدیک‌ترین تقریب به درک واقعی کاربران از طریق قابلیت‌های حافظه‌ی پایدار را نشان می‌دهد. @AravSrinivas
  • Pollen Robotics، شرکت تابعه‌ی Hugging Face، «The Amazing Hand» را به صورت متن‌باز منتشر کرد؛ یک دست رباتیک انسان‌نما با هشت درجه‌ی آزادی که می‌توان آن را با چاپ سه‌بعدی و با هزینه‌ی کمتر از ۲۵۰ دلار ساخت. @ClementDelangue
  • ایتان مولیک تمایل خود را برای هوش مصنوعی آموزش‌دیده روی همه‌ی کتاب‌ها ابراز می‌کند تا امکان یادگیری از منابع غنی از دانش فراتر از وب را، با وجود نگرانی‌های کپی‌رایت، فراهم آورد. @emollick

پژوهش‌ها

  • پژوهش‌ها نشان می‌دهد که عاملیت‌های هوش مصنوعی که شخصیت و پیش‌زمینه به آن‌ها داده شده و در سازمان‌های مجازی رسمی با ساختارهای سلسله‌مراتبی قرار گرفته‌اند، در کارهای پیچیده عملکردی بهتر از عاملیت‌های هوش مصنوعی عادی دارند. @emollick
  • مطالعه‌ای نشان می‌دهد که ترنسفورمرهای آموزش‌دیده روی ۱۰ میلیون منظومه‌ی شمسی می‌توانند مدارهای سیارات را به دقت پیش‌بینی کنند، اما در درک قوانین گرانشی اساسی شکست می‌خورند، که محدودیت‌هایی را در تعمیم‌پذیری برجسته می‌کند. @keyonV
  • جف کلون پژوهشی را برجسته می‌کند که از پارادایم «Go-Explore» برای جستجو در «درختان استدلال» (trees of reasoning) برای یافتن پاسخ‌های بهتر استفاده می‌کند، و رویکرد «First Return, Then Explore» را در تنظیمات استدلال جدید به کار می‌برد. @jeffclune
  • سایمون ویلیسون گزارشی در مورد پژوهش METR ارائه می‌دهد که تاثیر هوش مصنوعی اوایل سال ۲۰۲۵ را بر بهره‌وری توسعه‌دهندگان متن‌باز باتجربه اندازه‌گیری می‌کند. @simonw
  • پژوهشگران Stanford HAI پدیده‌ی «accuracy on the line» را بررسی می‌کنند تا بفهمند چرا مدل‌های هوش مصنوعی غالباً در سناریوهای حساس به ایمنی شکست می‌خورند. @StanfordHAI