اخبار هوش مصنوعی در 2025-05-21

مدل‌های جدید هوش مصنوعی

‏Google، مدل جدید Gemini Diffusion را منتشر کرد که از diffusion برای مدل‌سازی زبان استفاده می‌کند و 10 تا 15 برابر سریع‌تر از مدل‌های autoregressive تولید می‌کند. @demishassabis
‏Google از Veo 3، جدیدترین مدل تولید ویدیو خود با قابلیت‌های تولید صدای بومی، فیزیک بهبودیافته و درک بهتر prompt رونمایی کرد. @sundarpichai
‏Google، مدل Gemma 3n را معرفی کرد، یک مدل چندوجهی که با حداقل 2 گیگابایت رم اجرا می‌شود و از صدا، تصویر، ویدیو و متن در 140 زبان پشتیبانی می‌کند. @GoogleAI
‏Mistral AI، مدل Devstral Small 24B را منتشر کرد، یک مدل عامل کدنویسی با مجوز Apache 2.0 که در SWE-bench برای مدل‌های متن‌باز به رتبه 1 رسید. @MistralAI
‏NVIDIA، مدل Llama-3.1-Nemotron-Nano-4B-v1.1 را منتشر کرد، یک نسخه فشرده از Llama3.1-8B که عملکردی بهتر از DeepSeek-R1-Distill-Llama-8B دارد در حالی که دو برابر کوچک‌تر است. @huggingface

پژوهش‌ها

‏Microsoft در Nature پژوهشی را در مورد Aurora منتشر کرد، یک مدل پایه هوش مصنوعی که فراتر از پیش‌بینی آب‌وهوا می‌رود تا رویدادهای زیست‌محیطی مانند طوفان‌ها و امواج اقیانوس را با دقت بیشتری پیش‌بینی کند. @MSFTResearch
تحقیقات جدید نشان می‌دهد که embedding models از منابع مختلف آنقدر مشابه هستند که می‌توان آن‌ها را بر اساس ساختار به تنهایی، بدون هیچ داده جفت‌شده‌ای، بین آن‌ها نگاشت کرد. @AndrewCurran_
‏Discovery مایکروسافت از عامل‌های هوش مصنوعی تخصصی استفاده می‌کند که بر دانش علمی استدلال می‌کنند، فرضیه‌ها را تولید می‌کنند و نتایج را در یک حلقه مداوم شبیه‌سازی می‌کنند و در 200 ساعت یک خنک‌کننده جدید را کشف می‌کنند. @Microsoft
محققان استنفورد یک generative AI agent architecture توسعه داده‌اند که می‌تواند نگرش‌های بیش از 1000 نفر واقعی را برای آزمایش ایده‌ها در علوم اجتماعی شبیه‌سازی کند. @StanfordHAI

کاربردها

‏Google ابزار فیلم‌سازی هوش مصنوعی Flow را راه‌اندازی کرد که برای مدل‌های پیشرفته آن‌ها طراحی شده است و به کاربران اجازه می‌دهد ویدیوها را گسترش دهند، جلوه‌های صوتی اضافه کنند و ثبات شخصیت را حفظ کنند. @GoogleDeepMind
‏Google، شرکت Stitch (که قبلاً Galileo AI نام داشت) را خریداری کرد که به کاربران اجازه می‌دهد رابط‌های کاربری را به صورت تکراری از promptها طراحی کنند و آن‌ها را در Figma دانلود کنند. @deedydas
‏Google، اپلیکیشن Jules را معرفی کرد که تغییراتی را در مخازن GitHub با promptهای ساده انگلیسی بدون نیاز به کلون‌سازی محلی ایجاد می‌کند. @deedydas
‏Google فناوری virtual try-on را به نمایش گذاشت که از هوش مصنوعی استفاده می‌کند تا به کاربران اجازه دهد فقط با استفاده از یک عکس تمام قد، لباس‌ها را امتحان کنند. @deedydas
‏Google real-time translation را با هوش مصنوعی چندوجهی برای Google Meet به نمایش گذاشت و موانع زبانی را در تماس‌های ویدیویی از بین برد. @deedydas
‏Framer ابزارهای هوش مصنوعی جدیدی از جمله AI Wireframing برای تولید سریع طرح‌بندی‌ها و Workshop AI برای کدنویسی اجزای تعاملی را معرفی کرد. @benblumenrose
‏OpenAI و Jony Ive شرکت جدید io را معرفی کردند که بر ایجاد نسل بعدی محصولات و رابط‌های هوش مصنوعی متمرکز است. @OpenAI
‏xAI، قابلیت Live Search را به API خود اضافه کرد و به Grok اجازه داد تا در داده‌های بی‌درنگ از X، اینترنت و اخبار پرطرفدار جستجو کند. @xai
‏OpenAI پشتیبانی از MCP (Multi-Channel Platforms) را برای Responses API خود راه‌اندازی کرد و Zapier به عنوان شریک رسمی راه‌اندازی معرفی شد. @gdb
‏Google در حال گسترش AI Mode به Search است و پاسخ‌هایی شبیه GPT/Perplexity را مستقیماً در نتایج جستجو ارائه می‌دهد. @deedydas
‏Mistral AI و Google DeepMind قابلیت‌های agent collaboration را اعلام کردند و به عامل‌های مربوطه خود اجازه دادند با هم کار کنند. @AndrewCurran_

تحلیل صنعت

داده‌های نظرسنجی نشان می‌دهد که AI use at work افزایش چشمگیری داشته است، از حدود 30٪ از کارگران ایالات متحده در دسامبر به بیش از 40٪ در مارس/آوریل 2025 رسیده است و گسترش در استفاده از Gemini و ChatGPT نیز دیده می‌شود. @emollick
‏Meta برنامه Llama Startup Program را برای حمایت از استارت‌آپ‌های نوپا که برنامه‌های کاربردی هوش مصنوعی generative را با Llama می‌سازند، راه‌اندازی کرد و بازپرداخت‌های ابری و پشتیبانی فنی ارائه می‌دهد. @AIatMeta
‏LM Arena مبلغ 100 میلیون دلار در دور seed با رهبری a16z و UC Investments جمع‌آوری کرد تا از پلتفرم خود برای درک و بهبود عملکرد مدل هوش مصنوعی پشتیبانی کند. @pmarca
تجزیه و تحلیل AI power consumption نشان می‌دهد که در حالی که استفاده فردی کم است، تأثیر کلی قابل توجه است - آزمایش‌ها نشان داد که Llama 3.1 405B به طور متوسط 3353 ژول در هر prompt مصرف می‌کند که معادل 2 دقیقه و 50 ثانیه فعالیت مغز انسان است. @emollick
‏Gemini طبق گفته Google، بیش از 400 میلیون کاربر فعال ماهانه دارد و 480 تریلیون توکن در ماه پردازش می‌کند. @deedydas
سرعت AI adoption در تجارت بیشتر به نوآوری در مدل‌های کسب‌وکار، مدیریت ریسک و حکمرانی بستگی دارد تا سرعت بهبود در قابلیت‌های هوش مصنوعی. @random_walker

اخلاق و جامعه

ویژگی جدید memory-from-your-chats feature در ChatGPT نشان‌دهنده تغییر قابل توجهی در نحوه عملکرد مدل است و نگرانی‌هایی را در مورد کنترل کاربر بر ورودی مدل ایجاد می‌کند. @simonw
تحقیقات در مورد AI in education تأثیر متفاوتی را نشان می‌دهد: هنگامی که هوش مصنوعی به عنوان یک معلم خصوصی با راهنمایی مربی استفاده می‌شود، اثرات مثبت قابل توجهی دارد، اما هنگامی که به تنهایی برای کمک به تکالیف استفاده می‌شود، می‌تواند به عنوان یک میانبر عمل کند که به یادگیری آسیب می‌رساند. @emollick

اخبار هوش مصنوعی در 2025-05-20

مدل‌های جدید هوش مصنوعی

‏Google از Gemini 2.5 Pro با حالت «Deep Think» رونمایی کرد که از تکنیک‌های تفکر موازی برای در نظر گرفتن فرضیه‌های متعدد قبل از پاسخ دادن استفاده می‌کند. @demishassabis @OfficialLoganK
‏Google، Gemini 2.5 Flash را معرفی کرد، یک مدل سریع‌تر که در اوایل ماه ژوئن به طور عمومی در دسترس خواهد بود و مرز پارتو عملکرد را جابجا می‌کند. @sundarpichai @OfficialLoganK
‏Veo 3، مدل تولید ویدیوی پیشرفته‌ی Google با قابلیت‌های تولید صدای بومی، اکنون برای مشترکین Google AI Ultra در ایالات متحده در دسترس است. @GoogleDeepMind @JeffDean
‏Imagen 4، جدیدترین مدل تولید تصویر Google، اکنون با جزئیات بهبود یافته، رنگ‌های ظریف‌تر و خروجی متن بهتر، فعال است. @GeminiApp
‏Google از Gemma 3n، یک مدل جدید بهینه‌سازی‌شده برای استفاده در دستگاه‌های تلفن همراه با قابلیت‌های چندوجهی و استنتاج سریع، رونمایی کرد. @demishassabis
‏Google، Lyria 2 را برای YouTube shorts و در Vertex معرفی کرد. @AndrewCurran_

پژوهش‌ها

مقاله جدید در مورد ARC-AGI-2 منتشر شد که اصول طراحی، تجزیه و تحلیل عملکرد انسان و عملکرد مدل فعلی را پوشش می‌دهد. @fchollet
‏Google، Gemini Diffusion را معرفی کرد، یک مدل تحقیقاتی که به طور قابل توجهی سریع‌تر از مدل‌های قبلی است و در عین حال با تصحیح خطاها در طول تفکر، عملکرد کدنویسی را مطابقت می‌دهد. @GoogleAI
‏Gemini 2.5 Pro گوگل با Deep Think به امتیاز 49.4٪ در USAMO (المپیاد ریاضی ایالات متحده آمریکا) دست یافت، یک پیشرفت قابل توجه در استدلال ریاضی. @quocleix
‏Meta، Adjoint Sampling را معرفی کرد، یک الگوریتم یادگیری جدید که مدل‌های مولد را بر اساس پاداش‌های اسکالر آموزش می‌دهد، با مبانی نظری توسعه‌یافته توسط FAIR. @AIatMeta
‏NVIDIA، Cosmos-Reason1-7B را منتشر کرد، که به عنوان اولین مدل استدلال برای رباتیک، مبتنی بر Qwen 2.5-VL-7B توصیف شده است. @huggingface
مقاله تحقیقاتی جدید، مسائل بالقوه در مورد بازنمایی‌های یادگیری عمیق را پیشنهاد می‌کند و راه حل‌هایی برای بهبود ارائه می‌دهد. @jeffclune
‏Meta، OMol25 را منتشر کرد، مجموعه‌داده‌ای از بیش از 100 میلیون کانفورمر مولکولی که 83 عنصر را در بر می‌گیرد برای آموزش مدل‌های یادگیری ماشین با دقت سطح DFT. @huggingface

کاربردها

‏Google، Flow را راه‌اندازی کرد، ابزاری برای فیلم‌سازی که مدل‌های Veo، Imagen و Gemini را ترکیب می‌کند تا به ایجاد کلیپ‌ها و روایت‌های سینمایی کمک کند. @GoogleDeepMind
‏Google، Jules را معرفی کرد، یک عامل کدنویسی که به کاربران اجازه می‌دهد با استفاده از دستورات انگلیسی در یک VM با استفاده از Gemini 2.5 Pro، تغییراتی در مخازن GitHub ایجاد کنند. @deedydas @eugeneyan
‏Google، Gemini in Chrome را معرفی کرد، یک دستیار مرور هوش مصنوعی که خلاصه‌ها و پاسخ‌ها را بدون جابجایی بین تب‌ها ارائه می‌دهد. @GeminiApp
‏Google حالت Agent Mode را در برنامه Gemini معرفی کرد تا به کاربران در انجام وظایف در سراسر وب کمک کند. @sundarpichai
‏Google حالت AI Mode را در Search راه‌اندازی کرد، با استفاده از تکنیک «query fan out» برای شکستن پرس و جوها به زیرشاخه‌ها و تولید پاسخ‌های جامع. @GoogleAI
‏Google، SynthID Detector را معرفی کرد، یک پورتال برای شناسایی اینکه آیا محتوای دیجیتال توسط ابزارهای هوش مصنوعی Google تولید شده است یا خیر، که قبلاً 10 میلیارد بار استفاده شده است. @GoogleDeepMind
‏Google، Google Beam را معرفی کرد، یک پلتفرم ارتباطات ویدیویی سه‌بعدی که جریان‌های ویدیویی دوبعدی را به تجربه‌های سه‌بعدی واقع‌گرایانه تبدیل می‌کند. @GoogleAI
‏Microsoft اعلام کرد که پشتیبانی از API ‏Grok 3 به Azure می‌آید، اگرچه شفافیت محدودی در مورد امنیت و جزئیات مدل وجود دارد. @emollick
‏Stability AI، ‏Stable Video Diffusion 4D را به Stable Video 4D 2.0 ارتقا داد و کیفیت خروجی‌های 4D تولید شده از یک ویدیوی شیءمحور را بهبود بخشید. @StabilityAI
برنامه NotebookLM گوگل اکنون در App Store با ویژگی Video Overviews در دسترس است. @demishassabis @OfficialLoganK
‏SAP با Cohere همکاری می‌کند تا هوش مصنوعی عامل‌محور آماده‌ی سازمانی را در SAP Business Suite تعبیه کند. @cohere

تحلیل صنعت

‏Google گزارش می‌دهد که ماهانه 480 تریلیون توکن را در محصولات و APIها پردازش می‌کند، که نسبت به سال گذشته 50 برابر افزایش یافته است. @sundarpichai @OfficialLoganK
برنامه Gemini گوگل بیش از 400 میلیون کاربر فعال ماهانه دارد و 7 میلیون توسعه‌دهنده با API Gemini (4 برابر رشد) می‌سازند. @OfficialLoganK
کاربران فعال روزانه ChatGPT بیش از 4 برابر در سال گذشته افزایش یافته‌اند و پیام‌های ارسالی در روز حتی به طور قابل توجهی بیشتر رشد کرده‌اند. @sama
‏Google AI Overviews اکنون توسط 1.5 میلیارد نفر در ماه در بیش از 200 کشور و منطقه استفاده می‌شود. @sundarpichai
مدل‌های Llama متا، پیشنهادات مستقیم شخص اول در Azure AI Foundry خواهند بود که توسط Microsoft میزبانی و فروخته می‌شوند. @AIatMeta
شرکت‌های ابزار کدنویسی هوش مصنوعی عمدتاً بر نمایش‌های React و TypeScript تمرکز دارند، در حالی که Microsoft مطالعات موردی Java و NET. را به عنوان یک تمایز استراتژیک به نمایش می‌گذارد. @GergelyOrosz
یکی از عوارض جانبی کدنویسی هوش مصنوعی این است که «اکنون همه یک IC (مشارکت‌کننده‌ی فردی) هستند». @alexgraveley
این روایت که استفاده از هوش مصنوعی به دلیل محدودیت‌های داده، هزینه‌ها، عوامل محیطی یا مقررات از بین خواهد رفت، مفید نیست، زیرا بیش از یک میلیارد نفر از این فناوری با سودمندی بالای گزارش‌شده استفاده می‌کنند. @emollick

اخلاق و جامعه

موسسه AI Now در حال راه‌اندازی تحقیقاتی در مورد تقاضای رو به رشد انرژی هوش مصنوعی و روی آوردن صنعت به انرژی هسته‌ای است و بر زیرساخت‌ها، ایمنی و خطرات نظارتی تمرکز دارد. @AINowInstitute
مقاله Berkeley AI Research بررسی می‌کند که چگونه هوش مصنوعی پیشرفته، امنیت سایبری را تغییر می‌دهد و پیش‌بینی می‌کند که مهاجمان ممکن است در کوتاه‌مدت مزایای فوری‌تری نسبت به مدافعان به دست آورند. @berkeley_ai
مطالعه کنترل‌شده تصادفی بانک جهانی نشان می‌دهد که استفاده از GPT-4 به عنوان معلم خصوصی با راهنمایی معلم در یک برنامه شش هفته‌ای بعد از مدرسه در نیجریه «بیش از دو برابر اثر برخی از مؤثرترین مداخلات در آموزش» با هزینه‌های بسیار پایین داشته است. @emollick
گزارش وضعیت هوش مصنوعی در طراحی منتشر شد، که به بررسی صدها طراح و رهبر از شرکت‌هایی مانند Notion، Stripe، Ramp، Anthropic و Perplexity در مورد پذیرش هوش مصنوعی در طراحی می‌پردازد. @benblumenrose

اخبار هوش مصنوعی در 2025-05-19

مدل‌های جدید هوش مصنوعی

‏Microsoft اعلام کرد که ‏xAI's Grok به ‏Azure می‌آید، و شایعات قبلی را تأیید کرد. @satyanadella @xai
‏Meta، مدل ‏UMA (مدل جهانی برای اتم‌ها) را منتشر کرد، یک پتانسیل بین اتمی یادگیری ماشین که بر روی بیش از 30 میلیارد اتم برای شیمی مولکولی آموزش داده شده است. @AIatMeta
‏Meta همچنین ‏Open Molecules 2025‎‏ (OMol25) را منتشر کرد، یک مجموعه داده‌ی جدید «نظریه‌ی تابعی چگالی» برای شیمی مولکولی. @AIatMeta

پژوهش‌ها

‏DeepSeek مقاله‌ای جامع در مورد آموزش مدل‌های بزرگ منتشر کرد که نرم‌افزار، سخت‌افزار و رویکردهای ترکیبی را پوشش می‌دهد - و به عنوان «بهترین مقاله‌ی سرتاسری در مورد آموزش مدل‌های بزرگ» توصیف شده است. @deedydas
گروه ‏Stanford NLP، آزمایشگاه ‏Marin را راه‌اندازی کرد، یک آزمایشگاه باز که بر هوش مصنوعی واقعاً متن‌باز با توسعه‌ی باز متمرکز است، جایی که کل فرآیند تحقیق عمومی است و هر کسی می‌تواند مشارکت کند. @stanfordnlp
محققان ‏LEXam را منتشر کردند، یک معیار استدلال حقوقی با 4586 سوال امتحانی از حقوق سوئیس، اتحادیه اروپا و بین‌المللی، که بیش از 20 مدل زبانی بزرگ (LLM) پیشرفته را ارزیابی می‌کند. @huggingface
محققان ‏MIT یک مدل هوش مصنوعی توسعه داده‌اند که می‌تواند محل تقریباً هر پروتئین را در یک سلول انسانی با آموزش آن با درک مشترک رفتار پروتئین و سلول پیش‌بینی کند. @MIT

کاربردها

‏Microsoft، ‏Magentic-UI را معرفی کرد، یک نمونه‌ی اولیه‌ی تحقیقاتی متن‌باز از یک عامل هوش مصنوعی انسان‌محور که برای کار با افراد برای انجام وظایف پیچیده‌ی مبتنی بر وب در زمان واقعی طراحی شده است. @MSFTResearch
‏Microsoft از ‏GitHub Copilot coding agent خبر داد، که از برنامه‌نویس همکار به برنامه‌نویس همتا تکامل می‌یابد و می‌تواند به‌طور خودکار وظایفی مانند رفع اشکال و ویژگی‌های جدید را انجام دهد. @satyanadella
‏Microsoft از ‏Copilot Tuning رونمایی کرد که به شرکت‌ها اجازه می‌دهد ‏Copilot را بر اساس لحن و زبان منحصربه‌فرد خود آموزش دهند. @satyanadella @Microsoft
‏Microsoft، ‏Healthcare Agent Orchestrator را راه‌اندازی کرد تا قابلیت‌های هوش مصنوعی را به نرم‌افزارهای سازمانی موجود در سیستم‌های مراقبت‌های بهداشتی وارد کند. @MSFTResearch
‏Microsoft از ‏Microsoft Discovery رونمایی کرد، پلتفرمی که از عامل‌های هوش مصنوعی برای تولید ایده، شبیه‌سازی نتایج و یادگیری برای تحقیقات علمی استفاده می‌کند. @satyanadella
‏Google اپلیکیشن موبایل ‏NotebookLM را برای اندروید منتشر کرد و نسخه‌ی ‏iOS آن نیز به‌زودی عرضه می‌شود. @sundarpichai @TechCrunch
‏GenSpark AI Sheets به کاربران اجازه می‌دهد تا با صفحات گسترده‌ی خود صحبت کنند، به‌طور خودکار داده‌ها را تجزیه و تحلیل کرده و گزارش‌ها و تجسم‌ها را ایجاد کنند. @fchollet
‏Overlap یک عامل خودکار است که کلیپ‌های وایرال از هر ویدیویی ایجاد می‌کند و آن‌ها را در رسانه‌های اجتماعی منتشر می‌کند. @ycombinator
‏Hugging Face، ‏MLX LM را مستقیماً در پلتفرم خود ادغام کرد و به دارندگان مک اجازه می‌دهد تا بیش از 4400 مدل زبانی بزرگ (LLM) را به‌صورت محلی بر روی ‏Apple Silicon اجرا کنند. @huggingface

تحلیل صنعت

‏Microsoft در حال متن‌باز کردن ‏Copilot for VS Code است، که ‏VS Code را به یک ابزار غالب‌تر تبدیل می‌کند زیرا فورک‌ها نمی‌توانند به بازار ‏VS Code دسترسی داشته باشند. @GergelyOrosz
‏Microsoft از ‏NLWeb خبر داد، یک پروژه‌ی باز جدید که به کاربران اجازه می‌دهد با استفاده از زبان طبیعی با هر وب‌سایتی تعامل داشته باشند، و به عنوان «‏HTML برای وب عامل‌محور» توصیف شده است. @satyanadella
‏Waymo اکنون در سان فرانسیسکو بیشتر از ‏Lyft سواری انجام می‌دهد، در حالی که تنها 300 وسیله نقلیه دارد در مقایسه با 45000 راننده‌ی ‏Lyft - هر ‏Waymo بیشتر از 150 راننده‌ی انسانی سواری انجام می‌دهد. @paulg
‏Dell با ‏Cohere همکاری می‌کند تا ‏Cohere North، یک پلتفرم عامل‌های امن، را به صورت ‏on-premises به شرکت‌ها ارائه دهد، که برای صنایع قانون‌مند که داده‌های حساس را مدیریت می‌کنند، حیاتی است. @cohere
مدیر ارشد فناوری ‏Meta «شکست‌های» عامل هوش مصنوعی را به عنوان سیگنال‌های ارزشمند تقاضا توصیف می‌کند که قصد واقعی کاربر و فرصت‌ها را برای توسعه‌دهندگان آشکار می‌کند. @a16z

اخلاق و جامعه

مؤسسه‌ی ‏AI Now در حال راه‌اندازی یک نقشه‌ی راه برای اقدام محلی در مورد تأثیر هوش مصنوعی بر شهرها است، که به نگرانی‌ها در مورد کاهش خدمات عمومی، نظارت و تخصیص مجدد قدرت به شرکت‌های فناوری می‌پردازد. @AINowInstitute
ترامپ لایحه‌ای را امضا کرد که پورنوگرافی انتقامی و دیپ‌فیک‌های صریح را جرم‌انگاری می‌کند. @TechCrunch

اخبار هوش مصنوعی در 2025-05-18

مدل‌های جدید هوش مصنوعی

‏Qwen نسخه‌ی Qwen 2.5 VL را در Ollama منتشر کرده است، با یک نسخه‌ی 6 گیگابایتی که برای وظایف توصیف تصویر در دسترس است. @simonw

پژوهش‌ها

جدیدترین دوره‌ی Natural Language Processing with Deep Learning (CS224N) استنفورد که توسط پروفسور کریستوفر منینگ تدریس می‌شود، به صورت آنلاین در دسترس است. @stanfordnlp

کاربردها

‏Perplexity در WhatsApp به‌روزرسانی شده است تا سریع‌تر، تند و فرزتر و پراحساس‌تر باشد، و ویژگی‌های اخبار و هشدارها به‌زودی ارائه می‌شوند. @AravSrinivas
‏Codex با موفقیت یک سایت Jekyll-GitHub pages را به آخرین نسخه‌ی Ruby و gems ارتقا داد. @eugeneyan
‏o3 می‌تواند اسکرین‌شات‌های خلاقانه از توضیحات تولید کند، از جمله مواردی که ویدیوهای ایمنی دهه‌ی 1950 را تقلید می‌کنند. @emollick
‏Cursor اکنون به کاربران اجازه می‌دهد تا به سرعت کل فایل‌ها را با استفاده از کمک هوش مصنوعی ویرایش کنند. @cursor_ai
‏Replit ویژگی time travel را معرفی می‌کند که به توسعه‌دهندگان اجازه می‌دهد تا به عقب برگردند و وضعیت کد و پایگاه داده را مشاهده کنند. @amasad
به نظر می‌رسد Modal در حال توسعه‌ی قابلیت notebook است و پیشنهادات زیرساخت هوش مصنوعی خود را گسترش می‌دهد. @eugeneyan @HamelHusain

تحلیل صنعت

‏Anthropic یک خط اعتباری گردان 2.5 میلیارد دلاری دریافت کرده است، درآمد آن در سه‌ماهه‌ی اول 2025 به 2 میلیارد دلار رسیده است (دو برابر سه‌ماهه‌ی قبل) و تعداد مشتریانی که سالانه بیش از 100000 دلار هزینه می‌کنند، نسبت به سال قبل هشت برابر افزایش یافته است. @AndrewCurran_
‏ChatGPT در حال ارائه بهبودهای حافظه با یک دکمه‌ی جدید برای حافظه‌ی دائمی پروژه‌ها و مکالمات است که در حال حاضر برای کاربران Pro و Plus در دسترس است. @AndrewCurran_
‏K-Scale Labs در حال ساخت سخت‌افزار و نرم‌افزار humanoid robot متن‌باز برای توسعه‌دهندگان است، ربات K-Bot آن‌ها با قیمت 8999 دلار عرضه می‌شود و تحویل آن از جولای 2025 آغاز می‌شود. @garrytan
‏YC یک هکاتون بزرگ MCP (Multi-agent Conversational Protocol) با بیش از 400 شرکت‌کننده و 80 اثر ارسالی برگزار کرد که کاربردهایی از تحقیقات سرطان گرفته تا مدیریت ایمیل را به نمایش گذاشت. @ycombinator
استفاده از هوش مصنوعی به عنوان نظر دوم در زمینه‌ی تخصص شما در حال تبدیل شدن به یک راه کم‌خطر برای بهبود نتایج در اکثر زمینه‌ها است. @emollick

اخلاق و جامعه

گزارش شده است که Grok AI در مورد آمار کشته‌شدگان هولوکاست ابراز تردید کرده است، که بعداً به «خطای برنامه‌نویسی» نسبت داده شد. @TechCrunch
مطالعه‌ی MIT نشان می‌دهد که دیدگاه‌های مردم در مورد حریم خصوصی داده‌ها ثابت نیست، بلکه بسته به اینکه چگونه، کجا و چرا از داده‌های آن‌ها استفاده می‌شود، تغییر می‌کند. @MIT
جوامع فکری خوب به هر دو گروه «به‌روزرسانی‌کننده‌های سریع جوان ساده‌لوح» که ایده‌های زیادی (از جمله برخی ایده‌های کم‌کیفیت) را معرفی می‌کنند و «به‌روزرسانی‌کننده‌های کند پیر خردمند» که به عنوان فیلتر و بررسی‌کننده‌ی عقل سلیم عمل می‌کنند، نیاز دارند. @AmandaAskell

اخبار هوش مصنوعی در 2025-05-17

مدل‌های جدید هوش مصنوعی

‏Alibaba نسخه‌های کوانتیزه‌شده‌ی مدل‌های Qwen2.5-Omni-7B را در Hugging Face و ModelScope منتشر کرد. @Alibaba_Qwen
‏Alibaba مدل WorldPM (مدل ترجیحات جهانی) را معرفی کرد، که نشان می‌دهد مدل‌سازی ترجیحات انسانی از قوانین مقیاس‌بندی با آزمایش‌هایی روی مدل‌های Qwen2.5 از 1.5B تا 72B پارامتر پیروی می‌کند. @Alibaba_Qwen
‏NVIDIA مدل‌های Direct Discriminative Optimization را در Hugging Face منتشر کرد، که مدل‌های مولد بصری مانند EDM و VAR را با امتیازهای FID بی‌سابقه‌ در CIFAR-10/ImageNet بهبود می‌بخشد. @huggingface
‏Windsurf مدل SWE-1، یک مدل کدنویسی تخصصی که با مدل‌های پیشرو رقابت می‌کند، به همراه انواع SWE-1-lite و SWE-1-mini را معرفی کرد. @windsurf_ai

پژوهش‌ها

پژوهش Alibaba نشان می‌دهد که مدل‌سازی ترجیحات انسانی از قوانین مقیاس‌بندی پیروی می‌کند، و پیشنهاد می‌کند که ترجیحات گوناگون ممکن است یک نمایش یکپارچه داشته باشند. @Alibaba_Qwen
مدل SWE-1 شرکت Windsurf تقریباً با مدل‌های پیشرو در سودمندی، دقت و کیفیت ویرایش برای وظایف مهندسی نرم‌افزار برابری می‌کند. @windsurf_ai
‏MIT مقاله‌ی یک دانشجوی دکترا در مورد مزایای بهره‌وری هوش مصنوعی را رد کرده و شواهدی مبنی بر اینکه LLMها به عنوان ضرب‌کننده‌های عملکرد بالا عمل می‌کنند را حذف کرده است. @emollick @TechCrunch

کاربردها

‏Codex CLI به بهبود خود ادامه می‌دهد، و Greg Brockman پیشنهاد می‌کند که همگرایی آینده‌ی عوامل کدنویسی «محلی» و «از راه دور» وجود خواهد داشت. @gdb
‏Y Combinator ابزار Workflow Use را معرفی می‌کند، یک ابزار خودکارسازی مرورگر قطعی و خودترمیم‌شونده که 10 برابر سریع‌تر و حدود 90٪ ارزان‌تر از عوامل LLM خالص است. @ycombinator
‏RunRL مدل‌های زبانی را با یادگیری تقویتی بهبود می‌بخشد و به مشتریان کمک می‌کند تا دقت را از 60٪ با Claude به 95٪ افزایش دهند. @ycombinator
‏Replit تجربه‌ی عامل خود را با مدیریت بهبودیافته‌ی checkpoints، از جمله نام‌گذاری، بازگشت به نسخه‌های قبلی و قابلیت‌های پیش‌نمایش برنامه، ارتقا می‌دهد. @amasad
استارتاپ Firecrawl از Y Combinator مبلغ 1 میلیون دلار برای استخدام سه عامل هوش مصنوعی به عنوان کارمند ارائه می‌دهد. @TechCrunch
‏Cua یک Trajectory Viewer معرفی می‌کند که دقیقاً نشان می‌دهد عوامل هوش مصنوعی Computer-Use چه می‌بینند و چه می‌کنند. @garrytan

تحلیل صنعت

مرکز داده‌ی برنامه‌ریزی‌شده‌ی OpenAI در ابوظبی بزرگتر از موناکو خواهد بود. @TechCrunch
‏Greg Brockman و Paul Graham هر دو اعلام می‌کنند که «2025 سال عوامل است». @gdb @paulg @ycombinator
‏Garry Tan پیشنهاد می‌کند که OpenAI تلاش نمی‌کند تا از استارتاپ‌های هوش مصنوعی پیشی بگیرد، و اشاره می‌کند که «در سمت API، آن‌ها بسیار امیدوارند که بسیاری از آن‌ها واقعاً خیلی خوب عمل کنند». @paulg @ycombinator
بیش از 300 شرکت از جمله Adobe، Amazon، Google، Meta، Microsoft، OpenAI و NVIDIA در دوره‌ی ارزیابی هوش مصنوعی Hamel Husain شرکت می‌کنند. @HamelHusain
‏Hugging Face مشارکت رسمی با Kaggle را اعلام می‌کند، که اجرای مستقیم مدل‌های HF را در Kaggle Notebooks امکان‌پذیر می‌کند. @huggingface

اخلاق و جامعه

‏Ethan Mollick نگرانی‌هایی را در مورد دستگاه‌های همیشه روشن مجهز به هوش مصنوعی ایجاد می‌کند که مسائل جدید حریم خصوصی را ایجاد می‌کنند، زیرا ضبط‌ها زمانی ارزشمندتر می‌شوند که هوش مصنوعی بتواند صدا را به داده‌های مفید تبدیل کند. @emollick
‏Aidan McLaughlin در مورد نگرانی‌های همسویی در مورد سیستم‌های هوش مصنوعی که به طور بالقوه برای اعتیاد بهینه شده‌اند تا رضایت انسان، بحث می‌کند. @aidan_mclau

اخبار هوش مصنوعی در 2025-05-16

مدل‌های جدید هوش مصنوعی

‏OpenAI از Codex، یک عامل مهندسی نرم‌افزار مبتنی بر codex-1 (نسخه‌ای از o3 که برای مهندسی نرم‌افزار بهینه شده) رونمایی کرد که می‌تواند به‌طور مستقل در پایگاه‌های کد حرکت کند، تغییرات را اعمال کند و درخواست‌های pull پیشنهاد دهد. @OpenAI @sama @gdb
‏Cursor از Tab model جدیدی خبر داد که می‌تواند بین فایل‌ها پرش کند و در آخرین به‌روزرسانی خود در اختیار کاربران قرار می‌گیرد. @cursor_ai
‏Windsurf از SWE-1، اولین مدل پیشرفته‌ی خود برای وظایف پیچیده‌ی مهندسی نرم‌افزار، رونمایی کرد و ادعا می‌کند عملکردی مشابه Claude-3.5 Sonnet، GPT-4.1 و Gemini-2.5 Pro در بنچمارک‌های چالش‌برانگیز دارد. @windsurf_ai
‏4o Image Generation مایکروسافت اکنون در Copilot فعال است و قابلیت‌هایی مانند رندر کردن متن دقیق، ویرایش آثار و ساخت تصاویر واقع‌گرایانه را ارائه می‌دهد. @Copilot

پژوهش‌ها

‏xAI سیستم prompts گروک خود را پس از حادثه‌ای با «اصلاحات غیرمجاز» در prompt که گروک را برای ارائه‌ی پاسخ‌های خاص در مورد موضوعات سیاسی هدایت می‌کرد، به‌طور علنی در GitHub منتشر کرد. @xai
‏Codex-1 به عملکردی پیشرفته در SWEbench، یک بنچمارک برای وظایف مهندسی نرم‌افزار، دست یافت. @sama
متاآنالیز جدیدی از ۵۱ مطالعه نشان می‌دهد که هوش مصنوعی تأثیر مثبت زیادی بر عملکرد یادگیری دانش‌آموزان (۰.۸۶۷ SD) و تأثیر مثبت متوسطی بر درک یادگیری (۰.۴۵۶ SD) و تفکر مرتبه بالاتر (۰.۴۵۷ SD) دارد. @mustafasuleyman
محققان Berkeley AI Research روشی به نام Real2Render2Real را معرفی می‌کنند که برای مقیاس‌بندی مجموعه‌داده‌های ربات بدون نیاز به تله‌آپراتوری، شبیه‌سازی پویا یا سخت‌افزار ربات، تنها با استفاده از اسکن‌های گوشی‌های هوشمند و ویدیوهای نمایشی دست انسان، استفاده می‌شود. @berkeley_ai

کاربردها

‏Codex به توسعه‌دهندگان این امکان را می‌دهد تا چندین وظیفه‌ی مهندسی نرم‌افزار را به‌طور موازی اجرا کنند و به رفع اشکالات، پیاده‌سازی ویژگی‌ها و مسیریابی کد کمک می‌کند. @OpenAI @sama
‏Google AI Studio یک usage dashboard داخلی جدید راه‌اندازی کرده است که به کاربران امکان می‌دهد به راحتی حجم درخواست‌ها، توکن‌ها و هزینه‌ها را بررسی کنند. @OfficialLoganK
‏Google AI Studio یک generative media experience جدید را معرفی می‌کند که Veo 2، تولید/ویرایش تصویر بومی Gemini 2.0 و Imagen 3 را گرد هم می‌آورد. @OfficialLoganK
گوگل Gemini Advanced را به صورت رایگان در اختیار دانشجویان کالج ایالات متحده تا پایان سال ۲۰۲۶ قرار می‌دهد. @GeminiApp
‏Hugging Face از ادغام با Kaggle خبر داد و به کاربران این امکان را می‌دهد که از هر مدلی از Hugging Face مستقیماً در Kaggle بدون دانلود و آپلود مدل‌ها به عنوان مجموعه‌داده استفاده کنند. @huggingface
رزرو هتل‌ها به‌طور بومی در Perplexity به آرامی در حال رشد است و پتانسیل برهم زدن صنعت تبلیغات را دارد. @AravSrinivas
دانلود PDF برای گزارش‌های تحقیقاتی عمیق اکنون به طور کامل برای کاربران Free، Edu و Enterprise در ChatGPT فعال شده است. @OpenAI

تحلیل صنعت

گزارش شده است که متا بزرگترین مدل هوش مصنوعی خود، Llama 4 Behemoth را به دلیل عملکرد ضعیف داخلی، سازماندهی مجدد رهبری هوش مصنوعی و خروج محققان به تعویق انداخته است. @deedydas
‏Sam Altman آینده‌ی کار را شبیه Starcraft یا Age of Empires تصور می‌کند، جایی که کاربران «۲۰۰ میکروایجنت» را برای رفع مشکلات، جمع‌آوری اطلاعات و طراحی سیستم‌های جدید هدایت می‌کنند. @sama
‏Google One اخیراً از مرز ۱۵۰ میلیون مشترک عبور کرده است که نسبت به فوریه ۲۰۲۴، ۵۰٪ افزایش داشته است و بخشی از آن ناشی از ویژگی‌های هوش مصنوعی است. @demishassabis
‏OpenAI و Anthropic هر دو در حال تأسیس دفاتر در اروپا هستند و OpenAI در زوریخ مستقر می‌شود، احتمالاً برای استخدام از حضور گسترده‌ی گوگل در آنجا. @GergelyOrosz

اخلاق و جامعه

‏Jeff Clune طرفدار این است که طبق قانون، هر شرکت هوش مصنوعی ملزم به انتشار علنی سیستم prompts خود باشد، مشابه اقدام اخیر xAI پس از حادثه‌ی خود. @jeffclune
‏Arvind Narayanan نقدی بر پیامدهای هوش مصنوعی منتشر می‌کند که «ریشه در وضعیت فعلی هوش مصنوعی دارد» تا اینکه بر سناریوهای فرضی AGI تمرکز کند. @emollick
‏Ethan Mollick اشاره می‌کند که بیشتر آزمایش‌های کلیدی که توانایی‌های چشمگیر هوش مصنوعی را در تحقیقات آکادمیک نشان می‌دهند، روی GPT-4 انجام شده‌اند، مدلی که اکنون منسوخ در نظر گرفته می‌شود، که نشان می‌دهد قابلیت‌های فعلی احتمالاً بالاتر هستند. @emollick
‏François Chollet تأکید می‌کند که هنگام تجزیه و تحلیل سیستم‌های هوش مصنوعی، «سیگنال بسیار بیشتری در شکست‌های سیستم نسبت به عملیات‌های عادی وجود دارد». @fchollet

اخبار هوش مصنوعی در 2025-05-15

مدل‌های جدید هوش مصنوعی

‏OpenAI در حال آماده شدن برای به اشتراک گذاشتن یک «پیش‌نمایش تحقیقاتی کم‌اهمیت» دیگر به زودی است، با نام‌گذاری بهتری نسبت به ChatGPT. @sama
تولید تصویر ‏4o اکنون در ‏Microsoft Copilot فعال شده است، با تصاویر واضح‌تر، متن منسجم‌تر و سبک‌هایی از فوتورئالیستی تا سرگرم‌کننده. @Copilot
‏Salesforce مدل ‏BLIP3-o را در ‏Hugging Face منتشر کرد، مجموعه‌ای از مدل‌های چندوجهی یکپارچه کاملاً باز. @huggingface
‏Falcon مدل ‏Falcon-Edge را منتشر کرد - مجموعه‌ای از مدل‌های ‏Bitnet قدرتمند، جهانی و قابل تنظیم دقیق، همراه با یک کتابخانه ابزارک تنظیم دقیق پایتون به نام 'onebitllms'. @huggingface

پژوهش‌ها

‏AlphaEvolve گوگل اکتشافات ریاضیاتی انجام داد که هیچ انسانی قبلاً انجام نداده است، از جمله حل مسائل بسته‌بندی بهینه و کاهش ضرب ماتریس 4x4 از 49 عملیات به 48 (اولین پیشرفت در 56 سال). @deedydas
با در نظر گرفتن 50 مسئله ریاضی حل نشده، ‏AlphaEvolve رویکرد پیشرو را 75٪ مواقع دوباره کشف کرد و آن را 20٪ مواقع بهبود بخشید. @emollick
‏Meta و ‏Fondation Rothschild «ظهور زبان در مغز در حال رشد» را منتشر کردند - اولین بررسی سیستماتیک از چگونگی تکامل بازنمایی‌های عصبی زبان با رشد مغز. @ylecun
‏Meta مدل ‏Open Molecules 25 را معرفی کرد، یک مجموعه داده شیمی کوانتومی بنیادی شامل بیش از 100 میلیون محاسبه ‏DFT در سراسر 83 میلیون مولکول منحصربه‌فرد، که با 6 میلیارد ساعت هسته محاسباتی ساخته شده است. @ylecun

کاربردها

‏OpenAI «چالش ‏OpenAI to Z» را با استفاده از مدل‌های ‏o3/o4 mini و ‏GPT-4.1 برای کشف مکان‌های باستان‌شناسی ناشناخته قبلی راه‌اندازی کرد. @gdb @kaggle
‏Replit کدنویسی ‏Safe Vibe را برای رفع آسیب‌پذیری‌های امنیتی ایجاد شده توسط دستیارهای کدنویسی هوش مصنوعی مانند ‏Cursor و ‏Windsurf که کلیدهای ‏API را به طور پیش‌فرض در معرض دید قرار می‌دهند، معرفی کرد. @amasad @garrytan
‏Unsloth اکنون امکان تنظیم دقیق مدل‌های ‏TTS مانند ‏Sesame-CSM و ‏Whisper ‏OpenAI را به صورت محلی فراهم می‌کند و آموزش را 1.5 برابر سریع‌تر با 50٪ ‏VRAM کمتر می‌کند. @ycombinator
برنامه ‏Gemini گوگل اکنون ‏Audio Overviews را به 45 زبان ارائه می‌دهد و اسناد، اسلایدها و گزارش‌های تحقیقاتی را به مکالمات سبک پادکست تبدیل می‌کند. @GeminiApp
‏Cursor «بزرگترین نسخه خود تا کنون» را با نسخه 0.50 منتشر کرد. @cursor_ai
‏Hedra Labs در حال ایجاد انیمیشن شخصیت هوش مصنوعی برای ویدیو است که از دره وهم‌آلود اجتناب می‌کند، با نزدیک به 3 میلیون کاربر که بیش از 10 میلیون ویدیو تولید می‌کنند. @a16z

تحلیل صنعت

اخراج‌های اخیر ‏Microsoft عمدتاً برنامه‌نویسان در ایالت خود را تحت تأثیر قرار داد، زیرا هوش مصنوعی اکنون تا 30٪ از کد آن را می‌نویسد. @TechCrunch
وکیل ‏Anthropic مجبور شد پس از اینکه ‏Claude یک استناد قانونی را در دادگاه توهم زد، عذرخواهی کند. @TechCrunch
‏Coinbase فاش کرد که هکرها با «پرداخت پول به چندین پیمانکار یا کارمند که در نقش‌های پشتیبانی کار می‌کنند» اطلاعات شخصی مشتریان از جمله شناسه‌ها را به سرقت برده‌اند. @TechCrunch
توانایی هوش مصنوعی برای اینکه وظایف را نه تنها ارزان‌تر بلکه سریع‌تر انجام دهد، در اهمیت آن برای ایجاد ارزش تجاری، به ویژه در توسعه نرم‌افزار، دست کم گرفته شده است. @AndrewYNg
38٪ از کارمندان مورد بررسی اعتراف کردند که اطلاعات حساس را با ابزارهای هوش مصنوعی در محل کار به اشتراک می‌گذارند، که نیاز به راه‌حل‌های هوش مصنوعی امن در سطح سازمانی را برجسته می‌کند. @cohere
‏Hugging Face در حال تغییر مسیر کتابخانه ‏Transformers است تا به منبع اصلی تعریف مدل در سراسر اکوسیستم هوش مصنوعی تبدیل شود و با ‏vLLM، ‏LlamaCPP، ‏SGLang و بسیاری دیگر همکاری کند. @huggingface

اخلاق و جامعه

گوگل به دانشجویان کالج ایالات متحده دسترسی رایگان به ‏Gemini Advanced را تا بهار 2026 ارائه می‌دهد تا به آنها در آمادگی برای امتحان و تکالیف کمک کند. @GeminiApp
تحقیقات هوش محیطی در استنفورد راه حلی برای گرفتن سیگنال‌های اولیه زوال شناختی ارائه می‌دهد. @StanfordHAI
پروژه ‏Euphonia گوگل ابزارهای متن‌باز را برای توانمندسازی توسعه‌دهندگان برای ساخت ابزارهای صوتی شخصی‌سازی‌شده و تنظیم دقیق مدل‌ها برای الگوهای گفتاری متنوع منتشر کرد. @GoogleAI
‏MIT CSAIL پرسید «یک تصور غلط رایج در مورد یادگیری ماشین چیست که آرزو دارید افراد بیشتری آن را درک کنند؟» تا درک عمومی از هوش مصنوعی را ارتقا دهد. @MIT_CSAIL

اخبار هوش مصنوعی در 2025-05-14

مدل‌های جدید هوش مصنوعی

‏Google DeepMind، AlphaEvolve را معرفی کرد، یک عامل کدنویسی مبتنی بر Gemini برای کشف الگوریتم که می‌تواند الگوریتم‌های ضرب ماتریسی سریع‌تری طراحی کند، راه‌حل‌های جدیدی برای مسائل باز ریاضی پیدا کند و مراکز داده را کارآمدتر کند. @GoogleDeepMind
‏OpenAI، GPT-4.1 و GPT-4.1 mini را مستقیماً در ChatGPT در دسترس قرار می‌دهد، و GPT-4.1 mini جایگزین GPT-4o mini می‌شود. @OpenAI
‏Stability AI، Stable Audio Open Small را منتشر کرد، یک مدل تبدیل متن به صدا با 341 میلیون پارامتر که برای اجرا به‌طور کامل روی پردازنده‌های Arm بهینه شده است و تولید صدا روی دستگاه را در 99٪ تلفن‌های هوشمند امکان‌پذیر می‌کند. @StabilityAI
‏Hugging Face، Wan2.1 را منتشر کرد، مدلی که در تبدیل متن به ویدیو، تبدیل تصویر به ویدیو، ویرایش ویدیو، تبدیل متن به تصویر و تبدیل ویدیو به صدا عالی است. @huggingface
‏StepFun AI، Step1X-3D را منتشر کرد، یک چارچوب تولید سه‌بعدی باز با 4.8 میلیارد پارامتر (1.3 میلیارد هندسه + 3.5 میلیارد بافت) تحت مجوز Apache 2.0. @huggingface
‏Meta FAIR مجموعه داده‌ی Open Molecules 2025 (OMol25) و Universal Model for Atoms (UMA) را برای کشف مولکولی و مدل‌سازی تعاملات اتمی منتشر کرد. @AIatMeta

پژوهش‌ها

‏AlphaEvolve روی بیش از 50 مسئله‌ی باز در تحلیل ریاضی، هندسه، ترکیبیات و نظریه اعداد اعمال شد، راه‌حل‌های پیشرفته را در 75٪ موارد دوباره کشف کرد و راه‌حل‌های قبلی را در 20٪ موارد بهبود بخشید. @GoogleDeepMind
‏AlphaEvolve یک بازنویسی ساده کد پیدا کرد که بیت‌های غیرضروری را در طراحی TPU حذف کرد، که توسط طراحان TPU از نظر صحت تأیید شد و اولین مشارکت مستقیم Gemini در مدارهای حسابی TPU را نشان می‌دهد. @AndrewCurran_
‏AlphaEvolve هسته FlashAttention را 32٪ سرعت بخشید و بهبودهایی در پیش‌پردازش و پس‌پردازش ورودی‌ها و خروجی‌های هسته پیدا کرد که منجر به 15٪ افزایش سرعت شد. @AndrewCurran_
‏Meta FAIR و بیمارستان بنیاد Rothschild در یک مطالعه‌ی بزرگ مقیاس با همکاری یکدیگر، شباهت‌های چشمگیری بین توسعه‌ی زبان در انسان‌ها و LLMها را آشکار کردند. @AIatMeta
‏Meta، Adjoint Sampling را منتشر کرد، یک الگوریتم مقیاس‌پذیر برای آموزش مدل‌های مولد بر اساس پاداش‌های اسکالر. @AIatMeta

کاربردها

‏Anthropic یک ابتکار عمل برای یافتن باگ راه‌اندازی می‌کند تا یک نسخه‌ی به‌روز شده از سیستم ضد فرار از محدودیت خود را قبل از استقرار عمومی، با همکاری HackerOne، آزمایش کند. @AnthropicAI
‏Gemini Advanced اکنون به GitHub متصل می‌شود و به کاربران اجازه می‌دهد توابع را تولید/تغییر دهند، کد پیچیده را توضیح دهند، سؤالاتی در مورد پایگاه‌های کد بپرسند و با وارد کردن کد از مخازن عمومی یا خصوصی، اشکال‌زدایی کنند. @GeminiApp
‏Perplexity از ادغام با PayPal و Venmo برای ویژگی‌های تجاری از جمله خرید، مسافرت، دستیارهای صوتی و مرورگر عامل آینده‌شان به نام Comet خبر می‌دهد. @perplexity_ai
‏Google، Gemini را به Wear OS، Android Auto، Google TV و Android XR می‌آورد، در حالی که ویژگی‌های اشتراک‌گذاری دوربین و صفحه نمایش Gemini Live را برای همه‌ی کاربران Android رایگان می‌کند. @demishassabis
‏Y Combinator، Storyboards را راه‌اندازی می‌کند، ابزاری که اسکریپت‌ها را به استوری‌بوردهای کامل با کنترل سطح شات و سازگاری شخصیت/صحنه تبدیل می‌کند. @ycombinator
‏Amjad Masad از Percival خبر می‌دهد، یک عامل هوش مصنوعی که می‌تواند سایر عوامل هوش مصنوعی را ارزیابی و اصلاح کند و 2.9 برابر بهتر از SOTA LLMها در مجموعه داده TRAIL عمل می‌کند. @amasad

تحلیل صنعت

مشاغل BigTech (‏Google، Microsoft، Apple، Tesla، Meta، Nvidia، Palantir) در 3 سال گذشته هیچ رشدی نداشته‌اند و این امر باعث شده است که یافتن شغل برای رشته‌های علوم کامپیوتر دشوار شود، زیرا شرکت‌ها به طور بالقوه از هوش مصنوعی برای رشد بدون استخدام استفاده می‌کنند. @deedydas
‏Kaggle با Hugging Face همکاری می‌کند تا استفاده مستقیم از مدل‌های Hugging Face را در Kaggle Notebooks، همراه با کشف نمونه‌های کد عمومی مرتبط، امکان‌پذیر کند. @kaggle
‏Databricks استارتاپ سرورلس Postgres به نام Neon را به قیمت 1 میلیارد دلار خریداری می‌کند که نشان‌دهنده‌ی یک خروج تک‌شاخ نادر در بازار فناوری فعلی است. @deedydas
‏Andrew Ng دوره‌ی جدیدی را در مورد Model Context Protocol (MCP) با همکاری Anthropic اعلام می‌کند و نحوه‌ی ساخت برنامه‌های هوش مصنوعی را آموزش می‌دهد که با استفاده از پروتکل استاندارد به ابزارها، داده‌ها و اعلان‌ها دسترسی پیدا می‌کنند. @AndrewYNg

اخلاق و جامعه

‏OpenAI مرکز ارزیابی‌های ایمنی را معرفی می‌کند، منبعی برای بررسی نتایج ایمنی مدل‌هایشان که به طور دوره‌ای به عنوان بخشی از تلاش‌ها برای برقراری ارتباط فعالانه در مورد ایمنی به‌روزرسانی می‌شود. @OpenAI
‏Anthropic اشاره می‌کند که برخی از مدل‌های آینده ممکن است به حفاظت‌های پیشرفته «سطح ایمنی هوش مصنوعی 3» که در سیاست مقیاس‌بندی مسئولانه آن‌ها ذکر شده است، نیاز داشته باشند. @AnthropicAI
‏Paul Graham پیشنهاد می‌کند که AGI به معنای پایان مهندسی پرامپت خواهد بود، زیرا انسان‌های با هوش متوسط می‌توانند بفهمند که شما چه می‌خواهید بدون پرامپت‌های مفصل، و ما می‌توانیم از مراقبتی که برای ساخت پرامپت‌ها لازم است به عنوان شاخصی از میزان نزدیک شدن به AGI استفاده کنیم. @paulg

اخبار هوش مصنوعی در 2025-05-13

مدل‌های جدید هوش مصنوعی

‏@Alibaba_Qwen گزارش فنی Qwen3 را منتشر کرد که معماری و قابلیت‌های جدیدترین مدل خود را مستند می‌کند.

پژوهش‌ها

‏@berkeley_ai پژوهشی را در مورد یادگیری سیاست ناوبری بصری تعمیم‌یافته از منابع داده غیرفعال مقیاس‌پذیر اما کم‌کیفیت و بدون اقدام منتشر کرد.
‏@AIatMeta قسمت 4 فیزیک مدل‌های زبانی را منتشر کرد و Canon layers را معرفی کرد که «پیوندهای پسماند افقی» را در سراسر توکن‌ها اضافه می‌کند تا استدلال و تعمیم در Transformers، Mamba، GLA و فراتر از آن را به طور قابل توجهی بهبود بخشد.
‏@AIatMeta، CATransformers را معرفی کرد، یک معماری عصبی مبتنی بر کربن و چارچوب طراحی مشترک سخت‌افزار سیستم که به 9.1٪ کاهش در کل انتشار کربن چرخه عمر دست می‌یابد در حالی که دقت را حفظ یا افزایش می‌دهد.
‏@ch402 در مورد منطق نام‌گذاری مقاله خود با عنوان «در مورد زیست‌شناسی یک مدل زبانی بزرگ» بحث کرد و توضیح داد که چگونه زیبایی‌شناسی علمی زیست‌شناسی با یادگیری عمیق و تحقیقات قابلیت تفسیر مرتبط است.
‏@GoogleAI پژوهشی را در مورد استفاده از نمودارهای اعتماد برای مدل‌سازی روابط و اعمال Differential Privacy برای انعکاس ترجیحات حریم خصوصی نامتقارن کاربران در سناریوهای اشتراک‌گذاری داده‌ها به اشتراک گذاشت.
‏@MIT_CSAIL، CausVid را معرفی کرد، یک مدل هوش مصنوعی جدید که با ترکیب واقع‌گرایی عکس‌مانند مدل‌های انتشار با سرعت رویکردهای خودرگرسیونی، ویدیوهای روان و با کیفیت بالا را در عرض چند ثانیه می‌سازد.
‏@huggingface از Ultra-FineWeb، یک پایه 1.1T-توکنی تمیزتر برای LLMهای بهتر با 1T توکن انگلیسی + 120B چینی، فیلتر شده برای کیفیت، خبر داد که بهبود 3.6+ امتیازی در MMLU و 3.7+ در CMMLU در مقایسه با FineWeb نشان می‌دهد.
‏@huggingface، Step1X-3D را منتشر کرد، یک چارچوب تولید سه‌بعدی کاملاً متن‌باز برای تولید با کیفیت بالا و قابل کنترل دارایی‌های سه‌بعدی با بافت.
‏@emollick خاطرنشان کرد که در سپتامبر 2024، پزشکانی که با هوش مصنوعی کار می‌کردند، در بنچمارک پزشک Healthbench بهتر از هوش مصنوعی یا پزشکان به تنهایی عمل کردند، اما با o3 و GPT-4.1، پاسخ‌های هوش مصنوعی دیگر توسط پزشکان بهبود نمی‌یابد.
‏@natolambert اشاره کرد که مقاله Tulu 3 اصطلاح RLVR (Reinforcement Learning from Value Ranking) را ابداع کرد.

کاربردها

‏@GeminiApp، Veo 2 را برای کاربران Gemini Advanced راه‌اندازی کرد و به کاربران این امکان را می‌دهد تا با دستورات متنی ساده، در عرض چند دقیقه از ایده به ویدیو برسند.
‏@GeminiApp یک برنامه iPad را منتشر کرد که محدودیت قبلی در دسترسی به پلتفرم را برطرف می‌کند.
‏@Alibaba_Qwen، Deep Research را در Qwen Chat پس از چند هفته آزمایش مرحله‌ای برای همه در دسترس قرار داد.
‏@gdb به اشتراک گذاشت که Deep Research اکنون می‌تواند به Sharepoint سازمان‌ها متصل شود و قابلیت‌های دسترسی به داده‌های سازمانی خود را گسترش دهد.
‏@simonw خاطرنشان کرد که Gemini، OpenAI، Perplexity و Qwen همگی ویژگی‌هایی به نام «Deep Research» دارند، در حالی که Grok با نامیدن ویژگی خود به عنوان «DeepSearch» از این روند پیروی نکرد.
‏@huggingface از رونویسی 8 برابر سریع‌تر Whisper بر روی یک GPU L4 واحد، با پشتیبانی از vllm_project خبر داد.
‏@_catwu از ویژگی‌های جدید Claude Code از جمله multipaste برای تکه‌های بزرگ متن یا تصاویر، هدایت بی‌درنگ برای تنظیم رویکرد در طول کار و پشتیبانی از OpenTelemetry برای ردیابی معیارها خبر داد.
‏@ycombinator، OpenMemory MCP را راه‌اندازی کرد، یک حافظه خصوصی برای مشتریان سازگار با MCP که یک لایه حافظه دائمی و قابل حمل برای ابزارهای هوش مصنوعی که 100٪ به صورت محلی اجرا می‌شوند، فراهم می‌کند.
‏@windsurf_ai قابلیت ویرایش پیشنهادات ترمینال Cascade's را قبل از اجرای آن‌ها اضافه کرد.
‏@TechCrunch گزارش داد که TikTok، TikTok AI Alive را راه‌اندازی کرده است، یک ابزار جدید تبدیل تصویر به ویدیو.

تحلیل صنعت

‏@NVIDIAAI برنامه‌هایی را برای ساخت کارخانه‌های هوش مصنوعی با HUMAIN (یک شرکت تابعه هوش مصنوعی از صندوق سرمایه‌گذاری عمومی عربستان سعودی) اعلام کرد که عربستان سعودی را به یک رهبر جهانی هوش مصنوعی تبدیل می‌کند و تا 500 مگاوات نیرو با استفاده از چند صد هزار GPU NVIDIA مستقر می‌کند.
‏@AndrewCurran_ گزارش داد که NVIDIA توافقی را تأیید کرده است که شامل صدها هزار «پیشرفته‌ترین GPUهای NVIDIA در پنج سال آینده» برای عربستان سعودی است.
‏@AndrewCurran_ به اشتراک گذاشت که اپل در حال کار بر روی Brain-Computer Interface (BCI) خود با شرکتی به نام Synchron است و دستگاهی به نام Stentrode را توسعه می‌دهد که در یک رگ در بالای قشر حرکتی مغز کاشته می‌شود.
‏@_amankhan نموداری را به اشتراک گذاشت که رشد AI Product Management را به عنوان یک مسیر شغلی نشان می‌دهد.
‏@GergelyOrosz خاطرنشان کرد که داده‌ها نشان می‌دهند AI Product Managers که می‌دانند چگونه محصولات هوش مصنوعی بسازند، مورد تقاضا هستند، برخلاف ادعاهایی مبنی بر اینکه فناوری و مهندسی نرم‌افزار به دلیل هوش مصنوعی در حال کاهش است.
‏@garrytan مشاهده کرد که کسب‌وکارهایی که به دنبال مشتریان جدید هستند، باید جستجوی مبتنی بر عامل هوش مصنوعی را دوباره یاد بگیرند و برای آن بهینه‌سازی کنند، مشابه نحوه بهینه‌سازی قبلی برای موتورهای جستجو.
‏@Deedy گزارش داد که مایکروسافت 3٪ از نیروی کار خود (تقریباً 7000 کارمند) را اخراج کرده است و خاطرنشان کرد که تعداد کارکنان مایکروسافت از سال 2022، همزمان با راه‌اندازی ChatGPT، به مدت 3 سال ثابت مانده است.
‏@scottbelsky تأکید کرد که تغییرات پلتفرمی مانند هوش مصنوعی فرصت‌های آربیتراژ دانش را ایجاد می‌کند و به تازه‌واردان بومی هوش مصنوعی به نیروی کار مزیتی مشابه پذیرندگان اولیه رسانه‌های اجتماعی می‌دهد.
‏@ylecun از متن آشتی تجاری مجلس نمایندگان که شامل تعلیق 10 ساله مقررات هوش مصنوعی در سطح ایالتی است، حمایت کرد، که او آن را به عنوان محافظت از نوآوری آمریکایی در هوش مصنوعی می‌داند.

اخلاق و جامعه

‏@medialab مقاله‌ای از Nature را به اشتراک گذاشت که در مورد چگونگی تأثیر چت‌بات‌ها و همراهان دیجیتال بر افراد و جامعه بحث می‌کند و شامل بینش‌هایی از محقق Media Lab، @patpat_mit است.
‏@StanfordAILab، minions secure chat را منتشر کرد، یک پروتکل متن‌باز برای چت LLM رمزگذاری‌شده سرتاسر با کمتر از 1٪ سربار تأخیر، که تضمین می‌کند ارائه‌دهندگان ابر نمی‌توانند به پیام‌ها دسترسی داشته باشند زیرا فقط در داخل یک محفظه GPU امن رمزگشایی می‌شوند.
‏@stanfordnlp تأکید کرد که متن آشتی انرژی و تجارت مجلس نمایندگان شامل زبانی است که تمام مقررات هوش مصنوعی ایالتی را برای یک دوره 10 ساله مقدم می‌شمارد و نشان‌دهنده یک فشار مقررات‌زدایی قابل توجه است.
‏@simonw نگرانی‌هایی را در مورد قابلیت استفاده و مستندات ویژگی حافظه ChatGPT، به‌ویژه در مورد چگونگی داشتن مکالمات بدون در نظر گرفتن آن‌ها به عنوان بخشی از حافظه آینده، مطرح کرد.

اخبار هوش مصنوعی در 2025-05-12

مدل‌های جدید هوش مصنوعی

‏Meta مدل Dynamic Byte Latent Transformer را منتشر کرد، یک مدل 8 میلیارد پارامتری با روش‌های توکنایزاسیون جایگزین برای بهبود کارایی و قابلیت اطمینان مدل زبانی @AIatMeta
‏PrimeIntellect مدل متن‌باز INTELLECT-2 را منتشر کرد، یک مدل 32 میلیارد پارامتری که از طریق یادگیری تقویتی توزیع‌شده جهانی آموزش داده شده و QwQ-32B را در ریاضیات و کد شکست می‌دهد @huggingface
‏BAAI مدل RoboBrain را منتشر کرد، یک مدل هوش مصنوعی تجسم‌یافته متن‌باز 32 میلیارد پارامتری که همکاری چند رباتی را با تجزیه وظایف، تشخیص ناحیه قابل بهره‌برداری و پیش‌بینی مسیر حرکت امکان‌پذیر می‌کند @huggingface
‏Alibaba نسخه‌های کوانتیزه‌شده Qwen3 را در قالب‌های مختلف (GGUF، AWQ، GPTQ) برای استقرار آسان محلی از طریق Ollama، LM Studio، SGLang و vLLM منتشر می‌کند @Qwen

پژوهش‌ها

‏Meta، Collaborative Reasoner را معرفی می‌کند، یک چارچوب برای بهبود استدلال مشارکتی در مدل‌های زبانی، که راه را برای عامل‌های اجتماعی هموار می‌کند که می‌توانند با انسان‌ها و سایر عامل‌ها همکاری کنند @AIatMeta
‏OpenAI، HealthBench را منتشر می‌کند، یک معیار ارزیابی جدید برای سیستم‌های هوش مصنوعی در محیط‌های مراقبت‌های بهداشتی، که با مشارکت بیش از 250 پزشک از سراسر جهان توسعه یافته است @OpenAI @gdb
‏Microsoft Research، ADeLe را معرفی می‌کند، یک روش ارزیابی جدید که توضیح می‌دهد سیستم‌های هوش مصنوعی در چه زمینه‌هایی برتری دارند و احتمالاً در کجا شکست می‌خورند، با تقسیم وظایف به الزامات مبتنی بر توانایی @MSFTResearch

کاربردها

‏Gemini 2.5 Pro قابلیت‌های درک ویدیو را افزایش می‌دهد و تا 6 ساعت ویدیو را در یک درخواست واحد با درک صوتی-تصویری، یکپارچه‌سازی کد و استدلال زمانی پردازش می‌کند @HamelHusain
‏ChatGPT قابلیت خروجی PDF را برای گزارش‌های تحقیقاتی، به همراه جداول، تصاویر، استنادهای پیوندی و منابع اضافه می‌کند @OpenAI @aidan_mclau
دموی وب‌کم بلادرنگ که SmolVLM و سرور llama.cpp را به صورت محلی روی Macbook M3 ترکیب می‌کند @huggingface
‏Google از آخرین مدل‌های هوش مصنوعی مولد (از جمله Veo) برای تبدیل تصاویر محصول 2D به تجسم‌های سه‌بعدی فراگیر برای Google Shopping استفاده می‌کند @GoogleAI

تحلیل صنعت

‏Google، AI Futures Fund را راه‌اندازی می‌کند، یک برنامه جدید که به استارت‌آپ‌ها دسترسی زودهنگام به مدل‌های Google DeepMind، اعتبارات Cloud و منابع برای ساخت فناوری هوش مصنوعی ارائه می‌دهد @GoogleDeepMind @JeffDean @demishassabis
‏Y Combinator و شرکا، AI Startup School را در سان فرانسیسکو با حضور سخنرانانی از جمله Sam Altman، François Chollet، Chelsea Finn، Andrej Karpathy، Fei-Fei Li، Elon Musk، Satya Nadella، Andrew Ng و Aravind Srinivas اعلام کردند @fchollet @garrytan
بر اساس AI Index 2025 استنفورد، مرز توسعه هوش مصنوعی به طور فزاینده‌ای رقابتی است و تنها 0.7٪ مدل برتر را از مدل رتبه دهم جدا می‌کند @StanfordHAI
‏Gemma AI models گوگل از 150 میلیون بارگیری فراتر رفت @TechCrunch

اخلاق و جامعه

مصطفی سلیمان استدلال می‌کند که کنترل LLMهای بزرگتر در واقع آسان‌تر است و بیان می‌کند: «مقیاس به کنترل آسیب نمی‌زند - بلکه کمک می‌کند» @mustafasuleyman
تحقیقات دانمارکی نشان می‌دهد که پذیرش و تأثیر هوش مصنوعی به تشویق سازمانی بستگی دارد و تا سال 2024 هیچ تأثیر کلی بر دستمزدها یا اشتغال نداشته است @emollick
الکس گریولی پیشنهاد می‌کند که فشار ChatGPT به سمت خوددرمانی با کمک هوش مصنوعی و شخصی‌سازی همدلانه می‌تواند «بزرگترین پیشرفت تکنولوژیکی» در طول زندگی او باشد @alexgraveley
امولیک هشدار می‌دهد که به زنجیره‌های استدلال برای نشان دادن آنچه هوش مصنوعی به آن فکر می‌کند اعتماد نکنید، و خاطرنشان می‌کند که آنها برای مفید بودن در حل مسائل طراحی شده‌اند اما لزوماً صادق نیستند @emollick

1 2 3 4 5...26