Qwen GitHub - 搜索 News

来自MSN23 小时

刚肝完Claude 3.7 Sonnet，睡了两小时，马不停蹄的又起来看DeepSeek开源项目。结果时间线上先刷到的是阿里的推理模型QwQ-Max的预览版。。。不是哥们，早上5点发，这也太抽象了。。。

1 天

近日，阿里云开源的万相大模型以其卓越性能引发广泛关注。万相2.1版本在VBench榜单中以总分86.22%的成绩稳居榜首，成为全球开源大模型中的佼佼者。自2023年起，阿里云便坚定推进大模型开源战略，旗下千问（Qwen）和万相（Wan）两大基座模型已 ...

腾讯网2 天

DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码

选自GitHub作者：Andriy Burkov机器之心编译GRPO（Group Relative Policy Optimization）是 DeepSeek-R1 成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek 用的 ...

4 天

马云督战，阿里豪掷3800亿布局AI，夸克与通义谁能扛起大旗？

互联网大厂争相拿着“真金白银”上牌桌，阿里这次拿出了3800亿人民币的“弹药”。2月24日，阿里巴巴集团CEO吴泳铭宣布，未来三年，阿里将投入超过3800亿元人民币，总额超过去十年总和。这一数字，创下了我国民营企业在云和AI硬件基础设施建设领域最大规 ...

来自MSN4 天

DeepSeek五连发，通义三“王炸”，杭州成了开源之都

这一周，杭州城里，DeepSeek 连续五天公布代码，阿里通义接连放出三个开源模型“王炸”。 DeepSeek的开源周刚过半，同城的阿里巴巴开始推波助澜，前一日宣布了Qwen2.5-Max与推理版QwQ-Max的开源计划，第二天又正式开源了Wan2.1（万相）视频模型。 Qwen2.5-Max对标DeepSeek V3的旗舰MOE模型，QwQ-Max是对标DeepSeek R1的深度推理模型，都属 ...

IT之家14 天

国家超算互联网平台宣布上线 DeepSeek-R1-Distill-Qwen-7B / 14B API 接口服务 ...

IT之家2 月 18 日消息，国家超算互联网平台今晚宣布，正式上线 DeepSeek-R1-Distill-Qwen-7B / 14B API 接口服务，免费提供额度 100 万 Tokens 额度。此前超算互联网平台已上线 DeepSeek 多款大模型以及 DeepSeek 满血版的模型镜像，并为有需求的企业免费开放 3 个月 DeepSeek API ...

IT之家15 天

DeepSeek 团队新作：把代码变成思维链，大模型推理各种能力全面提升

用代码训练大模型思考，其他方面的推理能力也能提升。 DeepSeek 团队最新研究，利用 300 多万个实例，将代码转换成思考过程，构建出数据集 CODEI/O，对 Qwen、Llama 等模型进行了训练。结果，在各种类型的推理任务当中，模型性能都取得了全面提升，包括在非 ...

新浪网15 天

DeepSeek等秒变操控电脑AI智能体，微软开源工具OmniParser V2.0发布

2 月 12 日，微软在官网发布了 OmniParser 最新版本 V2.0，可将 OpenAI（4o / o1 / o3-mini）、DeepSeek（R1）、Qwen（2.5VL）和 Anthropic（Sonnet）等模型，变成可以 ...

51CTO15 天

DeepSeek R1与Qwen大模型，构建Agentic RAG全攻略

轻量级智能体框架：协调前两者，保障系统高效运转。完成搭建后，Qwen 会处理常规交互，复杂查询则交给R1。接下来动手试试！ DeepSeek的第一代推理模型性能可与OpenAI-o1媲美，其中包括基于Llama和Qwen从DeepSeek-R1蒸馏得到的6个密集模型。 Qwen 2.5模型在阿里巴巴 ...

51CTO19 天

鸿蒙开发者社区

这些挑战突显了对更加复杂且高效的视觉-语言模型（VLM）的需求，尤其是能够无缝解析和回应多模态信息的模型。在这种背景下，Qwen AI 推出了 Qwen2.5-VL，这款新型的视觉-语言模型旨在处理计算机任务，并且几乎无需设置即可快速部署。作为其前身 Qwen2-VL 的 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果