Qwen2 Math - 搜索 News

3 天

全球掀DeepSeek复现狂潮

港科大助理教授何俊贤的团队（共同一作黄裕振、Weihao Zeng），只用了8K个样本，就在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练。

4 天

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30刀见证“啊哈时刻”

经过进一步调查，研究者发现，Qwen2.5-Math-7B基础模型在初始阶段倾向于生成大量代码，这可能源于模型原始训练数据的分布特征。输出长度的首次下降，是因为强化学习训练逐渐消除了这种代码生成模式，转而学会使用自然语言进行推理。

站长之家2 天

阿里云通义开源Qwen2.5-VL，视觉AI超越Claude 3.5

阿里云通义千问开源了全新的视觉模型Qwen2.5-VL，并推出了3B、7B和72B三个尺寸版本。其中，旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军，超越了GPT-4o与Claude3.5。阿里云官方介绍称，新的Qwen2.5-VL能够更准确地解析图像内容，并突破性地支持超过1小时的 ...

虎嗅网6 天

全球掀起DeepSeek复现狂潮，硅谷巨头神话崩塌

本文来自微信公众号：新智元，作者：新智元，原文标题：《全球掀起DeepSeek复现狂潮，硅谷巨头神话崩塌，30刀见证啊哈时刻》，题图来自：视觉中国诚如LeCun所言：“这一次，正是开源对闭源的胜利！” ...

腾讯网3 天

当AI成本降低30倍：DeepSeek-R1如何重塑AI行业

自 DeepSeek-R1 发布以来，其出色的推理能力和相对低廉的训练成本在业界引发强烈反响。它让人们意识到，高性能 AI 模型的开发，也许不必依赖于昂贵的算力和海量的数据。R1 不仅在性能上接近 OpenAI 的 ...

腾讯网6 天

全球掀DeepSeek复现狂潮！硅谷巨头神话崩塌，30美元见证啊哈时刻

【新智元导读】就在刚刚，网上已经出现了一波复现DeepSeek的狂潮。UC伯克利、港科大、HuggingFace等纷纷成功复现，只用强化学习，没有监督微调，30美元就能见证「啊哈时刻」！全球AI大模型，或许正在进入下一分水岭。

站长之家1 天

阿里除夕发布Qwen2.5-Max反超DeepSeek V3，一句话开发小游戏

声明：本文来自于微信公众号量子位 | 公众号 QbitAI，作者：西风梦晨，授权站长之家转载发布。 Qwen2.5-Max来袭，多个基准测试中超越当红炸子鸡DeepSeek V3。 Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond等基准统统拿下，Qwen2.5-Max整体表现优于DeepSeek V3、Llama-3.1-405B以及 ...

中华网6 天

全球掀DeepSeek复现狂潮硅谷巨头神话崩塌！

硅谷正经历由中国公司引发的重大变革。全美都在担忧全球人工智能的中心是否已经转向中国。此时，全球范围内掀起了复现DeepSeek模型的热潮。正如LeCun所说：“这是开源对闭源的一次胜利。”这些讨论引发了人们对数百亿美元支出必要性的质疑，甚至有人预测中 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果