Transformer Model LLM

1 天

虽然目前还不如顶尖的 Claude3.5 Haiku 等，但考虑到它是一目十行的效率，能保持这个生成质量已经是非常哇塞了。我们也在官方放出的 Mercury Coder Playground 里简单试了几个例子，一顿测试下来发现生成效果确实不错，而且速度真的是极快。

4 天

LLM 在生成 long CoT 方面展现出惊人的能力，例如 o1 已能生成长度高达 100K tokens 的序列。然而，这也给 KV cache 的存储带来了严峻挑战。为应对这一难题，“hybrid model” ...

一些您可能无法访问的结果已被隐去。

今日热点