什么是 DeepSeek 以及它为什么重要?ChatGPT 在 2022 年让全世界大吃一惊,现在 DeepSeek 又让 ChatGPT(以及许多人类)大吃一惊。
DeepSeek-R1 是中国 AI 公司 DeepSeek 推出的一款全新推理模型。
作为任何人都可以使用的开放模型,它的推出震动了硅谷,让各大科技公司的股票市值暴跌数十亿美元,并引发了巨大的恐慌。这一切为何如此重要,这涉及到 AI 模型开发的复杂性,因此首先,让我们看看 DeepSeek-R1 到底是什么。
什么是 DeepSeek?
DeepSeek 聊天机器人
DeepSeek-R1 是由中国 AI 公司 DeepSeek 构建的 AI 推理模型。它与OpenAI o1非常相似,但与 o1 不同的是,它是开放的,这意味着任何人都可以下载该模型并在自己的硬件上运行它。与常规的大型语言模型 (LLM)相比,推理模型的能力要强大得多,因为它们使用思维链过程来解决复杂问题。
在性能方面,R1 与 o1 大致相当,而较小的 R1-32B 在一系列主要基准测试(如 AIME 2024 和 MMLU)上与 o1-mini 大致相当。面对面测试(以及我自己的测试)都显示出大致相同的结果:R1 是 o1 非常强大的替代品。当然,仍然会有偶尔的错误或幻觉,但这些模型之间并没有太大的差异。
认识你的新 AI 队友
尝试 Zapier 代理
DeepSeek 的其他模型也是如此。例如,有一个类似 ChatGPT 的聊天机器人(我稍后会讲到);有一个名为 DeepSeek-V3 的开放文本模型,与GPT-4o、Claude 3.1和Llama 3.1 405B等其他顶级模型相比毫不逊色;还有一个名为Janus-Pro-7B的文本转图像模型,与DALL·E 3和其他类似模型相比毫不逊色。
虽然这种全面的性能水平本身就令人印象深刻,但 DeepSeek 实现这一目标的方式才是让它如此重要的原因。
为什么DeepSeek-R1和DeepSeek-V3如此令人印象深刻?
简短的回答是:地缘政治。
美国已禁止向中国出口 Nvidia H100 GPU 芯片,部分原因是为了阻止中国科技公司开发强大的 AI 模型。OpenAI、Anthropic 和 Meta 都依赖 H100 芯片来开发其当前的 AI 模型,而当时的假设是,如果没有这些芯片,前沿模型几乎不可能构建。(值得一提的是,谷歌还使用了自己的定制张量处理单元。)
尽管美国政府试图限制中国科技公司在人工智能领域的发展,以维护美国在该领域的领导地位,但 DeepSeek 已经能够使用规格较低的 H800 芯片创建与 OpenAI、Anthropic 或谷歌目前提供的任何模型一样强大的模型。更糟糕的是(从美国政府和硅谷的角度来看),DeepSeek 能够以更少的钱、使用更少的计算能力做到这一点,并且他们已经根据开放许可发布了由此产生的研究论文和模型,以便任何人都可以使用它们。
到目前为止,o1 还是一个独一无二的推理模型。它的市场地位如此独特,以至于OpenAI 每月收取 200 美元的费用,即可无限制地使用它。不过现在,任何人都可以通过 DeepSeek 的聊天机器人免费使用类似的模型,或者如果他们具备技术技能,可以下载并在自己的电脑上运行它。这只是影响硅谷的较小冲击波之一。
DeepSeek-R1 和 V3 有何不同?
DeepSeek 模型显示它在回答问题之前思考了 26 秒
DeepSeek 必须使用优化才能在 H800 芯片上训练前沿模型,而这正是 R1 和 V3 脱颖而出的原因之一。由于 DeepSeek 无法将原始计算能力投入到这个问题中,他们不得不开发出许多解决方法。虽然其中许多方法都基于现有技术,但以下是 DeepSeek 使用 R1、V3 及其之前的模型所做的一些值得注意的事情:
开发了一种“专家混合”(MoE)模型,该模型将具有一般能力的共享专家与具有更狭窄能力的特定专家相结合,从而使模型更加高效。(这允许模型具有极高数量的参数,但在推理时仅激活有限的子集,以便它们可以更高效地运行。)
开发了多种方法,通过减少所需的计算资源来平衡不同专家之间的训练工作量,从而提高训练效率。
开发了多种使推理更有效的方法,包括一种减少大型上下文窗口所需内存使用的技术。
严重依赖“蒸馏”,即使用更强大的模型的输出来训练较小的模型。(这有些争议。)
使用基于机器的强化学习而不是基于人类反馈的强化学习 (RLHF) 来训练 R1 的前身 R1-Zero。
这些创新加在一起,使得 DeepSeek 的模型与 OpenAI、Anthropic、Meta 和 Google 的模型一样强大,但训练和推理的成本却要低得多。头条新闻是,DeepSeek 仅花费 557.6 万美元就成功训练了 V3。就背景而言,就在去年,有传言称未来的模型训练成本为 10 亿美元,而据报道,GPT-4 的训练成本为 1 亿美元。
这个低价大大低估了实际情况——它仅指与 V3 的最终训练运行相关的 GPU 租赁成本,而不是任何前期研究、数据收集、工资以及开发前沿模型和运营 AI 公司所需的所有其他费用。但它仍然对股市造成了重大冲击,因为它引发了人们对 AI 革命将在多大程度上继续依赖 Nvidia、微软和其他大型科技公司的昂贵硬件和计算租赁的担忧。
DeepSeek 现在显然存在争议
DeepSeek 聊天机器人回答有关其为何引起争议的问题
DeepSeek 聊天机器人应用程序在全球 App Store 和 Play Store 中均名列前茅。但你可以想象,一家中国人工智能公司推出的免费人工智能模型和聊天机器人,如果能与目前任何美国公司提供的最佳模型和聊天机器人相媲美,那也难免会引发争议。
作为一款中国开发的聊天机器人,它存在一些审查问题。例如,它拒绝谈论坦克人,并认为台湾是中国的一部分,尽管我能够让它讨论中国是否正在对维吾尔族穆斯林实施种族灭绝。同样,它明确地向中国发送数据。
这一切对你来说有多重要,这真的取决于你。每家人工智能公司都会训练他们的聊天机器人和模型以特定的方式做出回应,以避免争议。如果你不打算使用 DeepSeek 聊天机器人来为西藏自由而战,你不太可能遇到 DeepSeek 的回应问题。当然,你随时可以自己运行 R1,而不会遇到审查或数据问题。
如何尝试 DeepSeek-R1
尝试 DeepSeek-R1 的最简单方法是通过免费的 DeepSeek 聊天机器人应用程序。它可在网络上使用,也适用于iOS和Android设备。鉴于 DeepSeek 的突然流行,注册有时会很慢,应用程序有时太忙而无法响应。当然,如果你有技术技能,你可以直接从 Hugging Face 获取 R1。
虽然 DeepSeek 的聊天机器人在很多方面都比 ChatGPT 更简陋,但它确实有一个有趣的功能。你可以同时使用 R1 和搜索,因此推理模型可以处理网页结果。这是 o1 目前无法做到的。
相关阅读:
最佳生成式 AI 工具
最好的人工智能生产力工具
最好的免费 AI 工具