Anthropic 快速推出新的人工智能模型–以及与聊天机器人互动的巧妙新方式

Claude 3.5 Sonnet 显然是 Anthropic 目前最智能、最快速、最人性化的模型。
人工智能军备竞赛仍在继续: Anthropic 推出了名为 Claude 3.5 Sonnet 的最新机型,并称该机型可以在各种任务中与 OpenAI 的 GPT-4o 或谷歌的 Gemini 相媲美,甚至更胜一筹。Claude 3.5 Sonnet 已在网页和 iOS 上向 Claude 用户开放,Anthropic 还将向开发者开放。
Claude 3.5 Sonnet 最终将成为产品线中的中端机型–Anthropic 用 Haiku 来表示最小的机型,Sonnet 表示主流的中端机型,Opus 表示最高端的机型。(这些名字很奇怪,但每家人工智能公司似乎都在用自己特别奇怪的方式命名,所以我们也就不计较了)。但该公司表示,3.5 Sonnet 比 3 Opus 性能更强,其基准测试结果表明,3.5 Sonnet 比 3 Opus 性能强得多。新机型的速度显然也是旧机型的两倍,这可能是一个更大的问题。
人工智能机型的基准测试应该谨慎对待,因为它们数量众多,很容易挑选出让你看起来顺眼的机型,而且机型和产品的更新换代如此之快,以至于似乎没有人能够保持长久的领先优势。尽管如此,Claude 3.5 Sonnet 确实给人留下了深刻印象:在九项总体基准测试中,它有七项超过了 GPT-4o、Gemini 1.5 Pro 和 Meta 的 Llama 3 400B;在五项视觉基准测试中,它有四项超过了 GPT-4o、Gemini 1.5 Pro 和 Meta 的 Llama 3 400B。再次强调,不要对此过分解读,但Anthropic似乎已经在这一领域建立了一个合法的竞争对手。
显示 Claude 3.5 Sonnet 和其他人工智能模型各种基准测试成绩的截图。
Claude 3.5 的基准测试成绩看起来确实令人印象深刻–但这些东西变化太快了。图片 人类学
这一切究竟意味着什么?Anthropic 表示,Claude 3.5 Sonnet 在编写和翻译代码、处理多步骤工作流程、解释图表和图形以及从图像中转录文本方面都会好得多。经过改进的新版克劳德显然还能更好地理解幽默,并能以更人性化的方式写作。
除了新模型,Anthropic 还推出了一项名为 Artifacts 的新功能。有了 Artifacts,你就可以看到克劳德请求的结果,并与之互动:如果你要求模型为你设计一件东西,它现在可以向你展示它的样子,并让你在应用程序中直接编辑。如果克劳德给你写了一封邮件,你可以在克劳德应用程序中编辑邮件,而不必将其复制到文本编辑器中。这只是一个小功能,但却很聪明–这些人工智能工具需要变得比简单的聊天机器人更强大,而像 “人工制品 “这样的功能只会让应用程序有更多的功能可做。
截图显示了人工智能聊天时的文档预览。
新的 “艺术品”(Artifacts)功能暗示了 “后聊天机器人 “克劳德可能会是什么样子。图片 人类学
人工制品实际上似乎是克劳德长期愿景的一个信号。Anthropic 长期以来一直表示,它主要专注于企业(即使它雇佣了 Instagram 联合创始人迈克-克里格(Mike Krieger)这样的消费类技术人员),并在其发布 Claude 3.5 Sonnet 的新闻稿中表示,它计划将 Claude 转变为企业的工具,”在一个共享空间中安全地集中管理他们的知识、文档和正在进行的工作”。这听起来更像 Notion 或 Slack,而不是 ChatGPT,Anthropic 的模型是整个系统的中心。
不过现在,模型才是大新闻。这里的改进速度令人目不暇接: Anthropic 在三月份推出了 Claude 3 Opus,并自豪地表示它与 GPT-4 和 Gemini 1.0 不相上下,而在此之前,OpenAI 和谷歌都发布了更好的模型版本。现在,Anthropic 已经采取了下一步行动,而它的竞争对手肯定也会很快这么做。Claude 虽然不像 Gemini 或 ChatGPT 那样广为人知,但它在这场竞争中的地位不言而喻。