当前AI大模型哪家最好用？各家主要擅长哪些领域？普通人使用，推荐哪个？

构建与工程机器学习与数据科学6 分钟

陈然

2025年3月12日修改于 2025年3月12日

知乎/回答

和 AI 讨论这个回答

ChatGPT

Claude

作为一个日常工作中有超过 50% 时间都在与各种大模型对话的人，想跟大家分享一下我在使用各个主流模型时的一些体验和感受。

Google Gemini 系列

优点：

极其便宜：无论是免费额度还是付费使用，价格都非常有优势。
Context Window 超级大：1-2M 的上下文长度，基本能覆盖绝大部分任务场景，几乎让人不再需要额外做 RAG（Retrieval-Augmented Generation）。直接把海量资料丢进去就行，对很多简单的文档抽取、问答、生成表格等都能胜任。

缺点：

整体来说，Google Gemini 像一个脑容量巨大但思维没那么灵活的“笨大个”，简单任务很好用，但稍微复杂一些就有点力不从心。不过它那夸张的 Context Window 真的是一大 killer feature。

Anthropic Sonnet 系列（3.5 / 3.7 + Thinking）

写代码的无敌选手 特别是 3.7 + Thinking，这套模型在写代码方面几乎是“唯一真神”。从 3.5 版本开始，Anthropic 在 coding 场景就已经非常厉害，很多厂商的模型都无法超越。如今 3.7 + Thinking 更是“吊打”其他同类。
实践经验：

如果你的产品需求文档（PRD）写得足够详细，信息量足够大，它一次性生成几千行代码时，正确率都能接近 100%。
最大难点在于如何保证 Context Window 一直可用。要让它拥有和你同样的上下文，需要想办法把代码库或关键信息进行总结，打包给它参考。
总体而言，在写代码这个领域，Anthropic 真的非常好用。

DeepSeek R1

中文表达很有“特色” 特别是带有强烈风格化的写作，比如写小红书爆款文案等，有时会给人惊喜。不过如果你要更严肃、系统的内容，DeepSeek R1 有时会“蹦”出一些非常奇怪的炫技段落，让人感觉它的思维方式“很量子力学”，需要反复调教，才能符合需求。
因此我个人使用并不多，但如果你要做一些文案类、风格性强的写作，R1 还是值得一试。

Perplexity

搜索 & 素材整理好帮手 Perplexity 送了一年免费会员之后，我现在几乎不用 Google Search 了，只用它来搜集素材。
Deep Research 功能 感觉没有名字看起来那么“Deep”，而且大概是因为免费用户过多、成本较高，检索到的内容越来越短，深度也不够。“Deep Research” 并不算真正意义上的“深度搜索”，但用来做一般的资料收集还是非常好用。

OpenAI 系列模型

在我看来，OpenAI 系列仍然是目前使用体验最顶级、综合能力最强的一批模型，尤其是在日常对话、辅助写作、信息整合、深度创作上非常出色。

1. GPT-4.5

ChatGPT 订阅用户使用更划算 如果是通过 API 用 4.5，价格实在偏贵，意义不大。但如果你在 ChatGPT 中订阅使用，就会发现它对你的意图理解更准确，表达更加细腻，明显比 4o 更上一层楼。
日常交互体验好 在平时写文章、回答问题时，4.5 的表现能让人感觉到交流顺畅，更能“读懂”你的潜台词。

2. O1 / O1 Pro

我的“老大哥”模型 对意图的理解、对 Prompt 的遵循以及规划（planning）能力非常强。
常用场景：

Agentic Workflow：在需要 planner 和 executor 配合的场景中，如果把 O1 Pro 放到 planner 这个角色，效果堪称完美。
大规模内容整合：日常会用 Perplexity 搜一些资料，然后把资料丢给 O1 Pro，请它按照指定格式输出，如撰写一篇深度报道、插入故事和观点等。这种深度再加工，几乎无可替代。

综合评价： 不管是理解力、可控性还是输出质量，O1 Pro 在深度内容处理方面都非常出色。

3. Deep Research（ChatGPT 提供的功能）

被极大低估的功能

不要被它的名字限制住，“Deep Research” 并不仅仅是做研究报告，它非常擅长大规模的信息整合与再组织。
使用时要充分给它输入足够多的文本或资料，让它能综合网络信息或你提供的文档，再按照你想要的格式和逻辑进行加工。
写几万字的长文都毫无压力，而且对你的观点和要求能跟得很紧。

整体感受：OpenAI 的方案目前仍然是我最常使用的主力工具，特别是在深度创作、复杂指令理解、个性化表达等方面，竞争对手暂时还没有可以“正面对刚”的。

展望：专业能力与 Agentic Workflow

专业能力的进一步提升 通用能力已经卷到极限，未来必然需要在专业场景强化。例如 Anthropic 的编码能力就让很多人看到了“专业模型”大放异彩的可能。
Agentic Workflow 的重要性 未来越来越多应用会基于“Planner—Executor—Evaluator”这样的代理式工作流来完成复杂任务。

Planner / Evaluator 的最佳模型：像 O1 这样的模型，对意图的理解和规划能力无人能及。
Data 的质量：你的输入数据越精确、越高质量，模型输出的上限就越高。
中间 Worker / Executor：通用大模型会慢慢“卷”到大家都能做得不错，但决定你最终成果的，还是 Planner/Evaluator 和数据质量这两大关键点。

总结：

如果你只想做简单操作，又希望一次性把几乎所有资料都丢进模型里，Google Gemini 用起来极为省心。
写代码首推 Sonnet 3.7 + Thinking，“唯一真神”实至名归。
用中文搞文案、风格化输出，DeepSeek R1 可一试，但需要多次调教。
搜索类问题，我更偏爱 Perplexity。
日常最常用，依旧是 OpenAI 系列，尤其是 GPT-4.5、O1/O1 Pro 以及 Deep Research。综合来看，目前还没有其它模型能在深度创作和复杂任务处理上全面超越它。

希望这份使用心得能给同样经常跟大模型打交道的朋友一些参考。如果你也对这些模型有不同体验，欢迎交流探讨！

继续阅读

全部内容

知乎/回答2024年12月9日2 分钟

编程的难点在于哪里？是逻辑、数学、算法，还是模块、框架、接口的掌握？

编程最大的难点其实都不在这些技术层面上，而是在于如何把一个复杂的现实问题转化为计算机可以理解和执行的形式。我之前中提到过一个观点："部署、运维等工具的逐渐标准化使得重复造轮子的需求越来越弱，越来越多的工程师核心任务并不是研发，而是整合（Integration）。"这背后的深意是：现在的编程工作，难点已经从"如何实现"...

知乎/回答2015年12月20日1 分钟

Docker 的应用场景在哪里？

Docker for Data Science at Trulia 和一点感悟 - Hello陈然! - 知乎专栏我们在Trulia Data Science Team 里面推行了Docker。一方面是搭建API做SOA，另一方面也在帮助每一个Data Scientist 都可以直接从最开始算法分析、开发一直做到部署...

知乎/回答2014年12月11日2 分钟

有哪些算法惊艳到了你？

Reservoir Sampling( Reservoir sampling ) 这是我在今年求职过程中面试的时候被问到的，因为之前很少接触Streaming的算法，在听到这个题目的时候被惊呆了，根本不能理解：给一个Streaming的Data，未知长度，要求在Streaming结束后返回N个Data，且是等概率的。...