知乎/回答
6 分钟

当前AI大模型哪家最好用?各家主要擅长哪些领域?普通人使用,推荐哪个?

作者

创建于

修改于

发布于知乎/回答

作为一个日常工作中有超过 50% 时间都在与各种大模型对话的人,想跟大家分享一下我在使用各个主流模型时的一些体验和感受。

Google Gemini 系列

  • 优点:
  1. 极其便宜:无论是免费额度还是付费使用,价格都非常有优势。
  2. Context Window 超级大:1-2M 的上下文长度,基本能覆盖绝大部分任务场景,几乎让人不再需要额外做 RAG(Retrieval-Augmented Generation)。直接把海量资料丢进去就行,对很多简单的文档抽取、问答、生成表格等都能胜任。
  • 缺点:

整体来说,Google Gemini 像一个脑容量巨大但思维没那么灵活的“笨大个”,简单任务很好用,但稍微复杂一些就有点力不从心。不过它那夸张的 Context Window 真的是一大 killer feature。

Anthropic Sonnet 系列(3.5 / 3.7 + Thinking)

  • 写代码的无敌选手 特别是 3.7 + Thinking,这套模型在写代码方面几乎是“唯一真神”。从 3.5 版本开始,Anthropic 在 coding 场景就已经非常厉害,很多厂商的模型都无法超越。如今 3.7 + Thinking 更是“吊打”其他同类。
  • 实践经验:
  1. 如果你的产品需求文档(PRD)写得足够详细,信息量足够大,它一次性生成几千行代码时,正确率都能接近 100%。
  2. 最大难点在于如何保证 Context Window 一直可用。要让它拥有和你同样的上下文,需要想办法把代码库或关键信息进行总结,打包给它参考。
  3. 总体而言,在写代码这个领域,Anthropic 真的非常好用。

DeepSeek R1

  • 中文表达很有“特色” 特别是带有强烈风格化的写作,比如写小红书爆款文案等,有时会给人惊喜。不过如果你要更严肃、系统的内容,DeepSeek R1 有时会“蹦”出一些非常奇怪的炫技段落,让人感觉它的思维方式“很量子力学”,需要反复调教,才能符合需求。
  • 因此我个人使用并不多,但如果你要做一些文案类、风格性强的写作,R1 还是值得一试。

Perplexity

  • 搜索 & 素材整理好帮手 Perplexity 送了一年免费会员之后,我现在几乎不用 Google Search 了,只用它来搜集素材。
  • Deep Research 功能 感觉没有名字看起来那么“Deep”,而且大概是因为免费用户过多、成本较高,检索到的内容越来越短,深度也不够。“Deep Research” 并不算真正意义上的“深度搜索”,但用来做一般的资料收集还是非常好用。

OpenAI 系列模型

在我看来,OpenAI 系列仍然是目前使用体验最顶级、综合能力最强的一批模型,尤其是在日常对话、辅助写作、信息整合、深度创作上非常出色。

1. GPT-4.5

  • ChatGPT 订阅用户使用更划算 如果是通过 API 用 4.5,价格实在偏贵,意义不大。但如果你在 ChatGPT 中订阅使用,就会发现它对你的意图理解更准确,表达更加细腻,明显比 4o 更上一层楼。
  • 日常交互体验好 在平时写文章、回答问题时,4.5 的表现能让人感觉到交流顺畅,更能“读懂”你的潜台词。

2. O1 / O1 Pro

  • 我的“老大哥”模型 对意图的理解、对 Prompt 的遵循以及规划(planning)能力非常强。
  • 常用场景:
  1. Agentic Workflow:在需要 planner 和 executor 配合的场景中,如果把 O1 Pro 放到 planner 这个角色,效果堪称完美。
  2. 大规模内容整合:日常会用 Perplexity 搜一些资料,然后把资料丢给 O1 Pro,请它按照指定格式输出,如撰写一篇深度报道、插入故事和观点等。这种深度再加工,几乎无可替代。
  • 综合评价: 不管是理解力、可控性还是输出质量,O1 Pro 在深度内容处理方面都非常出色。

3. Deep Research(ChatGPT 提供的功能)

  • 被极大低估的功能
  1. 不要被它的名字限制住,“Deep Research” 并不仅仅是做研究报告,它非常擅长大规模的信息整合与再组织。
  2. 使用时要充分给它输入足够多的文本或资料,让它能综合网络信息或你提供的文档,再按照你想要的格式和逻辑进行加工。
  3. 写几万字的长文都毫无压力,而且对你的观点和要求能跟得很紧。

整体感受:OpenAI 的方案目前仍然是我最常使用的主力工具,特别是在深度创作、复杂指令理解、个性化表达等方面,竞争对手暂时还没有可以“正面对刚”的。

展望:专业能力与 Agentic Workflow

  • 专业能力的进一步提升 通用能力已经卷到极限,未来必然需要在专业场景强化。例如 Anthropic 的编码能力就让很多人看到了“专业模型”大放异彩的可能。
  • Agentic Workflow 的重要性 未来越来越多应用会基于“Planner—Executor—Evaluator”这样的代理式工作流来完成复杂任务。
  1. Planner / Evaluator 的最佳模型:像 O1 这样的模型,对意图的理解和规划能力无人能及。
  2. Data 的质量:你的输入数据越精确、越高质量,模型输出的上限就越高。
  3. 中间 Worker / Executor:通用大模型会慢慢“卷”到大家都能做得不错,但决定你最终成果的,还是 Planner/Evaluator 和数据质量这两大关键点。

总结:

  • 如果你只想做简单操作,又希望一次性把几乎所有资料都丢进模型里,Google Gemini 用起来极为省心。
  • 写代码首推 Sonnet 3.7 + Thinking,“唯一真神”实至名归。
  • 用中文搞文案、风格化输出,DeepSeek R1 可一试,但需要多次调教。
  • 搜索类问题,我更偏爱 Perplexity。
  • 日常最常用,依旧是 OpenAI 系列,尤其是 GPT-4.5、O1/O1 Pro 以及 Deep Research。综合来看,目前还没有其它模型能在深度创作和复杂任务处理上全面超越它。

希望这份使用心得能给同样经常跟大模型打交道的朋友一些参考。如果你也对这些模型有不同体验,欢迎交流探讨!