我 25 天在 Cursor 大号上花了 3018.98 美元
记录一份 Cursor 使用分析报告:个人用量、AI 给出的诊断,以及我准备怎么调整模型和上下文使用习惯。
这是一份 Cursor 使用分析报告的整理。
统计周期是 2026-05-01 到 2026-05-25。这里先说明一下:这只是我 Cursor 大号的用量,不包括 ChatGPT Plus、Claude Pro、Cursor 小号 Pro,以及其他零散的 AI 工具使用。
我的感受是:我不是没有用好 Cursor,而是用得太顺手了。
25 天里,我基本把 Cursor 放进了日常工作的主流程:查代码、改代码、写文档、做方案、复盘日志、整理报告,很多事情都会先问它。问题也很明显:只要习惯变成“顺手就用”,模型档位和上下文范围就容易失控。
先看数据
| 指标 | 我的 5 月数据 |
|---|---|
| 使用事件 | 1,898 次 |
| 总费用 | $3018.98 |
| 活跃天数 | 24 天 |
| 活跃日均费用 | 约 $126 |
| 使用模型 | 10 种 |
| Cache 命中率 | 94.1% |
| 深度评分 | 97.1 |
按活跃日算,每天大约 79 次交互、126 美元成本。
这不是“偶尔问几个问题”的用法,而是把 AI 放进了工作流主干。
报告给我的标签是:深度用户、探索型、高风险。
“深度用户”很好理解:我用得多,场景也多。“探索型”也准确:我在 10 种模型之间来回试,什么任务都想看看哪个模型更顺手。
“高风险”不是说安全风险,而是成本结构风险:同样一件事,我可能用了过重的模型、过长的上下文、过深的推理档位。
钱主要花在三个地方
这份报告有用的地方,是把钱花在哪里拆出来了。
第一,Opus 用得太顺手
我的模型费用里,Opus 旗舰模型占了 76.3%。
其中 claude-opus-4-7-thinking-xhigh 一项就用了 1,039 次,花费 $2216.16,占我总费用的 73.4%。它的单次均费是 $2.133。
对比一下:
| 模型 | 请求数 | 费用 | 单次均费 |
|---|---|---|---|
| Opus thinking xhigh | 1,039 | $2216.16 | $2.133 |
| GPT-5.5 medium | 400 | $330.50 | $0.826 |
| GPT-5.5 extra-high | 223 | $324.28 | $1.454 |
| Sonnet 普通档 | 50 | $18.70 | $0.374 |
| Auto | 24 | $4.10 | $0.171 |
Opus 很强,尤其适合跨文件推理、复杂方案设计、长链路排障、对混乱上下文做判断。但问题在于,我并没有严格区分“必须用 Opus 的任务”和“普通模型足够的任务”。
很多时候,我是默认相信贵模型,懒得切。
这里的问题不是“不知道便宜模型能做”,而是切模型本身也要判断。懒得判断,就容易默认用最强的。
第二,Thinking 开得太多
我的 Thinking 费用占比是 77.0%,事件占比是 61.1%。
Thinking 模式的价值在于让模型多做推理,适合设计、排查、解释复杂系统。但如果只是改一段文案、整理一段 Markdown、写一个简单脚本,Thinking 往往不是必要条件。
报告里对 Thinking 的判断也比较明确:它不是不能用,而是应该当作“推理增强档”,不是默认档。
我之前的使用方式更像是:
只要不确定,就上 Thinking。
更合理的方式应该是:
只有任务真的需要多步推理时,才上 Thinking。
这两个习惯只差一个开关,月底账单会差很多。
第三,超长上下文吞掉了大头
我个人最贵的问题不是 Max Mode。事实上,我的 Max Mode 费用占比是 0。
花钱最多的是超长上下文。
报告显示,我有 387 条超过 2M Token 的事件,费用 $1899.62,占个人总费用 62.9%。
粗算一下:
- 超长上下文事件:387 次,约 $4.91 / 次
- 非超长上下文事件:1511 次,约 $0.74 / 次
也就是说,一次超长上下文请求的平均成本,大约是普通请求的 6.6 倍。
这解释了为什么有时候明明只是“让 AI 看看这个问题”,账单却突然跳得很快。Cursor 能吃很多上下文,但不代表每次都要把上下文塞满。
我以前经常把“上下文给足”理解成“尽量多给”。现在看,应该改成:
上下文要够,但不能无脑大。
Cache 用得不错
这份报告里,我最不需要改的是 Cache。
我的 Cache 命中率是 94.1%。这说明我至少有一个习惯是对的:同一个任务会尽量在同一个 Chat 里持续推进,而不是每个小问题都开新会话。
Cursor 的长会话如果维护得好,后续交互会大量命中 Cache Read,既省钱,也让模型更理解上下文。频繁新开 Chat 的问题是,每次都要重新解释背景,既浪费时间,也浪费 token。
所以我对自己的结论不是“少用 Cursor”,而是:
保持会话连续性,但减少无意义的大上下文。
后面准备怎么改
我不准备减少 Cursor 的使用,而是改掉几个明显费钱的习惯。
规则一:先分任务,再选模型
以后每次打开 Cursor,先判断任务类型:
- 简单改文案、补类型、改样式:用 Auto、Composer 或轻量模型。
- 日常自动化、批量整理、固定格式转换:交给能用的最便宜模型。
- 单文件/少量文件改造:用 Sonnet 或 GPT 中档。
- 跨模块重构、复杂 Bug、方案设计:用 Opus high。
- 真正需要长链路推理、风险很高的判断:再考虑 Opus xhigh。
模型不是身份象征,是工具档位。
规则二:工具类任务尽量 CLI 化、Skills 化
如果一个任务会重复出现,就不要每次都重新写 Prompt。
比如周报、代码检查、日志分析、文章发布、数据清洗、固定格式报告,这类事情应该尽量沉淀成 CLI 命令、脚本或者 Skill。人的工作是定规则和验结果,不是每次把同一段背景重新讲一遍。
这样做有两个好处:
- 输入更短,不需要反复解释上下文。
- 模型可以更便宜,因为流程已经被代码和 Skill 固化了。
规则三:可编排任务考虑 Cursor SDK
Cursor 已经有 SDK 了,后面一些“让 AI 按流程完成任务”的场景,可以不只停留在手动 Chat 里。
比如把一个需求拆成:读取仓库、定位文件、修改代码、跑测试、生成总结。过去这类事情更像一次手动对话;有 SDK 之后,可以用脚本把 Agent 调起来,让它在固定目录、固定模型、固定检查步骤里跑。
这类场景不一定要上最贵模型。日常自动化可以先用便宜模型,只有在失败、需要复杂判断、或者要做最终 review 时,再切到更强的模型。
规则四:先让 AI 找范围,再让 AI 深入读
以前我容易一上来就把大范围上下文塞给 Cursor。
更好的流程应该是两步:
- 先让 AI 根据文件名、目录结构、关键词搜索判断可能相关的范围。
- 再把真正相关的文件和片段交给强模型深入分析。
这相当于先做范围收敛,再用强模型做判断。
很多超长上下文其实不是因为任务复杂,而是因为我偷懒跳过了“缩小范围”这一步。
规则五:Thinking 只给需要推理的任务
Thinking 很适合这些场景:
- 多因素权衡的架构设计
- 难复现 Bug 的根因分析
- 跨文件行为链路梳理
- 安全、稳定性、成本相关的判断
- 需要反驳自己方案的 review
但它不适合当万能默认值。
如果任务只是“把这段整理成更通顺的中文”,我不需要一个旗舰模型在后台展开长链路推理。
规则六:把一次好对话沉淀成模板
报告说我是“探索型”。这个标签挺准:我愿意试,也容易试过头。
下个月我想做的不是减少探索,而是把有效探索沉淀下来:
- 好用的 Prompt 变成模板。
- 常见任务形成模型选择规则。
- 长上下文任务先写检索步骤。
- 每周回看一次最贵的几条请求。
我想保留探索,但不想每次都从零开始试。
我的下月 Cursor 使用策略
如果把这次复盘变成行动清单,我会这样改:
- 默认不从 Opus xhigh 开始。 除非明确是复杂推理任务,否则先用中档模型。
- 超过 2M Token 的任务必须停一下。 先问:能不能拆文件、拆阶段、拆问题?
- 一个任务一个 Chat。 保留 Cache 优势,不把 unrelated 的事情混在同一个会话里。
- 重复任务先做成 CLI 或 Skill。 不把固定流程反复交给高价模型自由发挥。
- 自动化任务优先用便宜模型。 只有失败重试、复杂判断和最终 review 才升级模型。
- 适合编排的任务尝试 Cursor SDK。 把“让 AI 实现一个任务”从手动对话变成可复用脚本。
- 复杂任务先写计划,再动手。 先用 AI 列搜索范围和验证方式,再让它写代码或报告。
- 月底复盘 Top 10 最贵请求。 不只看花了多少,还看那次请求是否真的值得。
我不想把 Cursor 当成一个必须压缩的成本项。它确实提高了我的判断速度、试错速度和表达速度。
但用得粗,它就会把“懒得判断”变成账单。
最后
过去我们评价一个工程师怎么用工具,常常看效率:写得快不快、查得准不准、交付稳不稳。
AI 编程之后,还要多看一层:你有没有把任务复杂度和模型成本匹配起来。
我的 5 月账单不低,而且这还只是 Cursor 大号。再加上 ChatGPT Plus、Claude Pro、Cursor 小号 Pro,AI 工具已经不是“偶尔试用”的支出,而是一项长期的工作成本。
真正要改的不是“少用”,而是“分层使用”。
下个月,我希望看到的不是 Cursor 使用次数下降,而是这三个数字下降:
- Opus xhigh 占比
- Thinking 默认开启比例
- 超长上下文费用占比
如果这些下降了,而产出没有下降,那说明模型调度这件事开始变得像样了。