Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

(用户损失最大?

其实我们不能简单地归结为谁的损失,Claude正在下更大的棋局。

先说说Cursor,最开始它只是个粘合剂,而现在Cursor2.0已经具备了自己的编程模型。

不过,这也没能解决燃眉之急,因为在编程AI的领域,最强的对手依然是GPT和Claude。

TRAE虽然不如Cursor,但有了Claude和GPT的支持,分一杯羹也是可以的。

那是Claude Code和GPT5-Codex还没有发布的时期。

现在,随着Claude Code和GPT5-Codex的问世,AI编程开始利用原生大模型来打击那些依赖于外部工具的编程方式。

目前GPT面临资金问题,因此还不会停止供应,毕竟只要能保持领先并赚得更多,GPT和Gemini也有可能会停供。

不仅Claude在努力,GPT也同样希望能独占市场。

Claude则因为地域限制少了许多,更重要的是它已经具备了自身的实力,不再需要依赖其他编程产品进行推广。

完全可以自给自足。

AI编程最棘手的地方在于Tokens的成本太高。

所有的AI编程都无法逃避这个高昂的Tokens消耗。

就Claude而言,分析到11月时它已经取得了很大突破,Claude Code的运算成本从150K Tokens直接降到2K,节省了98%!

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

前几天我看到Anthropic发布的新技术指南,老实说,看完第一遍我真的沉默了。

150,000个tokens直接降到2,000,这简直不是优化,而是直接的降维打击!

这比Deepseek的3.2降价还要惊人……

既然自己做得了,何必为他人做嫁衣呢?

说实话,这可能是我在2025年看到的最棒的AI Agent优化方案。

老实跟你们说,我之前做的那些多工具Agent项目,API账单看得我都心惊——一个月要$360,000,这谁能承受得了?

现在Anthropic直接把成本降到$4,800,节省了98.7%。

而且,响应时间从20秒缩短到5.5秒。

传统方法把AI模型当成数据中转站,所有中间的数据都得经过一遍,这简直是自寻死路!

这次Anthropic直接把数据处理放在执行环境里,模型只负责生成代码和接收结果,决策层和执行层完全分开了。

看完后,我总结了三个最牛的点:

  1. 环境内处理 – 中间数据不进模型,Token节省99%+
  2. MCP代码API化 – Agent变成程序员,需用的工具自己import
  3. 真金白银验证 – 不是空谈,生产环境每月节省$355,200

搞过多工具Agent的人都知道,眼下的问题根本不是优化能解决的,而是架构性缺陷

如果想要功能全,就得接入一大堆工具;想省Tokens,就只能牺牲功能。

这不是两难选择,而是个死循环。

说实话,企业级的Agent没有50到200个工具根本转不起来。

数据库查询、发邮件、对接Salesforce、Slack协同、GitHub集成,这些都是基本配置。

我之前的项目,光是接入工具就花了两个月。

更麻烦的是调用频次。

一个复杂的工作流动辗转就得10到30次工具调用,链式依赖真是令人痛苦——工具A的输出给工具B,B的输出给C,每次数据都得在上下文中转一圈。

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

传统架构没法并行,只能乖乖地串行执行,看着延迟不断累积。

调用次数和成本的关系:

任务复杂度 调用次数 数据量 Token消耗
简单任务 3-5次 <1KB 2K-5K
中等任务 10-15次 10-50KB 20K-50K
复杂任务 20-50次 100-500KB 100K-500K

MCP (Model Context Protocol)的出现确实是个好消息,它统一了工具接入的标准。

以前每个服务都得搞独立的SDK、认证和数据格式,现在用JSON Schema来定义工具签名,list_tools() API自动发现工具,这样省了不少事。

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

但是!

MCP虽然解决了接口的碎片化,理论上可以接入任意工具,但实际上还是被上下文窗口卡得死死的。

比如说一个项目需要从10万条记录中筛选5条生成报告。

传统方式的天坑流程:

阶段1 – 工具定义预加载:

  • 50个工具定义全塞到上下文中
  • 还没开始干活,5,000 tokens就没了
  • 我当时就觉得有点不对劲

阶段2 – 数据检索(这是重灾区):

  • Agent调用database.query()
  • 100,000条记录 → 全部进上下文
  • Token消耗:100,000条 × 50 tokens = 5,000,000 tokens
  • 延迟:序列化、传输、解析,15秒跑不掉
  • 问题是:10万条里99,995条都是垃圾数据,全进上下文了

阶段3 – 数据过滤:

  • 调用filter()工具
  • 10万条再传一遍(没错,又传一遍)
  • 返回5条结果

阶段4 – 生成报告:

  • 终于只传5条了
  • 但前面已经炸了

总账单

  • Token:5,006,000(约500万)
  • 往返:3次
  • 延迟:20秒
  • 最搞笑的是:10万条数据走了一圈,真正有用的只有5条

流程如下:

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

这说明了什么呢?

传统架构把AI模型当数据总线,所有数据都得经过模型这一关。

模型既要做决策又要当搬运工,Token消耗和数据量成正比,这能不炸吗?

工具定义预加载是第一个大坑。Agent一启动就得把所有工具定义塞进去:功能描述、参数说明(类型、必填项、默认值、验证规则)、返回格式、2-3个使用示例。

50个工具算下来:50 × 100 tokens = 5,000 tokens基础开销。但规模效应是最恶心的:

text{Token消耗} = N_{text{工具}} times (100 + 50 times N_{text{示例}})

200个工具直接20,000 tokens起步。

更搞笑的是工具的利用率。

统计下来,单次任务平均用3-5个工具,利用率只有2.5%。

也就是说97.5%的工具定义tokens都是浪费。

为什么不能按需加载?

因为传统架构要求预先声明所有工具,模型必须”看到”所有选项才能选择。

中间结果传递:数据重复传输的天坑。

Salesforce真实案例:

# 传统方式 - 三次独立工具调用(每次都是煎熬)

# 第一次:搜索
search_result = agent.call_tool("search_salesforce", {
    "query": "active accounts",
    "fields": ["name", "revenue", "status"]
})
# 1000条记录,20,000 tokens,心在滴血

# 第二次:过滤
filtered = agent.call_tool("filter_records", {
    "data": search_result,  # 20K tokens的数据又传一遍
    "condition": "revenue > 1000000"
})
# 过滤完50条,2,500 tokens

# 第三次:汇总
summary = agent.call_tool("create_summary", {
    "data": filtered  # 又传一遍
})
# 终于完事了,500 tokens

# 工具定义:5,000
# 第一次搜索:20,000
# 传给filter:20,000(重复传输!)
# 过滤结果:2,500
# 传给summary:2,500(又重复!)
# 最终结果:500
# 总计:51,000 tokens,每次看到这个数字我都想哭

每次往返500ms,三次加起来1.5秒光在网络上耗着。

数据序列化还有隐性成本。

原始1KB数据转JSON要膨胀到1.5-2KB,膨胀系数1.5-2倍。

模型还得花时间理解JSON结构。

Anthropic的解决思路简单明了:不优化,直接换架构。Agent不再是工具的使用者,而是代码的编写者。MCP服务器不再是函数调用接口,而是代码模块。

核心理念听起来简单,实际操作却是非常复杂:模型不执行工具,而是生成执行工具的代码。

代码在独立环境中运行,数据处理全在环境内完成,模型只接收最终结果。

MCP服务器重构成代码API,从函数调用转变为模块导入(这个转变至关重要)。

// 传统方式(每次调用都是灾难)
agent.call_tool("search", {query: "..."})

// 代码执行方式(简洁清爽)
import { search } from 'mcp-server'

技术实现(TypeScript和Python双支持)!

TypeScript版本:

// mcp-servers/salesforce/index.ts
export class SalesforceClient {
  async search(params: SearchParams): Promise {
    // 这里的实现全在执行环境,模型根本不知道
    const results = await this.api.query(params);
    return results;
  }
  
  async update(id: string, data: object): Promise {
    // 所有操作都在环境内,秒啊
    return await this.api.update(id, data);
  }
}

Python版本:

让开发变得轻松:工具与策略的完美结合

你知道吗?类型提示真的是一个好东西呢!它能够让你的开发体验飞速提升,像IDE的自动补全、类型检查和文档悬停,简直是太方便了。而且,async/await的原生支持也让并发性能大幅提升。

懒加载机制(这可真是省Token的好办法啊)!

传统的做法是:预加载50个工具,结果花费5K tokens。
而现在的代码执行呢?只需导入2个工具,费用为0 tokens

为啥是0呢?

因为导入语句并不占用模型的上下文哦!

动态导入的实现:

// 运行时按需导入,想用啥导啥
const toolName = determineRequiredTool(task);
const module = await import(`mcp-servers/${toolName}`);
const tool = new module.Client();

还有那聪明的search_tools工具发现API,这个设计真是绝了!

async function search_tools(query: string): Promise {
  // 轻量级元数据,每个工具 
    tool.tags.includes(query) || 
    tool.description.includes(query)
  );
  
  // 按相关性和流行度排序
  return matches.sort(byRelevance).map(t => ({ 
    name: t.name, 
    summary: t.summary 
  }));
}

元数据索引在启动时构建一次,后续查询的响应时间小于10ms。结合倒排索引和内存缓存,性能真是杠杠的。

在实际应用中,你可能会看到这样的场景:

  1. Agent需要“发邮件”
  2. 调用search_tools("email") → 返回3个邮件工具(150 tokens)
  3. Agent选择“Gmail Sender”
  4. import { GmailSender } from 'mcp-servers/gmail'
  5. 只加载这个工具,其余197个完全不受影响

工具选择的逻辑呢,是根据描述的匹配度、历史使用频率和上下文的相关性来决定的。

现在的Agent像个程序员,模型的角色从“执行者”变成了“编排者”。它可以生成代码,但却不直接执行工具调用。这就需要保证代码的质量:

  • 使用ESLint和Pylint自动检查语法
  • TypeScript和Python的类型系统进行类型校验
  • 通过代码模板库来复用最佳实践

这样的模板库能有效减少生成错误。例如,数据库查询的标准模板以及API调用重试的模板,都是经过验证的。

确保所有处理在环境内进行:数据绝对不外泄。

执行环境的安全隔离是重中之重!

安全第一,架构包括:沙箱 + 资源限制 + 实时监控

沙箱技术(结合Docker和seccomp的多层防护)

  • 网络隔离:只能访问MCP服务器,禁止其他外部连接
  • 文件系统隔离:代码库是只读的,只有/tmp可以写,避免破坏
  • 进程隔离:独立容器,进程之间完全隔离

资源配额(这些规则是固定的)

  • CPU:2核
  • 内存:4GB
  • 执行

超时会用SIGALRM信号强制终止,如果内存超限,cgroup限制和OOM killer会保护宿主机。

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

核心技术在于数据流的重定向!

Salesforce案例的改写版(对比起来真是差别明显)

// Agent写的代码 - 单个函数搞定所有事
import { salesforce } from 'mcp-servers';

async function getSalesforceSummary() {
  // 阶段1:数据检索(在环境内,模型根本不知道)
  const results = await salesforce.search({
    query: "active accounts",
    fields: ["name", "revenue", "status"]
  });
  // 1000条记录在环境内存里
  // 关键:模型完全不知道这1000条的存在
  
  // 阶段2:过滤(原生JS,环境内操作)
  const filtered = results.filter(record => 
    record.revenue > 1000000
  );
  // 50条结果,还是在环境内
  // 模型依然不知道
  
  // 阶段3:聚合计算(原生reduce和sort)
  const summary = {
    total_accounts: filtered.length,  // 数量统计
    total_revenue: filtered.reduce((sum, r) => 
      sum + r.revenue, 0),  // 收入求和
    top_account: filtered.sort((a, b) => 
      b.revenue - a.revenue)[0]  // 排序取TOP1
  };
  
  // 阶段4:返回结果(只有这个小对象给模型)
  return summary;
  // 模型收到的就是:
  // { total_accounts: 50, total_revenue: 150000000, top_account: {...} }
}

// Token消耗:约100(就这个summary对象)

数据流向图

数据库 → 执行环境内存(1000条,模型不可见)
       ↓ filter操作
       执行环境内存(50条,模型不可见)
       ↓ 计算聚合
       执行环境内存(summary对象)
       ↓ return
       模型上下文(仅summary,~100 tokens)

执行耗时方面:

  • 数据库查询:2秒
  • 环境内过滤:0.05秒
  • 环境内聚合:0.05秒
  • 总计:2.1秒

Token节省的计算:1000条数据从未序列化,50条从未传输,只有summary返回。51K变成了100,节省率高达99.8%

对于中间数据的内存管理,100K条记录在环境内存,模型对此完全无感。选择合适的数据结构也十分重要,比如JavaScript数组或Python列表,原生性能表现最佳。

对于超大数据集,采用Generator逐条处理,避免全量加载:

function* processLargeDataset(data) {
  for (let item of data) {
    yield transformItem(item);  // 逐条处理,省内存
  }
}

实时监控内存:

const memUsage = process.memoryUsage();
if (memUsage.heapUsed > threshold) {
  // 内存快爆了,切换流式处理
}

将50次调用合并成1次(这个优化真是厉害)

// 传统:50次工具调用 = 50次往返 = 25秒等死

// 代码执行:一个循环搞定
const results = [];
for (let i = 0; i < 50; i++) {
  const result = await processItem(items[i]);
  results.push(result);
}
// 总

进阶的并发版本:

// 50个并发请求,0.5秒搞定
const results = await Promise.all(
  items.map(item => processItem(item))
);

并发控制以防止服务器崩溃:

import pLimit from 'p-limit';
const limit = pLimit(10);  // 最多10并发
const results = await Promise.all(
  items.map(item => limit(() => processItem(item)))
);

错误重试机制提升容错能力:

async function retry(fn, times = 3) {
  for (let i = 0; i < times; i++) {
    try { 
      return await fn(); 
    } catch (e) { 
      if (i === times-1) throw e;
      await sleep(1000 * (i + 1));  // 指数退避,别立即重试
    }
  }
}

效果对比:真实的数据带来的影响:

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

Token节省率的计算:

text{节省} = frac{51000 - 100}{51000} times 100% = 99.8%

延迟改善的计算:

text{改进} = frac{20 - 2.1}{20} times 100% = 89.5%

Claude的这一招,真是有不少优势呢!

自己能搞定,完全不用依赖别人来帮忙……

1. Token效率:成本直接腰斩,效果惊人

不同规模的真实成本对比,这个表格让不少老板心痛不已!

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

实施成本就是这些:

  • 环境搭建:$50K(一次性费用)
  • 月维护:$5K

中规模的回本时间为:$50K ÷ $355K = 0.14月3.6天

3年的TCO对比(传统和代码执行):

传统方式:$360K × 36 = $12.96M
代码执行:$50K + ($4.8K + $5K) × 36 = $402.8K

3年能省下:$12.96M – $403K = $12.56M(节省96.9%)

2. 渐进式工具发现:再也不用预加载了

search_tools的完整实现,这个API设计真是绝妙!

// 元数据索引结构
interface ToolMetadata {
  name: string;           // 工具名
  category: string;       // 分类
  tags: string[];         // 标签
  description: string;    // 描述
  summary: string;        // 摘要 <50 tokens
  popularity: number;     // 使用频率
}

// search_tools实现
async function search_tools(query: string): Promise {
  // 1. 加载轻量级索引
  const allTools: ToolMetadata[] = await loadToolMetadata();
  // 200工具 × 50 tokens = 10K tokens(只加载一次)
  
  // 2. 关键词匹配
  const keywordMatches = allTools.filter(tool => 
    tool.tags.some(tag => tag.includes(query.toLowerCase())) ||
    tool.description.toLowerCase().includes(query.toLowerCase())
  );
  
  // 3. TF-IDF相关性
  const scored = keywordMatches.map(tool => ({
    tool,
    score: calculateRelevance(tool, query)
  }));
  
  // 4. 排序:相关性70% + 流行度30%
  const sorted = scored.sort((a, b) => 
    (a.score * 0.7 + a.tool.popularity * 0.3) - 
    (b.score * 0.7 + b.tool.popularity * 0.3)
  );
  
  // 5. 返回TOP10
  return sorted.slice(0, 10).map(s => s.tool);
}

// 相关性计算
function calculateRelevance(tool: ToolMetadata, query: string): number {
  const words = query.toLowerCase().split(' ');
  let score = 0;
  
  for (const word of words) {
    if (tool.name.toLowerCase().includes(word)) score += 10;  // 名字匹配权重最高
    if (tool.summary.toLowerCase().includes(word)) score += 5;
    if (tool.tags.some(t => t.includes(word))) score += 3;
  }
  
  return score;
}

启动时构建倒排索引,查询响应时间小于10ms

// 启动构建倒排索引
const invertedIndex = new Map<string, Set>();

for (const tool of allTools) {
  const words = [...tool.tags, ...tool.description.split(' ')];
  for (const word of words) {
    if (!invertedIndex.has(word)) {
      invertedIndex.set(word, new Set());
    }
    invertedIndex.get(word).add(tool.name);
  }
}

// 查询O(1)复杂度,贼快
function fastSearch(query: string): string[] {
  const words = query.split(' ');
  let results = invertedIndex.get(words[0]) || new Set();
  
  for (let i = 1; i  wordResults.has(x)));
  }
  
  return Array.from(results);
}

Token对比(省得真是夸张):

  • 传统:预加载200工具,花费20K tokens
  • search_tools:返回3个匹配工具,仅需150 tokens
  • 动态导入:import语句 = 0 tokens
  • 总节省:99.25%

3. 大数据处理:不再害怕数据量的挑战

性能曲线的对比显示,数据量越大优势越明显!

Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!

性能的拐点在于100行

少于50行的情况下,传统方式反而更简单,但一旦超过100行,代码执行就大获全胜。

动态策略的选择:

async function processData(dataSource) {
  const estimatedSize = await estimateDataSize(dataSource);
  
  if (estimatedSize < 50) {
    return await traditionalApproach(dataSource);  // 小数据集,传统够用
  } else {
    return await codeExecutionApproach(dataSource);  // 大数据集,代码执行起飞
  }
}

数据管道的构建:

// 链式操作,内存峰值低
const pipeline = data
  .filter(cleanData)           // 清洗
  .map(transformFormat)        // 转换
  .reduce(aggregateByGroup)    // 聚合
  .map(calculateMetrics);      // 计算

// 流式处理超大数据
async function* streamProcess(dataSource) {
  for await (const batch of dataSource.batches(1000)) {
    const processed = batch
      .filter(validate)
      .map(transform);
    yield processed;  // 逐批处理,内存可控
  }
}

对于100K行的数据,内存峰值仅需500MB,而非全量加载所需的5GB

除此之外,还有编程控制流、循环、条件和错误处理都是原生的,50次调用合并为1次执行,延迟减少了25倍;隐私安全方面,敏感数据不进模型,GDPR和HIPAA合规也毫无压力;状态持久化,检查点机制让长任务可以跨会话进行,3小时的任务可以分3次完成;技能生态SKILL.MD文档化,能力可复用,团队效率提升3-5倍等等……

来源:知乎
原文标题:如何评价 Claude 中断对 Trae 的供应,谁的损失更大? – Ivony 的回答
声明:
文章来自网络收集后经过ai改写发布,如不小心侵犯了您的权益,请联系本站删除,给您带来困扰,深表歉意!

《Claude中断对Trae的供应,究竟是谁更亏?听听Ivony怎么说!》有9条评论

发表评论