MCP火了一年,做行业Agent都卡在了数据源
2026-06-01来源:百炼智能智能获客营销获客
去年这个时候,MCP还是个新词。一年过去,能看到的协议层服务器已经爆炸式增长,主流厂商也都在推自己的实现。但真正用Agent解决业务问题的同行应该都有同一个感受:我们这一年接触过几十个做行业Agent的团队,大家最后卡住的,几乎都在同一个地方——找不到一个能直接挂上去用的、靠谱的垂类数据源。最近被问得最多的一个问题是:你们怎么判断一个行业数据源能不能用?我把我们自己的判断标准整理一下,一共5条,按重要性排序,分享给同行参考。很多数据厂商喜欢报一个“2亿条”“3亿条”的总量。覆盖:你的目标行业、目标省份、目标采购类型在不在范围内。招投标里央企采购、地方政府采购、地方国企采购、医疗采购、教育采购,不同来源的覆盖完全不同。一个号称“3亿条”的数据源,可能在你客户最在意的医疗采购上是空的。时效:从公告原始发布到你的接口能查到,差多久。如果差7天,做实时商机监控这种场景就废了。客户拿到的“新机会”全是上周的旧闻。回溯:历史数据能回到多少年前。做企业画像、行业趋势、价格走势,回溯不够长,分析就站不住脚。同一家公司在不同公告里能有几十种写法。带不带“有限”、带不带分公司、用全称还是简称、有没有错别字、是不是用了曾用名、合并前后名字变了没。如果数据源没在背后做实体对齐,Agent查“某公司过去三年中过哪些标”,结果会缺一大半,而且用户根本不知道缺了。更恶心的是项目去重。同一个采购可能被五六个地方网站重复发布,有的网站还会发“更正公告”“废标公告”“重新招标公告”。如果都当成新项目计入,Agent给出的数据全是虚高的。这一类脏活的工作量,往往比对接接口本身大十倍。一个数据源在这件事上做了多深,是体感最容易感受到、但销售最不愿意聊的事。给一个比较简单的对比方法,拿几家你客户最关心的公司,让对方现场查一下中标记录,自己对比工商信息和新闻里看到的能不能对得上。差异越大,水越深。
字段粗,Agent只能做关键词搜索——“帮我找一下最近的招标”。字段细,Agent才能做真正有价值的分析——“过去一年这家招标人采购同类产品的均价区间”“中标方是新进入者还是老供应商”“有没有围标嫌疑”。这一条是新一代数据底座和老牌招投标数据库差距最大的地方。市面上不少做了十几年的招投标数据库,字段颗粒度其实还停在十年前,只有标题、招标人、中标人、金额几个基础字段,做关键词搜索可以,做Agent的时候只能当索引用,深一点的问题就答不动了。· 中标产品有没有拆到品牌、型号、单价、数量这一层。· 评标专家、评标方法、投标资质要求是不是结构化提取出来,而不是只在原文里。· 投标公司、投标金额是不是单独成字段,能不能做陪标分析、中标率分析。· 同一项目的招标、更正、中标、废标能不能用项目编号串成一条时间线。字段粗的数据源,做出来的Agent只能停在搜索那一层;字段细的数据源,做出来的Agent才有机会真正像个分析师。这一条很多技术决策者会忽略,但一旦你的客户开始正经付费,就会被法务问到。数据来源:是从公开公告、政府平台合规采集的,还是从灰色渠道拿来的。后者短期看不出差别,但你卖给客户、客户再用到自己的业务里,链路上的合规风险全压在你身上。商用授权:数据源给你的授权范围,能不能覆盖你“卖给客户用”这个场景。有些数据源的标准协议是“自用”,你拿去做成产品服务卖给客户,是越权。很多团队评估数据源时,把“接口能调通”作为终点。其实工程友好度差一截,开发成本和后期维护成本会差一个量级。API是不是标准RESTful,错误码全不全,限流策略合不合理,文档是不是真能照着跑通。有没有原生的MCP支持。这一条在2025年之前不重要,但今年开始变成核心指标。原生MCP意味着你不用自己再包一层把数据源接进Agent,工程上能省掉至少一个迭代周期。我们这一年看到不少团队,光是“把一个非MCP数据源包装成MCPserver”这件事,就花掉两三周。这也是“知了标讯AI开放平台”一开始就原生支持MCP的原因——接入成本压低一截,数据源真正在客户那里跑起来的概率才高。
回到开头那句话。MCP这一年的爆发,让协议层成了红海,但行业Agent真正能不能跑出来,正在被数据源这件事卡住。上面这5条,其实就是我们当初决定做“知了标讯AI开放平台”时给自己定下的目标。实践下来,最难的是第二条和第四条;第五条因为MCP生态本身在成熟,反而比预想的快。如果你也在做行业Agent,这几条标准可以当作选数据源时的体检表。不只看你现在用的怎么样,也看你下一个要换的怎么样。