logologo
logo010-64933134

MCP火了一年,做行业Agent都卡在了数据源

2026-06-01来源:百炼智能智能获客营销获客

去年这个时候,MCP还是个新词。一年过去,能看到的协议层服务器已经爆炸式增长,主流厂商也都在推自己的实现。
但真正用Agent解决业务问题的同行应该都有同一个感受:
协议层不是瓶颈。
我们这一年接触过几十个做行业Agent的团队,大家最后卡住的,几乎都在同一个地方——找不到一个能直接挂上去用的、靠谱的垂类数据源。
招投标方向尤其明显。
最近被问得最多的一个问题是:你们怎么判断一个行业数据源能不能用?
我把我们自己的判断标准整理一下,一共5条,按重要性排序,分享给同行参考。
一、覆盖和时效,比“多少亿条”重要
很多数据厂商喜欢报一个“2亿条”“3亿条”的总量。
这个数字其实意义不大。
真正要看的是三件事:
覆盖:你的目标行业、目标省份、目标采购类型在不在范围内。招投标里央企采购、地方政府采购、地方国企采购、医疗采购、教育采购,不同来源的覆盖完全不同。一个号称“3亿条”的数据源,可能在你客户最在意的医疗采购上是空的。
时效:从公告原始发布到你的接口能查到,差多久。如果差7天,做实时商机监控这种场景就废了。客户拿到的“新机会”全是上周的旧闻。
回溯:历史数据能回到多少年前。做企业画像、行业趋势、价格走势,回溯不够长,分析就站不住脚。
这三件事任何一件没解决,“亿”这个量词都是空的。
二、实体对齐,是脏活里最脏的那个
做过NLP或数据处理的同行应该都吃过这个亏。
同一家公司在不同公告里能有几十种写法。带不带“有限”、带不带分公司、用全称还是简称、有没有错别字、是不是用了曾用名、合并前后名字变了没。
如果数据源没在背后做实体对齐,Agent查“某公司过去三年中过哪些标”,结果会缺一大半,而且用户根本不知道缺了。
更恶心的是项目去重。同一个采购可能被五六个地方网站重复发布,有的网站还会发“更正公告”“废标公告”“重新招标公告”。如果都当成新项目计入,Agent给出的数据全是虚高的。
这一类脏活的工作量,往往比对接接口本身大十倍。一个数据源在这件事上做了多深,是体感最容易感受到、但销售最不愿意聊的事。
给一个比较简单的对比方法,拿几家你客户最关心的公司,让对方现场查一下中标记录,自己对比工商信息和新闻里看到的能不能对得上。差异越大,水越深。
三、字段颗粒度决定Agent能答多深的问题
字段粗,Agent只能做关键词搜索——“帮我找一下最近的招标”。
字段细,Agent才能做真正有价值的分析——“过去一年这家招标人采购同类产品的均价区间”“中标方是新进入者还是老供应商”“有没有围标嫌疑”。
这一条是新一代数据底座和老牌招投标数据库差距最大的地方。
市面上不少做了十几年的招投标数据库,字段颗粒度其实还停在十年前,只有标题、招标人、中标人、金额几个基础字段,做关键词搜索可以,做Agent的时候只能当索引用,深一点的问题就答不动了。
判断一个数据源的字段颗粒度,看几个具体的东西:
· 中标产品有没有拆到品牌、型号、单价、数量这一层。
· 评标专家、评标方法、投标资质要求是不是结构化提取出来,而不是只在原文里。
· 投标公司、投标金额是不是单独成字段,能不能做陪标分析、中标率分析。
· 同一项目的招标、更正、中标、废标能不能用项目编号串成一条时间线
字段粗的数据源,做出来的Agent只能停在搜索那一层;字段细的数据源,做出来的Agent才有机会真正像个分析师。
四、商用合规,是绕不开的坎
这一条很多技术决策者会忽略,但一旦你的客户开始正经付费,就会被法务问到。
要看清楚两件事:
数据来源:是从公开公告、政府平台合规采集的,还是从灰色渠道拿来的。后者短期看不出差别,但你卖给客户、客户再用到自己的业务里,链路上的合规风险全压在你身上。
商用授权:数据源给你的授权范围,能不能覆盖你“卖给客户用”这个场景。有些数据源的标准协议是“自用”,你拿去做成产品服务卖给客户,是越权。
这一条不是有没有的问题,是早晚的问题。
五、工程友好度,看API也看MCP
最后一条最被忽略。
很多团队评估数据源时,把“接口能调通”作为终点。其实工程友好度差一截,开发成本和后期维护成本会差一个量级。
具体看几样:
API是不是标准RESTful,错误码全不全,限流策略合不合理,文档是不是真能照着跑通。
SDK主流语言覆不覆盖,更新跟不跟得上。
有没有原生的MCP支持。这一条在2025年之前不重要,但今年开始变成核心指标。原生MCP意味着你不用自己再包一层把数据源接进Agent,工程上能省掉至少一个迭代周期。
我们这一年看到不少团队,光是“把一个非MCP数据源包装成MCPserver”这件事,就花掉两三周。
这也是“知了标讯AI开放平台”一开始就原生支持MCP的原因——接入成本压低一截,数据源真正在客户那里跑起来的概率才高。
写在最后
回到开头那句话。MCP这一年的爆发,让协议层成了红海,但行业Agent真正能不能跑出来,正在被数据源这件事卡住。
上面这5条,其实就是我们当初决定做“知了标讯AI开放平台”时给自己定下的目标。实践下来,最难的是第二条和第四条;第五条因为MCP生态本身在成熟,反而比预想的快。
如果你也在做行业Agent,这几条标准可以当作选数据源时的体检表。不只看你现在用的怎么样,也看你下一个要换的怎么样。

百炼智能,加速企业增长

洞察商业情报,大数据精准获客