自选
我的自选
查看全部
市值 价格 24h%

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

代理商的PageRank问题:为什么我们的AI助手需要裁判?

2025-12-11 16:08:21
收藏

我订阅了近六种人工智能模型和智能体:Anthropic的Claude、谷歌的Gemini、OpenAI的ChatGPT、Perplexity等等。虽然我不会一直使用所有这些模型和智能体,但我会根据不同的任务选择不同的模型和智能体。

别评判我。试试看选个AI代理来帮你换保险计划。有的AI代理可能擅长比较保费,有的能准确指出保障缺口,有的能提醒你前两个都忽略了的问题,有的甚至可能直接告诉你根本没必要换计划。不出几分钟,你就会发现自己疲于应付各种似是而非的建议,一遍又一遍地重复输入相同的信息,在那些阿谀奉承的AI模型面前,开始怀疑自己的判断力。

原本应该是一件简单的财务差事,却感觉像是在协调一个没有共同思维的小团队。

那种感觉很令人沮丧,因为你发现自己需要更多帮助才能摆脱那些你曾经寻求帮助的工具。但这就是我们解决旧问题时会发生的情况:我们反而会制造出新的问题。

即使人工智能代理的数量不断增加,最令人担忧的问题之一是缺乏一致性。我如何才能清楚地知道应该信任哪些代理,以及哪些代理会协同工作来解决我的问题?

Recall CEO Andrew Hill在Saurabh Deshpande为我们的合作伙伴Decentralised.Co主持的播客节目中回答了我的一些问题,并提出了新的问题。在今天的文章中,我将回顾该节目中的一些要点,他在节目中讨论了他们如何建立一个策展层来协调AI代理。

需要记分牌

如今,人工智能代理就像早期互联网时代的网站一样——数量过多,每个网站都充斥着铺天盖地的营销信息,让用户难以信任任何一个。这种数量过多的问题不可避免,就像历史上任何其他创新一样。我们现在需要的是一种如何驾驭它们的方法。

Recall算法类似于谷歌的PageRank算法,用于对人工智能代理进行排名。该系统允许人工智能代理通过执行真实任务进行竞争,并根据其表现进行排名。

这改变了用户与人工智能代理的交互方式。在此之前,我只能根据代理的宣传册或营销内容来选择。更糟糕的是,我有时会听从朋友的推荐,结果用完之后却在心里暗骂他们。作为用户,我很少有机会真正考验代理的性能。我能取得的最好成绩,取决于我能否有效地引导用户,并祈祷代理不会表现得像个马屁精。

竞赛机制及其排名机制改变了游戏规则。它迫使智能体在公开、相似的条件和约束下,基于相同的数据运行,没有任何隐藏的余地。这对于没有时间在五个不同的智能体上测试同一提示的用户来说非常有用,更不用说为每个智能体定制不同的版本了。

像Recall这样的内容筛选层可以做到用户无法做到的事情。它将质量量化为基准指标,并帮助用户根据自身需求做出决策。

还有另一个优势。竞争促使代理商不断改进,力求做到最好。毕竟,胜负关乎能否赢得或失去一位新用户,他们怎能不努力呢?这些竞争激励着开发者完善策略、减少不切实际的想法,并解决不足之处。

在像Recall这样的系统中,智能体会参与多轮竞赛,每次都会重新评估它们的基准分数。这让用户相信智能体是在不断进化,而不是一成不变的。

这些竞赛在加密货币市场交易领域非常有效,因为该领域的数据流稳定且丰富。对于像Recall这样的公司来说,评估和排名参赛者也很简单,因为结果客观:谁能带来最高风险调整后收益的投资组合,谁就获胜。

然而,当我们从客观衡量标准转向需要主观评价的技能和市场时,记分牌的概念就发生了变化。

中立性论证

回忆测试的客观性只能取决于它所衡量的任务本身。当Saurabh问Andrew回忆测试将如何处理那些需要根据主观结果评价个体的技能时,这让我想起了我的同事Thejaswini五个月前写的一篇文章。

在那篇文章中,特贾斯维尼探讨了预测市场机制原本完美无瑕,直到人为解读导致其失效。当人们必须决定哪些算作“牌局”,哪些不算作“牌局”时,争论就开始了。这些人有动机利用自身的影响力,从这种模糊性中获利。而就在那一刻,一致通过或多数人通过的协商推翻了原本已建立的系统化预测机制。

即使在智能体排名系统中,当需要在主观环境下对智能体的表现做出决策时,问题就出现了。如果由专家进行评判,他们的偏见可能会影响结果。

安德鲁说:“在主观性较强的情况下,少数专家可以给出正确答案,并对所有智能体保密。我们可以给智能体布置更多任务,并使用最终结果来衡量它们的表现。”

安德鲁还讨论了另外两种评估主观结果的方法。一种方法是让大众对输出结果进行两两比较,另一种方法是构建一个人工智能评判网络来评判表现。

然而,即使是安德鲁给出的例子,我也对这些方法有所顾虑。

例如,在某个代理人使用人工智能构建客户支持系统,并希望确保该系统不会对用户带有贬损意味的情况下,Andrew提到,这将涉及到人工驱动的测试。

他还补充说,罢免小组正在努力分散法官人数,以确保公平。但这说起来容易做起来难。

如果允许代币持有者根据与特定代理的互动情况来提升其排名,那么资金雄厚的持有者可能会主导舆论走向。即使是人工智能裁判也可能带有其创造者的偏见。这些风险都不会在一夜之间摧毁整个系统,但它们会逐步损害中立性的神圣性。

这就是为什么竞赛形式最适合各种技能的竞赛,因为竞赛结果客观且无可争议。最终,排行榜可能会变得难以评判。这可能类似于阅读产品网站上的用户评价和评论——都是经过筛选和精心挑选的。

这并非意味着内容审核机制不必要。只是说,用户对这些机制的信任必须通过安全保障措施来建立。那些有能力帮助用户选择合适代理的系统,完全可以决定哪些代理能够生存,哪些代理会被淘汰。如此大的权力理应受到严格审查。

只有经过严格审查,才能推动这些层级实施多重制衡机制,以确保经纪人排名的公平性和透明度。

在此之前,保持好奇心。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
最新文章