• 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

DGrid AI最新研究:攻克去中心化AI评分的核心缺陷

2026-06-18 19:43:36
收藏

DGrid AI 推出全新质量证明框架,优化去中心化网络的 AI 输出评估与奖励分配

摘要

DGrid AI 新提出的质量证明(PoQ)研究引入了无参考答案的评分机制,可在无需正确答案的情况下对 AI 节点进行奖励。研发团队训练了专门的 AI 裁判模型,用以评估输出质量,从而在规模化层面改进去中心化 AI 的奖励系统。DGrid AI 的全新质量证明模型帮助去中心化 AI 网络在不依赖基准真相数据的情况下准确评估回答质量。

奖励体系的核心挑战

去中心化 AI 网络长期存在一个支付难题,研究人员多年来一直在悄然尝试绕开它。DGrid AI 近期发表的一篇论文将这个问题直接摆上了台面。目前用于节点奖励的质量评分系统,很大程度上依赖于手头持有正确答案作为比对基准——而在实际生产环境中,正确答案几乎不存在。

这篇论文是 DGrid 关于质量证明(PoQ)系列研究的第四篇,提出了一种经过训练的替代方案,并公布了背后的数据。PoQ 使用小型评估模型对每个输出进行质量打分,这些分数直接驱动奖励分配。方法简单、成本低廉,并且具备可扩展性。

DGrid 的构建过程层层递进:首先推出一个“成本感知版本”,将延迟因素纳入奖励计算;接着增加“对抗鲁棒层”,以应对评估者撒谎或偷懒的情况;最后提出一个框架,将“质量”拆解为多个可审查的维度。这些工程设计虽扎实,但每一层都不断撞上同一堵墙。

评分问题的演变

去中心化推理网络的基本结构本身就带来了衡量难题。独立节点运行语言模型并响应用户查询,这些响应需要被评分——因为分数决定报酬。对每一次计算进行密码学验证在技术上虽无懈可击,但在大规模应用时成本过高。因此,实际可行的路径是使用小型模型进行自动化质量评估。

DGrid 先前的工作逐步推进了这一方法:加入延迟调整后的报酬计算、防御操纵评分的机制,以及对“质量”在评分语境中更细粒度的定义。然而,它始终未能完全解决评估信号本身的问题。团队最强的信号是语义相似度——将模型输出与已知正确答案进行比较,测量两者在嵌入空间中的距离。这种方法在拥有参考答案的基准测试环境中有效,但在实时网络中,用户提出的是开放式问题,数据库中并没有等待匹配的基准真相。

现成的替代方案测试效果更差。一种旨在评估句子间逻辑蕴含关系的 NLI 交叉编码器,在无参考答案的情况下用于评价回答质量时,皮尔逊相关系数仅为 −0.363。负相关意味着该模型更倾向于给劣质回答打高分——这显然不是一个可用的评估工具。

论文提出的方案

研究人员并未直接改造现有模型,而是专门训练了三个裁判模型,用于无参考答案的质量评分。每个模型以问题和回应作为输入,输出 0 到 10 之间的分数,过程中不提供任何正确答案。

三个模型主要在规模和速度上有所区别:

TextCNN(约 1000 万参数)每次调用约需 1 毫秒,适用于高通量的初步筛选;MiniLM(2200 万参数)运行时间约 13 毫秒,性能居中;DeBERTa(1.84 亿参数)约需 15 毫秒,侧重准确率。

训练采用两阶段流程:首先在 UltraFeedback(一个由 GPT-4 标注质量的公开数据集)上进行预训练,然后针对网络自身的任务分布进行微调。目的是先让裁判模型建立广泛的质量基线,再聚焦于具体的评分场景。

核心成果

在一个包含 300 个样本的预留测试集上,DeBERTa 裁判模型在不依赖任何参考答案的情况下,与基准真相代理指标的皮尔逊相关系数达到了 0.747。而之前框架中那些拥有参考答案的评估器,最高仅能达到 0.647。

这一差距有直接的解释:旧评估器是通过测量输出与参考答案嵌入之间的余弦距离来判定相似度的指标;而新裁判模型则针对评分任务本身进行了端到端优化。性能差异更多反映了这一区别,而非架构上的突破。作者也指出一个注意事项:此处使用的基准真相本身也是一种代理指标——基于词级别的重叠程度,而非人类判断。裁判模型与这一指标有良好相关性,但词汇重叠是否可靠地反映了人类认为的优质回答,仍然是一个有待解决的独立问题。

与裁判模型配套的还有两个面向部署的功能:一是级联管道,先用轻量模型处理查询,仅在得分模糊时才升级到更重的模型。在最激进的阈值设置下,评估成本降低高达 72.7%,但相关系数在此配置下降至约 0.51。二是在线校准机制,无需手动调整即可持续识别语义质量作为主要信号,并据此调整权重——经过一段时间后,语义质量的权重被提升到初始值的 4.7 倍。

系统仍面临的难题

裁判模型在不同任务类型上的表现不均衡。在问答任务上,相关系数达到 0.830;而在摘要任务上,却降至 0.199。论文指出,这并非裁判模型本身的问题,而是训练时使用的评估指标所致——原始词汇重叠在衡量摘要质量方面效果很差,因此针对该指标训练的模型只能捕捉到微弱的信号。作者将其描述为主要待解决的开放问题,而非一个被悄悄容忍的已知局限。

这种论述方式与论文的整体风格一致——方法严谨,失败案例和改进成果同样清晰地呈现在读者面前。作为该系列研究的第四篇论文,它的姿态更像是一个团队在稳步填补实际部署计划中的漏洞,而非一份产品公告。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻
自选
我的自选
查看全部
市值 价格 24h%