去中心化AI解决方案提供商OORT在Kaggle平台取得显著成功
由去中心化AI解决方案提供商OORT开发的人工智能训练图像数据集在谷歌旗下平台Kaggle上取得了显著成功。OORT的Diverse Tools Kaggle数据集于4月初发布,此后在多个类别中攀升至首页。Kaggle是谷歌旗下的一个在线平台,专注于数据科学和机器学习竞赛、学习和协作。
Kaggle首页排名的意义
加密AI项目OpenLedger的核心贡献者Ramkumar Subramaniam表示:“Kaggle首页排名是一个强有力的社交信号,表明该数据集正在吸引数据科学家、机器学习工程师和实践者的正确社区。”OORT创始人兼首席执行官Max Li表示,公司“观察到了有希望的参与指标,验证了通过去中心化模型收集的训练数据的早期需求和相关性”。他补充道:“社区的有机兴趣,包括积极的使用和贡献,展示了像OORT这样的去中心化、社区驱动的数据管道如何在不依赖集中中介的情况下实现快速分发和参与。”
未来计划
Li还表示,在未来几个月,OORT计划发布多个其他数据集。其中包括车内语音命令数据集、智能家居语音命令数据集以及用于改进AI媒体验证的深度伪造视频数据集。
多类别首页排名
该数据集在本月早些时候在Kaggle的通用AI、零售与购物、制造和工程类别中达到了首页。在发布时,由于5月6日和5月14日可能无关的数据集更新,它失去了这些位置。
数据集的质量与价值
Subramaniam在承认这一成就的同时表示:“这并不是现实世界采用或企业级质量的明确指标。”他表示,OORT数据集的独特之处“不仅仅是排名,还有数据集背后的来源和激励层”。他解释道:“与可能依赖不透明管道的集中供应商不同,透明的、代币激励的系统提供了可追溯性、社区策展以及在适当治理下持续改进的潜力。”AI风险投资公司Generative Ventures的合伙人Lex Sokolin表示,虽然他认为这些结果并不难复制,“但它确实表明加密项目可以使用去中心化激励来组织具有经济价值的活动。”
高质量AI训练数据的稀缺性
AI研究公司Epoch AI发布的数据估计,人类生成的文本AI训练数据将在2028年耗尽。压力之大,以至于投资者现在正在调解交易,将版权材料的权利授予AI公司。关于AI训练数据日益稀缺及其可能限制该领域增长的报道已经流传多年。虽然合成(AI生成)数据的使用越来越成功,但人类数据仍然被视为更好的替代品,更高质量的数据可以带来更好的AI模型。
图像数据的复杂性
在AI训练图像方面,情况变得越来越复杂,艺术家们故意破坏训练工作。为了保护他们的图像不被未经许可用于AI训练,Nightshade允许用户“毒化”他们的图像,并严重降低模型性能。
未来展望
Subramaniam表示:“我们正在进入一个高质量图像数据将变得越来越稀缺的时代。”他还认识到,随着图像毒化技术的日益普及,这种稀缺性变得更加严峻:“随着图像伪装和对抗性水印等技术的兴起,开源数据集面临着数量和信任的双重挑战。”在这种情况下,Subramaniam表示,可验证的和社区来源的激励数据集“比以往任何时候都更有价值”。据他介绍,这样的项目“不仅可以成为替代品,还可以成为数据经济中AI对齐和来源的支柱。”