Vivoka推出"Ta-Da"项目:Web3与人工智能融合的新数据采集模式
通过将Web3与人工智能技术相结合,Vivoka公司正在开创一种全新的数据收集方式,用于训练机器人系统。在William Simonin的领导下,凭借其在语音识别领域的专业优势,Vivoka刚刚推出了名为"Ta-Da"的新项目的封闭测试版,该项目名称巧妙地将"data"一词融入其中。公开测试版预计将在下个季度推出。
多元化AI企业的数据获取平台
"我们设想通过'Tada'打造一个平台,让超越语音识别范畴的各类AI企业都能获取所需数据,在保证质量的同时确保数据的经济性,"Simonin表示。Ta-Da项目利用区块链技术,旨在鼓励全球用户分享通过完成各种任务(如朗读句子、撰写文本或识别物体)所产生的数据。
这些收集到的数据,包括录音、图像、视频和文本,将供企业用于AI模型训练。作为对用户贡献的回报,他们将获得TADA代币奖励。该平台基于MultiversX区块链开发,旨在解决企业在使用数据训练AI模型时面临的关键挑战,特别是高成本和数据质量不一致的问题。
区块链技术的战略应用
"我们将区块链提供商视为关键的技术合作伙伴,"Simonin表示。"与MultiversX的合作比在其他平台上成为众多项目之一更显亲密和优先。"Ta-Da的模式还通过仅依赖志愿者生成的数据来优先考虑用户隐私,这与Meta和亚马逊等公司的做法形成鲜明对比。
此前,Meta平台利用Facebook和Instagram的公开帖子来训练其Meta AI虚拟助手,而亚马逊则利用实际用户对话来优化Alexa的AI模型。鉴于对语音识别的关注,Ta-Da的主要目的之一就是收集多种语言的语音录音,所有这些都旨在优化AI语音识别系统。
多语言技术支持与行业应用
在Vivoka,Simonin花费数年时间开发了一个支持42种语言的技术解决方案,专为语音开发套件量身定制,使机器人和物流等不同行业的企业能够将其嵌入任何语音界面。该公司目前与约100家全球客户合作,其技术已嵌入全球超过10万台设备。
正是通过这些广泛的工作,他发现了语音数据收集领域面临的挑战。为优化AI系统所需的大量数据可能会带来高昂的成本。例如,1000小时的音频数据成本可能高达10万美元。专注于AI的公司每年为这类数据分配的预算通常在10万至100万美元之间。
数据质量与多样性的挑战
此外,数据的真实性和质量问题经常引起关注。"只有大约5-10%的数据集会经过严格检查,"Simonin指出,他强调了数据质量低下和对真正贡献者补偿不足等挑战。
特别是在试图理解复杂语言时,获取多样化和广泛的音频数据集仍然是一个挑战。"仅针对男性声音训练的AI在对特定输入时可能表现出色,但当女性与之互动时,其准确性可能会下降,"Simonin解释道。因此,Ta-Da将对更稀有的声音提供更高的奖励。
个性化任务与奖励机制
"用户将能够接触各种任务,每个任务都提供不同的报酬,"Simonin表示。"例如,如果你能以特定口音说某种语言,Ta-Da可能会为独特需求支付更多费用,比如能说带有英国口音的科西嘉语的人。"