溯源

共识学习:利用区块链改进人工智能

Flare 研究公司的最新 论文介绍了一种新的人工智能(AI)方法,即把人工智能与区块链结合起来,从而实现更安全、更准确的人工智能。

共识学习Consensus Learning,CL)可在各种应用中实现协作式人工智能,从而开发出更准确、更强大的人工智能模型。共识学习尤其适用于将人工智能整合到医疗保健或金融等对数据敏感的领域,从而改善决策流程,提高整体运营绩效和效率,进而降低最终消费者的服务成本。这可以大大改善患者护理效果、提高财务分析的准确性或加强欺诈检测等。大多数现有的人工智能和区块链实施方案都是通过区块链访问集中式机器学习(ML),与此不同的是,CL 利用区块链创建去中心化的人工智能模型。

动机

近年来,分布式环境越来越受到重视,数据和计算资源分散在多个设备上。现代基础模型(如大型语言模型和计算机视觉模型)需要大量数据进行处理,这些要求促使了这种转变。在这种分布式但仍然集中的环境中,去中心化成为一种基本需求,其驱动力主要有以下几个方面。

集中式方法依赖于单个受信任方,因而存在固有风险,主要用于单一企业环境,限制了其更广泛的应用。此外,这些架构不仅增加了遭受潜在攻击或系统故障的可能性,还引发了对数据隐私和安全的担忧。相反,分散式方法具有明显的优势:用户可以根据自己的具体要求和偏好开发个性化的本地模型,而集中式方法往往缺乏这种定制所需的灵活性。在这些局限中,共识学习作为一种分散式人工智能解决方案出现了,它提供了更大的弹性、隐私和适应性,同时降低了与集中式相关的固有风险。

共识学习的益处

共识协议对去中心化账本的安全性至关重要,可以保护区块链网络免受恶意攻击。利用共识机制进行人工智能有很多好处,其中我们强调以下几点:

  • 提高性能。CL方法受益于每一个集合贡献者的数据,减少了偏差,增强了模型对未见数据的泛化能力。与中心化方法相比,CL 还能带来更准确的人工智能,这主要是由于区块链能够激励协作,从而更熟练地将来自不同模型的不同见解结合起来。这是通过多个本地聚合实现的,每个参与者都会评估邻近模型的预测,并将其整合以提高准确性。这是人工智能能够从区块链整合中获得显著优势的首批实例之一。
  • 安全性。在恶意行为者试图引入隐藏目标的情况下,由于共识机制的内置安全功能,CL 模型的完整性仍然不会受到损害。这确保了人工智能系统不会产生故意的有害预测或无意的不准确预测,而这两种预测都是恶意人工智能的标志。因此,CL 解决了人工智能界的一个主要问题,即保护人工智能不被用于有害目的。通过维护协作学习过程的完整性,CL 为人工智能系统注入了更多的信任和信心,为其负责任和合乎道德的部署铺平了道路。
  • 数据隐私。在 CL 系统中,网络参与者的基础数据及其个人模型在任何时候都不会共享。事实上,由于数据始终存储在本地,因此网络上不存在能够破坏数据保密性的恶意攻击。保护隐私不仅能鼓励合作,还能保持竞争力。在这方面,CL 可通过人工智能实现数据货币化,特别是对于医疗保健等敏感数据或商业数据,克服了以往在集中式环境中遇到的挑战。
  • 完全分散。数据和计算资源分布在由多个参与者组成的网络中,它们不依赖于单一的中央服务器进行通信。由于对海量资源的需求以及 ML 模型的复杂性不断增加,去中心化的必要性在现代 ML 应用中显得尤为突出。分散式 ML 是保护数据隐私和确保安全的更合适的解决方案。
  • 效率。与其他最先进的分散式 ML 方法相比,CL 的学习过程延迟低,所需的计算时间、能源和资源也少得多。因此,CL 特别适用于实时应用,在这种应用中,快速决策和高效利用资源至关重要。

工作原理

共识学习通过交流阶段加强了集合方法,在交流阶段,参与者分享他们的(模型)输出,直到达成一致。共识学习分为两个阶段,具体实施过程如下:

  • 个人学习阶段。每个网络参与者根据自己的私人数据和其他公开数据开发自己的模型。这既包括从零开始建立模型,也包括使用大型预训练模型并根据自己的需要进行微调。最重要的是,参与者永远不会被要求分享有关其数据或模型的敏感信息。训练完成后,参与者将为测试数据集准备初始预测--这可以是通过智能合约披露的数据集,或者,参与者也可以通过 "股权证明 "机制等提出新的测试数据点。
  • 交流阶段。参与者根据共识/流言协议在网络内传送他们的初始预测。在这些交流过程中,参与者不断更新自己的预测,以反映其他网络参与者的评估以及对自己预测的信心。此外,参与者还可以监控从网络其他参与者处收到的预测质量,并以此改进决策。在这一阶段结束时,参与者会根据网络中的可用信息,就被视为最优的决策达成一致("共识")。然后,针对任何新的数据输入重复这一阶段。

图片说明以二元分类任务为例,说明 CL 是如何工作的。(a)在第一阶段,参与者根据自己的数据以及其他参与者自愿分享的数据开发自己的模型。在这一阶段结束时,每个模型都会针对测试数据集的任何输入确定一个初始预测值(以空心圆圈表示)。 (b)在交流阶段,参与者交换并更新他们的初始预测,最终就单一输出(以填充圆圈表示)达成共识。任何新的数据输入都要重复这一阶段。

严格来说,上述算法指的是有监督的 ML 场景--具体来说,这是一种训练数据集已被标记,算法对新的、未见过的测试数据的标签进行预测的场景。不过,CL 也可适用于自监督或无监督 ML 问题,在这种情况下,参与者只能获得部分或完全未标记的数据。这些方法的目标略有不同,要求参与者在个人学习阶段采用不同的技术。不过,交流阶段的进行方式与上述描述类似。

共识学习如何与众不同

CL 背后的理念是在不共享任何敏感或有价值信息或知识产权的情况下,有效地组合来自多个来源的知识(以人工智能模型的形式)。这种方法旨在保护机密信息,同时确保抵御恶意实体带来的潜在风险。CL 建立在非常成功的集合学习范式基础上,该范式提供了将多个模型合并为一个模型的强大技术。集合方法依赖于 "群体智慧 "原则,利用群体的集体知识来超越任何单一成员的知识。

近年来出现了一些人工智能服务的区块链实施方案,展示了将人工智能与去中心化网络相结合的创新方法。例如,Bittensor 通过博弈论机制对 "矿工 "的预测进行加权,从而在其特定领域子网内促进人工智能推断(模型输出)。Flock.io提供了一个联合学习(一种不同类型的分布式学习)平台,尽管有一个中心化的聚合器,但它利用区块链验证模型更新并奖励参与者。另一个例子是 Ritual,它通过其 Infernet 协议有效地运营着一个 ML 模型市场,运行特定模型的请求被发送给模型所有者。

CL 通过其独特的聚合方法脱颖而出,在这种方法中,单个模型的预测通过安全的流言协议达成一致。因此,CL 利用区块链创建去中心化的人工智能模型,而现有的实现方法则是通过区块链访问中心化的 ML。其重点是通过协作实现更准确、更安全的人工智能,同时允许持有私人数据(通常是敏感数据)的实体加入系统,并确保其数据的保密性。

总之

共识学习为直接在区块链等去中心化账本上实现机器学习提供了一个开创性的机会。通过这一举措,我们见证了一种新方法的出现,即区块链技术可以从根本上改进现有的人工智能工具。这为医疗保健等传统数据敏感领域的创新和安全协作开辟了令人兴奋的可能性,为采用协作式 ML 技术创造了条件。此外,CL 方法在面对恶意因素时的恢复能力增强了人们对人工智能系统的信任,巩固了其可靠性和完整性。