隐私计算:2021年中7大技术趋势展望
发布:中币网 时间:2021-07-29 08:02:01 加入收藏 打赏
摘要
√ 隐私计算正站在数字经济的十字路口。经历了2019年的技术普及和市场教育阶段、2020年的大规模概念验证和试点部署阶段之后,2021年隐私计算进入真正尝试规模化应用的阶段。
√ 2021年上半年以来,隐私计算厂商正在进入大规模市场推广阶段,市场活跃度大大提升。对公众来说,这一时间窗口正是了解隐私计算领域发展状况与未来趋势的好时机。
√ 通过对部分隐私计算头部厂商的深度调研访谈、参与隐私计算研讨活动,零壹智库&天冕科技总结了隐私计算技术目前的七大发展趋势。
作者 : 温泉 万云轩;原文标题:《隐私计算:2021年中七大技术趋势展望》
一、隐私计算性能将有百倍提升,这将使得隐私计算逐渐进入更多场景目录
一、隐私计算性能将有百倍提升,这将使得隐私计算逐渐进入更多场景
二、隐私计算的安全性,将越来越体现为全链路的安全
三、在场景应用中,贴近用户侧的服务商优势正在凸显
四、部署模式逐渐简化,比拼服务的趋势更加明显,可视化将成为标配
五、在场景应用的比拼,不仅是对业务洞察的比拼,也是硬核科技的比拼
六、开源正在成为潮流
七、互联互通已经提上日程
对隐私计算的大规模商业化应用来说,隐私计算性能的提升至关重要。因为它决定着隐私计算的数据处理效率,进而决定着隐私计算进入实际应用场景的可行性。
隐私计算的运行性能,受到数据、算法、算力等多维度因素的影响,在每个维度上均有提升的空间,其中算力性能是最难提升、最大的瓶颈。
目前,在隐私计算性能提升方面,从全行业来看,市场表现较为出众的有星云Clustar等。星云Clustar目前可以做到使微众银行联邦学习开源平台FATE的性能提升50—70倍,未来通过软硬件、芯片等的优化可以将隐私计算性能提升至FATE平台的100倍以上。
星云Clustar对隐私计算性能的优化方案,主要是集中在算力方面。因此,未来整体来讲,隐私计算的性能将有百倍以上的提升,这个“百倍”是相对于微众银行联邦学习开源平台FATE目前能够达到的水平而言的。
未来,性能的进一步提升,意味着隐私计算将可以进入更多的应用场景——使得原来在性能较低情况下运行隐私计算所需时间较长的场景,未来所需时间进一步缩短,从而在实际中应用隐私计算变得可行。
但是,需要指出的是,性能的提升可能不是一蹴而就的。一方面,性能的提升需要大量的资金投入,对许多团队来说,需要兼顾商务落地与技术提升,即边赚钱、边研发,因此这将是一个根据实际需求的渐进的过程;另一方面,性能的提升也是由需求拉动的。隐私计算目前尚处于市场开拓初期,应用场景比较简单,处理数据量还不大,未来应用越来越多,需要处理的数据规模越来越大,对算力、性能的需求会更强。
二、隐私计算的安全性,将越来越体现为全链路的安全隐私计算技术发明的初衷,便是服务于各方隐私在合作中不被泄露,而最关键的目标就是隐私数据的安全性。
随着行业进一步的发展,安全性已经不仅仅停留在单一方面,而是体现在整个隐私计算数据对齐、建模、模型部署以及数据调用全链路的安全上。从隐私技术各环节上来看,全链路安全可以概括为数据安全、密码安全、模型安全、协议安全。
数据安全,是指对数据从包括存储、使用、回收在内的全生命周期进行必要的安全管理,这也是一个隐私计算领域的安全的关键挑战。
密码安全,是指基于密码学方法的隐私计算安全协议所涉及密码算法在强度、可用性、人为泄露风险、规范性、场景实用性等多方面的安全。建立于密码学机制的隐私计算技术一旦在其中任何一个环节出现问题,造成密钥破解或者泄露导致技术失效,都将造成隐私信息泄露的不良后果。
模型安全,是指针对数据训练模型的保护,使模型在传输、训练、访问等过程中的安全性。随着行业发展,由于大多数企业现在使用第三方开源平台进行本地化改进,而在开源软件中出现了植入病毒、恶意上传虚假错误数据与模型偷取等攻击性行为,会造成模型受损,这在目前也成为了模型安全的一大威胁。
协议安全,是指包括联邦学习、秘密共享、混淆电路等在内隐私计算安全协议是否能够完成不同场景应用下的安全假设。由于不同技术应用于各个场景下的对象不一致,每种技术的协议安全假设强弱不一致,一旦不在使用中针对性地调整协议安全假设强度,很容易造成安全性问题。一旦整条链路中任何一个环节出现问题,不论在技术环节技术有多完善,都无法实现隐私计算的安全性,无法完成保护数据隐私的目的。
据零壹智库了解,在全链路安全上,密码安全、模型安全与协议安全方面的工作做得相对比较好。国家密码管理局认证的底层算法等密码学技术对于基本的密码安全提供了保障,而协议安全与模型安全在技术方面已经在实地场景得到验证,可以在现有技术支持上实现基本的安全。
目前,行业内主要关注点在于数据在使用全过程中不产生泄露,比如数据交换时如何实现最小程度的泄露,使其达到无法反推原始数据的程度。目前包括蚂蚁等隐私计算头部公司正在从技术上解决这一难题。而在政企合作等场景的数据交换上,各行业尚未实现互联互通,没有统一标准。相关机构,如中国人民银行旗下的金融标准委员会也在针对金融行业制定统一标准。
三、在场景应用中,贴近用户侧的服务商优势正在凸显隐私计算,未来将不仅是一个IT系统,还是一个应用平台。
这二者在商业逻辑上有所区别:IT系统,以往在应用中的最终价值,是帮助使用方节省成本;应用平台,则可能对使用方有提升业务的作用,可以帮助提升收入。
隐私计算的作用更偏后者,其根本价值,主要是使得机构能够将内外部数据结合起来对用户进行分析,从而提升收入。
目前,零壹智库在调研中看到的一个趋势是:由于隐私计算的这种应用价值,在场景应用中,贴近用户侧的服务商优势正在凸显,由于其对场景的深入理解,叠加隐私计算之后,他们能够让隐私计算技术更快地被场景接受。
比如,在零壹智库深度关注的金融领域,金融风控服务商在用户侧优势正在凸显,天冕科技就是典型案例。
天冕科技的母公司WeLab汇立集团于2013年在香港创立,运营亚洲首批持牌虚拟银行——香港汇立银行及其他纯线上消费金融服务,并于2014年进入内地。天冕科技是WeLab汇立集团旗下一站式金融科技服务商。初创之时,WeLab汇立集团致力于改革传统借贷服务,运用互联网创新技术及大数据分析,为有资金需求的年轻人提供便捷的金融服务。
过去八年,WeLab汇立集团已经拥有近5000万用户以及超过700家企业客户。WeLab汇立集团自主研发的大数据风控系统WeDefend在业界已经树立了品牌。中国邮储银行的首个互联网信贷产品“邮e贷”正是与天冕科技合作推出。
目前,在用户侧,天冕科技已经与10多家金融机构建立了合作,合作的内容主要是联合数据提供方,在各方数据不出私域的情况下,进行联合风控建模和联合营销。
比如,在风控场景上,WeLab汇立集团采用线上联邦学习系统,筛选了多家数据征信公司相关性较高的特征,进行联合建模,建立一个泛化能力更强的模型,取得了更好的效果。KS提高5%,坏账有所下降。
图1 天冕科技联合风控案例图
在营销场景案例上,天冕科技助力某头部互金公司提升营销效果,因为其存在单独使用现存自有数据特征或者对方评分只能达到收支平衡,而且使用线下联合建模方式容易泄露用户数据的风险。在使用联邦学习方式进行联合建模之后,应用所得模型对已注册但未曾进件的老客户进行综合评分,对前10%评分高的用户营销后,模型KS提升11%,每期营销收入增加65万。
图2 天冕科技助力某头部互金公司联合营销案例
在场景应用中,天冕科技的显著优势在于场景经验丰富。比如,在金融风控场景中,隐私计算技术的提供商首先需要让金融机构合作伙伴知道,哪些数据和算法对业务是最有用的。此外,在应用方面还有很多操作细节,比如在数据方面,不仅需要知道哪些类型的数据最有用,还需要知道哪些数据提供商的数据最好用,这些数据应该用在什么地方。这是需要用长时间的实践和教训才能换来的经验。丰富的场景经验,可以让合作伙伴将时间和资金投入最能提升业务效果的方向,从而真正让业务跑起来,见到实效。
在用户侧,像天冕科技这样深耕场景的厂商在应用落地上具备优势,因为天冕科技长期为合作伙伴提供风控建模等科技服务,对业务需求了如指掌,可以大大降低双方沟通成本,迅速让场景方进入业务状态。在这方面,一些深耕隐私计算技术的厂商略有欠缺,可能发生的情况是,虽然科技部门采购了系统,但是由于较高的使用门槛,导致这些系统被闲置,或者使用率较低。
四、部署模式逐渐简化,比拼服务的趋势更加明显,可视化将成为标配早期的隐私计算产品,使用起来比较复杂,需要编写代码。但是现在,越来越多的隐私计算平台实现了可视化操作,极大地降低了产品的使用和操作门槛,使得许多初级的算法和建模人员也能很方便地应用产品。
零壹智库接触到的几家公司,包括富数科技、天冕科技、蓝象智联、同盾科技等,都已经实现了可视化操作。可视化在今年将成为隐私计算产品的标配。
以下是天冕科技的操作界面截图:
图3 天冕联邦学习平台WeFe操作界面
五、在场景应用的比拼,不仅需要比拼对业务的洞察,也是硬核科技的比拼未来,隐私计算厂商要在场景中做好服务,也需要比拼科技实力——因为在场景应用中,有不少复杂难题需要解决,要解决这些问题,必须将技术中的难点攻克。比如,天冕科技在隐私计算方面已经积累了11项专利。
表1 天冕科技隐私计算相关专利列表
这些专利聚焦于解决技术应用过程中的复杂难题。
比如,其中一项专利是“基于联邦学习的建模数据集推荐方法”。
联邦学习是由多方参与进行联合建模,在建模过程中需要联邦成员去根据各方的数据集简述,选择各方都认可的数据去进行联合建模。这种数据集简述比较片面,只能反馈一个大概,没有建模成功的案例参考,在双方认可后需要反复去建模尝试才找到自己满意的数据集,这样导致参与各方建模效率不高。
“基于联邦学习的建模数据集推荐方法”,通过对用户自身画像和每次建模后的结果记录以及反馈进行权重划分,计算出一个用户评分,根据用户所属领域、数据类型等条件进行评分排序,将评分较高的可用数据集推荐给需要进行联邦建模的参与方。这样做可以使建模各方能够快速找到需要去建模的数据集,并且能够快速的达到建模效果,减少建模的尝试次数。
这种方法可以将匹配率高的数据集推给参与方进行建模,方便各参与方选择匹配的数据集,提高建模效率。
六、开源正在成为潮流在隐私计算领域,开源正成为一种潮流。
开源是指在开源模式下通过许可证的方式,使用方在遵守许可限制的条件下,可获取源代码、源数据等,并可使用、复制、修改和再发布。在这项技术中,项目的核心开发人员与大规模的外围群体紧密合作,通过互联网来开展协同开发、共享资源、管理代码等,这样将会使得项目开发的效率、应对需求变化的能力大幅增强。
在中国,隐私计算的开源是从微众银行的隐私计算系统FATE开始的。2019 年 7月,微众银行一共发布了10款开源软件,其中就包括FATE——第一个开源联邦学习系统,开创了隐私计算系统开源的先例。
在隐私计算领域,开源主要的作用是协助整个隐私计算行业发展,同时开源的企业也能够从中获利。隐私计算行业目前处在一个发展的初中期阶段,行业内使用开源的模式是让上中下游都将软件开源出来,使得各方可以针对不同的应用场景,技术手段往各自需要的方向进行改进,极大提高隐私计算各环节的技术发展效率,使整个生态链更加完善。对于B端,开源也在市场上逐渐发展为成熟的商业模式。主要的三种商业模式有:第一,在软件开源提供后,以软件后期的运维、部署、咨询、升级等技术手段盈利;第二,发行企业版与开源社区版双版本,企业版以服务于一些特点企业应用场景进行盈利;第三,通过将开源软件部署在云端服务器,需求方通过订阅的方式向提供方付费使用,同时这种模式也免去了实地部署等线下的过程与以及安装费用。
表2:目前已知隐私计算开源项目
隐私计算之外,开源已经成为整个软件开发领域大势所趋。在整个软件开源行业,据中国最大的开发者社区CSDN数据报告显示,2021年初的CSDN去重用户已达3200万,并且保持高速增长态。开源项目文章数量逐年上升,并从2017年开始,连续两年高速增加,也证明了开源在中国开发者群体中越来越受关注。在应用方面,比如金融领域,根据《金融机构开源软件应用情况调研报告(2020年)》数据显示,90%被调研金融机构已广泛应用和试用开源软件,其中5%的机构已完成主要软件来源为开源软件,26%的机构(股份制商业银行为主)已有一定规模实际场景应用。
开源之所以成为软件开发领域的大趋势,是基于在软件开源中,开源项目的核心开发人员通过开源软件,与大规模的外围群体紧密合作,通过互联网来共享资源、开展协同开发、管理代码等,由此使得项目开发的效率、应对需求变化的能力大幅提升。开源已经成为人类技术进步的较优平台与模式。
中国在开源领域,经历了从使用者到贡献者的发展历程。在发展初期,国内普遍开源企业对开源技术采用拿来主义,忽视开源社区、商业模式和开源知识产权等方面的投入和积累,中国最初在国际上得到了只是开源使用者的评价。但是, 2009年之后,中国开发者提交的代码被Linux基金会接受,其排名稳居世界前四之后,中国开始成为国际开源资源的贡献者。
今天,开源再次进入加速期。国际数万亿美元开源核心技术生态体系已经形成,越来越多的企业正在以开源形成商业体系,如MongoDB市值193亿美元、Elastic市值115亿美元,微软以75亿美元收购 GitHub、IBM花费340亿美元收购Red Hat。开源技术可广泛应用于互联网、电子商务、电子竞技、智能家居、消费电子以及现代服务业等领域,还在金融,医疗等领域逐渐普及。众多国内企业在逐渐发展的开源生态中看到了开源从商业模式与技术创新上带来的商业价值,积极参与开源。阿里巴巴、百度、华为等知名头部互联网企业都已成为软件开源领域活跃度最高的一部分参与者。
当下,零壹智库了解到,在隐私计算领域,还有更多的公司已经或者正在加入开源的行列。比如,矩阵元目前正在做隐私 AI 开源框架,包含区块链组成的基础的共识和管理层、隐私计算层、隐私计算网络层、应用层等等,希望做成基础设施。星云Clustar在FATE开源社区内开源了解决针对FATE平台自身存在的一些问题的方法,如解决FATE进程间通信问题等经验、技术、研究成果等。富数科技也在考虑开源计划,并且倡导开源项目之间也要采用开放的、兼容的、公共的技术协议。
七、互联互通已经提上日程隐私计算在解决原先的数据孤岛问题的同时,却正在带来新的问题,那就是带来“新的数据孤岛”。
此前,“数据孤岛”形成的主要原因有:第一,数据持有方主观上不愿共享数据,数据作为战略性资源和关键生产要素,拥有数据就拥有客户资源和市场竞争力;第二,数据具有一定敏感性,涉及用户个人隐私、商业秘密甚至国家安全,客观上给数据持有方的外部数据共享带来障碍;第三,合作双方应用难度大,实施周期长,数据融合传统方式制约条件多,实现过程复杂。
隐私计算技术的发展,理论上可以使得此类数据孤岛现象得到解决,但是却形成了新的数据孤岛。这是由于在隐私技术发展的过程中,在计算机原语层面上出现多个分支,采用不同算法或协议,造成不同的厂商提供异构且协议不互通的软件。而在非计算机原语层面,不同计算平台核心算法设计不同、功能组件差异化、管理系统不互通也成为问题。这使得技术使用方在使用过程中遇到困难,应用方通常需要安装好几个不同厂商的软件才能解决问题。这将在未来带来较为棘手的问题:隐私计算应用机构,需要采购多套隐私计算系统,要使得多套系统之间的数据互联互通,连接的工作量将呈几何级数倍增。
此前,区块链行业同样遭遇到“链孤岛”问题。这是由于不同机构形成了基于不同底层架构、针对不同行业应用的各种区块链系统。因此,业界已有呼声,为了避免重蹈覆辙,隐私计算平台之间实现互联互通迫在眉睫。
目前,互联互通的工作已经提上日程。不少机构都在尝试采取行动。
零壹智库了解到,互联互通方面最新的进展是,7月20日,中国信通院在隐私计算大会上发布了《隐私计算 跨平台互联互通标准 第1部分:总体框架》,该标准致力于为不同隐私计算技术平台间实现互联互通提供一套可行性的参考指南,通过统一规范的接口、协议等实现跨平台的数据、算法、算力的交互与协同。除第1部分外,该系列标准中通信要求、互联协议、应用要求等其他部分标准也在陆续推进中。
来源:碳链价值
来源:中币网 https://www.zhongbi.net/news/blocknews/278067.html 声明:登载此文仅出于分享区块链知识,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。 此文如侵犯到您的合法权益,请联系我们3111859717@qq.com,我们将第一时间处理。