罗震:以全栈技术能力赋能数据要素流通和价值挖掘

数据猿 月满西楼
数据生产要素要发挥出自身的价值,最核心的就是要解决数据安全共享流通和数据价值挖掘的问题。如果不解决这两个问题,数据就像深埋地下的石油,无法被开采出来,也就无法成为数字经济的“能源”,无法成为可利用的数据资产。近期隐私计算和AI技术的蓬勃发展,让我们看到了释放数据要素价值的希望。

生产要素是推动经济和社会发展的基础,并且不同时代对生产要素的要求不一样。在信息社会,数字经济逐渐成为整个社会经济的主体,数据作为一种全新的生产要素开始登上历史的舞台,并扮演着越来越重要的角色。

数字经济架构图资料来源:中国信息通信研究院发布《中国数字经济发展报告(2022年)》

数据生产要素要发挥出自身的价值,最核心的就是要解决数据安全共享流通和数据价值挖掘的问题。如果不解决这两个问题,数据就像深埋地下的石油,无法被开采出来,也就无法成为数字经济的“能源”,无法成为可利用的数据资产。近期隐私计算和AI技术的蓬勃发展,让我们看到了释放数据要素价值的希望。

在观察行业发展的过程中,数据猿发现有一家公司将隐私计算与AI融合,并具备了多行业的最佳实践——翼方健数(BaseBit.ai)。为了更深入的了解这家公司,数据猿专访了翼方健数CEO罗震,跟他探讨数据价值挖掘的思考,隐私计算技术的发展,包含隐私计算的全栈技术,并畅想了数据和计算的互联网。

数据原生时代IT基础设施的建设者和运营商

“原始数据不出域,数据可用不可见”目前已经成为了很多行业数据流通的规范和要求。“原始数据不出域”意味着各数据提供者应该严格保证通过合法手段采集到的数据在数据流通中不离开数据提供者的掌控,这对于数据安全、隐私保护、避免流通中的数据资产流失具有非常积极的意义。而“数据可用不可见”则给出了在“原始数据不出域”的要求下的一个行之有效的解决方案。数据的需求方可以在数据源的授权下,通过隐私计算“可用不可见”的方法,在原始数据不离开数据源掌控的前提下,对于原始数据进行加工处理,产生数据价值。因此“原始数据不出域,数据可用不可见”必将成为数据时代数据流通的行为规范以及伦理准则。

同时,“原始数据不出域“也意味着在数据使用过程中通过简单汇集来处理数据的时代已经一去不复返。对于数据需求方来讲,各数据源会管理各自的原始数据,建立一张分布式的数据网络。数据需求方基于这个数据源互联网,在原始数据不离开数据源掌控的前提下,在数据源授权下通过隐私计算结合应用计算的方法,来实现更高效的数据价值挖掘。罗震表示,翼方健数致力于构建这个“数据和计算的互联网”(IoDC),它是数据原生时代的IT基础架构。

作为一个分布式网络,IoDC中存在着诸多数据源和数据需求方的节点。每个数据源节点不仅要提供数据服务,还需要提供相应的存储、算力服务,以及隐私计算能力和应用算法能力,帮助数据需求方形成从原始数据到数据最终价值的端到端的闭环。罗震强调,翼方健数并不持有这个网络中的任何数据,而是作为技术服务商帮助行业各数据源构建数据安全开放的底座,通过互联形成IoDC。IoDC同时建立了一个开放的数据生态,数据需求方利用自己的算法、洞察结合IoDC提供的数据服务,存储计算服务,隐私计算服务,打破数据孤岛,发挥数据价值。

以端到端数据解决能力,实现数据价值闭环

要在这个分布式的IoDC之上构建完整的数据价值闭环,对于技术的挑战是巨大的,隐私计算是其中重要的一环,但如下图所示,还需要很多其他的技术。

翼方健数全栈技术矩阵

各数据源首先需要对于各自的数据进行治理,将多源异构数据用统一的方式组织起来,才能有效地帮助数据需求方发现数据,在不接触原始数据的前提下还能评估数据价值。在数据发现后,需要利用隐私计算结合应用计算的方法,对于原始数据进行加工处理,结合行业应用,让数据产生价值。在这个计算过程中,对于IoDC中各数据源异构的数据、存储、计算资源,要有能力进行资源调度,有效地实现资源的供需平衡。翼方健数认为这种全栈式技术的能力,能够在数据价值流通过程中最大程度上满足数据源和数据需求方的要求,通过端到端数据价值闭环帮助客户成功。

罗震以医疗行业为例,解释了数据需求场景中所需要的一些关键环节。例如,医学术语体系是一个非常庞大繁杂的体系,数据治理是一个非常有挑战的工作。医疗数据是多源多模态的,数据清洗中会用到自然语言处理、影像识别的能力,将非结构化数据进行结构化,按照医疗行业标准进行归一,建立CDM(Common Data Model),将不同数据源的数据能够用同一种方式组织、表达出来。同时,医疗行业存在多种数据标准,这些数据标准还需要通过知识图谱进行抽象,实现相互映射,方便数据应用到不同场景。

再例如,为了实现医疗数据价值的有效挖掘和用户之间的协作,在不同的信任假设下,需要使用不同的隐私计算技术。因为这个原因,翼方健数自主研发了所有主流的隐私计算方法,包括密文计算框架、联邦学习框架、可信执行环境、安全沙箱等多种安全计算方式。

基于全栈技术的构建,翼方健数以医疗为出发点,在政务、金融、保险、营销、科学等多领域都提供了数据应用开放赋能。为了在各行业加速实现“数据自由”,今年7月,翼方健数宣布开源翼数联邦学习框架和翼数安全计算引擎,采用了Apache 2.0开源许可证,强调“轻量”、“高效”、“低依赖”、“高性能”、“易扩展”、“易集成”,其设计与表现也完全呼应了目前隐私计算开源平台的特色。翼方健数将“轻量化”作为其开源重要原则,两大框架各自独立、分工明确,实现“专用系统做专用事情”,以期让更多开发者能够在日常的计算过程中使用到隐私计算技术。

构建“高可用”的数据开放生态

眼下,我们正在经历一场前所未有的“数据海啸”。依据IDC发布的《数据时代2025》报告显示,全球数据量预计2025年将达到175ZB(1ZB=10万亿亿字节)。

面对如此量级的数据,要如何使用数据和计算的互联网?罗震表示,对于数据需求方,例如IoDC网络上某一节点的一个用户来说,他可以通过“虚拟统一的数据资产”(Virtual Data Asset Layer)发现计算和数据互联网中任何对于他有用的数据,无论这个数据是在本地还是其他平台。他可以向数据所有者提出数据使用申请,在授权下利用这些数据通过隐私计算结合应用计算的方式,建立自己的人工智能模型和统计方法,服务于行业中各种应用。

数据和计算的互联网架构图

翼方健数致力于在各行业打造这样类型的网络,作为行业数据流通的基础设施,在网络之上构建开放的数据应用生态,让所有的数据需求方可以利用这个网络提供的数据资源和数据流通方式,利用自己趁手的工具,通过模型算法挖掘数据价值。翼方健数目前已经在很多行业形成了IoDC的雏形。

技术的大进步会推动经济的大发展,以数据要素为原料的人工智能已经成为数字经济的重要驱动引擎,而翼方健数致力于构建“数据和计算的互联网”为驱动引擎建造了一条条高速公路,帮助数据需求方实现数据价值,为驾驶者提供了方法和方向。正影响着数字产业化和产业数字化的发展。未来是星辰大海,即使面对道路坎坷,也无法阻挡必将发生的事。

请扫码关注数字化经济观察网
责编:莎莉
参与评论
文明上网,理性发言!请遵守新闻评论服务协议
0/200