仅一辆自动驾驶汽车每一天产生的数据量就可达数TB甚至数十TB。随着自动驾驶、物联网、人工智能、AR、5G等技术更深入应用于生产生活,其带来的文本、图形、图像、音频、视频等非结构化数据为主的信息数据量急剧增加。
据IDC预测,到2025 年,全球产生的数据量将达到175ZB,其中超过80%的数据都会是处理难度较大的非结构化数据。
当前,对巨量且仍不断增长的非结构化数据进行高效存储、管理、分析,已经成为企业数字化、智能化转型时需要着重处理的环节。
近期,长期自研存储技术的青云科技正式推出了非结构化数据统一存储平台QingStor U10000,面向私有云场景,以期赋能企业加速数字化转型。
青云科技存储产品总监冯相东介绍,和QingStor NeonSAN 主要面向结构化数据高性能业务场景需求不同,QingStor U10000 主要面向非结构化数据的场景,包括影像数据、音视频数据、数据湖、大数据、物联网等场景。青云希望通过专业的存储分工能更好地服务专业的场景。
据悉,QingStor U10000产品设计初衷就是为了帮助客户更好地实现海量数据的价值挖掘。QingStor U10000支持文件、对象和大数据三种非结构化数据访问协议互通及无损共享,容量方面支持横向扩展,线性增加整体系统的容量和性能,且可独立水平扩展元数据和存储节点;安全性方面,实现元数据和业务存储数据分离存储,有效规避单点故障;在运维方面,提供资源管理、配置管理、告警、日志、监控等一系列的统一管理平台。
根据客户需求,QingStor U10000支持软件交付和存储一体机两种交付模式。
全 自研
冯相东表示,青云存储产品的一个重要特点就是,真正自研的中国存储。和QingStor NeonSAN 一样,QingStor U10000继承与融合QingStor对象存储及文件存储,也是由青云科技存储团队自主设计,没有继承任何开源的架构,不存在任何知识产权的风险。自主研发使得技术QingStor U10000百分百可控,不存在技术盲区,能更好支撑企业数字化转型需求。
在信创领域,包括QingStor U10000在内的青云各产品线兼容核心国产硬件平台和操作系统平台,比如鲲鹏、飞腾、海光等目前主流的国产硬件平台,还有麒麟软件、统信、openEuler等国产操作系统,青云已实现完整的生产化兼容。
“青云作为中国云计算公司,怀揣着中国存储服务数字中国的愿景,希望通过自身的努力能消除企业对数据安全的顾虑,以真正自研的中国存储服务于数字中国。”冯相东强调。
真 多协议无损互通
QingStor U10000相比于青云早前推出的QingStor对象存储和文件存储产品,除了产品力的全面继承,还以几个方面做了明显的能力提升,包括实现数据协议的互通,功能和性能的增强,整个算力平台对接的强化等。
冯相东特别强调,QingStor U10000构建了统一索引架构,支持多协议无损互通,从而实现数据的访问和流通的高效。
为什么要特别强调“协议互通可以让数据分析更高效”,冯相东阐述道:“一份数据在一个完整的业务场景下可能会在多个环节有数据处理的需求,如果做不到协议互通,这个数据需要不停地Copy,比如在这个业务的存储空间里先处理完,再Copy到另一个存储空间,用另一种存储协议做访问,这样会增加多种存储间数据迁移的成本。”
也就是说,无论是基于对象接口存进来的数据、基于NFS/SMB存进来的数据,还是通过HDFS大数据专用协议存进来的数据,QingStor U10000都是基于统一的索引架构提供这些数据的元数据管理。这种架构为应用带来好处就是:不需要通过格式转化就能让对象存储存进来的数据,通过NFS访问,或者NFS存进来的数据可以通过S3访问。存储和读取数据之间不需要经过格式转化,这样就不会存在性能和语义的损失。
以自动驾驶场景为例,冯相东介绍道,“通常情况下,一辆路测车每天可能会产生几TB或者几十TB的数据,有几十辆路测车,每天产生差不多1PB的数据,正常情况下,这1PB的数据需要通过四个环节的处理才能真正发挥其作用。第一个环节是数据的上传和导入,通常会用到存储里的S3和NFS的协议。第二个环节是数据预处理,基本上以HDFS这种大数据分析的框架为主。第三个环节是AI训练,以NFS协议为主。第四个环节还会涉及仿真测试,主要以NFS和SMB协议为主。通过自动驾驶完整数据链的处理环节可以看到,一份数据在不同的阶段,需要通过不同的数据访问协议对接不同的计算框架,只有协议互通才能让数据分析更高效。”
市面上虽然也有在讲协议互通的分布式存储厂商,但大多是通过格式转化的技术实现的,谈不上真正的“多协议无损互通”,在底层来看,就是因为没有统一的索引架构。冯相东认为:“统一的索引架构是QingStor U10000 在架构层面非常明显的一个优势。”
青云科技产品技术解决方案总监张忠华介绍,QingStor U10000广泛适用于容器存储、大数据分析、PACS(医疗影像系统)、高精度地图、多媒体数据处理与存储、冷数据备份和归档等应用场景,并已经在互联网体检、智能驾驶、智能工厂的IoT场景和多元化的超算场景成功应用。例如,青云提供的存储集群及算力资源,基本上解决了某智能驾驶科技公司的高精度地图业务场景从采集、生产、训练整个生命周期的存储和算力的需求。