0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

海量数据的高效管理

lhl545545 ? 来源:ssdfans ? 作者:ssdfans ? 2020-06-14 09:53 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

新型基础设施是以新发展理念为引领,以技术创新为驱动,以信息网络为基础,面向高质量发展需要,提供数字转型、智能升级、融合创新等服务的基础设施体系。

——国家发改委创新和高新技术发展司司长 伍浩

新基建涵盖了众多的数字化基础设施:云计算人工智能、工业互联网、5G物联网、数据中心、智能计算中心等信息基础设施,以智能交通、智慧能源为代表的融合基础设施。可以看出,新基建技术中最核心的资产便是数据。物联网让采集的数据种类和数量越来越多,5G让数据传输的速率越来越快,云计算在不断地对数据进行计算处理,AI在不断地挖掘数据的价值,这些技术连接的关键纽带便是存储。在新基建推动的当下,存储可以说是推动产业向高端化发展的刚需。

根据国际咨询机构IDC的预测,到2025年智能终端数量将达到400亿个,全球数据总量也将从2020年的44ZB跃升到180ZB,其中30%属于实时数据,75%来自边缘和终端,而这些数据中,将会有80%的数据是非结构化数据。

数据不仅总量巨大,增长速度也十分惊人。举个例子,一个大型三甲医院每天生成数TB数据;一个智能质检的生产线每天生成数百TB数据;一座智慧城市每天产生的数据量更是高达数百PB。基于此,IT技术人员不得不重新考虑存储的效率以及架构问题,“新基建”需要以数据为核心的“新存储”。

1新存储特质之一:海量数据的可持续高效存储

面对如此庞大的数据存储量以及可预见性的数据增长量,新的存储架构必须要考虑的第一个点就是如何以更高扩展性、更高吞吐/低时延以及更高性价比实现容量管理。首先要有高扩展性,满足因为业务量、数据精细度提升导致的数据量增加的随时扩容需求;其次要有高吞吐/低时延,保障在海量数据、海量小文件场景下,数据可以快速地读取和调用;当然用户也很看重整体方案的性价比。

数据存储到公有云是一种可选解决方案,租用公有云厂商的存储空间节省自建存储的硬件采购成本,根据数据存储量采购相应存储空间。不过,数据调用的成本也在随着数据量的增加而增加,数据使用成本甚至超过了原有的硬件采购成本,比如美国国家航天局(NASA)也不得不因为每个月上百万美元的数据访问费用,而开始考虑将数据从亚马逊云平台迁回自建数据中心。

以分布式技术为核心架构的新存储,摆脱了传统存储数据共享困难、扩容受控制器性能限制等问题,通过将软件部署于通用服务器,用去中心化架构支持弹性扩展和高并发访问,消除了容量和性能的约束,实现更优秀的存储能力,可以轻松支撑EB级存储规模;千万级IOPS和TB级聚合带宽能够满足高并发访问需求,加之部署简单、灵活扩展的特点,为当下日益增长的海量数据提供极致容量、极致性能、极致可靠和极致性价比的存储系统底层支撑。

2新存储特质之二:海量数据的高效管理

仅解决了数据存储的问题,对于新基建的需求来说远远不够,还要进一步解决存储数据的管理问题。

数据就像我们人一样,也有着它的生命周期,从产生到消亡,有很多个阶段。举个例子:一个病人去医院就诊拍摄X光片,刚产生的结果数据我们称之为热数据,这类数据对于数据的读写效率和即时性有很高的要求。就诊结束之后的一至两年内,病人会进行复诊,诊断数据不需要实时读取但也需要能够快速获得,这类数据称之为温数据;病人康复后,根据医疗行业就诊数据需要至少保存20年的要求,就诊数据可以保存到成本相对较低的存储介质中,待有需要时再调取,这类数据我们称之为冷数据。因此,新基建所需的新存储系统需要具备数据生命周期管理的能力。

另外不得不提的一个数据管理场景便是边缘计算和中心计算,云边协同的数据管理能力对存储系统支撑数据中心与边缘之间的数据汇聚和分发至关重要。特别是5G的发展,工业互联网、物联网技术的应用,数据更多会从摄像头、传感器、移动设备等不同的边缘端产生,而传统的SAN/NAS存储只能在局域网内访问,无法提供云边协同统一的数据管理能力。新存储需要打破传统存储访问协议的限制,能够基于互联网协议实现数据跨网络的统一管理和访问,从而能够直接与数据中心之外的物联网设备、智能终端直接交互数据,满足当前和未来数据交互的需求。

当下应用度较高的混合云场景数据也需要进行数据管理。众多公有云大厂都已经推出了相应的部署模式,出于安全和成本的考量,部分企业选择将互联网相关业务部署在公有云,同时将重要数据存放在私有云,以兼顾业务灵活和数据安全。企业私有云存储需要和公有云存储结合起来,实现业务无感知的数据上云、下云的融合和流动。在这样的发展趋势下,需要新存储能够提供与公有云存储相兼容的协议,以及可跨互联网数据传输的能力。将公有云存储与私有云存储打通,形成混合云存储的共同底座来构建企业数据湖,这也是发展的必然。

任何技术的变革都需要一个过渡阶段,新存储的部署越来越多,传统存储也还会长期存在并在其生命周期中继续发挥作用。因此,通过对异构存储的整合实现数据统一管理,不仅有效保护客户既有投资,也应该是新基建趋势下对新存储系统的要求。

3新存储特质之三:海量数据的价值挖掘

数据最终的价值呈现一定是为应用服务的,人工智能和大数据分析技术的发展,驱动数据产生更多的应用价值。所以在数据的价值挖掘,我认为新存储系统的终极需求必须能够更好地利用人工智能、服务于人工智能,赋能大数据价值挖掘。

在利用人工智能方面,传统SAN/NAS系统因为受限于访问协议的限制,无法感知数据,只能在存储底层利用数据访问IO分类、使用容量统计、存储硬件错误码等信息进行统计分析,来实现存储系统自动化运维与管理等维度,以存储系统自身管理效率改进为目标的 “基础智能”。

而真正的智能存储,我认为最重要的核心价值应该是基于数据感知,能够对数据进行加工和处理,进而赋能应用对数据的价值挖掘和价值呈现。所以新存储系统需要能够预集成一些通用的、面向业务场景的数据预处理功能和算法(如亚马逊的S3 Select),然后通过与业务系统进行数据感知,充分利用存储系统闲置的计算能力,实现某种程度上的数据处理功能卸载和垂直优化,降低业务对存储的访问压力,从而大幅提升应用系统数据处理和分析效率。

另外,基于海量非结构化数据的价值挖掘分析,基本都要依赖机器学习深度学习等人工智能技术。在人工智能场景中,数据要经历采集、清洗、训练、推理、归档等过程。人工智能各个阶段对存储系统要求差异非常大,比如在采集阶段,需要存储系统支持互联网远程访问协议、吞吐量要大;在数据清洗阶段,需要存储系统支持基于标签的检索,最好能支持视频自动抽帧等能力;而在训练阶段,则要求存储系统具备高并发低时延的高性能能力;最后在归档阶段,则需要低成本的存储系统。如果采用传统存储产品,一般需要不同类型存储系统来搭配使用,以满足成本、性能、检索等多方面要求,但这又势必造成数据在不同存储系统之间的孤岛。因此,新智能存储应该具有基于标签的数据检索、多种访问协议接口互通能力、满足高性能、低延时,以及低成本归档能力,从而实现机器学习不同AI管道阶段数据的统一存储,避免产生数据孤岛,并且提高数据在各个AI管道的流转效率。

总而言之,新基建为中国的产业升级清晰地指明了方向,数字化基础设施的广泛建设以及随之产生的新型应用需求将带来数据爆发式的增长。海量数据蕴含着巨大的价值,存储必将是新基建坚实的底座。更多样化的数据模式、日益复杂的数据管理以及高效的数据利用对存储提出了更高的要求,无论是对于传统存储厂商还是创新型存储厂商,是挑战,更是机遇。

高端微信群介绍

创业投资群

AI、IOT、芯片创始人、投资人、分析师、券商

闪存群

覆盖5000多位全球华人闪存、存储芯片精英

云计算群

全闪存、软件定义存储SDS、超融合等公有云和私有云讨论

AI芯片群

讨论AI芯片和GPUFPGACPU异构计算

5G群

物联网、5G芯片讨论

第三代半导体氮化镓、碳化硅等化合物半导体讨论

存储芯片群DRAM、NAND、3D XPoint等各类存储介质和主控讨论

汽车电子MCU电源、传感器等汽车电子讨论

光电器件群光通信、激光器、ToF、AR、VCSEL等光电器件讨论

渠道群存储和芯片产品报价、行情、渠道、供应链
责任编辑:pj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1810

    文章

    49237

    浏览量

    251715
  • 存储数据
    +关注

    关注

    0

    文章

    90

    浏览量

    14351
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    淘宝 API 接口:海量商品数据挖掘的宝藏钥匙

    ? 在数字化时代,数据已成为企业决策的核心驱动力。淘宝作为中国最大的电商平台之一,汇聚了海量商品信息,这些数据蕴藏着巨大的商业价值。淘宝 API 接口正是开启这一宝藏的钥匙,它让开发者能够高效
    的头像 发表于 08-12 14:26 ?145次阅读
    淘宝 API 接口:<b class='flag-5'>海量</b>商品<b class='flag-5'>数据</b>挖掘的宝藏钥匙

    工业设备与管理系统之间的数据中台是什么?

    在工业场景中,设备(如机床、生产线、传感器等)会产生海量实时数据(如运行状态、参数、故障信息等),而管理系统(如MES、ERP、SCADA等)则需要依赖这些数据实现生产调度、成本核算、
    的头像 发表于 08-11 13:49 ?82次阅读

    朗国科技获深度学习数据高效管理专利,助力AI研发降本增效

    。该专利于2023年6月正式申请,旨在解决AI研发中海量数据存储与高效检索的行业难题。 智能编码识别,高效去重检索 根据专利摘要披露的技术方案,该发明通过预设哈希算法为
    的头像 发表于 07-29 09:25 ?157次阅读

    智慧水厂物联网解决方案:高效数据采集与智能管理

    随着城市化进程的加速和水资源管理需求的提升,传统水厂在数据采集、监控和管理方面面临诸多挑战。水的流量、压力、水浸等关键参数的实时精准采集与高效管理
    的头像 发表于 06-27 09:22 ?180次阅读

    博鼎弹簧发布数字目录实现稳定高效且易于操作的技术数据管理

    在提供用于产品编目、可视化和发布的先进工具方面拥有丰富的经验,能够让用户高效、直观地管理技术数据。此外,CADENAS的解决方案具有高度可定制性,可以与企业所使用的其他系统完美集成,从而能够根据公司
    发表于 05-23 10:52

    光伏运维管理系统:智能管理光伏电站的高效之选

    ?????? 光伏运维管理系统:智能管理光伏电站的高效之选 ?????? 随着光伏产业的快速发展,光伏电站的规模和数量持续增长,传统的运维模式已难以满足高效、安全、低成本的
    的头像 发表于 04-07 16:22 ?428次阅读
    光伏运维<b class='flag-5'>管理</b>系统:智能<b class='flag-5'>管理</b>光伏电站的<b class='flag-5'>高效</b>之选

    智慧路灯的数据如何管理和应用?

    引言 在智慧城市建设的大背景下,叁仟智慧路灯作为重要的信息采集与服务节点,每天都会产生海量数据。这些数据涵盖照明状态、能耗、环境监测、交通流量等多方面信息。如何对叁仟智慧路灯的数据进行
    的头像 发表于 03-20 11:38 ?434次阅读
    智慧路灯的<b class='flag-5'>数据</b>如何<b class='flag-5'>管理</b>和应用?

    高效能SCADA系统 重塑工厂管理未来

    全方位的精细化管理。它拥有强大的实时数据采集能力,可实时收集生产线上各类设备的运行数据,如温度、压力、尺寸、速度等,事无巨细,准确无误。并且可对这些海量
    发表于 03-13 15:22

    应对海量数据挑战,如何基于Euro NCAP标准开展高效智驾测试与评估?

    自动驾驶技术快速发展,海量数据和复杂场景带来性能与安全评估挑战。如何高效管理数据、挖掘关键场景并满足以Euro NCAP为代表的严格评估标准
    的头像 发表于 02-12 10:09 ?4137次阅读
    应对<b class='flag-5'>海量</b><b class='flag-5'>数据</b>挑战,如何基于Euro NCAP标准开展<b class='flag-5'>高效</b>智驾测试与评估?

    康谋分享 | 如何应对ADAS/AD海量数据处理挑战?

    如何有效处理ADAS/AD海量数据并从中获得见解?IVEX数据处理流程可自动从原始传感器数据等输入中识别出值得关注的事件和场景,推动数据
    的头像 发表于 12-25 10:05 ?4057次阅读
    康谋分享 | 如何应对ADAS/AD<b class='flag-5'>海量</b><b class='flag-5'>数据</b>处理挑战?

    群晖PB级高密度存储,满足海量数据存储、备份与存档

    很多大型企业,或是有海量数据存储需求的企业,对于PB级数据存储一直寻求运行稳定、安全高效且高性价比的解决方案。PB级存储服务器主要应用于冷数据
    的头像 发表于 12-07 18:08 ?1472次阅读
    群晖PB级高密度存储,满足<b class='flag-5'>海量</b><b class='flag-5'>数据</b>存储、备份与存档

    WDS分布式存储系统软件助力电信工程海量数据存储项目

    WDS分布式存储系统软件助力电信工程海量数据存储项目
    的头像 发表于 11-11 09:59 ?568次阅读
    WDS分布式存储系统软件助力电信工程<b class='flag-5'>海量</b><b class='flag-5'>数据</b>存储项目

    海量数据处理需要多少RAM内存

    海量数据处理所需的RAM(随机存取存储器)内存量取决于多个因素,包括数据的具体规模、处理任务的复杂性、数据管理系统的效率以及所使用软件的优
    的头像 发表于 11-11 09:56 ?1480次阅读

    盛显科技:拼接处理器如何实现高效数据拼接操作?

    众所周知,高效数据拼接操作无疑是数据处理领域的核心优势,它能极大地缩短了处理时间,让拼接处理器能够迅速应对海量数据的挑战,实现
    的头像 发表于 10-23 10:58 ?647次阅读
    盛显科技:拼接处理器如何实现<b class='flag-5'>高效</b><b class='flag-5'>数据</b>拼接操作?

    数据分析在提高灌区管理水平中的作用

    数据分析在提升灌区管理水平中扮演着至关重要的角色,它通过深度挖掘海量信息,为灌溉系统的高效运作、资源优化配置及可持续发展提供了科学决策的基础。这一过程不仅涉及
    的头像 发表于 08-28 17:23 ?571次阅读
    <b class='flag-5'>数据</b>分析在提高灌区<b class='flag-5'>管理</b>水平中的作用