04
2024
07
14:08:14

分布式存储你了解多少?

分布式存储你了解多少?

1、分布式存储定义

分布式存储是一种数据存储技术,就好比通过网络使用企业中的每台机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分散的存储在企业的各个角落。

分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数据,存储服务器成为系统性能的瓶颈,也是可靠性和安全性的焦点,不能满足大规模存储应用的需要。


2、分布式存储发展历史

存储的历史,也就是几十年来存储发展的一个大概历程:

分布式存储最早是由谷歌提出的,其目的是通过廉价的服务器来提供使用与大规模,高并发场景下的 Web 访问问题。它采用可扩展的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息,它不但提高了系统的可靠性、可用性和存取效率,还易于扩展。


3、分布式存储的分类

根据场景特点和需求,中国分布式存储产品共有四种主要的分类方式:

按存储介质,可分为分布式全闪存、分布式混闪;

按产品形态,可分为一体机、纯硬件和纯软件

按存储对象,可分为分布式块存储、分布式文件存储、分布式对象存储、分布式统一存储;

按部署方式,可分为虚拟化融合方式、容器融合方式和分离方式。

(一)按存储对象分类

分布式块存储:指将各存储节点的硬盘、闪存盘等存储硬件资源通过划分逻辑卷(LVM)、创建独立冗余存储阵列(Raid)、逻辑分区等方式,由物理存储资源转化为面向需求的逻辑块,提高使用效率。

分布式文件存储:指基于文件系统对各存储节点的数据进行存储,形成目录、子目录、文件,常见的分布式文件存储应用有Ceph、HDFS、GFS、 FastDFS、GridFS、mogileFS、TFS等。

分布式对象存储:指各存储节点由标识符、数据和元数据的对象数据构成。其中标识符在该存储系统中唯一,用于区分不同存储区域;元数据将提取数据特征,便于快速检索。分布式对象存储相比块存储和文件存储,数据查找和提取的效率大大提升,适用于文本、音频、视频等非结构化数据。

分布式统一存储:指各存储节点同时支持块、文件和对象三大类型数据,满足虚拟化、云平台和容器平台等新兴存储需求,为用户提供服务典型应用和计算平台的统一存储资源池。

(二)按产品形态分类

一体机:从设备层面将各节点存储资源进行融合优化,同时软硬件为同一厂商生产、一体交付,适配度高,可有效缓解单个节点或设备短板导致整体系统功能受影响等问题。扩展能力较强,且可在线增加节点,对前段业务完全透明。不足之处是价格偏高。

纯硬件:指交付形态为磁盘阵列、闪存盘集群等硬件资源的分布式存储产品,适配的软件分为自研和开源二次开发两种路线。纯硬件交付模式成本高,但可靠性较高,适用于重要敏感数据存储场景。

纯软件:指交付形态为定制化应用软件、平台授权码等的分布式存储产品,一般应用于优化存储硬件的场景,如老旧数据中心改扩建等。纯软件交付定制化空间大、成本低、交付周期短,但扩容及存储硬件兼容性问题一定程度上也会影响运行效率。


(三)按存储介质分类

分布式全闪存:指各存储节点完全由固态硬盘(SSD)构成,主流的适配接口为NVNe,每秒读写次数(IOPS)可跃升至百万级别,相比传统的机械硬盘(HDD)提升了近千倍。缺点是价格高昂,且受限于系统总线协议和其他部件,分布式全闪存性能较难完全发挥。

分布式混闪:指各存储节点由SSD、HDD等构成。尽管性能不及分布式全闪存,但可针对场景需求进行个性化定制,从而最大程度上均衡成本和性能,是目前主流的分布式存储产品。

(四)按部署方式分类

虚拟化融合:指在分布式存储(块存储为主)的架构基础上,利用服务器虚拟化的隔离机制,实现存储和服务器虚拟化在同一硬件节点上的部署。这种架构的优势在于整体架构更为简单,并且节省了硬件成本,缺点是计算和存储需要同时扩展,不适用于计算和存储应用不均衡的场景。

容器融合:面对容器化持久化存储日益增长的需求和Kubernetes特有的管理架构,专门针对此类场景的分布式存储产品也开始涌现。容器融合的分布式存储产品对 K8s集群内的存储资源进行整合与管理,不仅可以通过与容器融合部署降低成本,简化系统架构,还可以无缝融入 K8s 原生的开发和运维体系,更加符合 K8s 运维团队的使用习惯。

分离:指各存储节点资源与应用分离,虽然架构更加复杂并需要更多的硬件节点,但方案更为灵活,并适用更多场景,尤其适合大容量的数据存储,以及从裸金属、虚拟化到容器的不同计算节点的混合资源池。


4、分布式存储的典型应用

分布式存储系统具有海量数据储存更经济、多样性数据使用更高效、在线业务承载更可靠等优势,已被广泛应用于:

1. 大数据处理:在大数据处理中,数据量巨大,传统的集中式存储方式难以满足需求。分布式存储可以将数据分散在多个节点上,提高数据处理的速度和效率。例如,Hadoop的HDFS就是一种典型的分布式存储系统,被广泛应用于大数据处理。

2. 云计算:云计算需要处理和存储大量的用户数据,分布式存储可以提供高可用性、可扩展性和高性能的存储解决方案。例如,Amazon的S3、Google的Cloud Storage等都是采用的分布式存储技术。

3. 物联网:在物联网中,大量的设备产生的数据需要实时处理和存储,分布式存储可以提供低延迟、高吞吐量的数据存储和处理能力。

4. 人工智能:AI应用,特别是机器学习和深度学习,需要大量的数据进行训练。分布式存储可以提供高速、可扩展的数据存储和访问能力,从而加快AI模型的训练速度。

5. 内容分发网络(CDN):CDN需要在全球范围内分发内容,分布式存储可以将数据存储在距离用户近的节点上,从而提高数据访问的速度。

6. 5G网络:5G网络的高速、大容量特性,使得数据的产生和消费速度大大提高,分布式存储可以提供高速、大容量的数据存储能力,满足5G时代的数据需求。

典型场景如下:




推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

本文链接:https://hqyman.cn/post/6980.html 非本站原创文章欢迎转载,原创文章需保留本站地址!

分享到:
打赏





休息一下~~


« 上一篇 下一篇 »

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

请先 登录 再评论,若不是会员请先 注册

您的IP地址是: