0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大数据系统包括哪些

RG15206629988 ? 来源:行业学习与研究 ? 2023-02-16 18:24 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

目前,主流的大数据平台包括:Hadoop、Spark。

Hadoop是分布式(根据网络资料理解:分布式与集中式相对应,对于大量数据计算,集中于一台计算机中计算需耗费较长时间,通过将计算分布于多个计算机,节约整体计算时间)系统基础架构。Hadoop的两个功能包括:数据存储(HDFS)、数据处理(MapReduce)。

Spark是专为大规模数据处理而设计的快速通用计算引擎。Spark不提供文件管理系统,没有数据存储功能;Spark的数据计算基于内存实现,数据处理速度快。

一、HDFS(分布式文件存储)

数据通过HDFS放置于一个Hadoop集群中,Hadoop集群通常由几台至上千台的计算机组成。根据课程介绍理解,百度公司最大的Hadoop集群已超过4000台计算机。

数据在存储于HDFS前,被分割成若干数据块,每个数据块储存于一台计算机中。不同Hadoop版本所分割的数据块大小不同,Hadoop1.0版本中数据块大小为64MB,Hadoop2.0版本中数据块大小为128MB。Hadoop也可以设置数据块大小(含个人理解)。

e1266bfa-addb-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

二、MapReduce(分布式数据处理架构)

MapReduce是分布式计算框架。开发人员在运用MapReduce处理数据时,MapReduce将指定某一Map函数,将一组键值对(根据网络资料理解:键值对可以根据一个值获得对应的一个值)映射成一组新的键值对,并指定并发的Reduce函数,保证所有Map函数映射的结果可以进行Reduce规约(根据网络资料理解:通过某一连接动作将所有元素汇总为一个结果的过程)运算。

e1bec99a-addb-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

在运用MapReduce框架编写计算机程序时,开发人员只需考虑业务逻辑,不需考虑并行管理。

三、MapReduce的WordCount示例

WordCount是统计文件夹所有文本中某一词出现的次数。

其中,WordCount的Map函数程序代码如下:

Map(K, V){

For each word w in V

Collect(w,1);

}

WordCount的Map函数中的K代表文本中的词,WordCount的Map函数的功能是将文本中的每个词与1建立键值对,即每个词对应一个“1”。

WordCount的Reduce函数程序代码如下:

Reduce(K.V[]){

int count=0;

For each v in V

count+= v;

Collect(K,count);

}

WordCount的Reduce函数将经过WordCount的Map函数处理的相同词对应的“1”求和,得出某一词的出现的次数。

该WordCount示例中,Map和Reduce函数的具体运行如图一所示:

首先,所有数据被整理成单行数据,图一流程图中具有三个节点(个人理解:节点可被认为是计算机),图一中的三行数据被分行输入到三个节点中。

然后,Map函数运行,将每个词与1建立键值对。

Map函数运行结束后,Shuffle过程运行,Shuffle过程是MapReduce内设过程,可将具有相同词的键值对中的“1”集合至一个List(列表)中。如图一所示,因为“Bear”一词出现了两次,所以经过Shuffle过程后,“Bear”所对应的List为(1,1)。

最后,Reduce函数运行,将Shuffle过程所生成的List求和,完成对某一词出现的次数统计。

e1f1375e-addb-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据存储
    +关注

    关注

    5

    文章

    1003

    浏览量

    51828
  • HDFS
    +关注

    关注

    1

    文章

    31

    浏览量

    9937
  • 大数据系统
    +关注

    关注

    0

    文章

    7

    浏览量

    1940

原文标题:大数据相关介绍(9)——大数据系统(上)

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    更改最大数据包大小时无法识别USB设备如何解决?

    将生产者 EP 端点描述符中的最大数据包大小从 1024 字节更改为 512 字节时,无法识别 USB 设备。 请告知如何解决这个问题。
    发表于 05-20 08:13

    大数据与云计算是干嘛的?

    大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;云计算通过虚拟化资源池提供弹性计算、存储及服务能力。两者结合,共同赋能企业决策、业务创新和效率提升。下面UU云小编将详细剖析
    的头像 发表于 02-20 14:48 ?777次阅读

    大数据云计算都需要考什么证书?

    大数据和云计算领域包含多种专业证书,其中大数据领域涵盖数据分析类证书、大数据工程类证书、数据治理类证书。云计算领域领域涵盖云计算技术类证书、
    的头像 发表于 02-19 11:05 ?759次阅读

    Hadoop 生态系统大数据处理中的应用与实践

    随着数据量的爆发式增长,大数据处理技术成为企业关注焦点,Hadoop 生态系统在其中扮演着核心角色。 Hadoop Distributed File System(HDFS)是其分布式文件存储
    的头像 发表于 01-21 17:48 ?482次阅读

    工程大数据平台

    由于无人驾驶系统开发需要长期迭代优化,其过程需要大量的路试数据支撑,经纬恒润针对无人驾驶系统持续运营和持续迭代的需求,开发并在云端部署了车路云工程大数据平台,依托5G网络,具有远程
    的头像 发表于 01-10 17:00 ?662次阅读
    工程<b class='flag-5'>大数据</b>平台

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统
    的头像 发表于 12-18 09:45 ?875次阅读

    上位机系统优化技巧 上位机如何处理大数据

    1. 数据预处理 在大数据的处理过程中,数据预处理是至关重要的第一步。这包括数据清洗、转换和归一化,以确保
    的头像 发表于 12-04 10:27 ?1171次阅读

    ADS1675最大数据吞吐率是是多少?

    ADS1675 24bit的ADC的采样率最大是4Msps,请问这款adc的最大数据吞吐率是是多少?怎么算的,在datasheet中有明确写出来吗
    发表于 11-28 07:56

    raid 在大数据分析中的应用

    RAID(Redundant Array of Independent Disks,独立磁盘冗余阵列)在大数据分析中的应用主要体现在提高存储系统的性能、可靠性和容量上。以下是RAID在大数据分析中
    的头像 发表于 11-12 09:44 ?829次阅读

    emc技术在大数据分析中的角色

    大数据分析通常涉及来自多个来源和格式的数据。这些数据可能包括结构化数据(如数据库中的表格
    的头像 发表于 11-01 15:22 ?787次阅读

    物联网和大数据的关系

    在数字化时代,数据已成为一种新的资源,它不仅驱动着经济的发展,也在改变着我们的生活方式。物联网(IoT)和大数据(Big Data)作为两个关键的技术趋势,它们之间的关系日益紧密,共同推动着社会
    的头像 发表于 10-29 10:20 ?1989次阅读

    智慧城市与大数据的关系

    智慧城市与大数据之间存在着密切的关系,这种关系体现在大数据对智慧城市建设的支撑和推动作用,以及智慧城市产生的大量数据大数据技术的应用需求。 大数据
    的头像 发表于 10-24 15:27 ?1434次阅读

    云计算在大数据分析中的应用

    云计算在大数据分析中的应用广泛且深入,它为用户提供了存储、计算、分析和预测的强大能力。以下是对云计算在大数据分析中应用的介绍: 一、存储和处理海量数据 云计算提供了强大的存储和计算能力,可以存储
    的头像 发表于 10-24 09:18 ?1218次阅读

    IP 地址大数据分析如何进行网络优化?

    一、大数据分析在网络优化中的作用 1.流量分析 大数据分析可以对网络中的流量进行实时监测和分析,了解网络的使用情况和流量趋势。通过对流量数据的分析,可以发现网络中的瓶颈和问题,为网络优化提供依据
    的头像 发表于 10-09 15:32 ?622次阅读
    IP 地址<b class='flag-5'>大数据</b>分析如何进行网络优化?

    基于Kepware的Hadoop大数据应用构建-提升数据价值利用效能

    处理超大数据集。 Hadoop的生态系统非常丰富,包括许多相关工具和技术,如Hive、Pig、HBase等,这些工具可以方便地构建复杂的大数据应用。Hadoop广泛应用于各种场景,
    的头像 发表于 10-08 15:12 ?409次阅读
    基于Kepware的Hadoop<b class='flag-5'>大数据</b>应用构建-提升<b class='flag-5'>数据</b>价值利用效能