0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MapReduce和Spark概要介绍

RG15206629988 ? 来源:行业学习与研究 ? 2023-03-20 09:24 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、MapReduce

(1)MapReduce概要介绍

MapReduce是一种编程模型,可用于大规模数据集(数据量大于1TB的数据集)的并行运算(根据百度百科:并行运算是一种一次可执行多个指令的算法,可提高计算速度)。MapReduce可使程序的并行运算更加简单。

Map(映射)是于各个节点对本地数据的预处理操作。 Reduce(归约)是将Map预处理操作后的数据汇总。Reduce可使编程人员不必关心如何实现分布式并行程序,基于Reduce,编程人员可只关注业务数据处理。

(2)处理模型

MapReduce框架负责处理并行计算中的复杂问题,包括:分布式存储、作业调度、负载均衡、容错处理、网络通信等。

MapReduce的处理流程如图一所示。

首先,数据在数据节点被划分为数据块(个人理解:数据块即图一中的split),MapReduce确定待处理的数据块数量并确定每个记录(个人理解:此处记录可被理解关系数据库的一行数据)在数据块中的位置;

然后,划分后的数据块作为Map的输入;

再然后,Map的输出数据需要经过sort(个人理解:分类)、copy(个人理解:复制)、merge(个人理解:合并)操作成为Reduce的输入,Reduce的输入数据间没有交集,系统中处于Reduce运行的节点的数量等于merge操作后的数据数量;

最后,输出Reduce运行后的数据。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》

二、Spark

(1)Spark概要介绍

Spark是针对大规模数据处理的快速通用引擎,其功能是类似MapReduce的计算引擎。

(2)Spark的特点

1)计算速度快。Spark计算速度是Hadoop计算速度的一百倍。

2)可用性高。Spark可使用JavaPython、R、SQL等编程语言。

3)通用性。Spark由一系列解决处理复杂问题的组件构成,可处理多种类型有关数据库的复杂问题。

4)可运行于多种环境中,运行环境包括Hadoop等。

图片来源:学堂在线《大数据导论》

(3)Spark的体系架构

1)Cluster Manager:Cluster Manager是主节点,控制整个集群,监控 Worker Node。

2)Worker Node:Worker Node是从节点,负责控制计算节点,启动Executor 或者Driver

3)Driver:运行Application(个人理解:此处Application指某一应用)的main()函数

4)Executor:为Application运行Worker Node上的一个进程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

(4)RDD

RDD(Resilient Distributed Dataset)被称为弹性分布式数据集,利用SparkContext实例(根据网络资料理解:每个SparkContext实例是Spark的一个应用)创建的对象均为RDD。RDD是不可变、可分区、其内部元素可并行计算的集合,数据可在RDD中运行RDD的自有函数。

RDD的函数被称为RDD算子,RDD算子分为Transformation和Action两种类型。Transformation具有类似于MapReduce的功能,Action的功能包括:触发RDD计算、统计RDD元素个数等。

RDD的特点包括:自动容错、位置感知性调度、可伸缩性(个人理解:数据量的多少对RDD的运行影响较小)、可在已有RDD的基础上创建新的RDD、延迟执行(延迟执行即Transformation只有在Action被触发后才执行)。

另外,RDD允许用户在执行多个查询时可将工作集缓存在内存中,后续的查询可重用工作集,可提升查询速度。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    783

    浏览量

    45387
  • 编程语言
    +关注

    关注

    10

    文章

    1957

    浏览量

    36835
  • RDD
    RDD
    +关注

    关注

    0

    文章

    7

    浏览量

    8112
  • SPARK
    +关注

    关注

    1

    文章

    106

    浏览量

    20655
  • MapReduce
    +关注

    关注

    0

    文章

    45

    浏览量

    6596

原文标题:大数据相关介绍(22)——MapReduce和Spark

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    的方式组织数据,这使得 Parquet 在查询时仅读取所需的列,而无需扫描整行数据,即可实现高性能的查询和分析。高效的数据布局使 Parquet 在现代分析生态系统中成为了受欢迎的选择,尤其是在 Apache Spark 工作负载中。
    的头像 发表于 07-23 10:52 ?195次阅读
    使用NVIDIA GPU加速Apache <b class='flag-5'>Spark</b>中Parquet数据扫描

    CMOS超大规模集成电路制造工艺流程的基础知识

    本节将介绍 CMOS 超大规模集成电路制造工艺流程的基础知识,重点将放在工艺流程的概要和不同工艺步骤对器件及电路性能的影响上。
    的头像 发表于 06-04 15:01 ?781次阅读
    CMOS超大规模集成电路制造工艺流程的基础知识

    NVIDIA发布AI优先DGX个人计算系统

    NVIDIA 宣布,多家行业领先系统制造商将打造 NVIDIA DGX Spark
    的头像 发表于 05-22 09:39 ?388次阅读

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载,从而节省数百万美元。
    的头像 发表于 03-25 15:09 ?588次阅读
    NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企业节省大量成本

    CAN通信协议——中文版

    资料介绍: 本资料是面向 CAN 总线初学者的 CAN 入门书。对 CAN 是什么、CAN 的特征、标准规格下的位置分布等、 CAN 的概要及 CAN 的协议进行了说明。 纯分享贴,有需要可以直接下载附件获取完整资料! (如果内容有帮助可以关注、点赞、评论支持一下
    发表于 03-22 15:27

    NVIDIA GTC2025 亮点 NVIDIA推出 DGX Spark个人AI计算机

    和联想)提供。 NVIDIA 发布了由 NVIDIA Grace Blackwell 平台驱动的 DGX 个人 AI 超级计算机。 DGX Spark(前身为 Project DIGITS)支持 AI
    的头像 发表于 03-20 18:59 ?946次阅读
    NVIDIA GTC2025 亮点  NVIDIA推出 DGX <b class='flag-5'>Spark</b>个人AI计算机

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    的 DGX? 个人 AI 超级计算机。 ? DGX Spark(前身为 Project DIGITS)支持 AI 开发者、研究人员、数据科学家和学生,在台式电脑上对大模型进行原型设计、微调和推理。用
    发表于 03-19 09:59 ?345次阅读
       NVIDIA 宣布推出 DGX <b class='flag-5'>Spark</b> 个人 AI 计算机

    元戎启行最新战略RoadAGI:所有移动智能体都将被AI驱动

    人工智能平台——AI Spark(以下简称"Spark平台")。 ? *元戎启行的RoadAGI战略 ? RoadAGI是元戎启行实现物理世界通用人工智能的关键一步,旨在让包括智能驾驶汽车在内的移动智能体,都具有在道路上自主行驶、与物理世界深度交互的能力。其中,
    发表于 03-18 15:14 ?283次阅读
    元戎启行最新战略RoadAGI:所有移动智能体都将被AI驱动

    SHA105概要数据手册

    电子发烧友网站提供《SHA105概要数据手册.pdf》资料免费下载
    发表于 01-21 14:33 ?0次下载
    SHA105<b class='flag-5'>概要</b>数据手册

    SHA106概要数据手册

    电子发烧友网站提供《SHA106概要数据手册.pdf》资料免费下载
    发表于 01-21 14:31 ?0次下载
    SHA106<b class='flag-5'>概要</b>数据手册

    ECC206概要数据手册

    电子发烧友网站提供《ECC206概要数据手册.pdf》资料免费下载
    发表于 01-21 14:05 ?0次下载
    ECC206<b class='flag-5'>概要</b>数据手册

    IEEE2030.5概要

    IEEE 2030.5IEEE 2030.5(Smart Energy Profile 2.0,SEP2)是一种智慧能源管理通信协议,最早由ZigBee联盟开发。2013年IEEE在SEP2基础上开发了IEEE2030.5。IEEE2030.5是一个应用层协议,支持TCP/IP。IEEE2030.5支持多种物理层接口如WIFI, HomePlug, ZigBee等。IEEE2030.5具有良好的互操作性。 IEEE 2030.5 CSIP加州 Rule 21 从Phase 2开始规定:电网运营商和分布式能源之间互操作需要通信支持,以保障公用事业单位能够远程管理和控制分布式能源。加州 Rule 21规定采用IEEE2030.5协议进行通信。IEEE2030.5 CSIP为采用IEEE230.5的详细实施指南。SunSpec Alliance负责CA Rule 21 Certification Program,即IEEE2030.5 CSIP实施指南的认证。
    的头像 发表于 11-21 14:44 ?1512次阅读
    IEEE2030.5<b class='flag-5'>概要</b>

    数据采集模块设计概要

    ADC(数模转换器)是一种广泛应用于商业、工业、医疗、通讯等多种领域的混合集成电路芯片,在各种设备中充当了模拟世界和数字世界之间必不可少的桥梁。ADC 确保了模拟信号能够被各类感知、测量与控制系统有效地监测、控制和处理。我们常通过各种传感器来感知现实物理世界中各种的参数,由前端传感器将各种物理参数如流量、光强、姿态、加速度、距离、温度、压力等按照特定的函数关系转换成电压或者电流信号,然后再由 ADC 器件将这些模拟量转换成数字量。
    的头像 发表于 10-31 16:52 ?1327次阅读
    数据采集模块设计<b class='flag-5'>概要</b>

    spark为什么比mapreduce快?

    spark为什么比mapreduce快? 首先澄清几个误区: 1:两者都是基于内存计算的,任何计算框架都肯定是基于内存的,所以网上说的spark是基于内存计算所以快,显然是错误的 2;DAG计算模型
    的头像 发表于 09-06 09:45 ?554次阅读

    PGA309正常只校准一个温度点大概要多久时间呢?

    目前我采用的PGA309USB-EVM单个校准压力传感器,我只校准一个常温25摄氏度的温度,我发现校准的时候全部过程都要跑一遍,这样时间需要花费几分钟(不需要等温度达到25 的时间),请问正常只校准一个温度点大概要多久时间呢?盼回复。感谢!
    发表于 08-16 07:13