0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据科学家和数据工程师能合二为一吗?

倩倩 ? 来源:IT168 ? 2020-07-25 10:17 ? 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

越来越多的企业关注AI,企业组织也意识到拥有相关人才和技能非常重要。特别是最近对AI、机器学习(ML)、非ML预测分析和“大数据”的应用,使得数据科学家的需求有了显著的增长,未来还将继续。事实上,对数据科学家的巨大需求导致许多企业和组织出现了人才短缺,然而,80%的AI项目与数据准备和数据工程有关,也许企业组织应该寻找更多的数据工程师而不是数据科学家?

许多企业、供应商和初创企业常常混淆数据科学家和数据工程师,虽然二者有相似之处,但是其工作内容有很大不同,其中包含两个迥异的技能,鱼与熊掌不易兼得。

数据科学家vs数据工程师

在2000年代中期,数据科学家职位开始出现,O’Reilly在文章中提到:“对数据科学家需求的增长是由大型互联网公司驱动的。谷歌、Facebook、LinkedIn和亚马逊都以创造性地使用数据而闻名:不仅仅是储存数据,还将其转化为价值。毫无疑问,任何希望从数据中获得价值的企业组织都在关注数据科学和数据科学家。

数据科学家起源于统计建模和数据分析的发展,具有高级数学和统计、高级分析以及越来越多的机器学习/人工智能的背景。毫无疑问,数据科学家的重点是数据科学,也就是说,如何从海量数据中提取有用的信息,以及如何将业务和科学信息需求转化为信息和数学语言。为了能从海量信息中获得见解,数据科学家需要掌握统计学、概率、数学和算法知识。这些数据科学家通常只是为了运行程序、对数据进行高级分析这类特定需要而学习编程,因此,数据科学家通常只写最少最简易的代码,能完成数据科学任务以及提供干净的数据进行分析即可。数据科学家创建假设,对数据进行测试和分析,然后将其结果以便于查看和理解的形式呈现给组织中的其他人。

但是如果没有大量的干净数据,数据科学家就无法完成自身工作。提取、清理和移动数据实际上并不是数据科学家的职责,而是数据工程师的职责。数据工程师拥有编程、技术方面的专业知识,以前曾参与过数据集成、中间件、分析、业务数据门户和ETL操作。数据工程师的重心和技能集中在大数据和分布式系统上,可以使用JavaPython、Scala等编程语言脚本工具,拥有技术经验。数据工程师面临的挑战是如何从各种各样的系统中获取结构化和非结构化的数据,解决不“干净”的数据例如字段缺失、数据类型不匹配等与数据相关的问题。数据工程师要使用编程、集成、体系结构和系统技能来清理所有数据,并将其放入一种格式和系统中,然后数据科学家就可以使用该格式和系统来分析、建立数据模型并为组织提供价值。数据工程师的角色就是设计、构建和安排数据的工程师。

数据科学家和数据工程师能合二为一吗?

虽然数据科学家和数据工程师的角色似乎截然不同,但数据科学家和数据工程师有许多共同的特点和共技能。这些重叠的技能包括处理和操作大数据集、应用数据的编程技能、数据分析技能以及对系统操作的总体熟练程度。

尽管有很多共性重叠的部分,但是数据科学家和数据工程师的工作重点仍有差异,因此不太可能两个角色合二为一。更重要的是,在招聘数据科学家和数据工程师时,要确保问对了问题,从候选人身上找到正确的技能。

更重要的是,随着数据科学兴起的代码学院、研讨会和培训班引出了新问题:这些培训和代码学院的重点是数据科学背后的科学,还是数据工程背后的工程、编程,更糟的是,这些活动是否只是泛泛研究了一点囫囵吞枣地教学而混淆了细分的需求,比如应该关注大数据和ML分析的哪些领域?

虽然看起来您可以在科学角色中做一点工程工作,或者在工程角色中做一点科学工作,但是混合角色可能会不利于企业组织在ML或数据科学的成功。那些被迫从事数据工程工作而没有相关背景、技能或资质的数据科学家很容易错误配置、误用技术,或者编写效率低、成本高、浪费时间的程序。同样地,要求从根本上具有工程背景的人学习复杂的数据科学数学,可能会导致组织对其信息得出错误的结论,产生灾难性结果。专业化是很重要的,好比医生要做检查,抽血师负责抽血。医生可以为你抽血,抽血师可以了解化验结果,但你为什么要拿自己的舒适和健康去冒险呢?

数据科学家在企业组织中处于什么位置?

为了从数据中获得价值,大多数企业组织都需要数据科学和数据工程,由于相关技能有很大差异,二者合体也不太现实。企业组织可能需要多个数据科学家和数据工程师,但两者之间的比例很少是1:1。对于大多数企业组织来说,拥有更多的数据工程师比数据科学家更有意义。因为数据科学家已经学会处理大量的干净数据,但是从许多不同系统获得大量的干净数据更难也更具挑战。与抽象数据模型和对数据集运行分析相比,移动和清理数据的工作量更大。

此外,数据科学家在企业组织应该向谁报告可能是错的,有的数据科学家向技术团队报告,这是没有意义的。数据科学家通常不会询问特定技术的实施和数据分析,其所面临的挑战特定的业务线。因此,数据科学家应该向业务战略决策相关人员报告。

有以业务为中心的工具吗?

如果数据科学和数据工程确实是组织中独立的角色,那么将它们所需的工具应该是分开的。许多进入数据科学/机器学习领域的供应商正在混淆视听,使事情变得更加混乱。他们声称工具是为数据科学家准备的,但是其一切主要功能和特性都是为数据工程师准备的,在上面点缀一些数据科学的特性是没有意义的。对于数据科学家来说,需要一个分析的、面向数据的、以模型为中心的工具,而不是在数据清理、移动数据和将数据从私有环境迁移到云环境等方面的工具。这就像给一个驾驶教练一辆车的零件,然后说:“自己造这辆车,然后教别人如何驾驶它。”

数据科学家需要的是以数据科学为中心的工具,而不是以工程和编程为中心的工具。现在,这些工具越来越多,让数据科学家可以进行数据挖掘或预测分析。然而,随着数据科学家越来越深入业务领域,以业务为中心的工具是更合适的,例如,几十年前,如果您希望以类似电子表格的格式操作大量数据,这就涉及到编程,但是像Excel这样的工具引入了数据透视表这样的东西,现在业务经理能够执行各种分析。Excel等工具将数据科学功能或以业务为中心的数据挖掘和分析工具嵌入到产品中只是时间问题。

随着数据科学家的人才缺口继续扩大,新的工具将会出现,这些工具是为了允许非技术人员(即业务人员)运行、测试和分析数据而创建的,战略业务经理将开始学习数据科学,数据科学家仍然需要运行非常复杂的数据分析工具。然而,随着越来越多易用工具的出现,大多数情况下基本分析将更多地转移到业务方。企业中ML和数据科学相关工具和技术也越来越大有可为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 工程师
    +关注

    关注

    59

    文章

    1591

    浏览量

    69604
  • 数据科学
    +关注

    关注

    0

    文章

    168

    浏览量

    10513
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    数字信号处理,科学家工程师指南(664页)

    数字信号处理入门书籍,非常全面,清晰易懂 获取完整文档资料可下载附件哦!!!! 如果内容有帮助可以关注、点赞、评论支持下哦~
    发表于 07-11 14:59

    工程师的“新神器”:用CCLinkie转Devicenet连接水质分析仪,轻松搞定数据难题

    在化工行业摸爬滚打的工程师们,是不是经常水质监测数据的获取和整合头疼?边是复杂的化工生产流程,边是水质分析仪的
    发表于 06-09 15:36

    问,成为硬件工程师需要几只手?#硬件工程师 #YXC晶振 #扬兴科技 #搞笑

    硬件工程师
    扬兴科技
    发布于 :2025年04月25日 17:15:37

    招拿捏电子工程师#被AI拿捏了 #电子工程师 #电子电工

    电子工程师
    安泰小课堂
    发布于 :2025年03月25日 17:30:51

    如何成为嵌入式开发工程师

    如何成为嵌入式开发工程师? 成为嵌入式开发工程师通常需要掌握系列技能和知识,并且在实践中不断积累经验。以下是些基本步骤和建议: 1. 基础教育:- 获取电子
    发表于 02-19 10:39

    NVIDIA RAPIDS cuDF如何赋AI加速数据科学

    随着 AI 正帮助各行各业推动创新和提高效率,基于海量的高质量数据来训练各种模型是充分发挥 AI 应用潜力的必经之路,正因如此,数据科学家们面临着日益增长的工作负载需求,迫切需求寻找高效趁手的工具以应对挑战。
    的头像 发表于 01-24 09:26 ?656次阅读

    多用示波器的原理和应用场景

    系统控制电子束的方向,使其随外加信号的变化描绘出被测信号的波形。荧光屏则用来显示电子束撞击后产生的亮点,形成信号波形。、应用场景 电子工程:在电子工程领域,示波器常被用于信号的调试与分析。
    发表于 01-09 15:42

    西湖大学:科学家+AI,科研新范式的样本

    研究,创新科研新范式。这点在西湖大学的科研项目中已得到体现。 成立于2018年的西湖大学是由施公院士领衔创办的、聚焦前沿科学研究的研究型大学,该校鼓励科学家们探索AI与各学科交叉融
    的头像 发表于 12-12 15:59 ?641次阅读
    西湖大学:<b class='flag-5'>科学家</b>+AI,科研新范式的样本

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    了传统学科界限,使得科学家们能够从更加全面和深入的角度理解生命的奥秘。同时,AI技术的引入也催生了种全新的科学研究范式,即数据驱动的研究范式,这种范式强调从大量
    发表于 10-14 09:21

    《AI for Science:人工智能驱动科学创新》第章AI for Science的技术支撑学习心得

    和数量直接影响到模型的准确性和可靠性。因此,数据获取、处理、分析和质量控制在AI for Science中至关重要。此外,数据驱动的研究范式也促使科学家从传统的假设驱动转向更加灵活和开
    发表于 10-14 09:16

    《AI for Science:人工智能驱动科学创新》第章人工智能驱动的科学创新学习心得

    如何激发科学家的创新思维。AI不仅仅是工具,更是种思维方式,它鼓励我们跳出传统框架,以数据驱动,探索未知。这种思维方式的转变,不仅促进了科学
    发表于 10-14 09:12

    小米手机部工程师荣获国家技术发明奖等奖

    日前,全国科技大会、国家科学技术奖励大会、两院院士大会在北京召开。大批贡献卓越的科学家和标志性成果获得了国家科技奖励。其中,我们也有位小米人带着作品参与到了其中,并获得了国家级奖项
    的头像 发表于 08-16 10:39 ?1506次阅读