搜索历史

清空

搜索热词

0

聊天消息
系统消息
评论与回复

查看更多

查看更多

查看更多

VIP于到期续费

登录后你可以

下载海量资料
学习在线课程
观看技术视频
写文章/发帖/加入社区

会员中心

创作中心

发布

创作活动

完善资料让更多小伙伴认识你，还能领取20积分哦，立即完善>

3天内不再提示

建立决策树的逻辑

一个小故事

zenRRan二十出头了，到了婚配的年龄啦。又因为家是名门望族，所以一堆人抢着想来应聘配偶的职位。但是zenRRan比较挑剔，必须达到他的要求才能有机会成为他的另一半，要求为：

1. 性别女，非女性不要

于是刷刷刷走了一半人，剩下的全部为女性。

2.身高必须要在150-165cm

于是又走了一堆人，剩下的为160-165cm之间的女生。

3.性格要温柔贤惠

听到这些，又走了一些人，最后留下的极为最后的应聘候选人。

上述过程可以用树来表示：

像上面的这样的二叉树状决策在我们生活中很常见，而这样的选择方法就是决策树。机器学习的方法就是通过平时生活中的点点滴滴经验转化而来的。

建立决策树的逻辑

正如上述树状图所示，我们最终会通过特征：

性别，身高，性格

得到了4种分类结果，都存在于叶子节点。

非女生，身高不符合的女生，身高符合性格不符合的女生，都符合的最佳候选人。

现在我们来回想下上面的建立决策的流程：

首先在一群给定数据（应聘者）中，我们先通过一个特征（性别）来进行二分类。当然选取这个特征也是根据实际情况而定的，比如zenRRan选取第一个条件为性别的原因是，来的男的太多了，比例占的有点大，所以先给他分成类放到一边，剩下的更加好分类而已。

然后，对叶子节点（那些还想继续分类的节点们）继续进行上述的流程。

那么怎么选取特征作为当前的分类依据呢？有两种方法：

信息熵和基尼系数。

信息熵

熵这个概念想必大家都不陌生，熵用来表示数据的确定性程度。研究一个词，就要从他的来源说起，熵，来自热动力学，表示原子或者一个事物的稳定程度，温度越高，原子越活跃，越不稳定；反而温度越低，就越稳定，越保持不动。所以慢慢的这个概念被用到各个方向，也就有了新的定义词汇，但是它的本意没变，就是稳定程度大小的表示。

那么在决策树里面，我们用的是一种熵，信息熵，来表示类别的稳定程度。

公式为：

注：p为一个类的占比

什么意思呢？具体用数字表示下：

比如一个分类结果由三个类组成，占比为1/3 1/31/3，那么它们的信息熵为:

如果占比为1/10 2/10 7/10，那么它的信息熵为：

那再举一个极端情况，也就是我们想要得到的类，只包含一种情况，其他的比例为0，那么比如占比情况为：1 0 0，那么它的信息熵为：

我们会发现一个分类结果里，里面的类别比例越是接近，信息熵也就越大，反之越是趋向于一个值，越是小，会达到0。

如果将所有的情况考虑在内的话，就能绘成一个图（为了好画，以该分好的类别里有两种事物为例）：

我们会发现，当占比为0.5的时候，也就是另一个事物的占比也是0.5的时候信息熵最高，当倾向于一个事物的时候，信息熵最小，无限接近并达到0。

为什么都占比一样的时候信息熵最大呢？也就是说最不稳定呢？因为当每个事物都占比一样的时候，一个小事物进来，不清楚它到底属于哪一类；如果只有一类事物或者一类事物居多数，那么也就比较明确该属于哪类，也就稳定，确定了。

那么怎么用呢？

我们通过计算机分类，因为有很多种分类情况，不是每一次分类都是直接将同一类分到一个类别里，而是将该分好的两个类的信息熵总和最小为依据，不断地通过暴力寻找最佳选择。然后递归进行对分好类的数据进行再分类。

基尼系数

基尼系数和信息熵在这里具有同样的性质。先看看它的公式：

公式看不出什么特色之处，就继续用数字展示下：

比如依然是三分类，类别占比为1/3 1/3 1/3，基尼系数为:

类别占比为1/10 2/10 7/10，基尼系数为：

如果是极端情况下占比为1 0 0，那么基尼系数为;

我们根据公式其实就能看出来，平方的函数为凸函数，而该公式在都相等的时候值最大。

代码实现

再重说下流程：

通过对每个特征进行尝试分类，记录当前分类最小的信息熵（或基尼系数）的特征为当前分类结果。

选取一些点，初始化数据：

X为二维平面的数据点，Y为类别。

数据点分布情况：

信息熵函数：

基尼系数函数：

二者使用一个即可。

下面是一个分类核心的流程：

文字描述为：

对数据点的特征0维进行尝试分类，先按照0维数据排序，然后取每相邻的中点值，然后以0维该值分界线，处于分界线两侧的数据分别求信息熵（或基尼系数），如果比之前的小，这就保存该值和当前维度。然后选取第1维进行相同操作，最终的最小信息熵（或基尼系数）最小对应的值为本次分类的结果。

但是这个仅仅是一层分类，如果还子节点还有要分类的数据，继续上述操作即可。

分类代码：

分类效果流程图：

决策树第一层分类结果为：

当前线为最佳值，1维的数据就是分过的，但是没有当前的值好，也就没显示。

现在已经分出了两类，左边的红色和右边的绿色+蓝色。那么还要对上述的右边进行分类，获取该数据，并且继续进行分类，分类流程图为：

最终得出的分类结果为上述两条线。其中粉色为第一层分类，紫色为第二层分类。

批判性思维看决策树

看到上述的分类结果，其实你心里也想到了决策树的缺点了，就是分类总是横平竖直的，不能是曲线。

比如

该四个数据的分类最佳理想条件下应该为上述紫色线条，但是决策树的结果为;

如果存在数据在：

明明应该属于蓝色点的，但是被划分到红色点里。

所以可以看出，决策树对数据的要求是是苛刻的。

另一个问题是，决策树的学习问题，从上述代码实现过程能够看出来，可以说是暴力求解了。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

二叉树

二叉树

+关注

关注
0

文章
74

浏览量
12702
机器学习

机器学习

+关注

关注
66

文章
8513

浏览量
135107
决策树

决策树

+关注

关注
3

文章
96

浏览量
13875

原文标题：【机器学习】决策树的理论与实践

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

评论

深度学习自然语言处理
专栏

0 文章 0 阅读 0 粉丝 0 点赞

关注个人主页

Hot 一个给NLP领域带来革新的预训练语言大模型Bert
Hot 推荐一些翻译英文文献比较准确的软件

New 高效大模型的推理综述
New 什么是RAG，RAG学习和实践经验

精选推荐
更多

文章

资料

帖子

断电 0 秒恐慌！树莓派 UPS 终极指南！

上海晶珩电子科技有限公司
19小时前

317 阅读

揭秘！基于RT-Thread探究“优先级反转”下的任务调度究竟是什么样的？| 技术集结

RT-Thread官方账号
20小时前

304 阅读

三种功率器件的区别解析

芯长征科技
1天前

861 阅读

理想i8的LPM功率模块设计解析

芯长征科技
1天前

1260 阅读

一文详解物理层编码技术NRZ和PAM4

是德科技KEYSIGHT
1天前

821 阅读

ELC16J.pdf 电子管资料数据手册

张勇
128

5积分

28下载

hoo-platform-parent权限管理系统

刘丹
6.37 MB

免费

0下载

bootx-platform单体式应用开发框架

马祥
1.42 MB

2积分

1下载

TensorFlow-DirectML TensorFlow的GPU范围扩展

倪山骋
62.68 MB

2积分

1下载

用于ESP/ESP8266 WiFi模块供电编程和控制的PCB

吴湛
0.04 MB

2积分

3下载

【嘉楠堪智K230开发板试用体验】CanMV K230 环境监测

ouxiaolong
1天前

157 阅读

【嘉楠堪智K230开发板试用体验】CanMV K230 读取AHT10

ouxiaolong
2天前

170 阅读

【嘉楠堪智K230开发板试用体验】CanMV K230 MQTT通信

ouxiaolong
2天前

181 阅读

【「开关电源控制环路设计：Christophe Basso 的实战秘籍」阅读体验】+第三章三个补偿器

jf_35475674
1天前

224 阅读

【「开关电源控制环路设计：Christophe Basso 的实战秘籍」阅读体验】+第二章开环系统

jf_35475674
2天前

190 阅读

推荐专栏
更多

企业产品

资料

方案
更多

abg欧博（原“华强聚丰”）：

电子发烧友

abg欧博开发

abg欧博电路(原"华强PCB")

abg欧博商城(原"华强芯城")

abg欧博智造

My ElecFans

APP
网站地图

设计技术

可编程逻辑

电源/新能源

MEMS/传感技术

测量仪表

嵌入式技术

制造/封装

模拟技术

RF/无线

接口/总线/驱动

处理器/DSP

EDA/IC设计

存储技术

光电显示

EMC/EMI设计

连接器

行业应用

LEDs

汽车电子

音视频及家电

通信网络

医疗电子

人工智能

虚拟现实

可穿戴设备

机器人

安全设备/系统

军用/航空电子

移动通信

工业控制

便携设备

触控感测

物联网

智能电网

区块链

新科技

特色内容

专栏推荐

学院

设计资源

设计技术

电子百科

电子视频

元器件知识

工具箱

VIP会员

最新技术文章

产品地图

品牌地图

社区

小组

论坛

问答

评测试用

企业服务

产品

资料

文章

方案

企业

供应链服务

硬件开发

abg欧博电路

abg欧博商城

abg欧博智造

nextPCB

BOM配单

媒体服务

网站广告

在线研讨会

活动策划

新闻发布

新品发布

小测验

设计大赛

abg欧博

关于我们

投资关系

新闻动态

加入我们

联系我们

举报投诉

社交网络

微博

移动端

发烧友APP

硬声APP

WAP

联系我们

广告合作

王婉珠：wangwanzhu@elecfans.com

内容合作

黄晶晶：huangjingjing@elecfans.com

内容合作（海外）

张迎辉：mikezhang@elecfans.com

供应链服务 PCB/IC/PCBA

江良华：lanhu@huaqiu.com

投资合作

曾海银：zenghaiyin@huaqiu.com

社区合作

刘勇：liuyong@huaqiu.com

关注我们的微信

下载发烧友APP

电子发烧友观察

电子工程师社区

1-32层PCB打样·中小批量

元器件现货·全球代购·SmartBOM

SMT贴片·PCBA加工

PCB Manufacturer

abg欧博简介

企业动态

联系我们

企业文化

企业宣传片

加入我们

版权所有 ? 湖南abg欧博数字科技有限公司

长沙市望城经济技术开发区航空路6号手机智能终端产业园2号厂房3层（0731-88081133）
电子发烧友 （电路图） 湘公网安备43011202000918 工商网监湘ICP备2023018690号-1