什么是信息增益比

什么是信息增益比

news/2024/10/2 7:39:26 标签: 机器学习, 决策树, 概率论, 人工智能

信息增益比（Information Gain Ratio） 是对 信息增益（Information Gain, IG） 的改进，它考虑了特征的不同取值数量对信息增益的影响，避免了信息增益偏向于取值较多特征的倾向。信息增益比常用于构建决策树，特别是在C4.5决策树算法中。

背景

信息增益（IG） 在选择特征时，通常会选择信息增益最大的特征进行划分。然而，信息增益会偏向那些取值较多的特征。例如，如果一个特征有非常多的不同值（如唯一标识符），该特征可能在划分时导致信息增益非常大，但并不代表该特征实际上对分类有较大的贡献。

为了解决这个问题，引入了信息增益比（Gain Ratio）。信息增益比在信息增益的基础上考虑了特征取值的数量，并对取值较多的特征进行惩罚。

信息增益比的定义

信息增益比的计算公式为：
$\text{Gain Ratio}(D, X) = \frac{IG(D, X)}{IV(X)}$

其中：

$I G (D, X)$ 是特征 $X$ 的信息增益，它衡量特征 $X$ 对数据集 $D$ 中不确定性减少的程度。
$I V (X)$ 是特征 $X$ 的固有值（Intrinsic Value），用于衡量特征 $X$ 的取值分布，它表示特征 $X$ 将数据划分成不同子集的“离散性”或“多样性”。

固有值（Intrinsic Value, IV）的定义

固有值 $I V (X)$ 的公式为：
$\sum_{i=1}^n \frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$

其中：

$D_i$ 是特征 $X$ 的第 $i$ 个取值对应的数据子集。
$D_i|$ 是子集 $D_i$ 的样本数量， $∣ D ∣$ 是原始数据集的总样本数量。
$n$ 是特征 $X$ 的取值数量。

固有值的作用是衡量特征的取值数量和分布。如果特征 $X$ 的取值非常多且每个取值对应的数据量很少，固有值会很大，这会降低信息增益比的值。

计算信息增益比的步骤

计算信息增益 $I G (D, X)$ ：
- 首先，计算特征 $X$ 的信息增益，表示特征 $X$ 对数据集 $D$ 的不确定性减少的程度。
计算特征的固有值 $I V (X)$ ：
- 接着，计算特征的固有值 $I V (X)$ ，表示特征 $X$ 的取值分布的离散性。
计算信息增益比 $\text{Gain Ratio}(D, X)$ ：
- 最后，计算信息增益比，将信息增益 $I G (D, X)$ 除以固有值 $I V (X)$ 。如果固有值 $I V (X)$ 非常大，信息增益比会较小，防止算法偏向那些取值较多的特征。

信息增益比的作用

信息增益比通过除以特征的固有值来减少信息增益对取值多样性的偏好，从而对那些取值非常多但没有实际分类能力的特征进行惩罚。
在决策树构建过程中，选择信息增益比最大的特征进行划分。这种方法可以有效避免信息增益在面对高取值数特征时的偏向。

举例说明

假设我们有一个二元分类问题，并且特征 $X_1$ 和 $X_2$ 可分别取两种和十种不同的值。我们计算了特征 $X_1$ 和 $X_2$ 的信息增益，假设：

特征 $X_1$ 的信息增益 $IG(D, X_1) = 0.5$
特征 $X_2$ 的信息增益 $IG(D, X_2) = 0.7$

根据信息增益的结果，特征 $X_2$ 似乎是一个更好的选择。但是，特征 $X_2$ 有更多的取值，因此它可能由于取值的数量而获得了较高的信息增益。因此，我们引入固有值进行调整。

假设我们计算了固有值：

特征 $X_1$ 的固有值 $IV(X_1) = 0.9$
特征 $X_2$ 的固有值 $IV(X_2) = 2.0$

我们可以计算信息增益比：

特征 $X_1$ 的信息增益比 $\text{Gain Ratio}(D, X_1) = \frac{0.5}{0.9} \approx 0.56$
特征 $X_2$ 的信息增益比 $\text{Gain Ratio}(D, X_2) = \frac{0.7}{2.0} = 0.35$

虽然特征 $X_2$ 的信息增益较高，但由于其固有值较大，信息增益比却较低。因此，特征 $X_1$ 的信息增益比更高，意味着特征 $X_1$ 更适合作为划分的依据。

总结

信息增益比通过对信息增益进行归一化来减少对取值较多特征的偏好，它有效避免了信息增益倾向于选择取值较多特征的问题。
固有值用于衡量特征的离散性，特征取值越多，固有值越大，导致信息增益比越小。
C4.5 决策树算法使用信息增益比来选择分裂特征，以更合理地划分数据，避免取值多的特征占据优势。

信息增益比能够让决策树构建过程更加合理，防止仅因特征取值多样性导致选择错误的划分特征。

http://www.niftyadmin.cn/n/5688162.html

相关文章

如果您忘记了 Apple ID 和密码，按照指南可重新进入您的设备

如果您忘记了 Apple ID 和密码，按照指南可重新进入您的设备

即使您的 iPhone 或 iPad 由于各种原因被锁定或禁用，也可以使用 iTunes、“查找我的”、Apple 支持和 iCloud 解锁您的设备。但是，此过程需要您的 Apple ID 和密码来验证所有权并移除激活锁。如果您忘记了 Apple ID 和密码，请按照我们的指南重…

阅读更多...

蓝桥杯—STM32G431RBT6(IIC通信--EEPROM(AT24C02)存储器进行通信)

蓝桥杯—STM32G431RBT6(IIC通信--EEPROM(AT24C02)存储器进行通信)

一、什么是IIC？24C02存储器有什么用？ IIC （IIC 是半双工通信总线。半双工意味着数据在某一时刻只能沿一个方向传输，即发送数据的时候不能接收数据，接收数据的时候不能发送数据）即集成电路总线（…

阅读更多...

根据视频id查询播放量

根据视频id查询播放量

声明：文章仅用于学习交流,如有侵权请联系删除如何根据视频ID查询视频的播放数量在数字化时代，视频内容的消费已成为人们日常生活的重要组成部分。无论是社交媒体平台上的短视频，还是视频分享网站上的长视频，了解视频的播放数量…

阅读更多...

SpringGateway（网关）微服务

SpringGateway（网关）微服务

一.启动nacos 1.查看linux的nacos是否启动 docker ps2.查看是否安装了nacos 前面是你的版本，后面的names是你自己的，我们下面要启动的就是这里的名字。 docker ps -a3.启动nacos并查看是否启动成功二.创建网关项目 1.创建idea的maven项目 2.向pom.x…

阅读更多...

如何避免回溯算法中的回溯陷阱？

如何避免回溯算法中的回溯陷阱？

如何避免回溯算法中的回溯陷阱？ 回溯算法是一种强大的问题解决方法，但在使用过程中也容易陷入一些陷阱。这些陷阱可能导致算法效率低下、陷入无限循环或者无法找到正确的解决方案。在本文中，我们将探讨如何避免回溯算法中的回溯陷阱&#xf…

阅读更多...

CSS全解析

CSS全解析

文章目录 CSS全解析一、CSS是什么二、基本语法规范三、引入方式（一）内部样式表（二）行内样式表（三）外部样式四、代码风格（一）样式格式（二）样式大小写&#xf…

阅读更多...

Python或R时偏移算法实现

Python或R时偏移算法实现

🎯要点计算单变量或多变量时序距离，使用欧几里得、曼哈顿等函数量化不同时序差异。量化生成时序之间接近度相似性矩阵。使用高尔距离和堪培拉距离等相似度测量。实现最小方差匹配算法，绘制步进模式的图形表示。其他语言包算法实现。 &…

阅读更多...

Windows 环境下 MySQL5.5 安装与配置详解

Windows 环境下 MySQL5.5 安装与配置详解

Windows 环境下 MySQL5.5 安装与配置详解目录 Windows 环境下 MySQL5.5 安装与配置详解一、MySQL 软件的下载二、安装 MySQL三、配置 MySQL1、配置环境变量2、安装并启动 MySQL 服务3、设置 MySQL 字符集4、为 root 用户设置登录密码一、MySQL 软件的下载 1、登录网址&#…

阅读更多...

最新文章