1 如何解决样本不均的问题?-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何解决样本不均的问题?

深度学习自然语言处理 来源:炼丹笔记 作者:时晴 2021-05-26 09:19 次阅读

样本不均的问题大家已经很常见了,我们总是能看到某一个类目的数量远高于其他类目,举个例子,曝光转化数远低于曝光未转化数。样本不均严重影响了模型的效果,甚至影响到我们对模型好坏的判断,因为模型对占比比较高的类目准确率非常高,对占比很低的类目预估的偏差特别大,但是由于占比较高的类目对loss/metric影响较大,我们会认为得到了一个较优的模型。比如像是异常检测问题,我们直接返回没有异常,也能得到一个很高的准确率。

重采样

这个是目前使用频率最高的方式,可以对“多数”样本降采样,也可以对“少数”样本过采样,如下图所示:

cf82abcc-bd58-11eb-9e57-12bb97331649.png

重采样的缺点也比较明显,过采样对少数样本“过度捕捞”,降采样会丢失大量信息

重采样的方案也有很多,最简单的就是随机过采样/降采样,使得各个类别的数量大致相同。还有一些复杂的采样方式,比如先对样本聚类,在需要降采样的样本上,按类别进行降采样,这样能丢失较少的信息。过采样的话,可以不用简单的copy,可以加一点点“噪声”,生成更多的样本。

Tomek links

Tomek连接指的是在空间上“最近”的样本,但是是不同类别的样本。删除这些pair中,占大多数类别的样本。通过这种降采样方式,有利于分类模型的学习,如下图所示:

cf95388c-bd58-11eb-9e57-12bb97331649.png

SMOTE

这个方法可以给少数样本做扩充,SMOTE在样本空间中少数样本随机挑选一个样本,计算k个邻近的样本,在这些样本之间插入一些样本做扩充,反复这个过程,知道样本均衡,如下图所示:

cfa3f39a-bd58-11eb-9e57-12bb97331649.png

NearMiss

这是个降采样的方法,通过距离计算,删除掉一些无用的点。

NearMiss-1:在多数类样本中选择与最近的3个少数类样本的平均距离最小的样本。

NearMiss-2:在多数类样本中选择与最远的3个少数类样本的平均距离最小的样本。

NearMiss-3:对于每个少数类样本,选择离它最近的给定数量的多数类样本。

NearMiss-1考虑的是与最近的3个少数类样本的平均距离,是局部的;NearMiss-2考虑的是与最远的3个少数类样本的平均距离,是全局的。NearMiss-1方法得到的多数类样本分布也是“不均衡”的,它倾向于在比较集中的少数类附近找到更多的多数类样本,而在孤立的(或者说是离群的)少数类附近找到更少的多数类样本,原因是NearMiss-1方法考虑的局部性质和平均距离。NearMiss-3方法则会使得每一个少数类样本附近都有足够多的多数类样本,显然这会使得模型的精确度高、召回率低。

评估指标

为了避免对模型的误判,避免使用Accuracy,可以用confusion matrix,precision,recall,f1-score,AUC,ROC等指标。

惩罚项

对少数样本预测错误增大惩罚,是一个比较直接的方式。

使用多种算法

模型融合不止能提升效果,也能解决样本不均的问题,经验上,树模型对样本不均的解决帮助很大,特别是随机森林,Random Forest,XGB,LGB等。因为树模型作用方式类似于if/else,所以迫使模型对少数样本也非常重视。

正确的使用K-fold

当我们对样本过采样时,对过采样的样本使用k-fold,那么模型会过拟合我们过采样的样本,所以交叉验证要在过采样前做。在过采样过程中,应当增加些随机性,避免过拟合。

使用多种重采样的训练集

这种方法可以使用更多的数据获得一个泛化性较强的模型。用所有的少数样本,和多种采样的多数样本,构建多个模型得到多个模型做融合,可以取得不错的效果。

重采样使用不同rate

这个方法和上面的方法很类似,尝试使用各种不同的采样率,训练不同的模型。

没有什么解决样本不均最好的方法,以上内容也没有枚举出所有的解决方案,最好的方案就是尝试使用各种方案。

原文标题:对“样本不均衡”一顿操作

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1791

    文章

    47182

    浏览量

    238198
  • 模型
    +关注

    关注

    1

    文章

    3226

    浏览量

    48804
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121109

原文标题:对"样本不均衡"一顿操作

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AFE4960如何正确的从FIFO中读取样本呢?

    我有一些问题想请教。 在双芯片串行模式下,MCU 收到 AFE4960 发送的 FIFO_RDY 中断信号后,开始通过 SPI 通信从 AFE4960 的 FIFO 中读取样本。 具体流程为
    发表于 11-14 06:41

    同步与多个FPGA接口的千兆样本ADC

    德赢Vwin官网 网站提供《同步与多个FPGA接口的千兆样本ADC.pdf》资料免费下载
    发表于 10-10 11:32 0次下载
    同步与多个FPGA接口的千兆<b class='flag-5'>样本</b>ADC

    CC13xx IQ样本

    德赢Vwin官网 网站提供《CC13xx IQ样本.pdf》资料免费下载
    发表于 09-20 11:12 0次下载
    CC13xx IQ<b class='flag-5'>样本</b>

    聚徽-工控一体机显示屏亮度不均怎么办

    工控一体机显示屏亮度不均可能由多种原因引起,首先,尝试通过工控一体机的快捷键(如 “Fn”+“F5” 或 “F6”)来调整屏幕亮度,看是否能够解决亮度不均的问题。
    的头像 发表于 09-13 09:54 247次阅读

    何解决热插拔时的电压过冲

    德赢Vwin官网 网站提供《如何解决热插拔时的电压过冲.pdf》资料免费下载
    发表于 09-06 11:34 0次下载
    如<b class='flag-5'>何解</b>决热插拔时的电压过冲

    何解决工字电感噪音大的问题

    德赢Vwin官网 网站提供《如何解决工字电感噪音大的问题.docx》资料免费下载
    发表于 09-04 11:46 0次下载

    何解决电感的漏感问题

    德赢Vwin官网 网站提供《如何解决电感的漏感问题.docx》资料免费下载
    发表于 09-02 14:48 0次下载

    英国医院通过RFID技术跟踪患者样本数据……

    英国医院通过RFID技术跟踪患者样本数据 为了更好地管理患者病例中的组织样本,医院决定引入RFID技术来构建实时跟踪系统。利兹教学医院作为英国国民健康保险制度(NHS)下的重要医疗机构,每年处理
    的头像 发表于 08-08 16:15 239次阅读
    英国医院通过RFID技术跟踪患者<b class='flag-5'>样本</b>数据……

    system_adc_read_fast为什么只能采集255个样本

    system_adc_read_fast仅采集 255 个样本样本数量增加时,函数冻结,看门狗复位芯片。 NONOS 2.0
    发表于 07-18 08:31

    锡膏点胶时拉丝不均匀,如何解决?

    时就出现拉丝不均匀,那么如何解决呢?接下来深圳佳金源锡膏厂家为大家讲解一下:在点胶的过程中比较容易出现的问题就是拉丝,可以采取以下几种措施:1、设置开胶延时。由于胶嘴
    的头像 发表于 04-20 16:03 386次阅读
    锡膏点胶时拉丝<b class='flag-5'>不均</b>匀,如<b class='flag-5'>何解</b>决?

    何解决连接国外大带宽服务器时可能遇到的问题

     相信很多小白用户会对如何解决连接国外大带宽服务器时可能遇到的问题感兴趣,RAK部落小编就为您整理发布如何解决连接国外大带宽服务器时可能遇到的问题。
    的头像 发表于 03-19 12:00 498次阅读

    煤气柜泄漏问题如何解

    德赢Vwin官网 网站提供《煤气柜泄漏问题如何解决.docx》资料免费下载
    发表于 03-05 17:49 0次下载

    何解决键槽滚键磨损问题

    德赢Vwin官网 网站提供《如何解决键槽滚键磨损问题.docx》资料免费下载
    发表于 02-04 14:24 0次下载

    何解决针对破碎机轴磨损问题

    德赢Vwin官网 网站提供《如何解决针对破碎机轴磨损问题.docx》资料免费下载
    发表于 01-17 16:30 0次下载

    新技术在生物样本冷冻中的应用案例分析

      一、冷冻样本的新技术应用   1. 低温离心   低温离心是一种比较先进的生物样本冷冻处理技术,它可以在较低温度下将样本进行离心,从而有效地分离和保存其中的细胞和分子。相比传统的液氮冷冻方法
    发表于 12-26 13:30