1 如何将机器学习模型的准确性从80%提高到90%以上-德赢Vwin官网 网
0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何将机器学习模型的准确性从80%提高到90%以上

电子设计 来源: 电子设计 作者: 电子设计 2020-12-10 14:39 次阅读

数据科学工作通常需要大幅度提高工作量才能提高所开发模型的准确性。这五个建议将有助于改善您的机器学习模型,并帮助您的项目达到其目标。

如果您已经完成了一些自己的数据科学项目,那么您现在可能已经意识到,达到80%的准确性还不错!但是在现实世界中,有80%不会削减它。实际上,我工作过的大多数公司都期望至少90%的最低准确性(或他们所关注的任何度量标准)。
因此,我将讨论可以极大地提高准确性的5件事。 我强烈建议您仔细阅读所有五点内容, 因为其中包含了许多大多数初学者都不知道的细节。
到此为止,您应该理解,在决定机器学习模型的性能方面,有比您想象的更多的变量。
话虽如此,您可以做以下五件事来改善您的机器学习模型!

1.处理缺失值

我看到的最大错误之一是人们如何处理缺失的价值观,这不一定是他们的错。网络上有很多资料说,您通常通过均值插补来处理缺失值 , 将空值替换为给定特征的均值,这通常不是最佳方法。
例如,假设我们有一个显示年龄和健身得分的表,并且假设一个八十岁的孩子缺少健身得分。如果我们将平均健身得分从15到80岁的年龄范围内进行计算,那么八十岁的孩子似乎将获得比他们实际应该更高的健身得分。
因此,您要问自己的第一个问题是 为什么 数据一开始会丢失。

接下来,考虑除均值/中位数插补外的其他处理丢失数据的方法:
特征预测建模:回到我关于年龄和健身得分的示例,我们可以对年龄和健身得分之间的关系进行建模,然后使用该模型查找给定年龄的预期健身得分。这可以通过多种技术来完成,包括回归,ANOVA等。

K最近邻插补:使用KNN插补,缺失数据中填充了另一个相似样本中的值,对于不知道的数据,KNN中的相似性使用距离函数(即欧几里德距离)确定。

删除行:最后,您可以删除该行。通常不建议这样做,但是当您有大量数据开始时,它是可以接受的 。

2.特征工程

可以显着改善机器学习模型的第二种方法是通过特征工程。特征工程是将原始数据转换为更好地表示人们正在试图解决的潜在问题的特征的过程。没有具体的方法可以执行此步骤,这就是使数据科学与科学一样多的艺术。话虽如此,以下是您可以考虑的一些事项:

转换DateTime变量以仅提取一周中的一天,一年中的月份等。

为变量创建箱或桶。(例如,对于高度变量,可以为100–149厘米,150–199厘米,200–249厘米等)

组合多个功能和/或值以创建一个新功能。例如,针对泰坦尼克号挑战的最准确模型之一设计了一个新变量“ Is_women_or_child”,如果该人是女人还是孩子,则为True,否则为false。

3.特征选择

可以大大提高模型准确性的第三个领域是特征选择,即选择数据集中最相关/最有价值的特征。特征太多会导致算法过拟合,而特征太少会导致算法不足。

我喜欢使用两种主要方法来帮助您选择功能:

功能重要性:某些算法(例如随机森林或XGBoost)可让您确定哪些功能在预测目标变量的值时最“重要”。通过快速创建这些模型之一并进行功能重要性,您将了解哪些变量比其他变量更有用。

降维:主成分分析(PCA)是最常见的降维技术之一,它具有大量特征,并使用线性代数将其简化为更少的特征。

4.集成学习算法

改善机器学习模型的最简单方法之一就是简单地选择更好的机器学习算法。如果您还不知道什么是集成学习算法,那么现在该学习它了!
集合学习 是一种结合使用多种学习算法的方法。这样做的目的是,与单独使用单个算法相比,它可以实现更高的预测性能。
流行的整体学习算法包括随机森林,XGBoost,梯度提升和AdaBoost。为了解释为什么集成学习算法如此强大,我将以随机森林为例:

随机森林涉及使用原始数据的自举数据集创建多个决策树。然后,模型选择每个决策树的所有预测的模式(多数)。这有什么意义?通过依靠“多数胜利”模型,它降低了单个树出错的风险。

例如,如果我们创建一个决策树,第三个决策树,它将预测0。但是,如果我们依靠所有4个决策树的模式,则预测值为1。这就是集成学习的力量!

5.调整超参数

最后,调整模型的超参数并不经常被谈论,但仍然非常重要。在这里,必须清楚地了解正在使用的ML模型。否则,可能很难理解每个超参数。

看一下随机森林的所有超参数:

class sklearn.ensemble.RandomForestClassifier(n_estimators=100, *, criterion='gini', max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features='auto', max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False, n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None, ccp_alpha=0.0, max_samples=None)

例如,了解什么是min_impurity_decrease可能是一个好主意,这样,当您希望机器学习模型更加宽容时,可以调整此参数!;)

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表德赢Vwin官网 网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4607

    浏览量

    92825
  • 机器学习
    +关注

    关注

    66

    文章

    8406

    浏览量

    132557
收藏 人收藏

    评论

    相关推荐

    用TXS0108E进行电平转换时,当把数据速率提高到80MHz以上时信号输出电平不正常,为什么?

    你好,现在用TXS0108E进行电平转换时(A通道是2.8V电平,B通道是3.3V电平),当数据速率是50MHz进行转换时输出信号没问题,当把数据速率提高到80MHz以上时信号输出电平不正常,请问是该芯片不能支持这么高速率数据
    发表于 12-20 08:00

    如何提升ASR模型准确性

    提升ASR(Automatic Speech Recognition,自动语音识别)模型准确性是语音识别技术领域的核心挑战之一。以下是一些提升ASR模型准确性的关键方法: 一、优化数
    的头像 发表于 11-18 15:14 734次阅读

    如何评估 ChatGPT 输出内容的准确性

    评估 ChatGPT 输出内容的准确性是一个复杂的过程,因为它涉及多个因素,包括但不限于数据的质量和多样模型的训练、上下文的理解、以及输出内容的逻辑一致
    的头像 发表于 10-25 17:48 571次阅读

    如何保证测长机测量的准确性

    可以通过以下方法保证测长机测量的准确性:一、设备方面1.定期校准按照规定的时间间隔,测长机送往专业的计量机构或使用标准器进行校准。校准可以确定测长机的测量误差,并对其进行调整,确保测量结果的准确性
    的头像 发表于 10-25 16:16 311次阅读
    如何保证测长机测量的<b class='flag-5'>准确性</b>?

    AI大模型与深度学习的关系

    人类的学习过程,实现对复杂数据的学习和识别。AI大模型则是指模型的参数数量巨大,需要庞大的计算资源来进行训练和推理。深度学习算法为AI大
    的头像 发表于 10-23 15:25 641次阅读

    【《大语言模型应用指南》阅读体验】+ 基础知识学习

    能够关注到输入文本中的重要部分,从而提高预测的准确性和效率。这种机制允许模型在处理文本时同时考虑多个位置的信息,并根据重要进行加权处理。 一些关键技术 1. 上下文理解 大语言
    发表于 08-02 11:03

    影响电源纹波测试准确性的因素

    电源纹波测试是评估电源质量的重要手段之一,它能够反映出电源在输出电压中的波动情况。然而,测试过程中的多种因素都可能对测试结果的准确性产生影响。本文将从多个方面分析影响电源纹波测试准确性的因素,并提
    的头像 发表于 08-02 09:42 598次阅读

    THS4524 CMRR想提高到140dB及以上,请问有好的方法吗?

    OPA1637, THS4521, ADS1278THS4524 看到CMRR最低为80dB, 是否可以加外围的电路增加 CMRR呢? 有参考的方法吗? 使用该器件,CMRR想提高到140dB及以上,请问有好的方法吗?
    发表于 08-01 06:05

    Al大模型机器

    和迭代来不断改进自身性能。它们可以用户交互中学习并根据反馈进行调整,以提高对话质量和准确性。可定制与整合
    发表于 07-05 08:52

    深度学习模型训练过程详解

    深度学习模型训练是一个复杂且关键的过程,它涉及大量的数据、计算资源和精心设计的算法。训练一个深度学习模型,本质上是通过优化算法调整模型参数,
    的头像 发表于 07-01 16:13 1217次阅读

    请问如何将STM8的主频真正提高到24MHz?

    单纯的提高晶振的频率24MHz好像不能将主频真正提高到24MHz。具体要用什么办法呢?
    发表于 05-14 06:39

    【大语言模型:原理与工程实践】大语言模型的评测

    推断孩子的年龄。而在演绎推理中,我们关注模型已知前提出发,通过逻辑推导得出结论的准确性和逻辑,例如在真假陈述中找出真实的陈述者。对于此类任务,我们主要关注两个评价指标:推理结果的
    发表于 05-07 17:12

    Chrome浏览器地址栏更新,运用机器学习提升相关判断准确性

    据悉,谷歌成功机器学习(ML)模型融入Chrome多功能框,以实现更为精准的内容推荐。举例而言,若用户在短时间内关闭某网页,AI便会判定此页非所需,进而降低其相关
    的头像 发表于 04-30 11:15 519次阅读

    电流探头测试小技巧:提高准确性和安全

    电流探头是一种常用的测试工具,用于测量电路中的电流。正确使用电流探头可以提高测试的准确性,并确保操作的安全。本文介绍一些电流探头的测试小技巧,帮助您更好地使用电流探头进行电流测量。
    的头像 发表于 03-08 09:31 362次阅读
    电流探头测试小技巧:<b class='flag-5'>提高</b><b class='flag-5'>准确性</b>和安全<b class='flag-5'>性</b>

    FLOEFD T3STER自动校准模块—提高电子产品散热设计的准确性

    西门子工业数字软件FLOEFD T3STER 自动校准模块——提高电子产品散热设计的准确性
    的头像 发表于 02-21 10:10 568次阅读
    FLOEFD T3STER自动校准模块—<b class='flag-5'>提高</b>电子产品散热设计的<b class='flag-5'>准确性</b>