本文介绍了作为数据科学家或机器学习工程师应该掌握的机器学习(ML)建模的三个主要单元。机器学习建模,通过数据学习的艺术,是数据科学项目生命周期中的重要一步,也许是数据从业者最感兴趣的。
我们每天通过知觉、视觉和听觉来学习。此外,我们根据以前的经验对明天做出决定。机器学习是人工智能的一个分支,它通过揭示数据模式(即特征和目标变量之间的关系)来模拟人类的学习能力。
尽管特征是描述给定观测点或数据点的独立变量,但目标变量是我们通常感兴趣的用于建模以进行预测的因变量。
介绍此外,机器学习的三种主要类型突出如下:
- 监督式学习:在这里,算法使用示例中提供的目标变量进行训练。
- 非监督式学习:在这种情况下,算法只是针对示例中没有提供目标的特征进行训练。
- 强化学习:在这里,学习是通过与环境互动来完成的,同时根据需要为算法提供消极和积极的奖励。
监督式学习,也被称为监督式学习,是机器学习和人工智能的一个子范畴。它的定义是使用标记数据集来训练算法,以便对数据进行分类或准确预测结果。当输入数据输入到模型中时,它会调整权重,直到模型得到适当的拟合,这是交叉验证过程的一部分。监督式学习帮助组织大规模解决各种现实问题,比如将垃圾邮件从收件箱中分类到一个单独的文件夹中。
- 监督式学习是怎么运作的
监督式学习使用一套训练设备来教导模型产生预期的输出。这个训练数据集包括输入和正确的输出,允许模型随着时间的推移学习。该算法通过损失函数测量其精度,并进行调整,直到误差被充分地最小化。
- 在进行数据挖掘时,监督式学习可分为两类问题ーー分类和回归:
分类使用一种算法来准确地将测试数据分配到特定的类别中。它确认数据集中的具体实体,并试图就这些实体应如何标记或定义得出一些结论。常用的分类算法有线性分类器、支持向量机(SVM)、决策树、 k 最近邻算法和随机森林,以后将对这些算法进行更详细的描述。
回归是用来理解因变量和自变量之间的关系。它通常用于做出预测,例如对给定业务的销售收入进行预测。线性回归回归、逻辑回归和多项式回归是流行的回归算法。
什么是非监督式学习?非监督式学习,也被称为非监督式学习,使用机器学习算法来分析和聚类未标记的数据集。这些算法不需要人工干预就能发现隐藏的模式或数据分组。它能够发现信息的相似点和不同点,这使它成为探索性数据分析、交叉销售策略、客户细分和图像识别的理想解决方案。
非监督式学习的应用机器学习技术已经成为提高产品用户体验和测试质量保证系统的常用方法。非监督式学习为查看数据提供了一种探索性途径,使企业能够比人工观察更快地识别大量数据的模式。非监督式学习的一些最常见的现实应用包括:
- 新闻部分: 谷歌新闻使用非监督式学习对来自不同在线新闻渠道的同一篇文章进行分类。例如,总统选举的结果可以归类为“美国”新闻。
- 计算机视觉: 非监督式学习算法用于视知觉任务,比如物体识别。
- 医学影像: 非监督式学习为医学影像设备提供基本功能,如图像检测、分类和分割,用于放射学和病理学,以快速和准确地诊断病人。
- 异常检测: 非监督式学习模型可以梳理大量数据,发现数据集中的非典型数据点。这些异常现象可以提高对错误设备、人为错误或安全漏洞的认识。
- 客户角色: 定义客户角色可以更容易地理解公共特征和业务客户的购买习惯。非监督式学习允许企业建立更好的购买者个人资料,使组织能够更适当地调整他们的产品信息。
- 推荐引擎: 使用过去的购买行为数据,非监督式学习可以帮助发现数据趋势,可以用来发展更有效的交叉销售策略。这是用于在线零售商的结帐过程中向客户提供相关的附加建议。
了解自动人工智能决策,在机器学习的过程中,确定数据点,事件和观察,偏离数据集的正常行为。
强化学习学习已经成为机器学习中一个很有前途的领域,可以解决通常处于不确定状态的连续决策问题。这方面的例子包括多级库存管理和多个供应商,在需求不确定的情况下提前期; 控制问题,如自主制造业务或生产计划控制; 以及财务或业务中的资源分配问题。
强化学习是一个学习范式,学习优化顺序决策,这是反复采取的决策跨时间步骤,例如,每日库存补货决策采取的库存控制。在高层次上,强化学习模仿我们人类的学习方式。人类有能力学习策略,帮助我们掌握复杂的任务,如游泳,体操,或参加考试。强化学习广泛地从这些人类学习如何行动的能力中寻找灵感。但更具体到强化学习的实际使用情况,它寻求获得在不确定的动态系统中跨时间重复连续决策的最佳策略。它通过与感兴趣的随机动态系统(也称为环境)的模拟器进行交互来学习这种获胜策略。在动态系统中跨时间采取重复顺序决策的策略也称为策略。强化学习尝试学习成功的政策,即如何在一个动态系统的不同状态下采取行动的成功秘诀。
强化学习的数学框架包括以下组成部分:
- 状态空间(或观察空间) : 所有可用的信息和问题特征,有助于作出决策。这包括完全已知或可测量的变量(例如,当前库存水平的库存控制) ,以及未测量的变量,你可能只有一个信念或估计(例如,未来一天或一周的需求预测)。
- 操作空间: 您可以在系统的每个状态中进行的决策。
- 一个奖励信号: 一个标量信号,提供关于绩效的必要反馈,因此,有机会了解在任何给定的状态下哪些行动是有益的。学习在本质上是局部的,既可以学习即时收益,也可以学习长期收益,因为在任何状态下采取的行动都会导致将来采取另一个行动的状态,等等。折扣累积奖励信号是强化学习的优化目标,使其专注于产生最佳累积奖励的长期战略。
从发现创新的蛋白质结构到预测天气和能源需求,机器学习模型的应用在不同的学术领域和行业有所不同。此外,机器学习在欺诈检测、销售预测和客户细分领域为企业提供了巨大的价值。
机器学习建模的三个组件后面,我们将深入研究机器学习建模的三个主要单元。
数据这也许是机器学习建模最重要的组成部分。在将数据用于建模之前,根据要解决、预处理和探索的业务问题收集数据。数据的质量很大程度上取决于勘探和预处理的步骤。在建模之前,可以对原始数据进行进一步的充实。
在机器学习建模中,数据质量是影响预测性能的最重要因素。
算法这是机器学习建模的组成部分,它与数据相匹配,以学习特征和目标变量之间的模式和关系。一些机器学习算法是基于它们如何从数据中学习而存在的。一些例子包括决策树,随机森林,KMeans,DBSCAN 和神经网络。
在数据科学实践中,当解决一个给定的问题时,需要考虑不同的算法,这个过程是实验性的,并且高度依赖于问题。
此外,Scikit-learn 是用于实现不同 ML 算法的最广泛使用的 Python 库。其他流行的用于机器学习建模的 Python 库包括 LightGBM、 XgBoost、 Tensorflow、 Keras、 Pytorch。
拟合方法是每个算法的主要特征函数。
模型机器学习模型是将算法与数据进行拟合得到的对象。它经过培训,能够识别数据模式,并在必要时作出预测。
在实际应用中,利用算法超参数的不同值进行了实验,建立了用不同度量评价的多个模型。选择“最佳”模型并将其部署到生产环境中。
创建机器学习模型所涉及的过程超出了本文的讨论范围,将在另一篇文章中介绍。
预测方法是许多机器学习模型的主要特征函数。
结论在本文中,我们讨论了机器学习建模的主要组件: 数据、算法和模型。我们还强调了不同类型的机器学习和一些应用领域。