当前位置:首页>经验>

机器学习建模平台技术架构图(机器学习的建模步骤)

来源:原点资讯(m.360kss.com)时间:2022-10-30 05:23:25作者:YD166手机阅读>>

AutoML 可以为预测建模问题自动找到数据准备、模型和模型超参数的最佳组合,本文整理了5个最常见且被熟知的开源AutoML 框架。

机器学习建模平台技术架构图,机器学习的建模步骤(1)

AutoML框架执行的任务可以被总结成以下几点:

  • 预处理和清理数据。
  • 选择并构建适当的特征。
  • 选择合适的模型。
  • 优化模型超参数。
  • 设计神经网络的拓扑结构(如果使用深度学习)。
  • 机器学习模型后处理。
  • 结果的可视化和展示。

在本文中,我们将介绍以下5 个开源 autoML 库或框架:

  • Auto-Sklearn
  • TPOT
  • Hyperopt Sklearn
  • Auto-Keras
  • H2O AutoML
1、Auto-Sklearn

Auto-sklearn 是一个开箱即用的自动化机器学习库。 auto-sklearn 以 scikit-learn 为基础,自动搜索正确的学习算法并优化其超参数。 通过元学习、贝叶斯优化和集成学习等搜索可以获得最佳的数据处理管道和模型。它可以处理大部分繁琐的工作,例如预处理和特征工程技术: One-Hot 编码、特征归一化、降维等。

安装:

#pip pip install auto-sklearn #conda conda install -c conda-forge auto-sklearn

因为进行了大量的封装,所以使用的方法sklearn基本一样,以下是样例代码:

import sklearn.datasets import sklearn.metrics import autosklearn.regression import matplotlib.pyplot as plt X, y = sklearn.datasets.load_diabetes(return_X_y=True) X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=1) automl = autosklearn.regression.AutoSklearnRegressor( time_left_for_this_task=120, per_run_time_limit=30, tmp_folder='/tmp/autosklearn_regression_example_tmp', ) automl.fit(X_train, y_train, dataset_name='diabetes')2、TPOT

TPOT(Tree-based Pipeline Optimization Tool)是一个 Python 自动化机器学习工具,它使用遗传算法优化对机器学习的流程进行优化。它也是基于 Scikit-Learn 提供的方法进行数据转换和机器学习模型的构建,但是它使用遗传算法编程进行随机和全局搜索。以下是TPOT 搜索流程:

机器学习建模平台技术架构图,机器学习的建模步骤(2)

安装:

#pip pip insall tpot #conda conda install -c conda-forge tpot

样例代码:

from tpot import TPOTClassifier from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris import numpy as np iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64), iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42) tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42) tpot.fit(X_train, y_train) print(tpot.score(X_test, y_test)) tpot.export('tpot_iris_pipeline.py')3、HyperOpt-Sklearn:

HyperOpt-Sklearn 是 HyperOpt 的包装器,可以将 AutoML 和 HyperOpt 与 Scikit-Learn 进行整合,这个库包含了数据预处理的转换和分类、回归算法模型。文档中介绍说:它专为具有数百个参数的模型进行大规模优化而设计 并允许跨多核和多台机器扩展优化过程。

安装:

pip install hyperopt

样例代码:

from pandas import read_csv from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.metrics import mean_absolute_error from hpsklearn import HyperoptEstimator from hpsklearn import any_regressor from hpsklearn import any_preprocessing from hyperopt import tpe # load dataset iris = load_iris() X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64), iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42) model = HyperoptEstimator(regressor=any_regressor('reg'), preprocessing=any_preprocessing('pre'), loss_fn=mean_absolute_error, algo=tpe.suggest, max_evals=50, trial_timeout=30) model.fit(X_train, y_train) # summarize performance mae = model.score(X_test, y_test) print("MAE: %.3f" % mae) # summarize the best model print(model.best_model())4、AutoKeras

AutoKeras 是一个基于 Keras 的 AutoML 系统,只需几行代码就可以实现神经架构搜索(NAS)的强大功能。 它由德克萨斯 A&M 大学的 DATA 实验室开发,以 TensorFlow的tf.keras API 和Keras为基础进行实现 。

AutoKeras 可以支持不同的任务,例如图像分类、结构化数据分类或回归等。

安装:

pip install autokeras

样例代码:

import numpy as np import tensorflow as tf from tensorflow.keras.datasets import mnist import autokeras as ak #Load dataset (x_train, y_train), (x_test, y_test) = mnist.load_data() print(x_train.shape) # (60000, 28, 28) print(y_train.shape) # (60000,) print(y_train[:3]) # array([7, 2, 1], dtype=uint8) # Initialize the image classifier. clf = ak.ImageClassifier(overwrite=True, max_trials=1) # Feed the image classifier with training data. clf.fit(x_train, y_train, epochs=10) # Predict with the best model. predicted_y = clf.predict(x_test) print(predicted_y) # Evaluate the best model with testing data. print(clf.evaluate(x_test, y_test))5、H2O AutoML:

H2O 的 AutoML 可用于在用户指定的时间限制内自动训练和调整许多模型。

H2O 提供了许多适用于 AutoML 对象(模型组)以及单个模型的可解释性方法。 可以自动生成解释,并提供一个简单的界面来探索和解释 AutoML 模型。

安装:

pip insall h2o

H2O可以更详细的说是一个分布式的机器学习平台,所以就需要建立H2O的集群,这部分的代码是使用的java开发的,就需要安装jdk的支持。

在安装完成JAVA后,并且环境变量设置了java路径的情况下在cmd执行以下命令:

java -jar path_to/h2o.jar

就可以启动H2O的集群,就可以通过Web界面进行操作,如果想使用Python代码编写,可以使用以下示例

import h2o h2o.init() from h2o.automl import H2OAutoML churn_df = h2o.import_file('https://raw.githubusercontent.com/srivatsan88/YouTubeLI/master/dataset/WA_Fn-UseC_-Telco-Customer-Churn.csv') churn_df.types churn_df.describe() churn_train,churn_test,churn_valid = churn_df.split_frame(ratios=[.7, .15]) churn_train y = "Churn" x = churn_df.columns x.remove(y) x.remove("customerID") aml = H2OAutoML(max_models = 10, seed = 10, exclude_algos = ["StackedEnsemble", "DeepLearning"], verbosity="info", nfolds=0) !nvidia-smi aml.train(x = x, y = y, training_frame = churn_train, validation_frame=churn_valid) lb = aml.leaderboard lb.head() churn_pred=aml.leader.predict(churn_test) churn_pred.head() aml.leader.model_performance(churn_test) model_ids = list(aml.leaderboard['model_id'].as_data_frame().iloc[:,0]) #se = h2o.get_model([mid for mid in model_ids if "StackedEnsemble_AllModels" in mid][0]) #metalearner = h2o.get_model(se.metalearner()['name']) model_ids h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0]) out = h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0]) out.params out.convert_H2OXGBoostParams_2_XGBoostParams() out out_gbm = h2o.get_model([mid for mid in model_ids if "GBM" in mid][0]) out.confusion_matrix() out.varimp_plot() aml.leader.download_mojo(path = "./")总结

在本文中,我们总结了 5 个 AutoML 库以及它如何检查机器学习进行任务的自动化,例如数据预处理、超参数调整、模型选择和评估。除了这5个常见的库以外还有一些其他 AutoML 库,例如 AutoGluon、MLBoX、TransmogrifAI、Auto -WEKA、AdaNet、MLjar、TransmogrifAI、Azure Machine Learning、Ludwig等。

作者:Abonia Sojasingarayar

栏目热文

梦见猪头人身是什么意思(梦见很多猪头还有肉什么意思)

梦见猪头人身是什么意思(梦见很多猪头还有肉什么意思)

青春猪头少年不会梦见兔女郎学姐是去年的十月新番,改编自鸭田志一的同名小说,TV版自播出以来就受到了观众们的喜爱。虽然男主...

2022-10-30 05:17:44查看全文 >>

梦见整块生猪肉是什么意思(梦见一大堆肉是啥意思)

梦见整块生猪肉是什么意思(梦见一大堆肉是啥意思)

一直以来猪肉一路飙升,高居不下,给广大人民的生活帶来了极大的不便,广大群众直呼:吃不起肉了!就我当地在四,五月份的七,八...

2022-10-30 05:41:01查看全文 >>

梦见一大块生猪肉是什么意思(梦见一大堆肉是啥意思)

梦见一大块生猪肉是什么意思(梦见一大堆肉是啥意思)

我永远记得三十年前的大年夜里,我爹提着十斤肥猪肉,面无表情地跨入家门。图片来源于网络或许能称为那是“门”吧,两块木板闭上...

2022-10-30 05:57:20查看全文 >>

梦见猪头皮肉是什么意思啊(梦到自己吃猪头肉是什么意思)

梦见猪头皮肉是什么意思啊(梦到自己吃猪头肉是什么意思)

我住的小区对面是条大河,在大河拐弯处,有一间以前别人废弃的铁皮棚,不知何时棚里住了一个外地来拾荒的老头。老头年约七十左右...

2022-10-30 05:20:26查看全文 >>

梦见生猪肉和猪油是什么意思(女人梦见生肉好不好)

梦见生猪肉和猪油是什么意思(女人梦见生肉好不好)

我又被退婚了身为丞相之女却被退婚三次,京城的流言都快淹死我了可没几天,父亲就又为我找了个未婚夫,这次是个瘸腿的状元好吧,...

2022-10-30 05:29:14查看全文 >>

机器学习模型建模步骤(arima模型的建模步骤)

机器学习模型建模步骤(arima模型的建模步骤)

摘要本文介绍了作为数据科学家或机器学习工程师应该掌握的机器学习(ML)建模的三个主要单元。机器学习建模,通过数据学习的艺...

2022-10-30 06:00:23查看全文 >>

机器学习建模的基本流程(机器学习的建模步骤)

机器学习建模的基本流程(机器学习的建模步骤)

导读你是否会遇到这样的场景,当你训练了一个新模型,有时你不想费心编写 Flask Code(Python的web 框架)...

2022-10-30 05:16:14查看全文 >>

怎样创建一个机器学习模型(一份机器学习模型再训练终极指南)

怎样创建一个机器学习模型(一份机器学习模型再训练终极指南)

人工智能 (AI) 和机器学习(ML)正在推动商业变革和创新,开创了技术驱动运营、流程和商业模式的新时代。随着机器学习开...

2022-10-30 05:57:54查看全文 >>

机器学习自动建模(深度学习自动建模)

机器学习自动建模(深度学习自动建模)

编辑导语:作为一款机器学习平台,Amazon SageMaker Canvas是否真的为数据分析师、业务分析师等岗位提供...

2022-10-30 05:29:25查看全文 >>

机器学习建模标准流程(一份机器学习模型再训练终极指南)

机器学习建模标准流程(一份机器学习模型再训练终极指南)

前言机器学习 作为人工智能领域的核心组成,是计算机程序学习数据经验以优化自身算法,并产生相应的“智能化的”建议与决策的过...

2022-10-30 05:19:23查看全文 >>

文档排行