当前位置:首页 > 经验 >

机器学习场景建模(各类机器学习模型适用场景)

来源:原点资讯(m.360kss.com)时间:2022-10-30 05:51:30作者:YD166手机阅读>>

实时离线一体化概述

在讲实时离线一体化概述前,可以先回顾一下之前两位阿里同学的精彩演讲。 离线实时一体化数仓与湖仓一体--云原生大数据平台的持续演讲

https://developer.aliyun.com/article/804337

云原生离线实时一体化数仓建设与实践:https://developer.aliyun.com/article/871926

当前从第一代离线数仓发展到第二代实时数仓,再到第三代实时离线一体化数仓,演进过程和价值可以参考上述两篇文章,今天分享的主要内容是实时离线一体化数仓的新能力。

大数据数仓体系从“纷繁芜杂”的一个架构演进到“化繁为简”的实时离线一体化数仓,其核心是基于流式计算引擎对接了 MaxCompute Hologres离线及实时数仓,并通过互通实现数据的分层处理 。当前这套架构适用于海量数据的数据治理、离线分析、实时分析、数仓集市、多模分析、机器学习在线模型等场景,帮助客户构建一站式的大数据分析平台,释放企业数据价值。

当前解决方案适用场景有数据实时分析 数据离线分析的业务,海量数据计算 分析实时性要求较高的业务。,海量数据分析、点查。多源、多样、流量数据 业务数据的分析服务业务。在实际业务中,如果有对时效性要求比较低的,不需要用到实时分析,还是使用 MaxCompute 离线数仓为解决方案。如果业务场景中,类似在线告警、在线预测等,可以理解为整体链路没有用到离线数据跟实时数据的一个结合。那就是典型的解决方案,比如实时计算Flink Hologres做为实时性比较高的实时数仓解决方案。

实时离线一体化,主要侧重强调适配于有离线业务和实时在线业务混合的综合应用场景,这样可以解决多元多样流量数据跟业务数据的一个分析服务业务。

机器学习场景建模,各类机器学习模型适用场景(1)

实时离线一体化优势

从数据写入来看呢,有实时数据和离线数据,流式数据都可以支持。MaxCompute 在数据写入侧的特点是支持高QPS写入后,即可见即可查。从数据写入的通道来看呢,当前实时离线一体化支持批量数据通道、流式数据通道、实时数据通道。以及在数据写入之前比如kafka、Flink这种中间插件的支持,从一个数据源,从消息服务中间件,把数据写入到 MaxCompute 中间零代码开发,可以直接用 MaxCompute 支持的插件来做。Hologres本身支持高性能写入和实时写入更新,以及写入 即可查的能力,MaxCompute Hologres相结合,覆盖了批量数据写入、流式数据写入、实时数据写入以及写入即可查的产品支持。

数据计算是多引擎支持,基于 MaxCompute 支持EB量级数据计算,在 MaxCompute 本身计算引擎内支持spark、MR、SQL。数据写入后,MaxCompute支持用 spark 流式处理,也可以用 MaxCompute SQL批处理。多引擎支持下实时计算延迟到秒级乃至毫秒级,单个作业吞吐量可达到百万级。

在数据共享互通方面,是做到了MaxCompute&Hologres的数据互通,存储直读打通,可以从Hologres直读 MaxCompute 的数据,从 MaxCompute 到Hologres,当前上线的功能是通过外表去读取,直读的功能很快也会上线。这样一个优势,可以做到同一份数据,用一个实时引擎一个离线引擎做处理,能够实现数据不移动的情况下,可以在离线数仓处理完,在实时数仓做汇总,或者是从实时数仓读实时数据,结合离线数据去做融合数据计算跟分析。

在分析服务一体化优势方面,这里本身有一个很大的特点是,MaxCompute 本身支持数据的交互式查询是秒级别的,因为MaxCompute提供了查询加速的一个能力,满足的场景就是 秒级查询,如果实时性要求更高如亚秒级毫秒级,可以直接在分析层应用对接到Hologres,支持PB量级亚秒级交互式分析。

实时离线一体产品新能力解读

把实时离线一体化架构优点拆分到整个数仓开发链路里面,对应到一些产品能力。数仓的开发过程是从数据源->数据写入->数据清洗->业务级聚合->数据分析&服务->AI&Reporting。在数据分析服务或者是一些在线应用场景里面,有第三方也有自用的产品应用封装,以及一些AI场景的在线分析服务,这时可以对接到数据分析服务的一个接口,也可以对接到MaxCompute数仓里面的数据,或者是oss的数据,可以根据自身业务场景来决定。

在数据源,我们支持第三方插件,如Kafka Connector,Logstash Connector,Flink Connector。数据写入层,支持批量数据通道、流式数据通道:行文件支持自动merge、实时数据通道。很快会提供基于数据写入的独享资源,也就是商业化资源,目前写入的计算资源是公共集群,免费提供,对于大业务量需求时,可能会出现延迟。不久会发布upsert能力,可以把业务库如rds数据实时更新到MaxCompute。

从数据清洗来看,数据在写入MaxCompute过程中,支持update和delete能力,在这个过程中也在业务聚合这一层做了物化视图和渐进计算,以及规划中的自动化物化视图。在数据分析服务这一层,MaxCompute 提供了查询加速能力,在后付费过程无感知查询加速能力,以及在邀测过程中的预付费独享资源MCQA的查询。之前发布了针对预付费查询加速免费额度的一个能力,每天每个project有500次单个SQL10G 以下的查询额度。后续针对数据服务的一个对接,以及第三方应用的对接,如果用户是预付费,基于已购资源切分出一个资源组,作为独立查询加速资源,来满足包年包月用户。如果对数据分析服务有更高的交互式详细要求,可以对接Hologres。

在Hologres这一侧,我们通过 MaxCompute 到 Hologres 的外表支持以及 Hologres 到 MaxCompute 存储直读,来实现数据的互通。后续的规划能力,我们会做一个元数据打通,以及 MaxCompute 到 Hologres 的直读能力。在上层BI报表分析过程当中,做了生态的一些接入,如网易有数、观远BI、自主分析、在线服务有AI的在线模型,在线训练会直接对接到MaxCompute数仓数据。

机器学习场景建模,各类机器学习模型适用场景(2)

实时离线一体产品新能力渐进计算

渐进计算从概念上来看,是一种能够通过处理增量数据并维护中间状态来完成计算的形式,处于传统流计算和批处理之间。可以看到下图,有一张交易表,是在某一个日期比如十二点一点到两点,每一个时间点都有交易数据。也就是说,通过渐进计算,可以把每一个小时汇总的交易订单金额和交易订单,完成小时级别的统计,汇总到每个小时生产的单独文件,也就是说,渐进计算会自动把交易明细数据,做一个轻度的汇总。这样查数据时,就不需要去统计一个小时或者几个小时的数据,我们可以通过渐进计算完成轻度汇总之后,直接去查统计好的数据。这个示例可以表明,交易订单数据也可以实时或者近实时写入MaxCompute中,也可以实时写入到Hologres。可以根据业务需求来做,比如写入进Hologres,相当于从订单数据到Hologres中,可以在流式链路里面做实时计算去完成小时级别的窗口统计数据,去做轻度汇总。如果写入MaxCompute,可以通过渐进计算完成小时级别的轻度汇总统计。在这个过程中,做到了实时数据实时写入,以及近实时的轻度汇总和上层的聚会,可以对数据分析服务提供数据的查询能力。

渐进计算的用途和优势在于,可以根据数据按窗口周期存储,对查询最近的数据时,可以减少计算,节省计算资源的同时,提高计算效率。每次去访问时,不用去查明细表,可以直接去查轻度汇总数据,这样无论是速度还是体验都有一个巨大的提升。比如从交易订单的数据,通过datahub流式写入到MaxCompute,在MaxCompute中完成渐进计算的轻度汇总,以及后续的数据消费,这一套链路是近实时的。另外一条链路是,datahub通过Flink去消费,由Flink完成各种统计,以及其他维度的计算,再写入到Hologres来提供消费服务的一个能力。

机器学习场景建模,各类机器学习模型适用场景(3)

实时离线一体化产品新能力物化视图

物化视图是包括一个查询结果的数据库对象,他是远程数据的本地副本,或者用来生产基于数据表求和的汇总表。可以看下图示例,有一个订单表order保存明细订单记录,org组织机构表保存组织机构数据,如果查数据汇总时,需要把两张表数据先做关联,如下图示例代码。如果有物化视图,视图表就可以取代用户查询汇总的代码脚本,查询时直接查视图表即可。在这个过程中,物化视图支持用户设置数据更新频率,最快是五分钟,可以根据需求来做视图表的更新。

物化视图的用途与优势在于,数据在写入时计算,数据进行预计算,提高查询效率,对客户透明,自动改写。比如订单数据实时的写入,可以通过物化视图每五分钟更新来实现上层应用数据的近实时汇总统计查询。如果这条链路在Hologres,可以走实时数仓链路来完成。MaxCompute 提供的物化视图能力,满足客户对数据时效性要求高,但又不是实时的数据更新需求。

那在整条开发链路里面,流式数据或批量数据写入之后,在 MaxCompute 中可以通过物化视图 和渐进计算来完成数据汇总,再通过MCQA查询加速能力提供秒级别对外数据分析服务的能力。如果对交互式查询返回时延要求高,可以做汇总数据时把数据汇总到Hologres,通过Hologres对外提供数据分析服务能力,这个交互响应时间可以达到毫秒级别。

机器学习场景建模,各类机器学习模型适用场景(4)

首页 123下一页

栏目热文

机器学习模型选型(机器学习模型思路)

机器学习模型选型(机器学习模型思路)

隐私计算作为一个快速发展的领域,其技术复杂发展快,其技术和应用还不被很多期望采用隐私计算的机构和个人熟知,而隐私计算技术...

2022-10-30 05:41:11查看全文 >>

机器学习建模的步骤(机器学习建模的一般流程)

机器学习建模的步骤(机器学习建模的一般流程)

机器之心转载来源:知乎作者:蒋铮尧本文将简单谈谈基于序列建模的强化学习方法。大规模生成模型在近两年为自然语言处理甚至计算...

2022-10-30 05:22:05查看全文 >>

如何自己创建机器学习模型(机器学习的一般过程建立一个模型)

如何自己创建机器学习模型(机器学习的一般过程建立一个模型)

作者:Eryk Lewinson 翻译:张睿毅校对:张睿毅 本文约4200字,建议阅读10分钟本文我们主要使用非常知名的...

2022-10-30 05:35:47查看全文 >>

机器学习模型的流程图(机器学习模型建模步骤)

机器学习模型的流程图(机器学习模型建模步骤)

作者 | 陆春晖责编 | Carol出品 | AI科技大本营(ID:rgznai100)背景时间序列类问题是数据分析领域...

2022-10-30 05:59:41查看全文 >>

机器学习模型国内实例(机器学习模型评价实例)

机器学习模型国内实例(机器学习模型评价实例)

据合肥晚报报道 近日,记者从中国科学技术大学获悉,该校化学与材料科学学院罗毅、江俊教授团队与自动化系尚伟伟等合作,成功开...

2022-10-30 05:51:07查看全文 >>

机器学习建模环境是什么(机器学习的模型是什么)

机器学习建模环境是什么(机器学习的模型是什么)

人工智能技术作为产业数字化转型的新兴动力和重点产业,被 《“十四五”数据经济发展规划》列为未来五年推动数字经济发展的重要...

2022-10-30 05:48:59查看全文 >>

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

途乐5.6省油还是4.0省油(途乐4.0哪个模式最省油)

日产途乐这款车进入国内市场的时间并不长,虽然说在名气上不如霸道、陆巡,但途乐的历史并不短。途乐Y2,已经是途乐的第六代车...

2022-10-30 05:46:42查看全文 >>

途乐4.0真实油耗论坛(途乐4.0真实油耗小熊油耗)

途乐4.0真实油耗论坛(途乐4.0真实油耗小熊油耗)

日产途乐Y62是平行进口车市场上非常热门的一款车型,2018年平行进口途乐在全国共销售了2.28万辆,一举超越了丰田普拉...

2022-10-30 05:54:37查看全文 >>

途乐5.6真实油耗是多少(途乐5.6 v8真实油耗)

途乐5.6真实油耗是多少(途乐5.6 v8真实油耗)

不久前河南一位车友晒出了他自己的爱车,就是这辆日产途乐4.0L版本的,车主提车一周后就将爱车开了1千公里了,毕竟新车买到...

2022-10-30 06:01:35查看全文 >>

途乐4.0和5.6油耗差距大吗(途乐5.6 v8真实油耗)

途乐4.0和5.6油耗差距大吗(途乐5.6 v8真实油耗)

汽车元宇宙从日产中国获悉,2023款途乐北美版将于6月24日开启预售,新车全系仅提供5.6L V8版本。不少老款4.0L...

2022-10-30 05:56:23查看全文 >>

文档排行