▲图7-5 图像采集步骤
6. 音频数据采集
语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),可将人类的语音中的词汇内容转换为计算机可读的输入,例如二进制编码、字符序列或者文本文件。
目前音频数据采集技术在业界也有较为成熟的解决方案供应商,可以很便捷地通过解决方案供应商的技术,完成技术的部署和数据的采集。
采集来的声音作为音频文件存储。音频文件是指通过声音录入设备录制的原始声音,直接记录了真实声音的二进制采样数据,是互联网多媒体中重要的一种文件。音频获取途径包括下载音频、麦克风录制、MP3录音、录制计算机的声音、从CD中获取音频等。
7. 视频数据采集
视频是动态的数据,内容随时间而变化,声音与运动图像同步。通常视频信息体积较大,集成了影像、声音、文本等多种信息。
视频的获取方式包括网络下载、从VCD或DVD中捕获、从录像带中采集、利用摄像机拍摄等,以及购买视频素材、屏幕录制等。
8. 传感器数据采集
传感器是一种检测装置,能感受到被检测的信息,并能将检测到的信息按一定规律变换成信号或其他所需形式的信息输出,以满足信息的采集、传输、处理、存储、显示、记录等要求。信号类型包括IEPE信号、电流信号、电压信号、脉冲信号、I/O信号、电阻变化信号等。
传感器数据的主要特点是多源、实时、时序化、海量、高噪声、异构、价值密度低等,数据通信和处理难度都较大。
9. 工业设备数据采集
工业设备数据是对工业机器设备产生数据的统称。在机器中有很多特定功能的元器件(阀门、开关、压力计、摄像头等),这些元器件接受工业设备和系统的命令开、关或上报数据。工业设备和系统能够采集、存储、加工、传输数据。工业设备目前应用在很多行业,有联网设备,也有未联网设备。
工业设备数据采集应用广泛,例如可编程逻辑控制器(PLC)现场监控、数控设备故障诊断与检测、专用设备等大型工控设备的远程监控等。
02 “硬感知”能力在华为的实践“硬感知”在非数字原生企业有广阔的前景,因为在数字化时代,非数字原生企业大量存在的产线、流程工艺、实体货物、物流设备等,都需要通过“硬感知”来实现数据的感知和采集。华为作为典型的非数字原生企业,9类数据“硬感知”能力在各领域中都得到了一定的应用,并已发挥了实际的业务价值。
1. 门店数字化
如图7-6所示,采用7种数据采集方式,支撑持续提升运营效率与消费者体验。
- 通过光线传感器和温度传感器,自动调节窗帘、灯光,温度随环境改变,并与店门、窗帘、灯光、空调、屏幕、防盗系统联动,打造智能绿色门店环境。
- 通过实物管理感知,样机自动申报位置与状态,异常告警,自动上报消费者在门店体验过程中的行为,结合消费者体验情况优化陈列、营销设计、产品设计。
- 通过视频感知客流与热区,管理门店各片区人流密度与停留时间,优化陈列与营销,实时调整服务人力与资源配置。
▲图7-6 门店数字化
2. 站点数字化
如图7-7所示,站点主要在高层或者在野外环境中,勘测和日常维护难度都比较大,通过360度全景拍照和OCR,构建站点物理对象完整的围栏尺寸、塔高、机房尺寸、设备尺寸、天线挂高、走线距离、天线的方位角、下倾角、扇区等数字镜像,实现在数字化站点勘测规划,现实站点直接施工,避免在现场反复勘测、设计调整。
▲图7-7 站点数字化 ▲图7-7 站点数字化
03 基于数字世界的“软感知”能力物理世界的“硬感知”是将物理对象构建到数字世界中的主要通道,是构建数据孪生的关键,而已经存在于数字世界中的那些分散、异构信息,可通过“软感知”能力来利用。目前“软感知”比较成熟,并随着数字原生企业的崛起而得到了广泛的应用。我们将“软感知”分为3类,如图7-8所示。
▲图7-8 3类“软感知”
1. 埋点
埋点是数据采集领域,尤其是用户行为数据采集领域的术语,指的是针对特定用户行为或事件进行捕获的相关技术。埋点的技术实质,是监听软件应用运行过程中的事件,当需要关注的事件发生时进行判断和捕获。
埋点的主要作用是能够帮助业务和数据分析人员打通固有信息墙,为了解用户交互行为、扩宽用户信息和前移运营机会提供数据支撑。在产品数据分析的初级阶段,业务人员通过自有或第三方的数据统计平台了解App用户访问的数据指标,包括新增用户数、活跃用户数等。
这些指标能帮助企业宏观地了解用户访问的整体情况和趋势,从总体上把握产品的运营状况,通过分析埋点获取的数据,制定产品改进策略。
埋点技术在当前主要有以下几类,每一类都有自己独特的优缺点,可以基于业务的需求,匹配使用。
- 代码埋点是目前比较主流的埋点方式,业务人员根据自己的统计需求选择需要埋点的区域及埋点方式,形成详细的埋点方案,由技术人员手工将这些统计代码添加在想要获取数据的统计点上。
- 可视化埋点通过可视化页面设定埋点区域和事件ID,从而在用户操作时记录操作行为。
- 全埋点是在SDK部署时做统一的埋点,将App或应用程序的操作尽量多地采集下来。无论业务人员是否需要埋点数据,全埋点都会将该处的用户行为数据和对应产生的信息全采集下来。
2. 日志数据采集
日志数据收集是实时收集服务器、应用程序、网络设备等生成的日志记录,此过程的目的是识别运行错误、配置错误、入侵尝试、策略违反或安全问题。
在企业业务管理中,基于IT系统建设和运作产生的日志内容,可以将日志分为三类。因为系统的多样化和分析维度的差异,日志管理面临着诸多的数据管理问题。
- 操作日志,指系统用户使用系统过程中的一系列的操作记录。此日志有利于备查及提供相关安全审计的资料。
- 运行日志,用于记录网元设备或应用程序在运行过程中的状况和信息,包括异常的状态、动作、关键的事件等。
- 安全日志,用于记录在设备侧发生的安全事件,如登录、权限等。
3. 网络爬虫
网络爬虫(Web Crawler)又称为网页蜘蛛、网络机器人,是按照一定的规则自动抓取网页信息的程序或者脚本。
搜索和数字化运营需求的兴起,使得爬虫技术得到了长足的发展,爬虫技术作为网络、数据库与机器学习等领域的交汇点,已经成为满足个性化数据需求的最佳实践。
Python、Java、PHP、C#、Go等语言都可以实现爬虫,特别是Python中配置爬虫的便捷性,使得爬虫技术得以迅速普及,也促成了政府、企业界、个人对信息安全和隐私的关注。
04 “软感知”能力在华为的实践“软感知”主要面向产品持续运营提供服务,基于对产品日志、用户行为的感知,改善产品功能。以华为内部数据管理平台为例(如图7-9所示),数据管理平台的数字化运营,需要识别用户行为,进而提升运营效率与用户数据消费的体验。