高斯过程可以让我们结合先验知识,对数据做出预测,最直观的应用领域是回归问题。本文作者用几个互动图生动地讲解了高斯过程的相关知识,可以让读者直观地了解高斯过程的工作原理以及如何使其适配不同类型的数据。引言
即使读过一些机器学习相关的书,你也未必听说过高斯过程。当然了,若是听说过也无妨,复习一下基础知识也能帮你唤醒记忆。本文旨在向读者介绍高斯过程,并且把它背后的数学原理讲得更加直观易懂。
高斯过程是机器学习工具箱里一种相当有用的工具 [1]。它让我们得以结合先验知识,对数据做出预测。它最直观的应用领域是回归问题,比如在机器人学里会用到。同时,也可以把它拓展到分类和聚类任务里。我们先小小复习一下:回归的目的是为了找到一个函数来尽可能贴近地描述一组给定的数据点。这个过程叫做用函数拟合数据。对于一组既定的训练数据点,或许潜在有无限多个函数可以用来做拟合。高斯过程则为此提供了一个优雅的解决方案——给每个这类函数分配一个概率值 [1]。这个概率分布的均值便代表了这个数据最有可能的表征。而且,概率的方法使我们可以把对预测的置信度结合到回归的结果里去。
首先,我们将探索高斯回归的数学基础。你可以通过文中的互动图,以及上手感受具体的例子来理解这些知识。它们有助于解释每个组件的影响,并展示高斯过程的灵活性。希望你在阅读本文之后,对高斯过程的工作原理以及如何把它适配给不同类型的数据能有一个直观的理解。
多元高斯分布在探索高斯分布之前,我们需要理解它们的数学基础。从名字我们可以得知,高斯分布(也叫做正态分布)是高斯过程的基础构件。而我们最感兴趣的是多元高斯分布,其每个随机变量都呈正态分布,联合分布也是高斯的。一般来说,多元高斯分布由均值向量 μ 和协方差矩阵 Σ 定义。
均值向量μ 描述了该分布的期望值,它的每个组件描述了对应维度的均值。Σ 对每个维度的方差进行建模,并确定不同随机变量之间的关联。协方差矩阵总是对称且半正定的(positive semi-definite)[4]。Σ 的对角线由第 i 个随机变量的标准差σ_i 组成,而非对角线的元素则描述了每个元素σ_ij 之间的相关性。
我们称 X 符合正态分布。协方差矩阵Σ 描述了该分布的形状,它由期望值 E 所定义:
从图形上来看,该分布以均值为中心,由协方差矩阵决定其形状。下图展示了这些参数对于一个二维高斯分布的影响。每个随机变量的标准差在协方差矩阵的对角线上,而其它的值则显示了它们之间的协方差。
这是一个互动式的图,通过拖动图中的三个点,你可以调节每个维度上的方差,以及两个随机变量之间的关联。紫色的部分指的是分布内高概率的区域。
高斯分布被广泛应用于为真实世界建模,有时在原分布未知的情况下作为替代品,有时用于中心极限定理。接下来我们会进一步讲解如何操纵高斯分布,以及如何从中获得有用的信息。
边缘化和条件作用高斯分布有一个很赞的代数性质:它在条件作用和边缘化情况下是封闭的。意思是,经过这些运算后,在结果中得到的分布依旧是高斯分布,这就使得很多统计学和机器学习中的问题变得易解。接下来,我们将进一步看看这两个运算,它们是高斯过程的基础。
边缘化和条件作用都作用于原始分布的子集,我们将使用以下符号: