All Things Gaussian - Research Notebook

Multivariate Gaussian¶

\mathcal{N}(\boldsymbol{u}|\boldsymbol{\mu},\boldsymbol{\Sigma}) = \frac{1}{(2\pi)^{D/2}} \frac{1}{|\boldsymbol{\Sigma}|^{1/2}} \exp \left[ -\frac{1}{2} (\boldsymbol{u} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\boldsymbol{u} - \boldsymbol{\mu}) \right]

(1)

where:

$\boldsymbol{u}\in\mathbb{R}^{D}$ - $D$ -dimensional vector
$\boldsymbol{\mu}\in\mathbb{R}^{D}$ - $D$ -dimensional mean vector
$\boldsymbol{\Sigma}\in\mathbb{R}^{D\times D}$ - $D\times D$ -dimensional covariance matrix

Mahalanobis Distance¶

We often call this the quadratic term.

\begin{aligned} \text{Mah Distance}: && && \boldsymbol{\Delta}^2 &= (\boldsymbol{u} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\boldsymbol{u} - \boldsymbol{\mu}) \\ && && \boldsymbol{\Delta} &= \sqrt{(\boldsymbol{u} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\boldsymbol{u} - \boldsymbol{\mu})} \\ && && \boldsymbol{\Delta} &= \sqrt{\boldsymbol{\Sigma}^{-1}(\boldsymbol{u} - \boldsymbol{\mu})^\top (\boldsymbol{u} - \boldsymbol{\mu})} \\ \end{aligned}

(2)

Case I: Identity¶

\text{Euclidean Distance}: \hspace{2mm} (\boldsymbol{u} - \boldsymbol{\mu})^\top (\boldsymbol{u} - \boldsymbol{\mu})

(3)

Case II: Scalar¶

\text{Euclidean Distance}: \hspace{2mm} \sigma (\boldsymbol{u} - \boldsymbol{\mu})^\top (\boldsymbol{u} - \boldsymbol{\mu})

(4)

Case III: Diagonal¶

\text{Euclidean Distance}: \hspace{2mm} \boldsymbol{\sigma}^{-1} (\boldsymbol{u} - \boldsymbol{\mu})^\top (\boldsymbol{u} - \boldsymbol{\mu})

(5)

Case IV: Decomposition¶

Case V: Full Covariance¶

Masked Likelihood¶

Conditional Gaussian Distributions¶

We have the joint distribution for the latent variables, $\boldsymbol{z}$ , and a QoI, $\boldsymbol{u}$ .

\begin{bmatrix} \boldsymbol{z} \\ \boldsymbol{u} \end{bmatrix} \sim \mathcal{N} \left( \begin{bmatrix} \boldsymbol{z} \\ \boldsymbol{u} \end{bmatrix} \mid \begin{bmatrix} \bar{\boldsymbol{z}} \\ \bar{\boldsymbol{u}} \end{bmatrix}, \begin{bmatrix} \boldsymbol{\Sigma_{zz}} & \boldsymbol{\Sigma_{zu}}\\ \boldsymbol{\Sigma_{uz}} & \boldsymbol{\Sigma_{uu}} \end{bmatrix} \right)

(6)

Marginal Distributions¶

We have the marginal distribution for the variable, $\boldsymbol{z}$

\begin{aligned} p(\boldsymbol{z}) &= \mathcal{N} \left( \boldsymbol{z} \mid \boldsymbol{\bar{z}}, \boldsymbol{\Sigma_{zz}} \right) \end{aligned}

(7)

We have the conditional likelihood for the variable, $\boldsymbol{u}$

\begin{aligned} p(\boldsymbol{u}) &= \mathcal{N} \left( \boldsymbol{u} \mid \bar{\boldsymbol{u}}, \boldsymbol{\Sigma_{uu}} \right) \end{aligned}

(8)

Conditional Distributions¶

We have the conditional likelihood for the variable, $\boldsymbol{z}$

\begin{aligned} p(\boldsymbol{z}|\boldsymbol{u}) &= \mathcal{N} \left( \boldsymbol{z} \mid \boldsymbol{\mu_{z|u}}, \boldsymbol{\Sigma_{z|u}} \right) \\ \boldsymbol{\mu_{z|u}} &= \bar{\boldsymbol{z}} + \boldsymbol{\Sigma_{zu}}\boldsymbol{\Sigma_{uu}}^{-1} (\boldsymbol{u} - \bar{\boldsymbol{u}}) \\ \boldsymbol{\Sigma_{z|u}} &= \boldsymbol{\Sigma_{zz}} - \boldsymbol{\Sigma_{zu}} \boldsymbol{\Sigma_{zz}}^{-1} \boldsymbol{\Sigma_{uz}} \end{aligned}

(9)

We have the conditional likelihood for the variable, $\boldsymbol{u}$

\begin{aligned} p(\boldsymbol{u}|\boldsymbol{z}) &= \mathcal{N} \left( \boldsymbol{u} \mid \boldsymbol{\mu_{u|z}}, \boldsymbol{\Sigma_{u|z}} \right) \\ \boldsymbol{\mu_{u|z}} &= \bar{\boldsymbol{u}} + \boldsymbol{\Sigma_{zu}}\boldsymbol{\Sigma_{zz}}^{-1} (\boldsymbol{z} - \bar{\boldsymbol{z}}) \\ \boldsymbol{\Sigma_{u|z}} &= \boldsymbol{\Sigma_{uu}} - \boldsymbol{\Sigma_{uz}} \boldsymbol{\Sigma_{uu}}^{-1} \boldsymbol{\Sigma_{zu}} \end{aligned}

(10)

Scaling¶

there

Matrix Inversions¶

The primary thing we want to do when

Cholesky Decomposition¶

We can decompose the matrix into a Cholesky which is an upper (or lower) triangular matrix.

\mathbf{C} = \mathbf{LL}^\top

(11)

We can to the inversion

\mathbf{L}^{-1} = \text{Inverse}(\mathbf{L})

(12)

Something that is easier to deal with is the matrix solve:

\mathbf{x} = \mathbf{L}^{-1}\mathbf{b}

(13)

For this, we need a special solver

A: Array["D D"] = ...
b: Array["D M"] = ...
I: Array["D D"] = eye_like(A)
# cholesky decomposition
L: Array["D D"] = cholesky(K, lower=True)
L_inv: Array["D D"] = cho_solve(L, I, lower=True)
x: Array["D M"] = cho_solve(L, b, lower=True)

Conjugate Gradient¶

\mathbf{x}^* = \underset{\mathbf{x}}{\text{argmin}} \hspace{2mm} \mathbf{x}^\top\mathbf{A}\mathbf{x} -

(14)

Woodbury Approximation¶

We can find some lower dimensional subspace. For example, we can use the SVD decomposition

\mathbf{C} \approx \mathbf{U}\boldsymbol{\Lambda}\mathbf{V}^\top + \sigma\mathbf{I}

(15)

Looking at equation (34), we can take the inverse.

\mathbf{C}^{-1} \approx \mathbf{I}^{-1} - \mathbf{I}^{-1}\mathbf{U} \left(\boldsymbol{\Lambda}^{-1} + \mathbf{V}^\top\mathbf{I}^{-1}\mathbf{U}\right)^{-1}\mathbf{V}^\top\mathbf{D}^{-1}

(16)

Inducing Points¶

We can use a subset of the points and calculate th covariance.

\mathbf{C_{yy}} \approx \mathbf{C_{yr}C_{rr}}^{-1}\mathbf{C_{yr}}^\top + \mathbf{I}

(17)

Now, we can easily find the inverse

\mathbf{C_{yy}}^{-1} \approx \mathbf{C_{yr}C_{rr}}^{-1}\mathbf{C_{yr}}^\top

(18)

Approximate Conditional Distributions¶

p(\boldsymbol{z},\boldsymbol{u}) \sim \mathcal{N} \left( \begin{bmatrix} \boldsymbol{z}\\ \boldsymbol{u} \end{bmatrix} \mid \begin{bmatrix} \boldsymbol{\hat{m}_z} \\ \boldsymbol{\hat{m}_z} \end{bmatrix}, \begin{bmatrix} \boldsymbol{\hat{C}_{zz}} & \boldsymbol{\hat{C}_{zu}}\\ \boldsymbol{\hat{C}_{uz}} & \boldsymbol{\hat{C}_{uu}} \end{bmatrix} \right)

(19)

We have each of the terms as

\begin{aligned} \text{Mean}: && && \boldsymbol{\hat{m}_z} &= \mathbb{E}\left[\boldsymbol{z}|\mathbf{Y}\right] = \int\boldsymbol{f}(\boldsymbol{z})p(\boldsymbol{z})d\boldsymbol{z}\\ \text{Marginal Covariance}: && && \boldsymbol{\hat{C}_{zz}} &= \text{Cov}\left[\boldsymbol{z}\right] = \int\left(\boldsymbol{f}(\boldsymbol{z}) - \boldsymbol{\hat{m}_z}\right) \left(\boldsymbol{f}(\boldsymbol{z}) - \boldsymbol{\hat{m}_z}\right)^\top p(\boldsymbol{z})d\boldsymbol{z} \\ \text{Mean}: && && \boldsymbol{\hat{y}} &= \mathbb{E}\left[\boldsymbol{y}|\mathbf{Y}\right] = \int\boldsymbol{h}(\boldsymbol{z})p(\boldsymbol{z})d\boldsymbol{z}\\ \text{Marginal Covariance}: && && \boldsymbol{\hat{C}_{yy}} &= \text{Cov}\left[\boldsymbol{z}\right] = \int\left(\boldsymbol{h}(\boldsymbol{y}) - \boldsymbol{\hat{y}}\right) \left(\boldsymbol{h}(\boldsymbol{y}) - \boldsymbol{\hat{y}}\right)^\top p(\boldsymbol{z})d\boldsymbol{z} \\ \text{Cross-Covariance}: && && \boldsymbol{\hat{C}_{zy}} &= \text{Cov}\left[\boldsymbol{z}\right] = \int\left(\boldsymbol{f}(\boldsymbol{z}) - \boldsymbol{\hat{m}_z}\right) \left(\boldsymbol{h}(\boldsymbol{z}) - \boldsymbol{\hat{y}}\right)^\top p(\boldsymbol{z})d\boldsymbol{z} \end{aligned}

(20)

We have the conditional likelihood for the variable, $\boldsymbol{z}$

\begin{aligned} p(\boldsymbol{z}|\boldsymbol{u}) &= \mathcal{N} \left( \boldsymbol{z} \mid \boldsymbol{\mu_{z|u}}, \boldsymbol{\Sigma_{z|u}} \right) \\ \boldsymbol{\mu_{z|u}} &= \bar{\boldsymbol{z}} + \boldsymbol{\Sigma_{zu}}\boldsymbol{\Sigma_{uu}}^{-1} (\boldsymbol{u} - \bar{\boldsymbol{u}}) \\ \boldsymbol{\Sigma_{z|u}} &= \boldsymbol{\Sigma_{zz}} - \boldsymbol{\Sigma_{zu}} \boldsymbol{\Sigma_{zz}}^{-1} \boldsymbol{\Sigma_{uz}} \end{aligned}

(21)

We have the conditional likelihood for the variable, $\boldsymbol{u}$

\begin{aligned} p(\boldsymbol{u}|\boldsymbol{z}) &= \mathcal{N} \left( \boldsymbol{u} \mid \boldsymbol{\mu_{u|z}}, \boldsymbol{\Sigma_{u|z}} \right) \\ \boldsymbol{\mu_{u|z}} &= \bar{\boldsymbol{u}} + \boldsymbol{\Sigma_{zu}}\boldsymbol{\Sigma_{zz}}^{-1} (\boldsymbol{z} - \bar{\boldsymbol{z}}) \\ \boldsymbol{\Sigma_{u|z}} &= \boldsymbol{\Sigma_{uu}} - \boldsymbol{\Sigma_{uz}} \boldsymbol{\Sigma_{uu}}^{-1} \boldsymbol{\Sigma_{zu}} \end{aligned}

(22)

Linear Conditional Gaussian Model¶

We have a latent variable which is Gaussian distributed:

p(\boldsymbol{z}) \sim \mathcal{N}(\boldsymbol{z}\mid\boldsymbol{\bar{z}},\boldsymbol{\Sigma_z})

(23)

We have a QoI which we believe is a linear transformation of the latent variable

p(\boldsymbol{u}) \sim \mathcal{N} \left( \boldsymbol{u}\mid \mathbf{A}\boldsymbol{z} + \mathbf{b}, \boldsymbol{\Sigma_u} \right)

(24)

Recall the joint distribution given in equation (6). We can write each of the terms as:

$\boldsymbol{\Sigma_{zz}}=\boldsymbol{\Sigma_{z}}$
$\boldsymbol{\Sigma_{uu}}=\boldsymbol{\Sigma_{u}}$
$\boldsymbol{\Sigma_{uz}}=\boldsymbol{\Sigma_{u}}$
$\boldsymbol{\bar{u}}=\mathbf{A}\boldsymbol{z} + \mathbf{b}$

Taylor Expansion¶

\begin{bmatrix} \mathbf{x} \\ y \end{bmatrix} \sim \mathcal{N} \left( \begin{bmatrix} \mu_\mathbf{x} \\ f(\mathbf{x}) \end{bmatrix}, \begin{bmatrix} \Sigma_\mathbf{x} & C \\ C^\top & \Pi \end{bmatrix} \right)

(25)

Taylor Expansion¶

\begin{aligned} f(\mathbf{x}) &= f(\mu_x + \delta_x) \\ &\approx f(\mu_x) + \nabla_x f(\mu_x)\delta_x + \frac{1}{2}\sum_i \delta_x^\top \nabla_{xx}^{(i)}f(\mu_x)\delta_x e_i + \ldots \end{aligned}

(26)

Joint Distribution¶

\mathbb{E}_\mathbf{x}\left[ \tilde{f}(\mathbf{x}) \right], \mathbb{V}_\mathbf{x}\left[ \tilde{f}(\mathbf{x}) \right]

(27)

Mean Function¶

\begin{aligned} \mathbb{E}_\mathbf{x}\left[ \tilde{f}(\mathbf{x}) \right] &= \mathbb{E}_\mathbf{x}\left[ \tilde{f}(\mu_\mathbf{x}) + \nabla_\mathbf{x}f(\mu_\mathbf{x})\epsilon_\mathbf{x} \right] \\ &= \mathbb{E}_\mathbf{x}\left[ \tilde{f}(\mu_\mathbf{x}) \right] + \mathbb{E}_\mathbf{x}\left[ \nabla_\mathbf{x}f(\mu_\mathbf{x})\epsilon_\mathbf{x} \right] \\ &= \tilde{f}(\mu_\mathbf{x}) + \nabla_\mathbf{x}\mathbb{E}_\mathbf{x}\left[ f(\mathbf{x})\epsilon_\mathbf{x} \right] \\ &= \tilde{f}(\mu_\mathbf{x})\\ \end{aligned}

(28)

Sample & Population Moments¶

\begin{aligned} \text{Matrix}: && && \mathbf{Z} &= \left[\mathbf{z}_1,\mathbf{z}_2,\ldots,\mathbf{z}_N\right]^\top, && && \mathbf{Z}\in\mathbb{R}^{N\times D} \\ \text{Sample Mean}: && && \hat{\mathbf{Z}} &= \frac{1}{N}\sum_{n=1}^N \mathbf{z}_n, && && \hat{\mathbf{Z}}\in\mathbb{R}^{D} \\ \text{Sample Variance}: && && \hat{\boldsymbol{\sigma}}_{\mathbf{z}} &= \frac{1}{N-1}\sum_{n=1}^N \left(\mathbf{z}_n - \hat{\mathbf{z}}_n\right)^2 && && \hat{\boldsymbol{\sigma}}_{\mathbf{z}}\in\mathbb{R}^{D} \\ \text{Sample Covariance}: && && \hat{\boldsymbol{\Sigma}}_{\mathbf{z}} &= \frac{1}{N-1}\sum_{n=1}^N \left(\mathbf{z}_n - \hat{\mathbf{z}}_n\right) \left(\mathbf{z}_n - \hat{\mathbf{z}}_n\right)^\top && && \hat{\boldsymbol{\Sigma}}_{\mathbf{z}}\in\mathbb{R}^{D\times D} \\ \text{Population Mean}: && && \hat{\boldsymbol{\mu}}_\mathbf{z} &= \frac{1}{D}\sum_{d=1}^D \mathbf{z}_d, && && \hat{\boldsymbol{\mu}}_\mathbf{z}\in\mathbb{R}^{N} \\ \text{Population Variance}: && && \hat{\boldsymbol{\nu}}_{\mathbf{z}} &= \frac{1}{D}\sum_{d=1}^D \left(\mathbf{z}_d - \hat{\boldsymbol{\mu}_\mathbf{z}}\right)^2 && && \hat{\boldsymbol{\nu}}_{\mathbf{z}}\in\mathbb{R}^{N} \\ \text{Population Covariance}: && && \hat{\mathbf{K}}_{\mathbf{z}} &= \frac{1}{D}\sum_{d=1}^D \left(\mathbf{z}_d - \hat{\boldsymbol{\mu}_\mathbf{z}}\right) \left(\mathbf{z}_d -\hat{\boldsymbol{\mu}_\mathbf{z}}\right)^\top && && \hat{\mathbf{K}}_{\mathbf{z}}\in\mathbb{R}^{N\times N} \\ \end{aligned}

(29)

Examples:

Global Mean Surface Temperature, $x\in\mathbb{R}^{N\times D}$ , $N=\text{Models}$ , $D=\sum D_T D_\Omega$
Spatial Scene, $x\in\mathbb{R}^{N\times D}$ , $N=\text{Ensembles}$ , $D=\text{Space}$
Spatiotemporal Trajectory, $x\in\mathbb{R}^{N\times D}$ , $N=\text{Space/Time}$ , $D=\text{Time/Space}$
Ensemble of Trajectories, $x\in\mathbb{R}^{N\times D}$ , $N=\text{Ensembles}$ , $D=\text{Time x Space}$

Gaussian Approximation Algorithm¶

Moment Estimation¶

Samples¶

\begin{aligned} \text{Matrix}: && && \mathbf{Z} &= \left[\mathbf{z}_1,\mathbf{z}_2,\ldots,\mathbf{z}_N\right], && && \mathbf{Z}\in\mathbb{R}^{D\times N} \\ \text{Perturbation Matrix}: && && \mathbf{P} &= \mathbf{Z} - \hat{\mathbf{z}}, && && \mathbf{P}\in\mathbb{R}^{D \times N} \end{aligned}

(30)

We can do all of these operations in matrix form.

\begin{aligned} \text{Sample Mean}: && && \hat{\mathbf{z}} &= \frac{1}{N}\mathbf{Z}\cdot\mathbf{1}, && && \hat{\mathbf{z}}\in\mathbb{R}^{D} \\ \text{Perturbation Matrix}: && && \hat{\mathbf{P}} &= \mathbf{Z}\cdot\left(\mathbf{I}_N - \frac{1}{N}\mathbf{11}^\top\right), && && \hat{\mathbf{P}}\in\mathbb{R}^{D\times D} \\ \text{Sample Covariance}: && && \hat{\boldsymbol{\Sigma}}_{\mathbf{z}} &= \frac{1}{N-1} \hat{\mathbf{P}}\hat{\mathbf{P}}^\top && && \hat{\boldsymbol{\Sigma}}_{\mathbf{z}}\in\mathbb{R}^{D\times D} \\ \end{aligned}

(31)

Note: the perturbation matrix in this form is equivalent to the kernel centering operation (see scikit-learn docs). It allows one to center the gram matrix without explicitly computing the mapping.

Population¶

\begin{aligned} \text{Matrix}: && && \mathbf{Z} &= \left[\mathbf{z}_1,\mathbf{z}_2,\ldots,\mathbf{z}_N\right]^\top, && && \mathbf{Z}\in\mathbb{R}^{N\times D} \\ \text{Perturbation Matrix}: && && \mathbf{P} &= \mathbf{Z} - \hat{\mathbf{z}}, && && \mathbf{P}\in\mathbb{R}^{N \times D} \end{aligned}

(32)

We can do all of these operations in matrix form.

\begin{aligned} \text{Population Mean}: && && \hat{\boldsymbol{\mu}}_\mathbf{z} &= \frac{1}{D}\mathbf{Z}\cdot\mathbf{1}, && && \hat{\boldsymbol{\mu}}_\mathbf{z}\in\mathbb{R}^{N} \\ \text{Perturbation Matrix}: && && \hat{\mathbf{P}} &= \mathbf{Z}\cdot\left(\mathbf{I}_N - \frac{1}{D}\mathbf{11}^\top\right), && && \hat{\mathbf{P}}\in\mathbb{R}^{N\times N} \\ \text{Population Covariance}: && && \hat{\mathbf{K}}_{\mathbf{z}} &= \frac{1}{D} \hat{\mathbf{P}}\hat{\mathbf{P}}^\top && && \hat{\mathbf{K}}_{\mathbf{z}}\in\mathbb{R}^{N\times N} \end{aligned}

(33)

Matrix Identities¶

Woodbury Formula¶

\left( \mathbf{A}+\mathbf{UCV}^\top\right)^{-1} = \mathbf{A}^{-1} - \mathbf{A}^{-1}\mathbf{U} \left(\mathbf{C}^{-1} + \mathbf{V}^\top\mathbf{A}^{-1}\mathbf{U}\right)^{-1} \mathbf{V}^{\top}\mathbf{A}^{-1}

(34)

Sherman-Morrison-Woodbury Formula¶

This is basically the same as the Woodbury formula (34) except the matrix, $\mathbf{A}$ , is the identity, $\mathbf{I}$ and the decomposition is between