Full Probabilistic Inference Schema

This note lays out a unified probabilistic schema for state and parameter estimation, organised along two axes:

Two model tracks — a simulator (no internal latent variable) and an emulator (a latent-variable model trained on simulator outputs).
Three inference regimes — exact posteriors, per-observation variational inference, and amortized inference that generalises over observations.

The most general generative model factorises as

p(\boldsymbol{y}, \boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{x}) = p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{\theta} \mid \boldsymbol{x})

(1)

Notation¶

Table 1:Symbols used throughout this note.

Symbol	Space	Meaning
$\boldsymbol{y}$	$\mathbb{R}^{D_y}$	observations (gappy, noisy)
$\boldsymbol{u}$	$\mathbb{R}^{D_u}$	full state (e.g. SSH field)
$\boldsymbol{z}$	$\mathbb{R}^{D_z}$	emulator latent variable ( $D_z \le D_u$ , often $D_z \ll D_u$ )
$\boldsymbol{\theta}$	$\mathbb{R}^{D_\theta}$	all generative parameters (decoder, prior, noise)
$\boldsymbol{x}$	$\mathbb{R}^{D_x}$	covariates / controls (forcing, season, geometry)
$\boldsymbol{\psi}$	$\mathbb{R}^{D_\psi}$	all inference (variational) parameters

The full probabilistic graphical model implied by (1):

Track 1 — Simulator¶

Generative Model¶

With no internal latent $\boldsymbol{z}$ , the simulator maps $\boldsymbol{\theta}, \boldsymbol{x}$ directly to the state $\boldsymbol{u}$ . The state is the only latent object besides $\boldsymbol{\theta}$ .

p(\boldsymbol{y}, \boldsymbol{u}, \boldsymbol{\theta} \mid \boldsymbol{x}) = p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{\theta} \mid \boldsymbol{x})

(2)

The marginal likelihood integrates out both the state and the parameters,

p(\boldsymbol{y} \mid \boldsymbol{x}) = \iint p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \, \mathrm{d}\boldsymbol{u}\, \mathrm{d}\boldsymbol{\theta}.

(3)

1A · Exact Inference¶

The exact target posteriors are:

\begin{aligned} \text{Params only}: && p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}) &= \int p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{u}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}) \, \mathrm{d}\boldsymbol{u} \\ \text{State only}: && p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}) &= \frac{p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x})}{p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta})} \\ \text{Joint}: && p(\boldsymbol{u}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}) &= \frac{p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{\theta} \mid \boldsymbol{x})}{p(\boldsymbol{y} \mid \boldsymbol{x})} \end{aligned}

(4)

The asymmetry is deliberate: the params-only posterior must marginalise out the still-unknown state $\boldsymbol{u}$ (hence the integral), whereas the state-only posterior conditions on $\boldsymbol{\theta}$ , leaving $\boldsymbol{u}$ as the only unknown. It is therefore a plain Bayes posterior with no second latent to integrate — only the evidence $p(\boldsymbol{y} \mid \boldsymbol{x}, \boldsymbol{\theta}) = \int p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, \mathrm{d}\boldsymbol{u}$ appears in its normaliser.

1B · Variational Inference¶

Introduce a variational distribution $q$ with parameters $\boldsymbol{\psi}$ optimised per observation. Here $\boldsymbol{\psi}$ does not generalise across different $\boldsymbol{y}$ or $\boldsymbol{x}$ — a fresh $\boldsymbol{\psi}$ is optimised for each observation.

Params only — $q(\boldsymbol{\theta} \mid \boldsymbol{\psi}) \approx p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(5)

State only — $q(\boldsymbol{u} \mid \boldsymbol{\psi}) \approx p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u} \mid \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{\psi}) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right]

(6)

Joint — two ways to factor the variational family:

Factored

Hierarchical

q(\boldsymbol{u}, \boldsymbol{\theta} \mid \boldsymbol{\psi}) = q(\boldsymbol{u} \mid \boldsymbol{\psi}_1) \, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_2) \approx p(\boldsymbol{u}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x})

(7)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u} \mid \boldsymbol{\psi}_1)\, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_2)} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{\psi}_1) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_2) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(8)

1C · Amortized Inference¶

The variational family now conditions on both $\boldsymbol{y}$ and $\boldsymbol{x}$ . A single forward pass replaces per-observation optimisation — train once, generalise over $\boldsymbol{y}$ and $\boldsymbol{x}$ .

Params only — $q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \approx p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(11)

State only — $q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \approx p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right]

(12)

Joint

Factored

Hierarchical

q(\boldsymbol{u}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) = q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_1) \, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_2)

(13)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_1)\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_2)} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_1) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_2) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(14)

Track 2 — Emulator¶

Generative Model¶

The emulator introduces an internal latent variable $\boldsymbol{z}$ that compresses the full state $\boldsymbol{u}$ . It is itself a generative model, trained on simulator outputs before inference is performed.

p(\boldsymbol{y}, \boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{x}) = p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{\theta} \mid \boldsymbol{x})

(17)

The marginal likelihood now also integrates out $\boldsymbol{z}$ ,

p(\boldsymbol{y} \mid \boldsymbol{x}) = \iiint p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \, \mathrm{d}\boldsymbol{u}\, \mathrm{d}\boldsymbol{z}\, \mathrm{d}\boldsymbol{\theta}.

(18)

2.0 · Emulator Training¶

Before inference, train the emulator on simulator outputs $\{\boldsymbol{u}, \boldsymbol{x}, \boldsymbol{\theta}\}$ using its own internal ELBO. This introduces emulator inference parameters $\boldsymbol{\psi}_{\mathrm{em}}$ and an encoder $q(\boldsymbol{z} \mid \boldsymbol{u}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}})$ .

\mathcal{L}_{\mathrm{em}}(\boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}}) = \mathbb{E}_{q(\boldsymbol{z} \mid \boldsymbol{u}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}})} \!\left[ \log p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z} \mid \boldsymbol{u}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}}) \,\|\, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right]

(19)

2.1 · Emulator Uncertainty Characterization¶

Characterise the discrepancy between the emulator and the true simulator before using the emulator for inference,

p(\boldsymbol{u}_{\mathrm{true}} \mid \boldsymbol{u}_{\mathrm{em}}, \boldsymbol{x}, \boldsymbol{\theta}).

(20)

2A · Exact Inference¶

The targets now involve three unknowns: $\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta}$ .

\begin{aligned} \text{Params only}: && p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}) &= \iint p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{u}, \boldsymbol{z}, \boldsymbol{x}) \, p(\boldsymbol{u}, \boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}) \, \mathrm{d}\boldsymbol{u}\, \mathrm{d}\boldsymbol{z} \\ \text{State only}: && p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}) &= \int p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{z}, \boldsymbol{x}, \boldsymbol{\theta}) \, p(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}) \, \mathrm{d}\boldsymbol{z} \\ \text{Latent only}: && p(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}) &= \int p(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{u}, \boldsymbol{x}, \boldsymbol{\theta}) \, p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}) \, \mathrm{d}\boldsymbol{u} \\ \text{Joint}: && p(\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}) &= \frac{p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{\theta} \mid \boldsymbol{x})}{p(\boldsymbol{y} \mid \boldsymbol{x})} \end{aligned}

(21)

Here every conditional target sits in the chain $\boldsymbol{z} \to \boldsymbol{u} \to \boldsymbol{y}$ and marginalises out the other latent: conditioning on $\boldsymbol{\theta}$ , the state-only posterior integrates out the deeper latent $\boldsymbol{z}$ ; the latent-only posterior — the emulator’s compressed state given observations — integrates out the intervening state $\boldsymbol{u}$ ; and the params-only posterior integrates out both. Only the joint, which targets all unknowns at once, is a single Bayes ratio with no marginalisation.

2B · Variational Inference¶

Per-observation $q$ with parameters $\boldsymbol{\psi}$ . The emulator’s internal latent $\boldsymbol{z}$ is now an additional object the variational family must handle.

Params only — $q(\boldsymbol{\theta} \mid \boldsymbol{\psi}) \approx p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(22)

with $p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}) = \iint p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, \mathrm{d}\boldsymbol{u}\, \mathrm{d}\boldsymbol{z}$ requiring a further inner approximation over both $\boldsymbol{u}$ and $\boldsymbol{z}$ .

State only — $q(\boldsymbol{u} \mid \boldsymbol{\psi}) \approx p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u} \mid \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{\psi}) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right]

(23)

where $p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) = \int p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \, \mathrm{d}\boldsymbol{z}$ is itself intractable and approximated via the emulator ELBO (19).

Latent only — $q(\boldsymbol{z} \mid \boldsymbol{\psi}) \approx p(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{z} \mid \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z} \mid \boldsymbol{\psi}) \,\|\, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right]

(24)

with $p(\boldsymbol{y} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) = \int p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \, \mathrm{d}\boldsymbol{u}$ .

Joint

Factored

Hierarchical

q(\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{\psi}) = q(\boldsymbol{u} \mid \boldsymbol{\psi}_1) \, q(\boldsymbol{z} \mid \boldsymbol{\psi}_2) \, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_3)

(25)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{\psi}_1) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \,\right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z} \mid \boldsymbol{\psi}_2) \,\|\, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_3) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(26)

2C · Amortized Inference¶

The variational family conditions on both $\boldsymbol{y}$ and $\boldsymbol{x}$ ; a single forward pass replaces per-observation optimisation.

Params only — $q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \approx p(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(29)

State only — $q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \approx p(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right]

(30)

Latent only — $q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \approx p(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta})$

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) \,\|\, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right]

(31)

Joint

Factored

Hierarchical

q(\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) = q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_1) \, q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_2) \, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_3)

(32)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi})} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_1) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \,\right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_2) \,\|\, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_3) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(33)

q(\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}) = q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{z}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_1) \, q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_2) \, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_3)

(34)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_3)} \!\left[ \mathbb{E}_{q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_2)} \!\left[ \mathbb{E}_{q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{z}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_1)} \!\left[ \log p(\boldsymbol{y} \mid \boldsymbol{u}, \boldsymbol{\theta}, \boldsymbol{x}) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u} \mid \boldsymbol{y}, \boldsymbol{z}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_1) \,\|\, p(\boldsymbol{u} \mid \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{x}) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_2) \,\|\, p(\boldsymbol{z} \mid \boldsymbol{\theta}, \boldsymbol{x}) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_3) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}) \,\right]

(35)

Summary Table¶

Table 2:Every (track, regime, target) combination with its variational family and ELBO terms.

Track	Regime	Target	Variational family	ELBO terms
Simulator	Exact	$\boldsymbol{\theta}$	$p(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x})$	intractable
Simulator	Exact	$\boldsymbol{u}$	$p(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\theta})$	intractable
Simulator	Exact	$\boldsymbol{u},\boldsymbol{\theta}$	$p(\boldsymbol{u},\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x})$	intractable
Simulator	VI	$\boldsymbol{\theta}$	$q(\boldsymbol{\theta}\mid\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_\theta$
Simulator	VI	$\boldsymbol{u}$	$q(\boldsymbol{u}\mid\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_u$
Simulator	VI	$\boldsymbol{u},\boldsymbol{\theta}$ factored	$q(\boldsymbol{u}\mid\boldsymbol{\psi}_1)\,q(\boldsymbol{\theta}\mid\boldsymbol{\psi}_2)$	recon $+\;\mathrm{KL}_u+\mathrm{KL}_\theta$
Simulator	VI	$\boldsymbol{u},\boldsymbol{\theta}$ hier.	$q(\boldsymbol{u}\mid\boldsymbol{\theta},\boldsymbol{\psi}_1)\,q(\boldsymbol{\theta}\mid\boldsymbol{\psi}_2)$	recon $+\;\mathrm{KL}_{u\mid\theta}+\mathrm{KL}_\theta$
Simulator	Amortized	$\boldsymbol{\theta}$	$q(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_\theta$
Simulator	Amortized	$\boldsymbol{u}$	$q(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_u$
Simulator	Amortized	$\boldsymbol{u},\boldsymbol{\theta}$ factored	$q(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi}_1)\,q(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi}_2)$	recon $+\;\mathrm{KL}_u+\mathrm{KL}_\theta$
Simulator	Amortized	$\boldsymbol{u},\boldsymbol{\theta}$ hier.	$q(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\theta},\boldsymbol{\psi}_1)\,q(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi}_2)$	recon $+\;\mathrm{KL}_{u\mid\theta}+\mathrm{KL}_\theta$
Emulator	Training	$\boldsymbol{z}$	$q(\boldsymbol{z}\mid\boldsymbol{u},\boldsymbol{x},\boldsymbol{\theta},\boldsymbol{\psi}_{\mathrm{em}})$	recon $+\;\mathrm{KL}_z$
Emulator	Exact	$\boldsymbol{\theta}$	$p(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x})$	intractable
Emulator	Exact	$\boldsymbol{u}$	$p(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\theta})$	intractable
Emulator	Exact	$\boldsymbol{z}$	$p(\boldsymbol{z}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\theta})$	intractable
Emulator	Exact	$\boldsymbol{u},\boldsymbol{z},\boldsymbol{\theta}$	$p(\boldsymbol{u},\boldsymbol{z},\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x})$	intractable
Emulator	VI	$\boldsymbol{\theta}$	$q(\boldsymbol{\theta}\mid\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_\theta$
Emulator	VI	$\boldsymbol{u}$	$q(\boldsymbol{u}\mid\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_u$
Emulator	VI	$\boldsymbol{z}$	$q(\boldsymbol{z}\mid\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_z$
Emulator	VI	$\boldsymbol{u},\boldsymbol{z},\boldsymbol{\theta}$ factored	$q(\boldsymbol{u}\mid\boldsymbol{\psi}_1)\,q(\boldsymbol{z}\mid\boldsymbol{\psi}_2)\,q(\boldsymbol{\theta}\mid\boldsymbol{\psi}_3)$	recon $+\;\mathrm{KL}_u+\mathrm{KL}_z+\mathrm{KL}_\theta$
Emulator	VI	$\boldsymbol{u},\boldsymbol{z},\boldsymbol{\theta}$ hier.	$q(\boldsymbol{u}\mid\boldsymbol{z},\boldsymbol{\theta},\boldsymbol{\psi}_1)\,q(\boldsymbol{z}\mid\boldsymbol{\theta},\boldsymbol{\psi}_2)\,q(\boldsymbol{\theta}\mid\boldsymbol{\psi}_3)$	recon $+\;\mathrm{KL}_{u\mid z,\theta}+\mathrm{KL}_{z\mid\theta}+\mathrm{KL}_\theta$
Emulator	Amortized	$\boldsymbol{\theta}$	$q(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_\theta$
Emulator	Amortized	$\boldsymbol{u}$	$q(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_u$
Emulator	Amortized	$\boldsymbol{z}$	$q(\boldsymbol{z}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi})$	recon $+\;\mathrm{KL}_z$
Emulator	Amortized	$\boldsymbol{u},\boldsymbol{z},\boldsymbol{\theta}$ factored	$q(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi}_1)\,q(\boldsymbol{z}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi}_2)\,q(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi}_3)$	recon $+\;\mathrm{KL}_u+\mathrm{KL}_z+\mathrm{KL}_\theta$
Emulator	Amortized	$\boldsymbol{u},\boldsymbol{z},\boldsymbol{\theta}$ hier.	$q(\boldsymbol{u}\mid\boldsymbol{y},\boldsymbol{z},\boldsymbol{x},\boldsymbol{\theta},\boldsymbol{\psi}_1)\,q(\boldsymbol{z}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\theta},\boldsymbol{\psi}_2)\,q(\boldsymbol{\theta}\mid\boldsymbol{y},\boldsymbol{x},\boldsymbol{\psi}_3)$	recon $+\;\mathrm{KL}_{u\mid z,\theta}+\mathrm{KL}_{z\mid\theta}+\mathrm{KL}_\theta$