Sequential Probabilistic Inference Schema

This is the sequential (state-space) companion to the Full Probabilistic Inference Schema. We now have a sequence of time steps $t = 1, \ldots, T$ . The state $\boldsymbol{u}_t$ evolves according to a dynamical model (the transition distribution), and observations $\boldsymbol{y}_t$ are generated from the current state $\boldsymbol{u}_t$ via the observation operator $\mathbf{H}$ .

The same two model tracks carry over — a simulator (state evolves directly) and an emulator (a latent state $\boldsymbol{z}_t$ evolves in a compressed space) — and the same three inference regimes (exact, variational, amortized), now joined by the classical recursive filtering and smoothing algorithms.

Notation¶

Table 1:Symbols used throughout this note.

Symbol	Space	Meaning
$\boldsymbol{y}_t$	$\mathbb{R}^{D_y}$	observation at time $t$ (gappy, noisy)
$\boldsymbol{u}_t$	$\mathbb{R}^{D_u}$	full state at time $t$
$\boldsymbol{z}_t$	$\mathbb{R}^{D_z}$	emulator latent state at time $t$ (emulator track)
$\boldsymbol{\theta}$	$\mathbb{R}^{D_\theta}$	parameters — static, do not evolve in time
$\boldsymbol{x}_t$	$\mathbb{R}^{D_x}$	covariates / controls at time $t$
$\boldsymbol{\psi}$	$\mathbb{R}^{D_\psi}$	inference (variational) parameters
$\boldsymbol{u}_{1:T}$	—	the full trajectory $(\boldsymbol{u}_1, \ldots, \boldsymbol{u}_T)$

Sequential Generative Model¶

The joint distribution over the full sequence factorises as

p(\boldsymbol{y}_{1:T}, \boldsymbol{u}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{x}_{1:T}) = \underbrace{p(\boldsymbol{\theta} \mid \boldsymbol{x}_{1:T})}_{\text{param prior}} \, \underbrace{p(\boldsymbol{u}_0 \mid \boldsymbol{\theta}, \boldsymbol{x}_0)}_{\text{initial prior}} \prod_{t=1}^{T} \underbrace{p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t)}_{\text{observation}} \, \underbrace{p(\boldsymbol{u}_t \mid \boldsymbol{u}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t)}_{\text{transition}}

(1)

Components¶

Initial state prior — $p(\boldsymbol{u}_0 \mid \boldsymbol{\theta}, \boldsymbol{x}_0)$ : distribution over the state before any observations.
Transition model (dynamics) — $p(\boldsymbol{u}_t \mid \boldsymbol{u}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t)$ : how the state evolves from $t-1$ to $t$ . May be a physical simulator, a learned emulator, or both. $\boldsymbol{x}_t$ carries the forcing/controls at time $t$ ; $\boldsymbol{\theta}$ governs the dynamics (diffusion, advection, …).
Observation model — $p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t)$ : how the state generates observations, the same operator $\mathbf{H}$ applied at each $t$ . Observations are gappy and noisy at every step.
Parameter prior — $p(\boldsymbol{\theta} \mid \boldsymbol{x}_{1:T})$ : static parameters shared across all time steps.

Graphical Structure¶

$\boldsymbol{u}_t$ depends on $\boldsymbol{u}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t$ — a Markov transition.
$\boldsymbol{y}_t$ depends on $\boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t$ — conditional independence given $\boldsymbol{u}_t$ .
$\boldsymbol{\theta}$ is shared across all time steps (a plate over $t$ ); $\boldsymbol{x}_t$ is observed at each step.

Target Posteriors¶

Filtering posterior (online, causal) — state at $t$ given observations up to and including $t$ ; uses no future observations and is updated recursively as each $\boldsymbol{y}_t$ arrives:

p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta})

(2)

Smoothing posterior (offline, non-causal) — state at $t$ given all observations, including future ones; requires the full sequence $\boldsymbol{y}_{1:T}$ :

p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta})

(3)

Prediction posterior — state $k$ steps ahead given observations up to $t$ (none from $t+1$ onward):

p(\boldsymbol{u}_{t+k} \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t+k}, \boldsymbol{\theta})

(4)

Parameter posterior — static parameters inferred from the full sequence, marginalising the state trajectory:

p(\boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}) = \int p(\boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{u}_{1:T}, \boldsymbol{x}_{1:T}) \, p(\boldsymbol{u}_{1:T} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}) \, \mathrm{d}\boldsymbol{u}_{1:T}

(5)

Joint smoothing posterior — the full joint over all states and parameters:

p(\boldsymbol{u}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T})

(6)

Track 1 — Simulator¶

The simulator generative model is (1) above: the state $\boldsymbol{u}_t$ evolves directly, with no internal latent variable.

1A · Exact Posteriors¶

Remark 1 (Intractability)

The recursions below are exact and closed-form only for linear-Gaussian models (the Kalman filter/smoother). For nonlinear or non-Gaussian transition and observation models, every target is intractable:

Filtering $p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta})$ and smoothing $p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta})$ — exact only for linear-Gaussian.
Prediction $p(\boldsymbol{u}_{t+k} \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t+k}, \boldsymbol{\theta})$ — requires integrating out the intermediate states.
Params $p(\boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T})$ — requires marginalising over $\boldsymbol{u}_{1:T}$ .
Joint $p(\boldsymbol{u}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T})$ — fully intractable for nonlinear models.

1B · Filtering Algorithms¶

Recursive algorithms that process observations one at a time and maintain a running approximation to the filtering posterior.

Kalman (exact)

Extended KF

Ensemble KF

Particle

Linear-Gaussian — exact. Requires

\begin{aligned} p(\boldsymbol{u}_t \mid \boldsymbol{u}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t) &= \mathcal{N}\!\left(\boldsymbol{u}_t \mid \mathbf{A}_{\boldsymbol{\theta}} \boldsymbol{u}_{t-1} + \mathbf{B}_{\boldsymbol{\theta}} \boldsymbol{x}_t, \; \mathbf{Q}_{\boldsymbol{\theta}}\right) \\ p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) &= \mathcal{N}\!\left(\boldsymbol{y}_t \mid \mathbf{H} \boldsymbol{u}_t, \; \mathbf{R}_{\boldsymbol{\theta}}\right) \end{aligned}

(7)

Predict — push the previous filter through the dynamics:

p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t-1}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) = \int p(\boldsymbol{u}_t \mid \boldsymbol{u}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{u}_{t-1} \mid \boldsymbol{y}_{1:t-1}, \boldsymbol{x}_{1:t-1}, \boldsymbol{\theta}) \, \mathrm{d}\boldsymbol{u}_{t-1}

(8)

Update — correct the prediction with the new observation:

p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) \propto p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t-1}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta})

(9)

Both steps are exact and closed-form for linear-Gaussian models.

1C · Smoothing Algorithms¶

Offline algorithms that use the full sequence.

Kalman / RTS Smoother (linear-Gaussian — exact). Run the Kalman filter forward, then a backward pass to fold in future observations:
$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta}) = p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) \int \frac{p(\boldsymbol{u}_{t+1} \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_{t+1}) \, p(\boldsymbol{u}_{t+1} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta})} {p(\boldsymbol{u}_{t+1} \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t+1}, \boldsymbol{\theta})} \, \mathrm{d}\boldsymbol{u}_{t+1}$
(12)
Particle Smoother (nonlinear — Monte-Carlo). Run the particle filter forward, then a backward pass that reweights particles using future information.
Variational Smoother — see §1D below.

1D · Variational Inference¶

For nonlinear / non-Gaussian models where filtering and smoothing are too expensive or unavailable, introduce a variational distribution over the full state sequence (and parameters). Here $\boldsymbol{\psi}$ is optimised once per observed sequence — no generalisation.

Filtering variational posterior — maintained recursively, with $\boldsymbol{\psi}_t$ updated at each step as new $\boldsymbol{y}_t$ arrives:

q(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\psi}_t) \approx p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta})

(13)

Smoothing variational posterior — two ways to structure the family:

Factored

Structured (Markov)

q(\boldsymbol{u}_{1:T} \mid \boldsymbol{\psi}) = \prod_{t=1}^{T} q(\boldsymbol{u}_t \mid \boldsymbol{\psi}_t) \approx p(\boldsymbol{u}_{1:T} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta})

(14)

\mathcal{L}(\boldsymbol{\psi}) = \sum_{t=1}^{T} \mathbb{E}_{q(\boldsymbol{u}_t \mid \boldsymbol{\psi}_t)}\!\left[ \log p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \right] - \sum_{t=1}^{T} D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u}_t \mid \boldsymbol{\psi}_t) \,\|\, p(\boldsymbol{u}_t \mid \boldsymbol{u}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t) \,\right]

(15)

The factored family breaks the temporal dependencies of the true smoothing posterior — a strong approximation.

Joint smoothing + parameter inference — Hierarchical:

q(\boldsymbol{u}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{\psi}) = q(\boldsymbol{u}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{\psi}_u) \, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_\theta)

(18)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_\theta)}\!\left[ \sum_{t=1}^{T} \mathbb{E}_{q(\boldsymbol{u}_t \mid \boldsymbol{u}_{t-1}, \boldsymbol{\theta}, \boldsymbol{\psi}_u)}\!\left[ \log p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{\psi}_u) \,\|\, p(\boldsymbol{u}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{x}_{1:T}) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_\theta) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}_{1:T}) \,\right]

(19)

1E · Amortized Inference¶

Train a network once on many sequences; at test time a single forward pass over a new sequence gives the posterior — no per-sequence optimisation.

Amortized filtering — a recurrent network (RNN, LSTM, S4, Mamba) processes $\boldsymbol{y}_{1:t}$ sequentially and emits a distribution over $\boldsymbol{u}_t$ ; causal, generalises across sequences:

q(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\psi})

(20)

Amortized smoothing — an encoder that reads the full sequence (transformer, bidirectional RNN) and emits a distribution over $\boldsymbol{u}_t$ at each step; non-causal, uses past and future observations:

q(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\psi})

(21)

Amortized joint — Hierarchical:

q(\boldsymbol{u}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\psi}) = q(\boldsymbol{u}_{1:T} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta}, \boldsymbol{\psi}_u) \, q(\boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\psi}_\theta)

(22)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_\theta)}\!\left[ \sum_{t=1}^{T} \mathbb{E}_{q(\boldsymbol{u}_t \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_u)}\!\left[ \log p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u}_{1:T} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_u) \,\|\, p(\boldsymbol{u}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{x}_{1:T}) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_\theta) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}_{1:T}) \,\right]

(23)

Track 2 — Emulator¶

Generative Model¶

The emulator introduces an internal latent $\boldsymbol{z}_t$ at each time step. The transition now operates in latent space and decodes to $\boldsymbol{u}_t$ .

p(\boldsymbol{y}_{1:T}, \boldsymbol{u}_{1:T}, \boldsymbol{z}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{x}_{1:T}) = p(\boldsymbol{\theta} \mid \boldsymbol{x}_{1:T}) \, p(\boldsymbol{z}_0 \mid \boldsymbol{\theta}, \boldsymbol{x}_0) \, p(\boldsymbol{u}_0 \mid \boldsymbol{z}_0, \boldsymbol{\theta}, \boldsymbol{x}_0) \prod_{t=1}^{T} p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{z}_t \mid \boldsymbol{z}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t)

(24)

The latent dynamics $p(\boldsymbol{z}_t \mid \boldsymbol{z}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t)$ operate in the compressed space $\mathbb{R}^{D_z}$ ( $D_z \ll D_u$ ); the decoder $p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t)$ maps back to the full field at each step.

$\boldsymbol{z}_t$ evolves via learned latent dynamics (transition in $\boldsymbol{z}$ -space).
$\boldsymbol{u}_t$ is decoded from $\boldsymbol{z}_t$ at each step (no direct $\boldsymbol{u}$ -to- $\boldsymbol{u}$ transition).
$\boldsymbol{y}_t$ is observed from $\boldsymbol{u}_t$ via $\mathbf{H}$ .

2.0 · Emulator Training¶

Train the emulator on simulator output sequences $\{\boldsymbol{u}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta}\}$ ; it learns latent dynamics in $\boldsymbol{z}$ -space. This introduces an encoder $q(\boldsymbol{z}_t \mid \boldsymbol{u}_t, \boldsymbol{x}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}})$ , decoder $p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t)$ , and transition $p(\boldsymbol{z}_t \mid \boldsymbol{z}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t)$ .

\mathcal{L}_{\mathrm{em}}(\boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}}) = \sum_{t=1}^{T} \mathbb{E}_{q(\boldsymbol{z}_t \mid \boldsymbol{u}_t, \boldsymbol{x}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}})}\!\left[ \log p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \right] - \sum_{t=1}^{T} D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z}_t \mid \boldsymbol{u}_t, \boldsymbol{x}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_{\mathrm{em}}) \,\|\, p(\boldsymbol{z}_t \mid \boldsymbol{z}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t) \,\right]

(25)

2.1 · Emulator Uncertainty Characterization¶

Characterise the per-step simulator–emulator discrepancy,

p(\boldsymbol{u}_{\mathrm{true},t} \mid \boldsymbol{u}_{\mathrm{em},t}, \boldsymbol{x}_t, \boldsymbol{\theta}).

(26)

2A · Exact Posteriors¶

Remark 2 (Intractability)

All targets are intractable in general (nonlinear decoder and latent dynamics). The state filtering/smoothing posteriors decode from the latent ones:

\begin{aligned} \text{Filtering}: \quad & p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}), \;\; p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) = \int p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) \, \mathrm{d}\boldsymbol{z}_t \\ \text{Smoothing}: \quad & p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta}), \;\; p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta}) \\ \text{Prediction}: \quad & p(\boldsymbol{z}_{t+k} \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t+k}, \boldsymbol{\theta}), \;\; p(\boldsymbol{u}_{t+k} \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t+k}, \boldsymbol{\theta}) \\ \text{Params}: \quad & p(\boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}) \\ \text{Joint}: \quad & p(\boldsymbol{u}_{1:T}, \boldsymbol{z}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}) \end{aligned}

(27)

2B · Filtering Algorithms (latent space)¶

Run the recursion in $\boldsymbol{z}$ -space, then decode to $\boldsymbol{u}$ -space.

Kalman in z

Ensemble KF in z

Particle in z

If the latent transition is linear-Gaussian, run the Kalman filter in $\boldsymbol{z}$ -space and decode via $p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t)$ .

\begin{aligned} \text{Predict:} &\quad p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t-1}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) = \int p(\boldsymbol{z}_t \mid \boldsymbol{z}_{t-1}, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{z}_{t-1} \mid \boldsymbol{y}_{1:t-1}, \boldsymbol{x}_{1:t-1}, \boldsymbol{\theta}) \, \mathrm{d}\boldsymbol{z}_{t-1} \\ \text{Update:} &\quad p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) \propto p(\boldsymbol{y}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t-1}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) \\ \text{Decode:} &\quad p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) = \int p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \, p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta}) \, \mathrm{d}\boldsymbol{z}_t \end{aligned}

(28)

2C · Smoothing Algorithms (latent space)¶

Kalman / RTS Smoother in z (linear-Gaussian — exact): forward Kalman filter in $\boldsymbol{z}$ -space, RTS backward pass, then decode the smoothed $\boldsymbol{z}_{1:T}$ to $\boldsymbol{u}_{1:T}$ .
Particle Smoother in z: forward particle filter in $\boldsymbol{z}$ -space, backward reweighting pass, then decode the smoothed particles.
Variational Smoother — see §2D below.

2D · Variational Inference¶

Filtering variational posterior — updated recursively as new $\boldsymbol{y}_t$ arrives:

q(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\psi}_t) \approx p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\theta})

(31)

Smoothing variational posterior — Structured (Markov):

q(\boldsymbol{z}_{1:T} \mid \boldsymbol{\psi}) = q(\boldsymbol{z}_0 \mid \boldsymbol{\psi}_0) \prod_{t=1}^{T} q(\boldsymbol{z}_t \mid \boldsymbol{z}_{t-1}, \boldsymbol{\psi}_t)

(32)

\mathcal{L}(\boldsymbol{\psi}) = \sum_{t=1}^{T} \mathbb{E}_{q(\boldsymbol{z}_t \mid \boldsymbol{\psi})}\!\left[ \log p(\boldsymbol{y}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z}_{1:T} \mid \boldsymbol{\psi}) \,\|\, p(\boldsymbol{z}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{x}_{1:T}) \,\right]

(33)

Joint smoothing over $\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta}$ — Hierarchical:

q(\boldsymbol{u}_{1:T}, \boldsymbol{z}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{\psi}) = \underbrace{q(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_u)}_{\text{per-step state}} \, \underbrace{q(\boldsymbol{z}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{\psi}_z)}_{\text{latent trajectory}} \, \underbrace{q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_\theta)}_{\text{parameters}}

(34)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_\theta)}\!\left[ \sum_{t=1}^{T} \mathbb{E}_{q(\boldsymbol{z}_t \mid \boldsymbol{\theta}, \boldsymbol{\psi}_z)}\!\left[ \mathbb{E}_{q(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_u)}\!\left[ \log p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_u) \,\|\, p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{\psi}_z) \,\|\, p(\boldsymbol{z}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{x}_{1:T}) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{\psi}_\theta) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}_{1:T}) \,\right]

(35)

2E · Amortized Inference¶

Amortized filtering in latent space — a recurrent network processes $\boldsymbol{y}_{1:t}$ and emits a distribution over $\boldsymbol{z}_t$ ; causal:

q(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{x}_{1:t}, \boldsymbol{\psi})

(36)

Amortized smoothing in latent space — a bidirectional encoder reads the full sequence; non-causal:

q(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\psi})

(37)

Amortized joint — Hierarchical:

q(\boldsymbol{u}_{1:T}, \boldsymbol{z}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\psi}) = q(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{z}_t, \boldsymbol{x}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_u) \, q(\boldsymbol{z}_{1:T} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\theta}, \boldsymbol{\psi}_z) \, q(\boldsymbol{\theta} \mid \boldsymbol{y}_{1:T}, \boldsymbol{x}_{1:T}, \boldsymbol{\psi}_\theta)

(38)

\mathcal{L}(\boldsymbol{\psi}) = \mathbb{E}_{q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_\theta)}\!\left[ \sum_{t=1}^{T} \mathbb{E}_{q(\boldsymbol{z}_t \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_z)}\!\left[ \mathbb{E}_{q(\boldsymbol{u}_t \mid \boldsymbol{y}, \boldsymbol{z}_t, \boldsymbol{x}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_u)}\!\left[ \log p(\boldsymbol{y}_t \mid \boldsymbol{u}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{u}_t \mid \boldsymbol{y}, \boldsymbol{z}_t, \boldsymbol{x}_t, \boldsymbol{\theta}, \boldsymbol{\psi}_u) \,\|\, p(\boldsymbol{u}_t \mid \boldsymbol{z}_t, \boldsymbol{\theta}, \boldsymbol{x}_t) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{z}_{1:T} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\theta}, \boldsymbol{\psi}_z) \,\|\, p(\boldsymbol{z}_{1:T} \mid \boldsymbol{\theta}, \boldsymbol{x}_{1:T}) \,\right] \right] - D_{\mathrm{KL}}\!\left[\, q(\boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi}_\theta) \,\|\, p(\boldsymbol{\theta} \mid \boldsymbol{x}_{1:T}) \,\right]

(39)

Summary Table¶

Table 2:Targets and methods across both tracks. $\boldsymbol{y}, \boldsymbol{x}$ conditioning is abbreviated.

Track	Step	Target	Method
Simulator	Exact	$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t})$	intractable (nonlinear)
Simulator	Exact	$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T})$	intractable (nonlinear)
Simulator	Filtering	$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t})$	Kalman / EnKF / Particle
Simulator	Smoothing	$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T})$	RTS / Particle smoother
Simulator	VI	$q(\boldsymbol{u}_{1:T} \mid \boldsymbol{\psi})$	factored or structured ELBO
Simulator	VI + params	$q(\boldsymbol{u}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{\psi})$	hierarchical ELBO
Simulator	Amortized filter	$q(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{\psi})$	recurrent network
Simulator	Amortized smooth	$q(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{\psi})$	bidirectional encoder
Simulator	Amortized joint	$q(\boldsymbol{u}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{\psi})$	hierarchical amortized ELBO
Emulator	Training	$q(\boldsymbol{z}_t \mid \boldsymbol{u}_t, \boldsymbol{\psi}_{\mathrm{em}})$	sequential VAE ELBO
Emulator	Exact	$p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t})$	intractable
Emulator	Exact	$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T})$	intractable
Emulator	Filtering $\boldsymbol{z}$	$p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t})$	Kalman / EnKF / Particle in $\boldsymbol{z}$
Emulator	Filtering $\boldsymbol{u}$	$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:t})$	decode from $\boldsymbol{z}$ filter
Emulator	Smoothing $\boldsymbol{z}$	$p(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:T})$	RTS / Particle smoother in $\boldsymbol{z}$
Emulator	Smoothing $\boldsymbol{u}$	$p(\boldsymbol{u}_t \mid \boldsymbol{y}_{1:T})$	decode from $\boldsymbol{z}$ smoother
Emulator	VI	$q(\boldsymbol{z}_{1:T} \mid \boldsymbol{\psi})$	structured ELBO in $\boldsymbol{z}$
Emulator	VI + state	$q(\boldsymbol{u}_{1:T}, \boldsymbol{z}_{1:T} \mid \boldsymbol{\psi})$	hierarchical ELBO
Emulator	VI + params	$q(\boldsymbol{u}_{1:T}, \boldsymbol{z}_{1:T}, \boldsymbol{\theta} \mid \boldsymbol{\psi})$	full hierarchical ELBO
Emulator	Amortized filter	$q(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:t}, \boldsymbol{\psi})$	recurrent network in $\boldsymbol{z}$
Emulator	Amortized smooth	$q(\boldsymbol{z}_t \mid \boldsymbol{y}_{1:T}, \boldsymbol{\psi})$	bidirectional encoder in $\boldsymbol{z}$
Emulator	Amortized joint	$q(\boldsymbol{u}, \boldsymbol{z}, \boldsymbol{\theta} \mid \boldsymbol{y}, \boldsymbol{x}, \boldsymbol{\psi})$	hierarchical amortized ELBO