Spatial-Temporal Experiment¶

In this notebook, I will be walking through how we can estimate different methods based on the density cubes that we derive.

import sys, os
from pyprojroot import here
root = here(project_files=[".here"])
sys.path.append(str(here()))

import pathlib

# standard python packages
import xarray as xr
import pandas as pd
import numpy as np
from xcube.core.geom import clip_dataset_by_geometry

# 
from src.features import Metrics
from src.features.preprocessing import DensityCubes
from sklearn.preprocessing import StandardScaler

# # esdc tools
# from src.esdc.subset import select_pixel
# from src.esdc.shape import ShapeFileExtract, rasterize
# from esdc.transform import DensityCubes

from typing import List, Dict
import xarray as xr

from tqdm import tqdm

import cartopy
import cartopy.crs as ccrs

# NUMPY SETTINGS
import numpy as onp
onp.set_printoptions(precision=3, suppress=True)

# MATPLOTLIB Settings
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

# SEABORN SETTINGS
import seaborn as sns
sns.set_context(context='talk',font_scale=0.7)
# sns.set(rc={'figure.figsize': (12, 9.)})
# sns.set_style("whitegrid")

# PANDAS SETTINGS
import pandas as pd
pd.set_option("display.max_rows", 120)
pd.set_option("display.max_columns", 120)

# LOGGING SETTINGS
import sys
import logging
logging.basicConfig(
    level=logging.INFO, 
    stream=sys.stdout,
    format='%(asctime)s:%(levelname)s:%(message)s'
)
logger = logging.getLogger()
#logger.setLevel(logging.INFO)

%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload

Experiment Steps¶

Global Variables¶

from collections import namedtuple
from typing import Union, Tuple
import xarray as xr
import rioxarray
import shapely
# global variables

# Datapath
DATA_PATH = pathlib.Path("/media/disk/databases/ESDC/")

levels = ['time', 'lon', 'lat']

# get filename
filename = DATA_PATH.joinpath("esdc-8d-0.25deg-1x720x1440-2.0.0.zarr")

Region = namedtuple("Region", ["name", "lonmin", "lonmax", "latmin", "latmax"])
TimePeriod = namedtuple("TimePeriod", ["name", "start", "end"])

def get_test_time() -> TimePeriod:
    return TimePeriod(name="201001_201012", start="Jan-2010", end="Dec-2010")
#     return TimePeriod(name='test_201007', start='July-2010', end='July-2010')

def get_europe() -> Region:
    """As an example, I often choose Europe. This is a decent bounding box."""
    return Region(name="europe", latmax=35.5, latmin=71.5, lonmax=60.0, lonmin=-18.0)

Parameters¶

variables = [
    'gross_primary_productivity',
    'root_moisture',
    'land_surface_temperature'
]

Functions¶

from prefect import task, Flow, Parameter

@task # get Dataset
def get_dataset(variable: str)-> xr.Dataset:
    return xr.open_zarr(str(filename))[[variable]]

@task # subset datacube
def cube_spatial_subset(xr_data: xr.Dataset, bbox: Region) -> xr.Dataset:
    """Function to spatially subset an xarray dataset from a bounding box."""
    # get bounding box
    bbox = shapely.geometry.box(
        bbox.lonmin,
        bbox.latmin,
        bbox.lonmax,
        bbox.latmax
    )
    # subset datacube
    return clip_dataset_by_geometry(xr_data, bbox)

@task 
def cube_temporal_subset(xr_data: xr.DataArray, period: Tuple[str, str]) -> xr.DataArray:
    """Function to temporally subset an xarray dataset from a tuple of
    start date and end date
    """
    return xr_data.sel(time=slice(period.start, period.end))

@task # get reference cube
def get_reference_cube(data: xr.DataArray) -> pd.DataFrame:
    """Wrapper Function to get reference cube"""
    return data.to_dataframe().dropna().reorder_levels(levels)

@task # get density cubes
def get_density_cubes(data: xr.DataArray, spatial: int, temporal: int) -> pd.DataFrame:
    """Wrapper Function to get density cubes from a dataarray"""
    return DensityCubes(
        spatial_window=spatial,
        time_window=temporal
    ).get_minicubes(data).reorder_levels(levels)

@task # get common indices
def get_common_indices(
    reference_df: pd.DataFrame, density_df: pd.DataFrame
) -> Tuple[pd.DataFrame, pd.DataFrame]:
    idx = density_df.index.intersection(reference_df.index)
    return reference_df.loc[idx,:], density_df.loc[idx, :]

@task # standardize the data before
def standardizer_data(X: pd.DataFrame, Y: pd.DataFrame) -> Tuple[pd.DataFrame, pd.DataFrame]:

    # standardizer
    normalizer = StandardScaler(with_mean=True, with_std=True)

    # standardize X values
    X_values = normalizer.fit_transform(X.values)
    X = pd.DataFrame(data=X_values, index=X.index, columns=X.columns)

    # standardize Y Values
    Y_values = normalizer.fit_transform(Y.values)
    Y = pd.DataFrame(data=Y_values, index=Y.index, columns=Y.columns)

    return X, Y

@task
def get_similarity_scores(X_ref: pd.DataFrame, Y_compare: pd.DataFrame) -> Dict:

    # RV Coefficient
    rv_results = rv_coefficient(X_ref, Y_compare)

#     # CKA Coefficient
#     cka_results = cka_coefficient(X_ref, Y_compare)

    # RBIG Coefficient
    rbig_results = rbig_it_measures(X_ref, Y_compare)

    results = {
        **rv_results,
#         **cka_results,
        **rbig_results
    }

    return results

from src.models.similarity import cka_coefficient, rv_coefficient, rbig_it_measures

Experiment Run¶

# variable = 'gross_primary_productivity'
# region = get_europe()

# datacube = get_dataset(variable)

# datacube = subset_cube(xr_data=datacube, bbox=region)

logger.setLevel(logging.INFO)

with Flow("Experiment-Step") as flow:

    # ======================
    # experiment parameters
    # ======================
    variable = Parameter("variable", default='gross_primary_productivity')
    region = Parameter("region", default=get_europe())
    period = Parameter("period", default=get_test_time())
    spatial = Parameter("spatial", default=1)
    temporal = Parameter("temporal", default=3)

    # ======================
    # experiment - Data
    # ======================
    # Get DataCube
    datacube = get_dataset(variable)

    # subset datacube (spatially)
    datacube = cube_spatial_subset(xr_data=datacube, bbox=region)[variable]

    # subset datacube (temporally)
    datacube = cube_temporal_subset(xr_data=datacube, period=period)

    # get datacubes
    reference_cube_df = get_reference_cube(data=datacube)

    # get density cubes
    density_cube_df = get_density_cubes(
        data=datacube, 
        spatial=spatial, 
        temporal=temporal
    )

    # get reference dataframe
    dfs = get_common_indices(
        reference_df=reference_cube_df, 
        density_df=density_cube_df
    )

    # standardize data
    dfs = standardizer_data(X=dfs[0], Y=dfs[1])

    # ======================
    # experiment - Methods
    # ======================
    res = get_similarity_scores(X_ref=dfs[0], Y_compare=dfs[1])

state = flow.run()

[2020-05-01 10:16:21] INFO - prefect.FlowRunner | Beginning Flow run for 'Experiment-Step'
2020-05-01 12:16:21,361:INFO:Beginning Flow run for 'Experiment-Step'
[2020-05-01 10:16:21] INFO - prefect.FlowRunner | Starting flow run.
2020-05-01 12:16:21,372:INFO:Starting flow run.
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'variable': Starting task run...
2020-05-01 12:16:21,411:INFO:Task 'variable': Starting task run...
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'variable': finished task run for task with final state: 'Success'
2020-05-01 12:16:21,424:INFO:Task 'variable': finished task run for task with final state: 'Success'
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'region': Starting task run...
2020-05-01 12:16:21,454:INFO:Task 'region': Starting task run...
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'region': finished task run for task with final state: 'Success'
2020-05-01 12:16:21,467:INFO:Task 'region': finished task run for task with final state: 'Success'
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'period': Starting task run...
2020-05-01 12:16:21,496:INFO:Task 'period': Starting task run...
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'period': finished task run for task with final state: 'Success'
2020-05-01 12:16:21,509:INFO:Task 'period': finished task run for task with final state: 'Success'
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'temporal': Starting task run...
2020-05-01 12:16:21,539:INFO:Task 'temporal': Starting task run...
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'temporal': finished task run for task with final state: 'Success'
2020-05-01 12:16:21,551:INFO:Task 'temporal': finished task run for task with final state: 'Success'
[2020-05-01 10:16:21] INFO - prefect.TaskRunner | Task 'get_dataset': Starting task run...
2020-05-01 12:16:21,581:INFO:Task 'get_dataset': Starting task run...
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'get_dataset': finished task run for task with final state: 'Success'
2020-05-01 12:16:22,485:INFO:Task 'get_dataset': finished task run for task with final state: 'Success'
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'cube_spatial_subset': Starting task run...
2020-05-01 12:16:22,505:INFO:Task 'cube_spatial_subset': Starting task run...
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'cube_spatial_subset': finished task run for task with final state: 'Success'
2020-05-01 12:16:22,525:INFO:Task 'cube_spatial_subset': finished task run for task with final state: 'Success'
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'GetItem': Starting task run...
2020-05-01 12:16:22,545:INFO:Task 'GetItem': Starting task run...
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'GetItem': finished task run for task with final state: 'Success'
2020-05-01 12:16:22,554:INFO:Task 'GetItem': finished task run for task with final state: 'Success'
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'cube_temporal_subset': Starting task run...
2020-05-01 12:16:22,574:INFO:Task 'cube_temporal_subset': Starting task run...
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'cube_temporal_subset': finished task run for task with final state: 'Success'
2020-05-01 12:16:22,585:INFO:Task 'cube_temporal_subset': finished task run for task with final state: 'Success'
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'get_reference_cube': Starting task run...
2020-05-01 12:16:22,605:INFO:Task 'get_reference_cube': Starting task run...
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'get_reference_cube': finished task run for task with final state: 'Success'
2020-05-01 12:16:22,653:INFO:Task 'get_reference_cube': finished task run for task with final state: 'Success'
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'spatial': Starting task run...
2020-05-01 12:16:22,687:INFO:Task 'spatial': Starting task run...
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'spatial': finished task run for task with final state: 'Success'
2020-05-01 12:16:22,700:INFO:Task 'spatial': finished task run for task with final state: 'Success'
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'get_density_cubes': Starting task run...
2020-05-01 12:16:22,729:INFO:Task 'get_density_cubes': Starting task run...
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'get_density_cubes': finished task run for task with final state: 'Success'
2020-05-01 12:16:22,769:INFO:Task 'get_density_cubes': finished task run for task with final state: 'Success'
[2020-05-01 10:16:22] INFO - prefect.TaskRunner | Task 'get_common_indices': Starting task run...
2020-05-01 12:16:22,799:INFO:Task 'get_common_indices': Starting task run...
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'get_common_indices': finished task run for task with final state: 'Success'
2020-05-01 12:16:23,766:INFO:Task 'get_common_indices': finished task run for task with final state: 'Success'
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': Starting task run...
2020-05-01 12:16:23,786:INFO:Task 'GetItem': Starting task run...
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': finished task run for task with final state: 'Success'
2020-05-01 12:16:23,795:INFO:Task 'GetItem': finished task run for task with final state: 'Success'
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': Starting task run...
2020-05-01 12:16:23,815:INFO:Task 'GetItem': Starting task run...
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': finished task run for task with final state: 'Success'
2020-05-01 12:16:23,824:INFO:Task 'GetItem': finished task run for task with final state: 'Success'
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'standardizer_data': Starting task run...
2020-05-01 12:16:23,843:INFO:Task 'standardizer_data': Starting task run...
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'standardizer_data': finished task run for task with final state: 'Success'
2020-05-01 12:16:23,855:INFO:Task 'standardizer_data': finished task run for task with final state: 'Success'
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': Starting task run...
2020-05-01 12:16:23,874:INFO:Task 'GetItem': Starting task run...
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': finished task run for task with final state: 'Success'
2020-05-01 12:16:23,883:INFO:Task 'GetItem': finished task run for task with final state: 'Success'
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': Starting task run...
2020-05-01 12:16:23,903:INFO:Task 'GetItem': Starting task run...
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'GetItem': finished task run for task with final state: 'Success'
2020-05-01 12:16:23,912:INFO:Task 'GetItem': finished task run for task with final state: 'Success'
[2020-05-01 10:16:23] INFO - prefect.TaskRunner | Task 'get_similarity_scores': Starting task run...
2020-05-01 12:16:23,931:INFO:Task 'get_similarity_scores': Starting task run...
[2020-05-01 10:16:50] INFO - prefect.TaskRunner | Task 'get_similarity_scores': finished task run for task with final state: 'Success'
2020-05-01 12:16:50,094:INFO:Task 'get_similarity_scores': finished task run for task with final state: 'Success'
[2020-05-01 10:16:50] INFO - prefect.FlowRunner | Flow run SUCCESS: all reference tasks succeeded
2020-05-01 12:16:50,097:INFO:Flow run SUCCESS: all reference tasks succeeded

state.result[res].result

{'rv_coeff': 0.9697258,
 'rv_x_norm': 26692.072,
 'rv_y_norm': 77907.49,
 'rv_xy_norm': 2016556900.0,
 'rbig_H_x': 1.855240533094599,
 'rbig_H_y': 1.1286197933913034,
 'rbig_I_xy': 5.499353957238775,
 'rbig_vi_coeff': 3.8004736863738287}