Note/ 罕见极端事件

Published:

关于rare events的量化(和预报?),比较杂乱

Finkel SSW

Finkel, J., Abbot, D. S. & Weare, J. Path Properties of Atmospheric Transitions: Illustration with a Low-Order Sudden Stratospheric Warming Model. Journal of the Atmospheric Sciences 77, 2327–2347 (2020).

集合预报更适合于偏向平均的情景;预报outlier需要特殊方法

SSW as rare event

数值方法:Holton-Mass model

  • 原理:线性化QGPV,流函数和u;边界条件:顶为0,底连续。
  • 特点:抓住了rare events概率预报的关键困难
  • 双稳态:or 吸引子
    • 强极涡A – 平流层辐射平衡,对应热成风廓线
    • 弱极涡B – 罗斯贝波越过对流层后迅速向上传播,留下负动量
    • 在某些参数设置下,模型解有双稳态
    • SSW:A向B的转变

Commitor function

also known as the splitting probability

  • 定义
    • $q$ 存在两个稳态和中间态,初始状态为中间态时,演化到稳态B的概率
    • 条件平均初次到达时间 $\eta$:在上述演化的条件下,初次演化到B的时间的期望
  • 表示
    • 理论上是所有自由度空间的函数,但这样难以观测和表示,所以选取两个代表性的变量(CV)
    • 可以用回归的方法,根据函数是否单调、光滑,未解释方差是否较小……几个方面来确定这个代表性变量;文章中从EP关系的几项+不同垂直层来挑选CV
    • 那么通过 $q$ 表示的概率,$\eta$ 表示的提前时间,如果它们大于/小于一个阈值,代表事件很有可能将会短期内发生,因此选出的变量是极端事件的precursor(或者说early warning signs)
  • 计算
    • 暴力方法自然是直接数值计算(DNS),在衡量单次演化时成本尚可接受,但求期望太难
    • 文章基于一些动力系统理论的方法,发展了DGA解法,
      • 采样,选定基函数,然后计算内积;作者认为可以进一步采用核方法或神经网络
      • 可以用20d的短模拟,10^4-5个样本较精确的估算 $q$ 和 $\eta$ (和DNS对比,而DNS是基于长模拟的)
      • 文中用的基函数形式较简单,就是几个集合的 indicator function
  • 结果
    • 以U30和IHF表示了$q$ 和 $\eta$ ,也画出了函数的联合分布;可以看$q=0.5$在什么位置
    • 一般 $q$ 越大,$\eta$ 越小,但不是唯一依赖和决定的关系,还取决于背景状态(如U30和IHF)
    • DGA是reduced-order modeling之外的新方法,后者包括物理模型(如lorenz63)和机器学习模型

应用于实际预报

关于rare event的变化、调制、影响等研究,之前总是用long run来研究,但这些基于较低分辨率;高分辨率的天气预报数据未被用于检验。 S2S系统已经有一定能力预报极端事件,但是每个run较短,无法评估对极端事件气候态模拟的效果。如何把分散的,不同初值的演化路径拼接/结合起来,评估在整个相空间上的表现?

用基于马尔科夫状态模型的概率转移矩阵,表示TPT理论里的前向算子;用聚类分析的方法将状态空间划分为小块,完成了基函数表示;于是就可以用DGA算出前向和后向的commitor function 注意:

  • time-delay embedding:表示每个时刻的状态时,前几个时刻的状态也被当做自变量坐标(feature space)
    • 其思想和自回归模型、RNN相通
  • 和Holton-Mass定义的两个吸引子附近的空间不同,这次的自变量包含时间坐标,对AB空间的划分也是同时根据时间和U的特征来的
    • A:不在冬季;B:在冬季,且发生SSW,AB之外:即在冬季,还未发生SSW
  • 聚类是对每个时刻的空间(这个空间的坐标包含time-delay),把整个空间划分为互斥的几个集合
  • 可以算出密度 $\pi(z)$ ,前向CF $q^+$ (从AB之外进入B,即冬季目前还未发生SSW,但冬季结束之外会发生),后向 $q^-$ (从A进入AB之外,而不是从B,即冬天目前为止还未发生SSW)
    • 可以用递推关系递归地求解
  • $q$ 按 $\pi$ 为权重求平均,即是rate

用概率流方法,求出A到B的平均轨迹 $J_{AB}$ 或未曾进入B的平均轨迹 $J_{AA}$ ,$J_{AB}$ 进入B(上边缘)的通量即是SSW发生次数,其依赖于时间,所以可以求出SSW的季节分布特征

  • 用这种方法发现季节分布的双峰特征
  • S2S与ERA不同的再分析比较,S2S因为数据量大,结果更稳定;ERA40因为覆盖时间最长,结果和其他只覆盖了20世纪后半至今的不太一样

这种方法仍然是在观测附近采样。还可以看看其他的采样策略,如large-deviation theory,Quantile diffusion Monte Carlo

Bouchet & Ragone: Rare Event Algorithm

Ragone, F., Wouters, J. & Bouchet, F. Computation of extreme heat waves in climate models using a large deviation algorithm. Proc. Natl. Acad. Sci. U.S.A. 115, 24–29 (2018).

描述一种“谱系选择算法”(genealogical selection algorithm),具体来说叫GKLT算法,将其运用于计算气候极端事件的统计特征 不再计算速率函数,而是计算极端事件的重现期 基本思想为对于动力系统的轨迹,每隔一定步长检查剪掉远离极端事件的,从极端性较强的分支作为初始条件,继续生成下一些分支,如此迭代。

将原来位于tail的概率分布转化为极端值附近的分布,再通过解析运算反求在原来样本中的分布。称之为importance sampling,得到了biased PDF。

子集的概率和全集的概率存在一个转换关系,这个关系是N->$\inf$渐进的;对偏差大的值,这个渐进误差小于直接蒙卡;概率转换关系基于样本和整体平均的温度极端程度(乘以跟选择强度有关的e指数)。 对每个算法选择的时间小段都满足这样的概率转换关系,推出整体时间内的期望。 可以不考虑统计物理和勒让德变换来直观理解。

选择轨迹时,克隆的权重和 $\exp(k * 上个时段内平均温度)$ 成正比,即随极端性指数增长

LDT 大偏差理论

知乎的通俗解释 随机游走的例子 远离均值时不满足中心极限定理,但是可以求出一个指数衰减的约束 指数衰减的包络即为速率函数

Webber:quantile diffusion Monte Carlo

online paper sample extreme tail behavior,从ragone的天气尺度推广到中尺度(计算消耗大,样本空间更小) 应用于强台风频率、MCS、极端洪水…… 从示意图来看和genealogical selection algorithm是类似的 同样用到了reaction coordinate的概念

Gessner:动力模式中的集中采样

[[Gessner et al-2021-Very rare heat extremes.pdf]]

在选定的一个极端事件之前,对restart输出加密,然后每个重启点施加扰动生成大集合,可以得到分布随起报时间、lead变化的数据集,和实际的极端事件等级对比

Finkel: rare events storyline

paper 在L96测试rare events算法,发现subset simulation在一些情况下并没有增强极端事件发生的概率,发展出一种提前增强(try-earlier)的增强算法

可以生成用于极端事件storyline方法的全样本