Parameterization of Response Distributions in brms

Paul Bürkner

2022-12-14

この vignette の目的は、brmsで使用されるファミリー(すなわち、応答分布)のパラメタリゼーションを議論することである。このパッケージのより一般的な概要については、vignette("brms_overview") を参照。

表記方法

この vignette を通して、応答変数の値を \(y\)、密度関数を \(f\)、主要モデル・パラメータを参照するために \(\mu\) を使用し、これは通常、応答分布の平均または密接に関連する量である。回帰の枠組みでは、 \(\mu\) は直接推定されないが、 \(\mu = g(\eta)\) として計算される。 \(\eta\) は予測項(詳細は help(brmsformula) を参照)、 \(g\) は応答関数(すなわち、リンク関数の逆関数)である。

ロケーションシフトモデル

ガウス族の密度は次式で与えられる。 \[ f(y) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{1}{2}\left(\frac{y - \mu}{\sigma}\right)^2\right) \]

ここで、 \(\sigma\) は残差標準偏差である。 student family の密度は次式で与えられる。 \[ f(y) = \frac{\Gamma((\nu + 1)/2)}{\Gamma(\nu/2)} \frac{1}{\sqrt{\nu\pi}\sigma}\left(1 + \frac{1}{\nu} \left(\frac{y - \mu}{\sigma}\right)^2\right)^{-(\nu+1)/2} \]

\(\Gamma\) はガンマ関数、 \(\nu > 1\) は自由度である。 \(\nu \rightarrow \infty\) とすると、スチューデント分布はガウス分布になる。skew_normal** 系の密度は次式で与えられる。 \[ f(y) = \frac{1}{\sqrt{2\pi}\omega} \exp\left(-\frac{1}{2} \left(\frac{y - \xi}{\omega}\right)^2 \right) \left(1 + \text{erf} \left( \alpha \left(\frac{y - \xi}{\omega \sqrt{2}} \right) \right) \right) \]

ここで、 \(\xi\) は位置パラメータ、 \(\omega\) は正のスケールパラメータ、 \(\alpha\) は歪度パラメータ、 \(\text{erf}\) はガウス分布の誤差関数を表す。スキュー正規分布をパラメータ化するために、平均 \(\mu\) と標準偏差 \(\sigma\)\(\omega\)\(\xi\) は次のように計算される。 \[ \omega = \frac{\sigma}{\sqrt{1 - \frac{2}{\pi} \frac{\alpha^2}{1 + \alpha^2}}} \] \[ \xi = \mu - \omega \frac{\alpha}{\sqrt{1 + \alpha^2}} \sqrt{\frac{2}{\pi}} \]

\(\alpha = 0\) の場合、スキュー正規分布はガウス分布になる。 位置ずれモデルの場合、 \(y\) は任意の実数値とすることができる。

二値データモデルとカウントデータモデル

二項族の密度は次式で与えられる。 \[ f(y) = {N \choose y} \mu^{y} (1-\mu)^{N - y} \]

ここで、 \(N\) は試行回数、 \(y \in \{0, ... , N\}\) は試行回数である。 \(N\) がすべて \(1\) (すなわち \(y \in \{0,1\}\) ) のとき、二値データの ベルヌーイ 分布が生じる。

\(y \in \mathbb{N}_0\) の場合、ポアソン族の密度は次式で与えられる。 \[ f(y) = \frac{\mu^{y}}{y!} \exp(-\mu) \] 負の二項族(negbinomial**)の密度は次の通りである。 \[ f(y) = {y + \phi - 1 \choose y} \left(\frac{\mu}{\mu + \phi}\right)^{y} \left(\frac{\phi}{\mu + \phi}\right)^\phi \]

ここで、 \(\phi\) は正の精度パラメータである。 \(\phi \rightarrow \infty\) の場合、負の二項分布はポアソン分布になる。 \(\phi\)\(1\) に設定すると、幾何族の密度が生じる。

Time-to-Event モデル

時間対事象モデルとは、正の実数のみで定義されるすべてのモデル、つまり \(y \in \mathbb{R}^+\) を意味する。対数正規分布**族の密度は次式で与えられる。 \[ f(y) = \frac{1}{\sqrt{2\pi}\sigma y} \exp\left(-\frac{1}{2}\left(\frac{\log(y) - \mu}{\sigma}\right)^2\right) \]

ここで、 \(\sigma\) は対数スケールでの残差標準偏差である。 ガンマ族(Gamma)の密度は次式で与えられる。 \[ f(y) = \frac{(\alpha / \mu)^\alpha}{\Gamma(\alpha)} y^{\alpha-1} \exp\left(-\frac{\alpha y}{\mu}\right) \]

ここで、 \(\alpha\) は正の形状パラメータである。ワイブル**族の密度は次式で与えられる。 \[ f(y) = \frac{\alpha}{s} \left(\frac{y}{s}\right)^{\alpha-1} \exp\left(-\left(\frac{y}{s}\right)^\alpha\right) \]

ここで、 \(\alpha\) は再び正の形状パラメータで、 \(s = \mu / \Gamma(1 + 1 / \alpha)\) はスケールパラメータで、 \(\mu\) は分布の平均となる。ガンマ分布またはワイブル分布で、 \(\alpha\)\(1\) に設定すると、指数族が発生する。の密度は inverse.gaussian 系は次式で与えられる。 \[ f(y) = \left(\frac{\alpha}{2 \pi y^3}\right)^{1/2} \exp \left(\frac{-\alpha (y - \mu)^2}{2 \mu^2 y} \right) \]

ここで、 \(\alpha\) は正の形状パラメータである。cox**ファミリーは、Cox比例ハザードモデルを実装しており、単調性を確保するためにM-スプライン(これはI-スプラインに積分する)で表されるベースラインハザード \(h_0(y)\) を持つ \(h(y) = h_0(y) \mu\) 形式のハザード関数を仮定している。Coxモデルの密度は次式で与えられる。 \[ f(y) = h(y) S(y) \] ここで、 \(S(y)\) は、 \(h(y)\) によって暗示される生存関数である。

極値モデル

極値をモデル化するには、特別な分布が必要である。ワイブル**分布(上記参照)あるいは、密度 \[ f(y) = \frac{\nu}{s} \left(\frac{y}{s}\right)^{-1-\nu} \exp\left(-\left(\frac{y}{s}\right)^{-\nu}\right) \]

ここで、 \(s = \mu / \Gamma(1 - 1 / \nu)\) は正のスケールパラメータ、 \(\nu > 1\) は形状パラメータで、 \(\mu\) がフレシェ分布の平均を予測するようにする。両分布を一般化したものが、密度 \[ f(y) = \frac{1}{\sigma} t(y)^{\xi + 1} \exp(-t(y)) \] どこ \[ t(y) = \left(1 + \xi \left(\frac{y - \mu}{\sigma} \right)\right)^{-1 / \xi} \] を正のスケールパラメータ \(\sigma\) と形状パラメータ \(\xi\) で指定する。

応答時間モデル

反応時間をモデル化するのに特に適したファミリーの1つが 指数関数的に修正されたガウス族exgaussian (‘exponentially modified Gaussian’)である。その密度は次のように与えられる。

\[ f(y) = \frac{1}{2 \beta} \exp\left(\frac{1}{2 \beta} \left(2\xi + \sigma^2 / \beta - 2 y \right) \right) \text{erfc}\left(\frac{\xi + \sigma^2 / \beta - y}{\sqrt{2} \sigma} \right) \]

ここで、 \(\beta\) は指数成分のスケール(逆率)、 \(\xi\) はガウス成分の平均、 \(\sigma\) はガウス成分の標準偏差、 \(\text{erfc}\) は相補誤差関数である。私たちは、主予測項が分布の平均と等しくなるように、 \(\mu = \xi + \beta\) をパラメータ化する。

応答時間のモデリングに適したもう一つのファミリーは

shifted_lognormal分布。の密度と等しくなる。

対数正規分布ただし、分布全体がndtという正のパラメータによって右にシフトしている(以下で説明するwiener拡散モデルとの整合性を保つため)。