読んだ論文

arxiv.org

Twitterに流れてきた Causal Effects of Linguistic Properties (NAACL 2021) という論文を読みました。

解釈が間違っている部分はご指摘していただければと思います。

読んだ論文
概要
イントロ
因果推論の基本
言語特性の因果推論についての検討
代理処置変数について
TEXT CAUSEについて
- 第一段階
- 第二段階
実験
- 実験1. Amazonのレビュー
- 実験2. 金融庁のクレーム
  - データセット
  - 結果
雑感

概要

文章の言語特性による因果効果の推定を検討
そのため、プロキシラベルと呼ばれる処置変数を検討する。
因果推定を行う文章から得られる言語特性にはノイズが非常に乗っている状態になっている。
そのため、言語特性を表現する特徴量をBERTを用いた表現学習により獲得して共変量の調整を行う
このプロキシラベルと表現学習により獲得した共変量を用いて因果推定を行うアルゴリズムTEXTCAUSEを提案
Amazonのレビューを元にした合成データセットと金融庁のクレーム処理に関するデータを対して因果推論を検討

イントロ

言語の因果効果推定には二つの課題がある

原因となる変量を観測可能な変数で表現するが必要なこと
真の言語特性のかなりにプロキシラベルと呼ばれう観測値を用いるがノイズが多いため、このような状態でも真の効果を推定すること

これらを解決するTEXT CAUSEを提案。

TEXT CAUSEのコードはgithubで公開している(https://github.com/rpryzant/causal-text)

因果推論の基本

処理Tによるアウトカム $Y$ への平均因果効果ATEは次のように定義されている。

$\displaystyle{ \psi = E [Y ; do(T = 1)] − E [Y ; do(T = 0)] }$

しかし、共変量 $C$ によりバックドアパスが開いていると条件付き確率と一致しない。

次のように共変量 $C$ で期待値をとったATEを推定することでバックドアパスを調整することができる因果推定が行える。

$\displaystyle{ \psi = E_C \left[ E [Y | T = 1, C] − E [Y | T = 0, C] \right] }$

この調整をbackdoor-adjustment formulaと呼ばれている。

言語特性の因果推論についての検討

文章における因果推定を考える際に、書き手が意図を持って作成した文章が読み手にどのように認識されるかを考慮する必要がある。

言語学等の研究で用いられる考え方を利用し因果関係モデルを次のように検討。

f:id:saltcooky:20210501003913p:plain:w500

$W$ ：文章
$T$ ：関心ある言語特性
$Z$ ： $W$ を介して意識的または無意識的に伝達した他の言語特性(トピック/雄弁さなど)
$Y$ ：アウトカム（売り上げや対応の変化） $T$ と $Z$ は通常相関している

関心のあるATEは次にようになる。

$\displaystyle{ \psi^{wri} = E [Y ; do(T = 1)] − E [Y ; do(T = 0)] }$

この因果効果は推定ができない $T$ と相関する $Z$ を調整する必要があるためであり、バックドアパスが開いている状態になっている。

一方で読み手は文章から関心のある特性 $\tilde{T}$ とその他の特性 $\tilde{Z}$ を知覚し、それらからアウトカム $Y$ が得られる。

例えば、顧客サービス担当者はユーザーからの苦情を読み、その苦情が丁寧なものかどうかを判断し、それに基づいてどれだけ早く対応するかを選択するような状態である。

ここで検討すべき因果効果は次にようになる。

$\displaystyle{ \psi^{rea} = E [Y ; do(\tilde{T} = 1)] − E [Y ; do(\tilde{T} = 0)] }$

$E[Y|W$ ] = $E [Y | \tilde{T}, \tilde{Z}$ ] となるような単語 $W$ の関数を $\tilde{Z}= f(W)$ とする。

ここで、以下の仮定が成り立つとする。

$W$ は $\tilde{T}$ と $Y$ の間のバックドアパスをブロックする。(未観測交絡因子なし)
$T = \tilde{T}$ (意図と認識の一致)
ある定数 $\epsilon > 0$ に対して以下が確率一で成り立つ

$\displaystyle{ \epsilon < p( \tilde{T} =1| \tilde{Z}) < 1-\epsilon }$

そして、 $\psi^{rea}$ を次のように定義すると $\psi^{wri}$ は一致することになる。

$\displaystyle{ \psi^{rea} = E_W \left[ E [Y | \tilde{T} = 1, \tilde{Z}=f(W)] − E [Y | \tilde{T} = 0, \tilde{Z}=f(W)] \right] }$

代理処置変数について

多くの場合で書き手が考える言語特性（ $T$ と $Z$ ）や読み手が知覚する言語特性（ $\tilde{T}$ と $\tilde{Z}$ の情報）を観測することはない。

これらを扱うために分類器や辞書を用いてテキストからこの特性の値を推定し、プロキシラベル $\hat T$ (代理処理変数)を生成する。

この場合に未観測となる処理変数 $\tilde{T}$ を $\hat T$ に置換したATEの推定量 $\psi^{proxy}$ を導入。

$\displaystyle{ \psi^{proxy} = E_W \left[ E [Y | \hat T = 1, \tilde{Z}] − E [Y | \hat T = 0, \tilde{Z}] \right] }$

$\epsilon_0 = Pr( \tilde{T} = 0 | \hat T = 1,Z~)$ と $\epsilon_1= Pr( \tilde{T} = 1 | \hat T = 0,Z~)$ とすると $\psi^{rea}$ と $\psi^{proxy}$ の関係は次のようになる。

$\displaystyle{ \psi^{proxy} = \psi^{rea} - E_W \left[ E [Y | \hat T = 1, \tilde{Z}=f(W)] − E [Y | \hat T = 0, \tilde{Z}=f(W) ] (\epsilon_0 + \epsilon_1) \right] }$

この関係からは次のようなことがわかる

$\hat T$ によるバイアスは良性である。それは効果の大きさを減少させるだけで、増加させる方向にはならない
可能なかぎり正確な $\hat T$ を生成することが求められる

TEXT CAUSEについて

要点は二点

$\hat T$ の生成(推定)の精度を向上させるためのアプローチの検討
改良した $\tilde{T}$ 、 $W$ 、 $Y$ を用いて、テキスト中の交絡因子 $\tilde{Z}$ を抽出して調整するモデルの学習

レビューの対象となる製品や苦情の種類などの交絡特性は共変量 $C$ として、モデルに加えて検討する。

第一段階

プロキシラベルを作成するためにdistant supervision*1 *2を用いる。

(言語研究系の)先行研究*3 *4をベースにプロキシラベルの正確性を向上させるために、プロキシラベル $\hat T$ を予測する分類器 $P_{\theta}$ を学習し、その分類器を用いて $\tilde{T}=0$ とラベル付けされたが $\tilde{T}=1$ に推定されたサンプルに対し再ラベル付けする。

流れ

$P_{\theta} (\hat T| W)$ を予測する分類器を学習する。例えばBoWと $\hat T$ で学習したロジスティック回帰など
$\hat T=0$ のサンプルにラベルを付け直す

$\displaystyle{ \begin{eqnarray} \hat T^*_i \sim \left\{ \begin{array}{l} 1 & (if \hat T_i =1)\\ \mathbb{1}[P_{\theta} (\hat T_i = 1|W_i)>0.5] & otherwise \end{array} \right. \end{eqnarray} }$

$\hat T^*$ を新しい代理処置変数(プロキシラベル)にする

第二段階

テキストW、代理ラベル $\hat T^*$ 、結果Yを用いて $\tilde{Z}$ を推定する。

はじめにテキスト中の交絡情報 $\tilde{Z}=f(W)$ を、結果変数 $E[Y$ ]を予測する学習表現*5で $\boldsymbol{b}(W)$ を近似する。

この学習にはBEATを用いて、 $\boldsymbol{b} (W)$ のベクトルは768次元としている。

期待される条件付きの結果変数とその推定量は次のようになる

$\displaystyle{ Q(t,\boldsymbol{b}(W),C) = E[Y|\hat T^* = t, \boldsymbol{b}(W),C ] }$

$\displaystyle{ \hat Q(t, \boldsymbol{b}(W),C) = \sigma (\boldsymbol{M}_t^b \boldsymbol{b}(W) + \boldsymbol{M}_t^c C +b) }$

$\hat Q(・)$ を一度推定し、 $\psi^{proxy}$ の推定値を推定するためにパラメータ $\theta$ を持つモデルとして以下の最小化問題を解く。

$\displaystyle{ min_{\theta}\sum_{i=1}^n L(Y_i, \hat Q_{\theta}(\hat T^*_i, \boldsymbol{b}(W_i),C_i) + \alpha R(W_i)) }$

$L(・)$ ：クロスエントロピー
$R(・)$ ：BERTの目的関数
$\alpha$ ：調整のためのハイパーパラメータ

f:id:saltcooky:20210505144711p:plain:w600

実験

Amazonのレビューをもとに結果変数をシミュレートし、半合成データセットを取得して推定精度を評価。また、実際の金融庁に対するクレームが対応時間に与える影響を推定している。

実験1. Amazonのレビュー

Amazonのレビューデータをもとに半合成データセットを作成し、製品に対するポジティブなレビューはどれくらい売上に影響するのか？を検証する

データセット

テキスト $W$ ：
- デジタル音楽製品のAmazonレビューの公開されたコーパス
- CD、レコード、デジタル販売のレビューのみを対象
- 100ドル以上の商品のレビューや、5語未満のレビューは除外
共変量 $C$ ：
- 関連するレビューがCDであるかどうかのバイナリ指標
処置変数 $T, \tilde{T}$ :
- レビュースコアがポジティブかどうか
- スコアが5 か 1,2で判断、3,4は削除
- $T$ と $\tilde{T}$ が一致ことを意識している
処置変数 $\hat T$ :
- 推定精度を93%にするようにノイズを加えて生成
結果変数 $Y$ :
- 以下の式に従い生成する
- $\pi(C) = P(T = 1|C)$ ：データから算出される傾向スコア

$\displaystyle{ Y \sim Bernoulli(\sigma(\beta_c(\pi(C) −\beta_o) + \beta_t \tilde{T} + N(0, \gamma))) }$

設定

表現学習にはDistilBERT*6を利用

$\boldsymbol{M}^b_t$ および $\boldsymbol{M}^c_t$ ベクトルのための3080個のパラメータを追加
頑健性を高めるために100個の異なるランダムシードでモデル推定

検討モデル

ベースライン： $\psi^{naive} = \hat E [Y | \hat T = 1$ ] − $\hat E [Y | \hat T = 0$ ]
共変量Cなどで調整したNaiveモデル：
- proxy-lex：辞書情報で作成したプロキシラベルを利用
- proxy-noised：93%精度のノイズのあるプロキシラベルを利用
T-boost：プロキシラベルを調整したモデル(第一段階)
W-Adjust：言語特徴量を調整したモデル(第二段階)
TEXTCAUSE(T-boost + W-Adjust)

結果

結果としてTEXT CAUSEが最もoracleと差がない状態になった。

各列に対応するデータ生成のパラメータは表の下部を参照。

f:id:saltcooky:20210501010016p:plain

また、最も悪い結果は次にようになった。

f:id:saltcooky:20210501010050p:plain:w450

oracleのATEは負値であったが、TEXTCAUSEは最も負に近い値を推定している。

感度分析

生成するデータを恣意的にサンプリングし、 $\hat T$ を推定する精度が下がった状態を生み出した。

この時の推定されるATEがどのようになるかを確認した。

f:id:saltcooky:20210501010156p:plain:w450

$\hat T$ の推定精度が90％以下の場合、proxy-lexとT-boostの方がTEXTCAUSEよりも高品質の推定を行うことができる
$\hat T$ の推定精度が80％以下になると、どの手法でも真のATEを推定は難しい

実験2. 金融庁のクレーム

消費者金融保護局（CFPB）に寄せられた苦情における苦情の丁寧さの認識が、その苦情に対応するまでの時間にどのように影響するか？を検証

データセット

結果変量 $Y$ ：15日未満で処理されるかどうか
共変量 $C$ ：苦情の対象となった商品と会社（住宅ローンか銀行口座か）
- 他の潜在的な交絡効果を減らすために $Y = 1$ の苦情を最も類似した $Y = 0$ の苦情と対にして、他の交絡効果を減少させる
- TF-IDFベクトルのコサイン類似度に基づいて、各 $Y = 1$ の苦情を最も類似した $Y = 0$ の苦情を対にし合計8,000件のセットを作成
処置変数T：文章の丁寧さ
- 社会科学系で利用される丁寧さの検出パッケージを使用する*7
- 丁寧さスコア分布の上位と下位の25%のサンプルを $\hat T = 1$ と $\hat T = 0$ としてそれ以外を全て捨てる(最終的に4000件のデータ)