[論文調査]グラフ埋め込みと敵対的学習によるドメイン適応

自然言語処理

今日読んだ論文のメモ。敵対的学習やグラフ埋め込みはまだ理解が浅いので、よろしければツッコミください!

論文タイトル

Domain Adaptation with Adversarial Training and Graph Embeddings
Firoj AlamShafiq JotyMuhammad Imran

モチベーションと課題は?

  • 地震など突発的なイベントが起きた時に、災害地支援などより迅速な意思決定を行うために、ツイートの分類をリアルタイムで行いたい。下図で、赤線は災害に関連のあるツイートを、青線は災害対応を示しているが、災害関連ツイートをできるだけ正確に素早く検出したい。

  • ディープニューラルネットワーク(DNN)の分類精度は、大きなラベル付きデータセットが利用可能かに大きく左右されるが、リアルタイムのツイートにはラベルがない。
  • 過去の類似するイベント(例えば洪水などの自然災害)のイベントから、ラベル付きのデータは取得可能。ただし、ドメインが異なるため(過去ー現在)、ソースドメインのデータとターゲットドメインのデータとで分布が異なるドメインシフトの問題がある

技術や手法のキモはどこ?

  • 大量のラベル無しデータと、少量のラベル付きデータから、グラフベースの半教師あり学習を行う
  • 過去ー現在のドメインシフトの問題に対処するため、敵対的学習によるドメイン適応を行う

ーグラフベースの半教師あり学習手法について

  • グラフのノードはインスタンス(ラベル付き・ラベル無しのツイート文)、エッジはn *n の類似度行列、を示す(nはノード数)
  • グラフベースの半教師あり学習として (Yang et al., 2016)らの手法を用いる。このフレームワークでは、「類似性」グラフGが最初にトレーニング事例間の関係を符号化し、次にそれがネットワークによって内部表現(すなわち埋め込み)を学習するために使用される。
ーーグラフ埋め込みの学習
  • 半教師あり学習では、共有表現(Figure1のZ?)を入力とし、入力ツイートのノードを予測する。
  • 2つのタイプのコンテキスト・ノードを使用。1つ目はグラフGに基づくもので、これは構造的な情報を埋め込むため。2つ目はラベル付きデータに基づくもので、ラベルの情報をネットワークに組み込むため。
ーーグラフの構築


一般的なグラフ構築手法は計算コストがかかる( n(n-1)/2 )ため、以下を工夫

  • k近傍法を活用(k=10)
  • 効率的に近傍ノードを見つけるためk-d tree data structureを使用(Bentley, 1975)
  • ツイート間の距離を測るため、word embeddingのユークリッド距離を使用(Computational Efficiencyのため)
ーー敵対的学習部分
  • 教師あり学習・半教師あり学習により、ネットワークは「各ツイートが地震と関連があるか、ないか」の分類タスクが可能。つまり、以下による。
    • 教師あり学習ではソースイベント(つまり、過去の災害イベント)のラベルの情報を用いる。
    • また、半教師あり学習ではラベル付きツイートの意味情報と、ラベル無しツイートの意味情報の類似度を用いる。
  • ただし、ドメインの変化への、不変性が必要。ここで、敵対的学習を用いる。
  • 敵対的学習部分の仕事は、ソースドメインのデータと、ターゲットドメインのデータを区別すること。
  • 敵対的学習は、競争させる要素同士のバランスが難しい。どちらかが強すぎると、トレーニングが収束せず失敗する。
  • ツイートのノイズ性から、ドメインDiscriminatorが弱かったため、学習に最適なバランスを実験から求めた。

どうやって有効だと検証した?

ーデータセット

  • 2015 年のネパール地震時のツイートデータ (NEQ)と、2013年のクイーンランド洪水時のツイートデータ (QFL)を使用
  • NEQ、QFLそれぞれで約10,000件のアノテーションデータ(災害関連あり・無し)を作成

ー先行研究との比較実験結果

  • SupervisedはCNNのみ、Semi-Supervised(Self-training)はCNNで信頼度が0.75以上のUnlabeled Dataも活用したもの、そして3段目のSemi-Supervised(Graph-based)は提案手法。F1-Scoreで4%~13%の向上

ー提案手法における、半教師あり学習の効果


横軸はラベル付きデータの数、Lは正解データセットのみ、L+50kUはラベル付きデータに50kのラベル無しデータを付与して半教師あり学習を行ったもの。

  • ラベル付きデータの数やデータセットの種類によらず、半教師あり学習で大幅に精度改善(5%~26%)
  • 特に、ラベル付きデータ数を100->1000に増やした際に、大幅な精度改善が見られた

ー敵対的学習によるドメイン適応の効果

  • 1.8%~4.1%のF1-Scoreの増加
  • 半教師あり学習と敵対的学習を組み合わせたとき、さらに5%~7%のF1-Scoreの増加

議論はある?

  • ドメイン適応にはターゲットドメインのラベル無しデータを使用している(つまり、災害発生時のラベル付きデータは使用していない)。しかし少量のターゲットドメインにおけるラベル有りデータも活用することでさらに精度向上できるのではないか?

コメント

タイトルとURLをコピーしました