2020/09/14

2020. 9. 20. 09:34NewsLetter

최근 소식


[S1] Transformer based Multilingual document Embedding model

논문 원문: https://arxiv.org/abs/2008.08567

한줄평: Multilingual document embedding에서도 transformer가 잘합니다

  • Document embedding은 문서의 의미를 잘 반영하여 문서를 embedding vector로 변환하는 task를 의미합니다.
  • 단일 언어 document embedding은 이미 많은 연구가 되어 왔습니다.
  • 언어에 독립적으로 문서의 의미를 고려하여 문서를 embedding할 수 있다면 언어를 초월하여 문서를 비교하거나 정보를 공유할 수 있게됩니다.
  • 기존에 LASER라는 multilingual document embedding 모델이 제시되었지만 BiLSTM 기반의 구조를 사용하여 여러가지 단점이 존재했습니다.
  • 이 논문에서는 기존의 LASER 모델에서 BiLSTM을 transformer로 대체한 multilingual document embedding 모델인 T-LASER를 제시하여 transformer의 장점을 살리면서도 기존의 LASER의 성능을 뛰어넘었습니다.
  • 추가적으로 loss를 개선하여 multilingual document embedding에서 좋은 성능을 보였을 뿐더러 기존 NMT 모델이 좋은 성능이 보여주지 못한 bilingual setting에서도 좋은 성능을 낼 수 있었습니다.
  • T-LASER는 encoder에서 source language의 document를 입력 받고 decoder에서는 target language를 복원하는 task로 embedding을 학습하며 encoder의 cls 토큰이 document의 embedding이 되게됩니다.
  • 또한 학습하는 source document와 target document의 embedding 간의 거리는 줄이고 연관되지 않은 다른 document와의 거리는 높이는 constraint loss를 제안하고 학습을 하였습니다.
  • Europarl v7 corpus로 모델들을 학습하고 비교한 결과 제안한 T-LASER가 기존의 LASER보다 더 성능이 좋았으며, constraint loss를 추가하여 학습한 모델이 그렇지 못한 모델보다 훨씬 좋은 성능을 보였습니다.

[S2] Language Models as Knowledge Bases: On Entity Representations, Storage Capacity, and Paraphrased Queries

논문 원문: https://arxiv.org/abs/2008.09036

한줄평: language model들이 말을 잘 이해하는 건 사실 모조리 외워서 그런게 아닐까?

  • 너무나도 유명한 BERT 모델은 masked LM으로 학습이 진행되기 때문에 우리가 원하는 정보에 mask를 씌우고 문장을 입력하면 knowledge base로 사용이 가능한지에 대한 의문들이 있어왔습니다.
  • 이렇게 language model을 knowledge base로 사용하기 위해서는 다음 두가지가 필요합니다. 많은 양의 지식을 저장할 수 있는 능력과 저장된 지식으로 답을 할 수 있는 능력
  • 이 논문에서는 기존에 제시된 language model들이 knowledge base로 사용 가능한지를 평가하였습니다.
  • 세가지 질문을 가지고 language model들을 knowledge base로서의 능력을 비교하였습니다.
    • 어떻게 수많은 entity를 표현할 것인가?
    • 얼마나 많은 지식을 저장할 수 있는가?
    • 지식을 저장함에 있어서 얼마나 안정적인가?
  • 각 질문에 transformer의 변형인 BERT 계열의 language model들과 lstm 계열의 language model 등을 pretrain하고 Wikidata등의 knowledge 데이터셋으로 finetuning하고 성능을 비교했습니다.
  • 각 질문들에 맞는 task들로 성능을 비교하고 분석한 결과 language model들이 knowledge base로서의 능력은 어느 정도 입증되었으나, 기존의 structured knowledge base 모델들처럼 구조적으로 학습이 진행한 것이 아니기 때문에 language model들로는 답하기 힘든 복잡한 질문에 답이 가능하다는 점이 부족했습니다.

[S3] Learning Trailer Moments in Full-Length Movies with Co-Contrastive Attention

논문 원문: https://arxiv.org/abs/2008.08502v1

한줄평: 이것은 비디오 계의 문서 요약

  • 영화의 trailer는 영화 전문가들이 흥행을 위해 영화 전체 중에서 중요한 부분으로 구성한 짧은 영상을 의미합니다.
  • 이번 논문을 통해서는 영화 전체에서 이러한 trailer를 찾아내는 Movie Trailer Moment Detection(MTMD) task를 위한 모델에 대해서 소개하고 있습니다.
  • 기존에는 비디오에서 하이라이트 부분을 추출하는 Video Highlight Detection(VHD)라는 task가 존재했는데 이 task는 MTMD와 다음 두가지 측면에서 차이가 존재합니다.
    • 첫번째로는 MTMD에는 중요한 장면에 대한 라벨 정보가 존재하지 않습니다.
    • 두번쨰로는 VHD는 장면 간의 관계를 고려한 추출이 이뤄지지 않습니다.
  • 이번 논문에서 제안한 Co-Contrastive Attention Network(CCANet)는 별도의 라벨이 필요 없이 장면 간의 관계를 고려하여 영화 전체에서 중요한 정면을 뽑아내는 모델입니다.
  • 대부분의 영화 trailer는 전체 영화 장면에서 6% 밖에 없기 때문에 매우 적은 true positive의 데이터이고 MTMD는 전체 장면에서 중요한 key 장면에 대한 사람의 별도 annotation 없이 전체 장면과 key 장면만 존재합니다.
  • CCANet에서 별도의 라벨 없이 장면 간의 관계를 파악하기 위해서 trailer를 이루는 key 장면과 입력된 장면과 점수를 매겨 전체 장면 중에 key 장면을 찾아내는 co-attention 모듈이 존재합니다.
  • CCANet의 loss는 입력된 장면과 key 장면의 점수는 높이면서 key가 아닌 장면의 점수를 낮추는 rank loss와 key 장면과 key가 아닌 장면의 관계 차이를 높이기 위해 도입된 regularized된 loss를 더한 값을 loss로 학습됩니다.
  • 이 논문에서는 MTMD를 위한 데이터셋을 구축하였으며 이 데이터셋에 대해 전체 장면에서 key 장면을 뽑는 task로 학습한 결과 제시된 CCANet이 월등한 성능을 보여주었으며 기존의 VHD에 대해서도 VHD의 모델보다 더 뛰어난 성능을 보여주었습니다.

[L1] Lagging Inference Networks and Posterior Collapse in Variational Autoencoders

논문 원문: https://arxiv.org/pdf/1901.05534.pdf (ICLR-20)

한줄평: Inference Network를 더 많이 학습시키면, posterior collapse를 해결할 수 있다!

Motivation

VAE! 2013년에 Arxiv 된 논문으로 (ICLR-14에 publish 되기도 하였습니다), Generative Model의 대표주자로 활동하고 있습니다. 그만큼, VAE 기반의 연구들이 많이 진행되기도 하였는데요. 그럼에도 불구하고, original VAE가 가진 문제들은 아직 해결되지 않았고, 이를 해결하기 위해서 많은 연구들이 오늘도 쏟아지고 있습니다. 오늘 소개 드릴 논문은, VAE가 가진 유명한 문제인, posterior collapse를 해결하고자 한 연구입니다. posterior collapse란, approximate posterior가 prior를 그대로 "mimic"하며, model은 latent variable을 무시한 상태에서 학습이 진행되는것을 의미합니다. (조금 어렵게 느껴지신다구요? 많이 간략화해서 말씀드리자면, x→z→x로 이어지는 VAE 형태에서, latent variable z가 x에 관한 정보를 잘 담지 못하는걸 의미합니다!) 그리고 이러한 현상은 discrete data를 다룰 때, 더 두드러진다는것이 실험적으로 알려져 있습니다. 대체 이런 현상은 왜 발생하는걸까요? 그리고 어떻게 해결할 수 있을까요?

Preliminary

사실 posterior collapse는 매우 예전부터 알려진 유명한 문제입니다. 하지만, 아직도 해결이 안된 문제이기도 합니다... (누가 해결할 아이디어좀!!!) 여기서는, 약간은 더 수학적으로 문제를 정의해보도록 하겠습니다.

VAE의 목적식인 evidence variational lower bound (ELBO)는 아래와 같습니다.

L(x;θ,ϕ)=Ezqϕ(zx)[logpθ(xz)]DKL(qϕ(zx)p(z))L(x;\theta,\phi)=E_{z\sim q_\phi(z|x)}[\log p_{\theta}(x|z)]-D_{KL}(q_\phi(z|x)||p(z))

여기서, xx는 observed variable, zz는 latent variable을, 그리고 qϕ(zx)q_{\phi}(z|x)는 inference network로, ϕ\phi로 parameterized 된 neural network, pθ(xz)p_{\theta}(x|z)는 generator network를 의미합니다. 추가적으로, p(z)p(z)는 prior로, 보통 N(0,I)\mathcal{N}(0,I)를 사용합니다.

여기서 posterior collapse란, 모든 xx에 대해서, VAE가 다음과 같은 local optimum에 빠지는것을 의미합니다. 우리는 zzxx와 관련된 유의미한 정보들이 담기길 기대하지만, 실제로는 그렇지 않을 수 있다는 것이죠...

qϕ(zx)=pθ(zx)=p(z)q_{\phi}(z|x)=p_{\theta}(z|x)=p(z)

본 저자는 더 나아가서, 아래의 collapse를 model collapse로,

pθ(zx)=p(z)p_{\theta}(z|x)=p(z)

아래의 collapse를 inference collapse로 정의합니다.

qϕ(zx)=p(z)q_{\phi}(z|x)=p(z)

왜 이렇게 굳이 나눠서 접근을 하는지, 의문을 가지실 수 있습니다. 그건 바로.. 그 다음 장에서, 바로 설명하도록 하겠습니다!

Methods

이 논문의 메인으로 넘어가기전에! 한가지 더 remind 할 내용은 아래와 같습니다. 위에서 ELBO를 정의했는데, ELBO를 다르게 표현하면 아래와 같습니다.

L(x;θ,ϕ)=logpθ(x)DKL(qϕ(zx)pθ(zx))L(x;\theta,\phi)=\log p_{\theta}(x)-D_{KL}(q_\phi(z|x)||p_\theta(z|x))

즉, ELBO를 maximize 한다는 것은, approximated posterior와 model posterior의 KL divergence를 minimize하는것과 동일한 것이죠!

자 그럼 이 논문의 메인으로 넘어가겠습니다!

위 그림이 이 논문의 핵심! 입니다. posterior mean space를 training iteration에 따라서, visualize 한 것입니다. μx,ϕ\mu_{x,\phi}는 approximated posterior 의 mean을, μx,θ\mu_{x,\theta}는 model posterior의 mean을 의미합니다. 여기서, 첫번째 row의 Basic이 기본적인 VAE를 의미합니다. (참고로, 아래 row의 Aggressive는 본 논문에서 제안하는 aggresive inference 방법론을 사용했을 때의 그림입니다.) 위 그림에서 확인할 수 있는 점은, model posterior의 mean은 학습되어 나가고 있지만, approximate posterior는, 계속해서 0에 머물러 있는것을 확인할 수 있습니다.

위에서, ELBO를 maximize 하는 것은, approximate posterior와 model posterior의 KL divergence를 minimize하는것이라고 했는데 (즉, 이상적으로는 대각선 line으로 approximate posterior와 model posterior가 위치해 있어야 하는 것이죠!), 위 그림에서는 approximate posterior가 model posterior를 못따라가고 있는것을 확인할 수 있습니다.

즉!!! 이 논문에서는 posterior collapse의 원인으로, approximate posterior가 model posterior를 못따라간다. 즉, approximate posterior는 inference collapse 상태에 여전히 머물러 있는 것입니다. 정말 재미있는 발견이죠?!

지금 posterior collapse가 발생하는 이유는 approximate posterior 학습과 model posterior학습의 imbalance가 발생하는 것이기 때문이라고 주장합니다. 해당 발견을 기반으로, 저자는 aggressive inference 방법론을 제안합니다. 쉽게 말해서, inference network를 더 많이 학습시키자 입니다. approximate posterior가 model posterior를 어느정도 따라갈때까지, inference network를 여러번 학습 시키는 것입니다. 언제까지 inference network를 학습시키냐구요? 그건 바로 zzxx 사이의 Mutual Information (MI)가 기준이 됩니다.

Iq=Exp(x)[DKL(qϕ(zx)p(z))]DKL(qϕ(z)p(z))I_{q}=E_{x\sim p(x)}[D_{KL}(q_{\phi}(z|x)||p(z))]-D_{KL}(q_\phi(z)||p(z))

MI가 특정값으로 수렴하여 더 이상 변하지 않을때까지, inference network를 추가적으로 학습시켜줍니다.

Results

실험은 이미지와 텍스트 모두에 대해서 진행하였습니다. Text에서는 Yahoo와 Yelp 데이터를 기반으로 실험을 진행하였고, 이미지에서는 OMNIGLOT을 활용하였습니다. 본 뉴스에서는 LSTM반의 encoder와 decoder를 사용하여 진행한, 텍스트 실험 결과만을 소개드리도록 하겠습니다.

Modified VAE-Objective는 기존 VAE의 목적식인 ELBO를 변형한 방법론을 의미합니다. 기존의 ELBO를 기반으로 실험을 진행한 부분만 살펴보도록 하겠습니다.

Yahoo데이터에서, Negative Log-likelihood를 의미하는 NLL에서는 LSTM이 가장 좋은 성능을 보였지만, VAE 계열에서는 본 연구에서 제시하는 방법론이 가장 좋은 성능을 보였습니다. NLL에서는 기존의 VAE 또는 SA-VAE와 별로 차이가 나지 않아보일 수 있지만, KL과 MI (Mutual Information), AU (Active Units)에서는 큰 차이가 나는 것을 확인할 수 있습니다. 즉, posterior collapse가 어느정도 완화된 것을 알 수 있습니다. (여기서 KL은 KL(qϕ(zx)p(z))KL(q_{\phi}(z|x)||p(z))를, MI는 위에서 정의한 MI를 의미하며, Active Units은 xx에 따라서 zz가 얼마나 달라지는지를 의미합니다. (covariance))

Conclusion

사실 방법론 자체는 매우 간단합니다 (그래서 더욱 매력적이죠!). 하지만, 해당 방법론이 나오게 된 배경과 발견이 매우매우 novel한 논문이라고 개인적으로 생각합니다. posterior collapse를 inference collapse와 model collapse로 나눴다는 점. 그리고 그를 기반으로, 두개 중 무엇의 collapse가 먼저 문제가 되는 것인지 발견하였다는 점. 그리고, 그를 해결하기 위한, 매우 간단하지만 효과적인 방법론을 제시했다는 점. 정말, 재미있는 논문이었습니다 ㅎㅎ

'NewsLetter' 카테고리의 다른 글

2020/09/28  (0) 2020.09.27
2020/09/21  (0) 2020.09.20
2020/08/24  (1) 2020.09.20
2020/08/17  (0) 2020.09.20
2020/08/10  (0) 2020.09.20