[NLP] Bert모델 개념
시작하며 이번 포스트에서는 2018년에 구글에서 공개한 사전 훈련된 모델인 BERT(Bidirectional Encoder Representations from Transformers)에 대해 자세히 알아보도록 하겠다. Bert는 Transformer의 인코더 구조를 이용해 만든 ...
시작하며 이번 포스트에서는 2018년에 구글에서 공개한 사전 훈련된 모델인 BERT(Bidirectional Encoder Representations from Transformers)에 대해 자세히 알아보도록 하겠다. Bert는 Transformer의 인코더 구조를 이용해 만든 ...
시작하며 이번 포스팅에선 트랜스포머의 인코더의 포지션-와이드 피드 포워드 신경망(Position-wise FFNN), 잔차 연결(Residual connection)과 층 정규화(Layer Normalization)에 대해서 공부한다. 아래 포스팅의 내용을 알고 있다는 가정 하에 ...
시작하며 지금까지 트랜스포머의 기초 개념과 인코의 구조에 대해 자세히 알아보았다. 이번 포스트에서는 트랜스포머의 나머지 구조인 디코더에 대해서 자세히 알아보도록 하자. 기본적으로 트랜스포머의 개념과 인코더의 구조에 대해서 알고 있다는 전제하에 작성되는 글이니, 이것들에 대한 기초 ...
시작하며 이번 포스팅에선 트랜스포머의 인코더 구조와 셀프 어텐션과 멀티 헤드 어텐션에 대해 자세히 알아보도록 한다. 트랜스포머의 전체적인 틀과 어텐션에 대해 알고 있다는 가정하에 작성되는 글이기 때문에, 이에 익숙하지 않다면 아래의 링크에서 먼저 공부를 하고 오는 것을 추천한다. ...
시작하며 이번 포스트에서는 트랜스포머가 등장하게 된 계기와 장점, 그리고 전체적인 큰 틀에 대해서 공부하도록 하겠다. 이 포스트는 기본적으로 어텐션의 개념을 알고 있다는 전제하에 포스팅 되었기 때문에, 어텐션의 기초 개념이 부족하다면 아래의 링크를 통해 어텐션을 공부하고 보는 것을...
어텐션 메커니즘 (Attention Mechanism) 앞서 배운 seq2seq 모델은 인코더에서 입력 시퀀스를 컨텍스트 벡터라는 하나의 고정된 크기의 벡터 표현으로 압축하고, 디코더는 이 컨텍스트 벡터를 통해서 출력 시퀀스를 만들어냈다.
문자 레벨 기계 번역기(Character-Level Neural Machine Translation) 구현하기
시퀀스-투-시퀀스(Sequence-to-Sequence) seq2seq는 번역기에서 대표적으로 사용되는 모델이다.
서브워드 토크나이저 기계에게 아무리 많은 단어를 학습시켜도, 세상의 모든 단어를 알려줄 수는 없다. 만약, 기계가 모르는 단어가 등장하면 그 단어를 집합에 없는 단어란 의미에서 OOV(Out-Of-Vocabulary)라고 표현한다. 기계가 문제를 풀 때, 모르는 단어가 등장하면 문...