[LLM] Seq2Seq와 Causal LM의 차이

게시 2024/08/03 업데이트 2024/08/03

By HyangGon Jin

1 분읽는 시간

허깅페이스에는 AutoModelForCausalLM, AutoModelForMaskedLM, AutoModelForSeq2SeqLM 등의 다양한 모델 관련 Autmo 클래스가 있습니다. 각 클래스는 세부적인 method나 attribute가 다르고, LLM을 통해 풀려는 task의 종류에 따라 적절한 클래스를 사용해야 합니다. 이와 관련된 주요한 개념을 알아보겠습니다.

설명

Transformer의 구조는 인코더와 디코더로 이루어져 있습니다. 인코더 구조는 BERT 모델이 대표적이며 NLU task에 많이 쓰이고, 디코더 구조는 GPT 모델이 대표적이며 NLG task에 많이 사용됩니다.

이러한 관점에서 CLM(; Causal Language Model), MLM(; Masked Language Model), Seq2SeqLM(; Seq-to-Seq Language Model)을 구분하면 다음과 같습니다.

CLM - decoder 구조.
MLM - encoder 구조.
Seq2Seq - encoder & decoder 구조.

참고자료

DA, LLM

da llm

[LLM] Seq2Seq와 Causal LM의 차이

설명

참고자료

관련된 글

[LLM] 데이터 불러오기 - load_dataset

[Error] ImportError: cannot import name 'packaging' from 'pkg_resources' when starting

[LLM] max_length와 max_new_tokens 차이