GPT-1
GPT는 transformer의 decoder으로만 구성
▶ 원래 transformer의 encoder에서 넘어온 정보를 받아들이는 decoder의 multi-head attention 블록이 필요 없음
GPT-1 Pre-training (Text-Prediction)
• Byte pair encoding (BPE)
: 문장 혹은 단어 안에 있는 글자들을 적절한 단위로 나누는 subword tokenizer의 하나
: token들의 빈도를 기반으로 높은 빈도의 토큰들을 merge해가며 최종 token들을 만들어내는 방법
GPT-1 Fine-Tuning
• Fine-Tuning 단계에서 Text-Prediction을 목적 함수를 보조로 사용
• Text Prediction(보조) + Task 목적 함수(사용자가 수행하고자 하는 함수)
• Inference 단계에서는 Task Objective 함수만 사용
GPT-2
• GPT-2 개발의 가장 큰 목적은 Fine-Tuning 없이 Pre-Training 만을 통해 In-Context Learning으로 Task를 진행할 수 있는 General Language Model을 개발하는 것
GPT-1과 GPT-2 구조 차이
• Layer Normalization 위치가 변경되었으며, 더 큰 대용량 데이터를 사용해서 만듦
• Web scraping dataset으로 다양한 도메인을 이용한 데이터를 사용
• Vocab Size가 5만대로 늘었고, Context Size 도 512에서 1024로 증가
GPT-2 한계
• In-Context Learning (Zero-shot, Few-shot learning)에 대해서는 Under-fit, 즉 좋지 않은 성능을 보임
• 특정 Task를 잘 수행하려면 여전히 Task-Specific Datasets, Fine-Tuning 필요
GPT-3
• Fine-Tuning 없이도 좋은 성능을 낼 수 있도록 함
• 파라미터의 크기를 확장 : 모델 사이즈가 커지거나 학습 데이터가 충분하면 학습한 데이터 간의 상관관계를 파악하는데 엄청난 영향을 미칠 수 있음
• 크롤링한 데이터의 경우 45TB에서 정제하여 570GB로 줄여 학습을 진행
• 모든 토큰은 BPE 토큰을 기준
• 기존 GPT 모델들과의 파라미터 차이
: GPT-1 : 1억개 파라미터 / GPT-2 : 14억개 파라미터 / GPT-3 : 1750억 파라미터
GPT-3 구조
• GPT2와 아키텍처와 거의 비슷하며, Sparse Attention 을 사용
: Attention 행렬을 희소화(Sparsify)하여 계산을 줄이고 장거리 정보를 회상할 가능성을 보존
: 어떤 Task들은 근처에 있는 토큰들만 중요한 것이 아니라 먼 곳의 토큰들에 대한 관계도 포착 해야할 때가 있음
GPT-3 한계
• 지시의 정확한 이해 부족: 사용자의 지시에 맞는 응답을 잘 생성하지 못하는 문제
• 응답의 일관성 및 정확성 부족: 일관되지 않거나 부정확한 정보를 제공하는 문제
• 안전성 및 윤리적 문제: 부적절하거나 편향된 응답 생성 문제
• 특정 작업에 대한 성능 저하: 특정 작업에서의 미흡한 성능
• 지속적인 개선 어려움: 사용자 피드백을 학습에 반영하여 성능을 지속적으로 개선하는 한계
'테크공부 > 자연어처리' 카테고리의 다른 글
합성 데이터 (Synthetic Data) (0) | 2024.11.30 |
---|---|
Retrieval Augmented Generation(RAG) (3) | 2024.10.31 |
BERT (0) | 2024.10.31 |
Neuro-Symbolic AI (0) | 2024.07.31 |
Prompt Engineering와 Prompt Tuning (1) | 2024.07.31 |