Generative AI

GPT-1

GPT는 transformer의 decoder으로만 구성

▶ 원래 transformer의 encoder에서 넘어온 정보를 받아들이는 decoder의 multi-head attention 블록이 필요 없음

GPT-1 Pre-training (Text-Prediction)

• Byte pair encoding (BPE)

: 문장 혹은 단어 안에 있는 글자들을 적절한 단위로 나누는 subword tokenizer의 하나

: token들의 빈도를 기반으로 높은 빈도의 토큰들을 merge해가며 최종 token들을 만들어내는 방법

GPT-1 Fine-Tuning

• Fine-Tuning 단계에서 Text-Prediction을 목적 함수를 보조로 사용

• Text Prediction(보조) + Task 목적 함수(사용자가 수행하고자 하는 함수)

• Inference 단계에서는 Task Objective 함수만 사용

GPT-2

• GPT-2 개발의 가장 큰 목적은 Fine-Tuning 없이 Pre-Training 만을 통해 In-Context Learning으로 Task를 진행할 수 있는 General Language Model을 개발하는 것

GPT-1과 GPT-2 구조 차이

• Layer Normalization 위치가 변경되었으며, 더 큰 대용량 데이터를 사용해서 만듦

• Web scraping dataset으로 다양한 도메인을 이용한 데이터를 사용

• Vocab Size가 5만대로 늘었고, Context Size 도 512에서 1024로 증가

GPT-2 한계

• In-Context Learning (Zero-shot, Few-shot learning)에 대해서는 Under-fit, 즉 좋지 않은 성능을 보임

• 특정 Task를 잘 수행하려면 여전히 Task-Specific Datasets, Fine-Tuning 필요

GPT-3

• Fine-Tuning 없이도 좋은 성능을 낼 수 있도록 함

• 파라미터의 크기를 확장 : 모델 사이즈가 커지거나 학습 데이터가 충분하면 학습한 데이터 간의 상관관계를 파악하는데 엄청난 영향을 미칠 수 있음

• 크롤링한 데이터의 경우 45TB에서 정제하여 570GB로 줄여 학습을 진행

• 모든 토큰은 BPE 토큰을 기준

• 기존 GPT 모델들과의 파라미터 차이

: GPT-1 : 1억개 파라미터 / GPT-2 : 14억개 파라미터 / GPT-3 : 1750억 파라미터

GPT-3 구조

• GPT2와 아키텍처와 거의 비슷하며, Sparse Attention 을 사용

: Attention 행렬을 희소화(Sparsify)하여 계산을 줄이고 장거리 정보를 회상할 가능성을 보존

: 어떤 Task들은 근처에 있는 토큰들만 중요한 것이 아니라 먼 곳의 토큰들에 대한 관계도 포착 해야할 때가 있음

GPT-3 한계

• 지시의 정확한 이해 부족: 사용자의 지시에 맞는 응답을 잘 생성하지 못하는 문제

• 응답의 일관성 및 정확성 부족: 일관되지 않거나 부정확한 정보를 제공하는 문제

• 안전성 및 윤리적 문제: 부적절하거나 편향된 응답 생성 문제

• 특정 작업에 대한 성능 저하: 특정 작업에서의 미흡한 성능

• 지속적인 개선 어려움: 사용자 피드백을 학습에 반영하여 성능을 지속적으로 개선하는 한계

합성 데이터 (Synthetic Data) (0)	2024.11.30
Retrieval Augmented Generation(RAG) (3)	2024.10.31
BERT (0)	2024.10.31
Neuro-Symbolic AI (0)	2024.07.31
Prompt Engineering와 Prompt Tuning (1)	2024.07.31

es25n.n 인문공학 기록