본문 바로가기
테크공부/자연어처리

Generative AI

by es25n.n 2024. 10. 31.

 

GPT-1

 

GPTtransformerdecoder으로만 구성

▶ 원래 transformerencoder에서 넘어온 정보를 받아들이는 decodermulti-head attention 블록이 필요 없음

 

GPT-1 Pre-training (Text-Prediction)

Byte pair encoding (BPE)

: 문장 혹은 단어 안에 있는 글자들을 적절한 단위로 나누는 subword tokenizer의 하나

: token들의 빈도를 기반으로 높은 빈도의 토큰들을 merge해가며 최종 token들을 만들어내는 방법

 

 

GPT-1 Fine-Tuning

Fine-Tuning 단계에서 Text-Prediction을 목적 함수를 보조로 사용

Text Prediction(보조) + Task 목적 함수(사용자가 수행하고자 하는 함수)

Inference 단계에서는 Task Objective 함수만 사용

 

 

 

 

GPT-2

 

GPT-2 개발의 가장 큰 목적은 Fine-Tuning 없이 Pre-Training 만을 통해 In-Context Learning으로 Task를 진행할 수 있는 General Language Model을 개발하는 것

 

 

GPT-1GPT-2 구조 차이

Layer Normalization 위치가 변경되었으며, 더 큰 대용량 데이터를 사용해서 만듦

Web scraping dataset으로 다양한 도메인을 이용한 데이터를 사용

Vocab Size5만대로 늘었고, Context Size 512에서 1024로 증가

 

GPT-2 한계

In-Context Learning (Zero-shot, Few-shot learning)에 대해서는 Under-fit, 즉 좋지 않은 성능을 보임

특정 Task를 잘 수행하려면 여전히 Task-Specific Datasets, Fine-Tuning 필요

 

 

 

 

GPT-3

Fine-Tuning 없이도 좋은 성능을 낼 수 있도록 함

파라미터의 크기를 확장 : 모델 사이즈가 커지거나 학습 데이터가 충분하면 학습한 데이터 간의 상관관계를 파악하는데 엄청난 영향을 미칠 수 있음

크롤링한 데이터의 경우 45TB에서 정제하여 570GB로 줄여 학습을 진행

모든 토큰은 BPE 토큰을 기준

기존 GPT 모델들과의 파라미터 차이

: GPT-1 : 1억개 파라미터 / GPT-2 : 14억개 파라미터 /  GPT-3 : 1750억 파라미터

 

 

GPT-3 구조

GPT2와 아키텍처와 거의 비슷하며, Sparse Attention 을 사용

: Attention 행렬을 희소화(Sparsify)하여 계산을 줄이고 장거리 정보를 회상할 가능성을 보존

: 어떤 Task들은 근처에 있는 토큰들만 중요한 것이 아니라 먼 곳의 토큰들에 대한 관계도 포착 해야할 때가 있음

 

GPT-3 한계

지시의 정확한 이해 부족: 사용자의 지시에 맞는 응답을 잘 생성하지 못하는 문제

응답의 일관성 및 정확성 부족: 일관되지 않거나 부정확한 정보를 제공하는 문제

안전성 및 윤리적 문제: 부적절하거나 편향된 응답 생성 문제

특정 작업에 대한 성능 저하: 특정 작업에서의 미흡한 성능

지속적인 개선 어려움: 사용자 피드백을 학습에 반영하여 성능을 지속적으로 개선하는 한계

'테크공부 > 자연어처리' 카테고리의 다른 글

합성 데이터 (Synthetic Data)  (0) 2024.11.30
Retrieval Augmented Generation(RAG)  (3) 2024.10.31
BERT  (0) 2024.10.31
Neuro-Symbolic AI  (0) 2024.07.31
Prompt Engineering와 Prompt Tuning  (1) 2024.07.31