본문 바로가기

자연어처리4

합성 데이터 (Synthetic Data) 합성 데이터(Synthetic data):합성데이터는 실제 데이터를 기반으로 하거나, 완전히 새로운 데이터셋을 생성하기 위해 알고리즘을 사용하여 만들어진 인공 데이터   # 합성 데이터(Synthetic data) 장점 - 데이터 프라이버시 보호: 민감한 정보를 포함하는 데이터 대신 합성 데이터를 사용하여 개인정보를 보호- 데이터 부족 문제 해결: 실제 데이터가 부족할 때, 합성 데이터를 통해 데이터셋을 보충할 수 있음  #합성 데이터(Synthetic data) 필요성-학습데이터 고갈: 현재 인터넷상에 존재하는 데이터만으로는 2년 내 AI 모델 성능을 높이는 데 한계를 맞을 것-반면 데이터 수집은 점점 어려워지고 있음: 저작권 문제, 고품질 데이터는 주제가 다양하고 풍부한 표현이 들어간 데이터로 인터넷.. 2024. 11. 30.
모두를 위한 딥러닝 : Recurrent Neural Network [목차]시퀀셜 모델링의 이해RNN 계열 구조 이해 1. 시퀀셜 모델링의 이해 👀  RNN (Recurrent Neural Network) 신경망, 순환신경망•  순차적으로 진행함에 따라 이전 시점에서 계산한 데이터 값까지를 모두 반영하여 데이터 값을 결정하는 방식• RNN 구조는 input / output에 따라 다양한 영역에 적용가능   👀 Sequential modeling :• 문장과 같이 순차적 데이터를 처리하는 모델•  시간이나 순서에 따른 패턴을 학습하는 데 특히 유용 • Sequential Data = 순서가 있는 데이터 (예시: 텍스트, 시계열 데이터, 음성 데이터 등)   2. RNN 계열 구조 이해  ✨일 대 다(one-to-many) 구조• 하나의 이미지 입력에 대해서 사진의 제목.. 2024. 4. 18.
모두를 위한 딥러닝 : 임베딩의 이해 [목차] 임베딩이란? 사전학습 임베딩 모델 다양한 임베딩 모델 1. 임베딩이란? 👀 Word Embedding • 단어를 의미적으로 표현하는 방법 • 자연어 처리에서 단어를 수치형 벡터로 변환하는 기술 • 각 단어는 벡터 공간에서 고유한 위치를 가지며, 의미적으로 유사한 단어는 벡터 공간에서 가까운 위치에 매핑. 📍 모든 단어는 같은 차원을 가지는 벡터로 변환됨. 변환된 단어를 신경망에 인풋으로 사용하게 됨. 예를 들어, '나'와 'I'라는 단어는 서로 가까이 위치함. '기차'라는 단어는 상대적으로 멀리 위치하게 됨. ▷ 비슷한 의미를 가지고 있으면 벡터가 가까이 위치해 있음, 의미적으로 멀다면 벡터는 의미가 멀다. 👀 자연어처리과정 ① 처음부터 임베딩을 훈련하는 형태 • 학습 과정에서 단어의 의미도 학.. 2024. 4. 17.
모두를 위한 딥러닝 : 딥러닝을 이용한 자연어처리 [목차] 자연어처리의 이해 전처리의 이해 한국어/영어 데이터 전처리 기법 1. 자연어처리의 이해 👀 '자연어처리'란? • 컴퓨터 과학과 인공 지능의 한 분야 • 인간이 사용하는 자연어(일상적인 언어)를 기계가 이해하고 처리하는 기술 • NLP는 컴퓨터가 텍스트, 음성 또는 다른 형태의 자연어를 이해하고 해석하며, 이에 대한 응답을 생성하는 기술을 포함 📍 자연어처리의 응용 분야 1) 기계 번역 (Machine Translation): • 언어 간의 번역을 자동으로 수행하는 기술 • 구글 번역, DeepL, 파파고... 2) 감정 분석 (Sentiment Analysis): • 텍스트에서 감정이나 태도를 감지하는 기술 • 제품 리뷰, 트위터 글 등을 분석하여 사용자의 감정을 이해하는 데 사용 • 최근 추천.. 2024. 4. 14.