일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 짝지어제거하기
- NLP
- 백준
- 디미터법칙
- cs231n
- 백준 1916 자바
- 1916
- dijkstra
- 관심사분리
- 1261
- 백준 1339
- 백준9095
- GPT
- 3745
- 1107번
- 논문리뷰
- 백준 1339 자바
- 논문구현
- Alexnet
- 머신러닝
- 자바
- 딥러닝
- 클린코드
- MachineLearning
- 논문
- 알고리즘
- deeplearning
- 알렉스넷
- Java
- 다익스트라
- Today
- Total
목록GPT (2)
산 넘어 산 개발일지
1. 배경 (이미지 출처 : https://github.com/pilsung-kang/Text-Analytics/blob/master/08%20Seq2Seq%20Learning%20and%20Pre-trained%20Models/08-4_GPT.pdf) 당시 Unlabeled dataset은 6백만개가 넘는 글과 35억개가 넘는 단어들로 넘쳐났지만, Labeled dataset은 너무나 부족한 상황이었다. 따라서 Unlabeled dataset으로 의미 있는 언어 정보를 학습하는 모델이 필요했다. Unlabeled dataset으로 언어 정보를 학습한 모델의 장점 시간 비용이 많이 드는 추가적인 labeling작업을 대체하여 학습에 사용할 수 있음. 지도학습 하기에 충분한 데이터셋이 있다면, unlabe..
Abstract Natural language understanding은 두 문장간의 추론 문제, 두 문장의 의미적 동일성, QA, 문서 분류 등 다방면으로 구성된다. 그러나 unlabeled 된 텍스트 데이터는 많은 반면, labeled된 텍스트 데이터는 적기 때문에 모델 훈련에 어려움이 있다. 따라서 본 논문에서는 다양한 unlabeled 텍스트를 사용한 generative pre-training 인 language model을 제시하며, 이는 discriminative fine-tuning을 사용하여 각 특수한 작업에 사용될 수 있다. 이를 통해 완성한 모델은 기존 특수한 작업을 위해 만들어진 모델들보다 뛰어난 성능을 보였으며, 12개의 작업 중 9개의 작업에서 그 성능이 우수했다는 결과가 이를 증..