일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 딥러닝
- 짝지어제거하기
- cs231n
- 알고리즘
- 논문
- 다익스트라
- 머신러닝
- 디미터법칙
- 1107번
- 1916
- 자바
- Alexnet
- 백준 1916 자바
- 백준9095
- 1261
- 알렉스넷
- dijkstra
- NLP
- MachineLearning
- 백준
- deeplearning
- 3745
- 관심사분리
- 백준 1339 자바
- 논문리뷰
- 클린코드
- 논문구현
- 백준 1339
- GPT
- Java
- Today
- Total
목록논문 리뷰 (7)
산 넘어 산 개발일지
1. 배경 (이미지 출처 : https://github.com/pilsung-kang/Text-Analytics/blob/master/08%20Seq2Seq%20Learning%20and%20Pre-trained%20Models/08-4_GPT.pdf) 당시 Unlabeled dataset은 6백만개가 넘는 글과 35억개가 넘는 단어들로 넘쳐났지만, Labeled dataset은 너무나 부족한 상황이었다. 따라서 Unlabeled dataset으로 의미 있는 언어 정보를 학습하는 모델이 필요했다. Unlabeled dataset으로 언어 정보를 학습한 모델의 장점 시간 비용이 많이 드는 추가적인 labeling작업을 대체하여 학습에 사용할 수 있음. 지도학습 하기에 충분한 데이터셋이 있다면, unlabe..
서론 이번 논문은 기존 SMT에서 부분적으로만 활용되었던 DNN을 본격적으로 활용하여 BLEU 점수에서 이를 뛰어넘거나 비슷한 점수를 기록했다는 점에서 의미가 있다. 그리고 기존 NLP에서는 Input으로 고정된 길이의 벡터를 넘겨줘야만 했는데, 가변 길이의 벡터를 사용할 수 있게 했다는 점도 큰 발전이었다. 어떻게 가변 길이 벡터를 사용할 수 있었고, 어떤 방식으로 훈련을 했는지 위주로 리뷰를 해볼 것이다. 본론 1. RNN vs LSTM RNN은 긴 데이터에 대해서는 기울기 소실 문제로 인해 약한 모습을 보인다. 반면 LSTM은 RNN보다는 긴 데이터에 더 강인한 성능을 보인다. 물론 다른 여러 논문들에서 LSTM 역시 긴 데이터에 약하다는 것을 언급한다. 그러나 본 논문에서는 LSTM을 사용하여 긴..
Abstract Natural language understanding은 두 문장간의 추론 문제, 두 문장의 의미적 동일성, QA, 문서 분류 등 다방면으로 구성된다. 그러나 unlabeled 된 텍스트 데이터는 많은 반면, labeled된 텍스트 데이터는 적기 때문에 모델 훈련에 어려움이 있다. 따라서 본 논문에서는 다양한 unlabeled 텍스트를 사용한 generative pre-training 인 language model을 제시하며, 이는 discriminative fine-tuning을 사용하여 각 특수한 작업에 사용될 수 있다. 이를 통해 완성한 모델은 기존 특수한 작업을 위해 만들어진 모델들보다 뛰어난 성능을 보였으며, 12개의 작업 중 9개의 작업에서 그 성능이 우수했다는 결과가 이를 증..
2021.09.06 - [논문 리뷰/CV] - [논문 리뷰] VGG16(ICLR 2015) 요약 및 리뷰 [논문 리뷰] VGG16(ICLR 2015) 요약 및 리뷰 서론 1. 배경 Convolutional networks(ConvNets)는 대용량 이미지 및 영상 인식에서 큰 발전을 이룩하였는데, 이는 ImageNet과 같은 대용량 공공 이미지 데이터셋이 가능해지고, GPU와 같은 고성능 컴퓨팅 시 mountain96.tistory.com 1. Dataset 데이터셋은 CIFAR-10을 사용한다. CIFAR-10은 총 60,000장(50000 train, 10000 test)의 데이터셋이 있으며, 각 이미지는 32x32사이즈이다. train set 중 5000장은 validation set으로 활용한다...
서론 1. 배경 Convolutional networks(ConvNets)는 대용량 이미지 및 영상 인식에서 큰 발전을 이룩하였는데, 이는 ImageNet과 같은 대용량 공공 이미지 데이터셋이 가능해지고, GPU와 같은 고성능 컴퓨팅 시스템이 등장했으며, ImageNet Large-Scale Visual Recognition Challenge(ILSVRC)와 같은 대회가 있었기 때문에 가능했다. ConvNets이 사람들에게서 자주 사용됨에 따라, 기존의 큰 성공을 거두었던 AlexNet에서 이를 더 발전시키기 위한 여러 시도들이 나타났다. 그 시도들에서 성공한 케이스들 중 하나는, 첫 번째 convolutional layer에서의 작은 receptive window 와 작은 stride를 사용했다. 또 ..
논문에 대한 자세한 내용은 여기에 정리해놨다. 2021.08.05 - [논문 리뷰/CV] - [논문 리뷰] AlexNet(2012) 요약 및 리뷰 [논문 리뷰] AlexNet(2012) 요약 및 리뷰 서론 배경 객체탐지를 위해서는 많은 데이터셋, 더 강력한 모델, overfitting을 피하기 위한 발달된 기법이 필요하다. 이 중 데이터셋의 경우 기존에는 적은 양의 데이터셋에만 접근이 가능했지만(2 mountain96.tistory.com 1. Dataset Keras를 사용하여 CIFAR-10 데이터셋을 불러온다. 이후, 이를 validation 과 train set으로 각각 분리해주고, Tensorflow에 사용하기 용이한 tf.dataDataset으로 바꿔준다. => tf.data.Dataset.f..
서론 배경 객체탐지를 위해서는 많은 데이터셋, 더 강력한 모델, overfitting을 피하기 위한 발달된 기법이 필요하다. 이 중 데이터셋의 경우 기존에는 적은 양의 데이터셋에만 접근이 가능했지만(2012 기준)했다. 그 중에서도 CIFAR, MNIST와 같은 데이터셋은 현재 인간 수준의 정확성을 달성했지만, 이정도의 사이즈는 현실 세계에서 볼 수 있는 변동성 있는 풍경에 적용하기는 힘들다. 그러나 최근에는 LabelMe, ImageNet과 같은 방대한 데이터셋이 제공되었다. 또한, 강력한 GPU가 등장하면서 CNN을 이미지에 사용하는 것이 가능해졌다. CNN의 사용 그러나 수천 수만 가지의 객체들을 이미지들로부터 배우기 위해서는 객체탐지에서 비롯되는 엄청난 복잡성을 해결해야 하는데, 이를 위해서는 방..