Activation Function (1) sigmoid + squashes numbers to range [0, 1] - saturated neurons kill the gradients - sigmoid outputs are not zero centered (각 gradient가 한 방향으로 밖에 못 움직인다.) - exp() is a bit compute expensive (minor 한 문제) (2) tanh + squashes numbers to range [-1, 1] + zero-centered - kill gradients when saturated (3) ReLU + Does not saturate (in positive region) + very computationally effici..
Hierarchical organization : (1) simple cells : response to light orientation (modifiable parameters) (2) complex cells : response to light orientation and movement (perform pooling) (3) hypercomplex cells : response to movement with an end point (corner, block) Fully connected layer : 32*32*3 image 가 있으면 stretch to 3072*1 (stretch all the pixels) convolutional map의 output들을 마지막에 연결한다. activation..
Computational graph : 각 연산을 node로 나타내서 복잡한 연산의 모든 절차를 그래프로 표현하는 방법. -> analytic AlexNet : Convolutional Network chain rule : df/dy = df/dq * dq/dy로 바꿔서 계산할 수 있는 것. 앞 node의 local gradient를 현재 node의 gradient를 계산할 때 이용한다. 즉, 현재 node의 gradient는 앞 node의 연산을 미분한 식에 현재 node의 값을 넣어 계산한 값 * 앞 node의 gradient 값이다. 앞 node의 연산이 +면 앞 node의 gradient를 그대로 현재 node의 gradient 값으로 전달해준다. 물론, node들을 group 지어서 하나의 ga..
parametic approach : linear classifier (change image to vector) f(x, W) = Wx + b b : bias, 같은 score일 때 가중치를 부여한다. learning template : 각 category에 해당하는지 판단할 때 바탕이 되는 이미지. learning template가 W에 해당함. 이때 W에 곱해지는 x는 pixel 값이라 최댓값이 정해져 있기 때문에 W를 키우지 않고 bias를 두어 가중치를 부여한다. Loss function (=cost function) : optimization. quantify badness of any W. Multiclass SVM loss (=Hinge Loss) : true class의 score를 si..
image classify (1) find edge -> find corner 방법 super brittle, 새 카테고리면 처음부터 다시 시작해야 하는 단점 (2) data driven approach collect a dataset of images and labels use Machine Learning to train classifier evaluate classifier on new image compare image (1) L1 distance (Manhattan) : d(l1, l2) = 모든 p에 대해 (l1의 같은 위치의 점 p - l2의 같은 위치의 점 p) 값의 절댓값 (2) L2 distance (Uclidean) : d(l1, l2) = 모든 p에 대해 (l1의 같은 위치의 점 p..
오늘 수업에서 1*1 Convolution에 대해서 다뤘다. 먼저 1*1 Convolution을 사용하면 필터의 개수가 몇 개 인지에 따라 output의 dimension은 달라지지만, 원래 가로 세로의 사이즈는 그대로 유지된다. 그래서 filter 의 개수를 원래 input의 dimension 보다 작게 하면, dimension reduction의 효과가 난다. 원래 image 쪽에서 Convolution layer는 "Spatial Relation"을 고려하여 이 image가 어떤 image인지 패턴을 통해 파악하는 용도인데, 1*1 사이즈를 사용한다는 것은 한 픽셀만 고려하기 때문에 패턴 인식보다는 dimension reduction이라는 전처리 용도로 생각해야 한다. Dimension reduct..
Distributed Representations of Words and Phrases and their Compositionality (Tomas Mikolov) 논문은 읽는데 2~3주가 걸렸다. 처음으로 발표하게 된 논문이라 완벽하게 발표하고 싶은 욕심이 있는데 읽는 요령이 없어서 시간이 정말 오래 걸렸다. 내용에 수식이 많아서 먼저 올린 논문보다 난이도가 있다. 논문 다운로드 링크는 누르면 연결된다~! Distributed Representations of Words and Phrases and their Compositionality 이번에도 논문의 goal 먼저 살펴보겠다. 이 논문은 word2 vec 중 skip-gram의 vector representation quality를 높이고자 한다...
원래 예전에 사용하던 블로그에 올려두었던 포스팅이다. 학부 연구생 활동을 하면서 연구와 관련된 주제의 논문을 읽고 돌아가면서 발표하는 시간을 가졌었는데, 내가 발표했던 논문은 발표자료까지 공유를 하고, 내가 발표하지 않은 논문은 내용 정리 위주로 포스팅을 하고자 한다. 가장 먼저 올릴 논문은 Linguistic Regularities in Continuous Space Word Representations이고, 저자는 Tomas Mikolov이다. 딥러닝 중에서도 NLP (자연어처리)에 관심이 있는 사람이라면 Mikolov는 잘 알고 있을 것 같다. (word2 vec) 논문 다운로드 링크는 누르면 연결된다. Linguistic Regularities in Continuous Space Word Repr..