Approximation with Artificial Neural Networks Balázs Csanád Csáji - ShinMyungJae/Approximation-with-Artificial-Neural-Networks GitHub Wiki
[개요] 이 논문은 Eötvös Loránd University Hungary 의 Balázs Csanád Csáji 라는 사람의 석사 졸업 논문입니다. 2001년에 써진 논문으로 석사생의 졸업 논문이기에 어려운 내용을 쉽게쉽게 써나가서 45쪽의 논문이지만 쉽게 이해할 수 있습니다. 하지만 neural network를 통한 approximation 이라는 충분히 가치를 가지는 주제에 대해 다루고 있습니다.
[Preface] 우선적으로 이 논문에서는 1 hidden layer 를 가진 feed-forward neural network를 다룹니다. 이는 1 hidden layer 를 가진 multi-layer perceptron과도 동일한 의미를 가집니다.
이미 1960년도부터 one hidden layer를 가진 multi-layer neural network 가 임이의 n 개의 real variables 로 구성된 continuous function에 approximate(근사)가 가능하다는 연구가 이루어지고 있었습니다. 대표적으로 Cybenko (1989), Halbert White (1990) and Kurt Hornik (1991) 의 연구가 있습니다. 하지만 이 연구들에는 다음과 같은 한계점들이 있었습니다.
- hidden layer에 몇 개의 neuron들이 존재해야 하는거에 대한 언급이 없었습니다.
- 논문에서 제시하는 neuron 수에서 주어지는 근사 과정의 error 값에 대한 고찰이 존재하지 않았습니다.
그래서, 이 논문의 저자는 neuron 갯수에 대한 고찰과 함께 feed-forward neural network를 통해서 universal approximation theorem을 입증하고자 하였습니다. 즉, real number 상의 n 차원 vector space에서 정의되는 모든 continuous function은 one hidden layer neural network로 근사가 가능하다는 것을 주장합니다.
[About Neural Network]
이 논문의 시작에서는 Neural Network에 관한 소개부터 시작됩니다. 흔히 설명하는 대로 "인간의 두뇌가 기존의 디지털 (폰 노이만) 컴퓨터와는 완전히 다른 방식으로 계산된다는 인식에서부터 뉴럴 네트워크가 동기를 부여 받았습니다" 라는 설명부터 시작합니다. 이 저자는 뉴럴 네트워크가 제공해주는 유용한 특징과 능력을 몇 가지 설명합니다.
- Nonlinearity : 뉴럴 네트워크의 뉴런은 linear 혹은 non-linear 형태가 될 수 있으며, non-linearity는 특히나 입력 신호가 들어 왔을 때 비 선형적인 형태를 갖게 되는 문제를 다루는데 중요합니다.
- Input-Output Mapping : 뉴럴 네트워크는 supervised learning을 통해서 input-output mapping 방법을 배웁니다. 그리고 이 과정은 labelled training sample들을 활용하여 neuron의 weight들을 변화 시키는 과정을 통해서 이루어 집니다.
- Adaptivity : 뉴럴 네트워크들은 weight들을 학습하면서 변화를 통해 여러 분야에 적용될 수 있습니다.
- Evidnetial Response : 패턴 인식과 같은 문제 상황에서 뉴럴 네트워크는 어떤 특별한 패턴을 선택할 지 뿐 아니라 결정 과정에서의 확실성을 부여할 수 있습니다.
- Contextual Information : 뉴럴 네트워크의 모든 뉴런들은 다른 전체 노드들과 잠재적으로 영향을 미치며 이런 구조가 어떠한 하나의 지식을 나타내게 됩니다.
인공 신경망에서 뉴런의 구조는 아래와 같이 이루어져 있습니다. 이 구조는 McCulloc과 Pitts (1943)의 연구에서 부터 사용되었습니다. (McCulloch-Pitts model)
[Activation Function] 뉴럴 네트워크에서 사용되는 activation function은 로 표현되며 뉴런의 output을 정의합니다. 이 논문에서 언급하는 activation function은 아래와 같은 가정을 따르는 activation function으로 정의합니다. 그리고 이 activation function들은 bounded 된다고 가정합니다.
논문에서 제시하는 여러 activation 중 하나인 sigmoid function은 아래와 같이 생겼습니다.
sigmoid 함수는 s-shaped 로 뉴럴 네트워크를 구성할 때 가장 많이 사용되는 activation function입니다. 가장 중요한 특징으로는 differentiable (미분이 가능한) 특징입니다.
위의 기본적인 논문에서 다루는 사항들에 대한 설명을 마치고, Universal Approximation에 대해 다루는 내용에 대해서 살펴보겠습니다.
[Universal Approximation Theorem]
Universal approximation theorem은 standard multi-layer feed-forward networks with one hidden layer 가 universal approximators in C(R^m) 이 된다는 이론입니다.
Kurt Hornik (1991) 이 이 이론에서은 neural network의 activation function을 선택하는 문제가 아니라 neural network의 구조 자체의 구성 문제라는 것을 보여주었습니다. 이때, output unit은 언제나 linear 형태라는 것을 가정하였습니다. 자세한 사항은 아래 사진을 통해서 쉽게 이해할 수 있습니다. n 개의 hidden neuron을 가진 neural network Anf는 함수 f 에 error 내에서 근사한다는 것을 수식적으로 아래와 같이 표현하고 이해할 수 있습니다.