03 Perceptron and Delta Learning Rule - PAI-yoonsung/lstm-paper GitHub Wiki
Artificial Neural Networks consist of a densely interconnected group of simple neuron-like threshold switching units.
์ธ๊ณต ์ ๊ฒฝ๋ง์ ๋นฝ๋นฝํ๊ฒ ์๋ก ์ฐ๊ฒฐ๋ ๋ด๋ฐ๊ณผ ๊ฐ์ ์ญํ ์ ํ๋ ์๊ณ์ ์ค์์นญ ์ ๋๋ค์ ๊ทธ๋ฃน์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
Each unit takes a number of real-valued inputs and produces a single real-valued output.
๊ฐ ์ ๋์ ์ผ์ ์์ ์ค์ ์ ๋ ฅ๊ฐ์ ๋ฐ๊ณ ๋จ์ผ ์ค์ ์ถ๋ ฅ๊ฐ์ ๋ง๋ญ๋๋ค.
Based on the connectivity between the threshold units and element parameters, these networks can model complex global behaviour.
์๊ณ ์ ๋๋ค๊ณผ ์์ฑ ํ๋ผ๋ฏธํฐ๋ค ์ฌ์ด์ ์ฐ๊ฒฐ์ ๊ธฐ๋ฐ์ผ๋ก, ๋คํธ์ํฌ๊ฐ ๋ณต์กํ ์ ์ญ ํ๋๋ค์ ๋ชจ๋ธ๋งํ ์ ์์ต๋๋ค.
The most basic type of artificial neuron is called a perceptron.
ํผ์ ํธ๋ก ์ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ํ์ ์ ์ธ๊ณต ๋ด๋ฐ์ ๋๋ค.
Perceptrons consist of a number of external input links, a threshold, and a single external output link.
ํผ์ ํธ๋ก ์ ์ผ์ ์์ ์ธ๋ถ ์ ๋ ฅ ๋งํฌ๋ค๊ณผ ์๊ณ์ , ๋จ์ผ ์ธ๋ถ ์ถ๋ ฅ ๋งํฌ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
Additionally, perceptrons have an internal input, b, called bias.
์ถ๊ฐ์ ์ผ๋ก, ํผ์ ํธ๋ก ์ b, ๋ฐ์ด์ด์ค(ํธํฅ)๋ผ๊ณ ๋ถ๋ฆฌ์ฐ๋ ๋ด๋ถ ์ ๋ ฅ๋ ๊ฐ๊ณ ์์ต๋๋ค.
The perceptron takes a vector of real-valued input values, all of which are weighted by a multiplier.
ํผ์ ํธ๋ก ์ ์ฆํญ๊ธฐ์ ์ํด ๊ฐ์ค์น(weight)๊ฐ ์ ์ฉ๋ ์ค์ ์ ๋ ฅ๊ฐ๋ค์ ๋ฒกํฐ๋ฅผ ๋ฐ์ต๋๋ค.
In a previous perceptron training phase, the perceptron learns these weights on the basis of training data.
์ด์ ์ ํผ์ ํธ๋ก ํ๋ จ ๋จ๊ณ์์, ํผ์ ํธ๋ก ์ ํ์ต ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋กํ ๊ฐ์ค์น๋ค์ ํ์ตํ๊ฒ ๋ฉ๋๋ค.
It sums all weighted input values and โfiresโ if the resultant value is above a pre-defined threshold.
ํผ์ ํธ๋ก ์ ๋ชจ๋ ๊ฐ์ค์น๊ฐ ์ ์ฉ๋ ์ ๋ ฅ๊ฐ๋ค์ ํฉ์น๊ณ , ๋ง์ฝ ๊ทธ ํฉ์ณ์ง ๊ฒฐ๊ณผ๊ฐ์ด ์ฌ์ ์ ์ ์๋ ์๊ณ๊ฐ๋ณด๋ค ๋์ ๊ฒฝ์ฐ ์ด์ง๋ฉ๋๋ค.
The output of the perceptron is always Boolean, and it is considered to have fired if the output is โ1โ.
ํผ์ ํธ๋ก ์ ๊ฒฐ๊ณผ๊ฐ์ ์ธ์ ๋ ๋ถ๋ฆฌ์ธ ๊ฐ์ด๊ณ , ๋ง์ฝ ๊ฒฐ๊ณผ๊ฐ์ด 1์ผ ๊ฒฝ์ฐ์๋ ์ด์ง๋ ๊ฒ์ผ๋ก ๊ฐ์ฃผ๋ฉ๋๋ค.
The deactivated value of the perceptron is โโ1โ, and the threshold value is, in most cases, โ0โ.
ํผ์ ํธ๋ก ์ ๋นํ์ฑํ ๊ฐ์ -1 ์ด๊ณ , ์๊ณ๊ฐ์ ๋๋ถ๋ถ์ ๊ฒฝ์ฐ 0 ์ผ๋ก ์ค์ ๋ฉ๋๋ค.
As we only have one unit for the perceptron, we omit the subindexes that refer to the unit.
์ฐ๋ฆฌ๋ ๋จ์ผ ํผ์ ํธ๋ก ์ ๋์ ๊ฐ๊ณ ์๊ธฐ ๋๋ฌธ์, ์ฐ๋ฆฌ๋ ์ ๋์ ์ฐธ์กฐํ๋ ์๋ธ์ธ๋ฑ์ค(?) ๋ ์๋ตํ๊ฒ ๋ฉ๋๋ค.
Given the input vector x = hx1, ..., xni and trained weights W1, ..., Wn, the perceptron outputs y; which is computed by the formula y = ( 1 if Pn i=1 Wixi + b > 0; โ1 otherwise.
์ฃผ์ด์ง ์ ๋ ฅ ๋ฒกํฐ x = x_1, ..., x_n ์ ํ๋ จ๋ ๊ฐ์ค์น W_1, ..., W_n ์ด ์๋ค๊ณ ํ ์, ํผ์ ํธ๋ก ์ถ๋ ฅ๊ฐ y ์ ์์ ๊ณต์์ผ๋ก ๊ณ์ฐ๋ฉ๋๋ค.
์ฐ๋ฆฌ๋ z= ์๊ทธ๋ง(i=1 ~ n) W_i * x_i ๋ฅผ ๊ฐ์ค์น ์ ์ฉ ์ ๋ ฅ๊ฐ์ด๋ผ ํ๊ณ , s = z + b ๋ฅผ ํผ์ ํธ๋ก ์ ์ํ๋ผ๊ณ ํฉ๋๋ค.
For the perceptron to fire, its state s must exceed the value of the threshold.
ํผ์ ํธ๋ก ์ด ์ด๋ฐ๋๊ธฐ ์ํด์ , ํด๋น ํผ์ ํธ๋ก ์ ์ํ s ๊ฐ ๋ฐ๋์ ์๊ณ๊ฐ์ ์ด๊ณผํด์ผ ํฉ๋๋ค.
Single perceptron units can already represent a number of useful functions.
๋จ์ผ ํผ์ ํธ๋ก ์ ๋๋ค์ ์ด๋ฏธ ๋ช ๊ฐ์ง์ ์ ์ฉํ ํจ์๋ฅผ ํํํ ์ ์์ต๋๋ค.
Examples are the Boolean functions AND, OR, NAND and NOR.
๊ทธ ์์๋ก, ๋ถ๋ฆฌ์ธ ํจ์๋ค์ธ AND, OR, NAND ๊ทธ๋ฆฌ๊ณ NOR ๊ฐ ์์ต๋๋ค.
Other functions are only representable using networks of neurons.
๋ค๋ฅธ ํจ์๋ค์ ๋ค์์ ๋ด๋ฐ๋ค์ ๋คํธ์ํฌ๋ฅผ ํตํด์๋ง ํํ๋ ์ ์์ต๋๋ค.
Single perceptrons are limited to learning only functions that are linearly separable.
๋จ์ผ ํผ์ ํธ๋ก ๋ค์ ์ค์ง ์ ํ์ผ๋ก ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ํจ์๋ค๋ง ๋ฐฐ์ธ ์ ์์ต๋๋ค.
In general, a problem is linear and the classes are linearly separable in an n-dimensional space if the decision surface is an (n โ 1)-dimensional hyperplane.
์ผ๋ฐ์ ์ผ๋ก, ๊ฒฐ์ ํ๋ฉด์ด (n-1) ์ฐจ์์ ํ์ดํผํ๋ ์ธ(?)์ผ ๊ฒฝ์ฐ, ํด๋น ๋ฌธ์ ๋ ์ ํ์ด๊ณ ํด๋์ค๋ค์ด n์ฐจ์ ๊ณต๊ฐ์์ ์ ํ์ผ๋ก ๋ถ๋ฆฌ ๊ฐ๋ฅํฉ๋๋ค.
The general structure of a perceptron is shown in Figure 1.
์ผ๋ฐ์ ์ธ ํผ์ ํธ๋ก ์ ๊ตฌ์กฐ๋ Figure 1 ๊ณผ ๊ฐ์ต๋๋ค.
Figure 1: The general structure of the most basic type of artificial neuron, called a perceptron. Single perceptrons are limited to learning linearly separable functions.
Figure 1: ํผ์ ํธ๋ก ์ด๋ผ ๋ถ๋ฆฌ์ฐ๋ ๊ฐ์ฅ ๊ธฐ๋ณธ์ ์ธ ํํ์ ์ธ๊ณต ๋ด๋ฐ์ ์ผ๋ฐ์ ์ธ ๊ตฌ์กฐ์ ๋๋ค. ๋จ์ผ ํผ์ ํธ๋ก ์ ์ ํ์ผ๋ก ๋ถ๋ฆฌ ๊ฐ๋ฅํ ํจ์๋ค๋ง์ ๋ฐฐ์ธ ์ ์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
To understand linear separability, it is helpful to visualise the possible inputs of a perceptron on the axes of a two-dimensional graph.
์ ํ ๋ถ๋ฆฌ๋ฅผ ์ดํดํ๊ธฐ ์ํด์ , ํผ์ ํธ๋ก ์ ์ ๋ ฅ์ผ๋ก ๋ค์ด์ฌ ์ ์๋ ๊ฐ๋ค์ 2์ฐจ์ ๊ทธ๋ํ์ ์ถ๋ค ์์ ์๊ฐํํด๋ณด๋ ๊ฒ์ด ์ข์ต๋๋ค.
Figure 2: Representations of the Boolean functions OR and XOR. The figures show that the OR function is linearly separable, whereas the XOR function is not.
Figure 2: ๋ถ๋ฆฌ์ธ ํจ์์ธ OR ๊ณผ XOR ์ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค. ์์ ๊ทธ๋ฆผ๋ค์ OR ํจ์๋ ์ ํ์ผ๋ก๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ์ง๋ง XOR ํจ์๋ ๋ถ๊ฐ๋ฅํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค.
Figure 2 shows representations of the Boolean functions OR and XOR.
Figure 2 ๋ ๋ถ๋ฆฌ์ธ ํจ์์ธ OR ๊ณผ XOR ์ ๋ชจ์ต์ ๋ณด์ฌ์ค๋๋ค.
The OR function is linearly separable, whereas the XOR function is not.
OR ํจ์๋ ์ ํ์ผ๋ก ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ๋ฐ๋ฉด, XOR ์ ๋ถ๊ฐ๋ฅํฉ๋๋ค.
In the figure, pluses are used for an input where the perceptron fires and minuses, where it does not.
Figure 2 ์์๋ + ๋ค์ ํผ์ ํธ๋ก ์ด ํ์ฑํ๋ ์ ๋ ฅ์์ ์ฌ์ฉ๋๊ณ , - ๋ค์ ๊ทธ๋ ์ง ์์ต๋๋ค.
If the pluses and minuses can be completely separated by a single line, the problem is linearly separable in two dimensions.
๋ง์ฝ + ์ - ๊ฐ ํ๋์ ์ ์ผ๋ก ์๋ฒฝํ๊ฒ ๋๋์ด์ง ์ ์๋ค๋ฉด, ํด๋น ๋ฌธ์ ๋ 2์ฐจ์์์ ์ ํ์ผ๋ก ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ๋ฌธ์ ์ ๋๋ค.
The weights of the trained perceptron should represent that line.
ํ์ต๋ ํผ์ ํธ๋ก ์ ๊ฐ์ค์น๋ ๊ทธ ๋ถ๋ฆฌ์ ์ ๋ํ๋ผ ๊ฒ์ ๋๋ค.
Perceptron training is learning by imitation, which is called โsupervised learningโ.
ํผ์ ํธ๋ก ํ๋ จ์
์ง๋ ํ์ต
์ด๋ผ๊ณ ๋ถ๋ฆฌ์ฐ๋ ํ๋ด๋ด๊ธฐ๋ฅผ ํตํด ๋ฐฐ์ฐ๊ฒ ๋ฉ๋๋ค.
During the training phase, the perceptron produces an output and compares it with a derived output value provided by the training data.
ํ๋ จ ๊ณผ์ ์์, ํผ์ ํธ๋ก ์ ๋จ์ผ ์ถ๋ ฅ๊ฐ์ ์์ฐํด๋ด๊ณ ์ด๋ฅผ ํ๋ จ ๋ฐ์ดํฐ์์ ์ ๊ณตํ๋ ํ์ ์ถ๋ ฅ๊ฐ๋ค๊ณผ ๋น๊ตํฉ๋๋ค.
In cases of misclassification, it then modifies the weights accordingly.
๋ง์ฝ ์ค๋ถ๋ฅ๊ฐ ์ผ์ด๋ ๊ฒฝ์ฐ, ํผ์ ํธ๋ก ์ ๊ฐ์ค์น๋ฅผ ์ ์ ํ๊ฒ ์์ ํ๊ฒ ๋ฉ๋๋ค.
[55] show that in a finite time, the perceptron will converge to reproduce the correct behaviour, provided that the training examples are linearly separable.
[55] ๋ ผ๋ฌธ์ ์ ํ๋ ์๊ฐ ์์, ํผ์ ํธ๋ก ์ ์ ํ์ผ๋ก ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ ํ๋ จ ์์์์ ์ ๊ณต๋ ์ฌ๋ฐ๋ฅธ ํ๋์ ๋ค์ ์์ฐํด๋ด๊ธฐ ์ํด ์๋ ดํ๊ฒ ๋ ๊ฒ์ด๋ผ๊ณ ํฉ๋๋ค.
- [55] Marvin L. Minsky and Seymour A. Papert. Perceptrons: An introduction to computational geometry. Expanded. MIT Press, Cambridge, 1988.
Convergence is not assured if the training data is not linearly separable.
๋ง์ฝ, ํ๋ จ ๋ฐ์ดํฐ๊ฐ ์ ํ์ผ๋ก ๋ถ๋ฆฌ๋์ง ์๋ ๊ฒฝ์ฐ๋, ์๋ ด์ด ์ด๋ฃจ์ด์ง์ง ์ ์ ์๊ฒ ๋ฉ๋๋ค.
A variety of training algorithms for perceptrons exist, of which the most common are the perceptron learning rule and the delta learning rule.
๋ค์ํ ํผ์ ํธ๋ก ์ ํ๋ จ ์๊ณ ๋ฆฌ์ฆ์ด ์กด์ฌํ๋ ๊ฐ์ด๋ฐ, ๊ฐ์ฅ ์ผ๋ฐ์ ์ธ ์๊ณ ๋ฆฌ์ฆ์ ํผ์ ํธ๋ก ํ๋ จ ๋ฃฐ๊ณผ ๋ธ๋ค ํ๋ จ ๋ฃฐ ์ ๋๋ค.
Both start with random weights and both guarantee convergence to an acceptable hypothesis.
์ด ๋ ๋ชจ๋ ๋ฌด์์ํ ๊ฐ์ค์น๋ฅผ ๊ฐ๊ณ ์์ํ์ฌ ๋ฐ์๋ค์ฌ์ง๋งํ ๊ฐ์ค๋ก์ ์๋ ด์ ๋ณด์ฅํฉ๋๋ค.
Using the perceptron learning rule algorithm, the perceptron can learn from a set of samples A sample is a pair <x, d> where x is the input and d is its label.
ํผ์ ํธ๋ก ํ์ต ๋ฃฐ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ ๊ฒฝ์ฐ, ํผ์ ํธ๋ก ์ ์ํ๋ค์ ์ธํธ์ธ A ๋ฅผ ํตํด ํ์ต์ ์งํํ๊ฒ ๋ฉ๋๋ค. ์ํ์ <x, d> ์ ํ์ด๋ก ์ด๋ฃจ์ด์ ธ ์๊ณ , x ๋ ์ ๋ ฅ๊ฐ, d ๋ ๋ผ๋ฒจ๊ฐ์ ๋ปํฉ๋๋ค.
For the sample <x, d>, given the input x = <x1, . . . , xn>, the old weight vector W = <W1, . . . , Wn> is updated to the new vector W' using the rule
์ํ <x, d> ์ ๊ฒฝ์ฐ, ์ ๋ ฅ๊ฐ x = <x1, . . . , xn> ๊ฐ ์ฃผ์ด์ง๋ฉด, ์ด์ ์ ๊ฐ์ค์น ๋ฒกํฐ W = <W1, . . . , Wn> ๊ฐ ๋ค์์ ๋ฃฐ์ ํตํด ์๋ก์ด ๋ฒกํฐ W' ๋ก ์ ๋ฐ์ดํธ ๋ฉ๋๋ค.
W'_i = W_i + โW_i, with โW_i = ฮท(d โ y)x_i,
- ์๋ก์ด ๊ฐ์ค์น = ๋ก์ ๊ฐ์ค์น + โW_i
- โW_i = ๋ฌ๋ ๋ ์ดํธ * (๋ผ๋ฒจ๊ฐ - ์์ธก๊ฐ) * ์ ๋ ฅ๊ฐ
where y is the output calculated using the input x and the weights W and ฮท is the learning rate.
y๋ ์ ๋ ฅ๊ฐ x์ ๊ฐ์ค์น W๋ฅผ ์ฐ์ฐํ์ฌ ๋ง๋ค์ด์ง๋ ์ถ๋ ฅ๊ฐ(์์ธก๊ฐ)์ด๊ณ , ฮท ๋ ๋ฌ๋ ๋ ์ดํธ ์ ๋๋ค.
The learning rate is a constant that controls the degree to which the weights are changed.
๋ฌ๋ ๋ ์ดํธ๋ ์์์ด๊ณ , ๊ฐ์ค์น์ ๋ณํ๋ฅผ ์ฃผ๋ ์ ๋๋ฅผ ์กฐ์ ํ ์ ์์ต๋๋ค. (๊ธฐ์กด ๊ฐ์ค์น์ ์ผ๋ง๋งํผ์ ๋ณํ๋ฅผ ์ค ๊ฒ์ธ๊ฐ)
As stated before, the initial weight vector W0 has random values.
์์ํ๊ธฐ ์ ์, ์ด๊ธฐ ๊ฐ์ค์น ๋ฒกํฐ W0 ์ ๋๋คํ ๊ฐ์ ๊ฐ๊ณ ์์ต๋๋ค.
The algorithm will only converge towards an optimum if the training data is linearly separable, and the learning rate is sufficiently small.
์๊ณ ๋ฆฌ์ฆ์ ํ๋ จ์ฉ ๋ฐ์ดํฐ๊ฐ ์ ํ์ผ๋ก ๋ถ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๊ณ , ๋ฌ๋ ๋ ์ดํธ๊ฐ ํจ์จ์ ์ธ ์ ๋๋ก ์์ ๋์๋ง ์ต์ ์ ๊ฐ์ผ๋ก ์๋ ดํ ๊ฒ์ ๋๋ค.
The perceptron rule fails if the training examples are not linearly separable.
ํผ์ ํธ๋ก ๋ฃฐ์ ํ๋ จ ์์๋ค์ด ์ ํ์ผ๋ก ๋ถ๋ฆฌ๋์ง ์๋๋ค๋ฉด, ์คํจํ๊ฒ ๋ฉ๋๋ค.
The delta learning rule was specifically designed to handle linearly separable and linearly non-separable training examples.
๋ธ๋ค ๋ฌ๋ ๋ฃฐ์ ์ ํ์ผ๋ก ๋ถ๋ฆฌ ๊ฐ๋ฅํ ํ๋ จ ์์๋ค๊ณผ ๊ทธ๋ ์ง ๋ชปํ ์์๋ค์ ๋ค๋ฃจ๊ธฐ ์ํด ํน์ํ๊ฒ ๋์์ธ๋์์ต๋๋ค.
It also calculates the errors between calculated output and output data from training samples, and modifies the weights accordingly.
๋ธ๋ค ๋ฌ๋ ๋ฃฐ์ ๊ณ์ฐ๋ ์ถ๋ ฅ(์์ธก๊ฐ)๊ณผ ํ๋ จ ์ํ๋ก๋ถํฐ์ ์ถ๋ ฅ ๋ฐ์ดํฐ(๋ผ๋ฒจ๊ฐ) ์ฌ์ด์ ์๋ฌ๋ฅผ ๊ณ์ฐํ๊ณ , ์ ์ ํ๊ฒ ๊ฐ์ค์น๋ฅผ ์์ ํฉ๋๋ค.
The modification of weights is achieved by using the gradient optimisation descent algorithm, which alters them in the direction that produces the steepest descent along the error surface towards the global minimum error.
๊ฐ์ค์น ์์ ์ ๊ทธ๋ ๋์ธํธ ์ตํฐ๋ง์ด์ ์ด์ ๋์ผํธ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ์ฌ ์งํ๋๊ณ , ์ด๋ ์๋ฌ ํ๋ฉด์ ๊ฐ์ค์น๋ค์ ๊ธ๋ก๋ฒ ๋ฏธ๋๋ฉ ์๋ฌ๋ฅผ ํฅํด ๊ฐ๋ ๊ฐ์ฅ ๊ฐํ๋ฅธ ๊ฒฝ์ฌ๋ฅผ ์์ฑํ๋ ๋ฐฉํฅ์ผ๋ก ๋ฐ๊ฟ์ฃผ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋๋ค.
The delta learning rule is the basis of the error backpropagation algorithm, which we will discuss later in this section.
๋ธํ ๋ฌ๋ ๋ฃฐ ์๊ณ ๋ฆฌ์ฆ์ ์๋ฌ ๋ฐฑํ๋กํ๊ฒ์ด์ ์๊ณ ๋ฆฌ์ฆ์ ๊ธฐ๋ฐ์ผ๋ก ์ผ์ต๋๋ค. ์ด๋ ๋ค์ ์น์ ์์ ์์๋ณด๊ฒ ๋ ๊ฒ์ ๋๋ค.
์๊ทธ๋ชจ์ด๋ ์๊ณ ์ ๋์ ๋ ๋ค๋ฅธ ์ข ๋ฅ์ ์ธ๊ณต ๋ด๋ฐ์ ๋๋ค. ํผ์ ํธ๋ก ๊ณผ ์์ฃผ ์ ์ฌํ์ง๋ง, ์ถ๋ ฅ๊ฐ ๊ณ์ฐ์ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ถ๋ ฅ y๋ ์์ ๊ณต์๋ค์ ์ํด ๊ณ์ฐ๋ฉ๋๋ค.
where b is the bias and l is a positive constant that determines the steepness of the sigmoid function.
b ๋ bias(ํธํฅ) ์ด๊ณ , l ์ ์๊ทธ๋ชจ์ด๋ ํจ์์ ๊ฒฝ์ฌ๊ฐ์ ๊ฒฐ์ ํ๋ ์์ ์์์ ๋๋ค.
The major effect on the perceptron is that the output of the sigmoid threshold unit now has more than two possible values;
ํผ์ ํธ๋ก ์ ์ฃผ์ ํจ๊ณผ๋, ์๊ทธ๋ชจ์ด๋ ์๊ณ ์ ๋์ ์ถ๋ ฅ์ด ๋ ๊ฐ์ ์์ ๊ฐ๋ค ์ธ์ ๋ค๋ฅธ ๊ฐ๋ค๋ ๊ฐ์ง๋ค๋ ๊ฒ์ ๋๋ค.
now, the output is โsquashedโ by a continuous function that ranges between 0 and 1.
์ด์ ๋ถํฐ๋, ์ถ๋ ฅ๊ฐ์ด 0~1 ์ฌ์ด์ ๋ฒ์๋ฅผ ๊ฐ๋ ์ฐ์์ ์ธ ํจ์์ ์ํด ์ง๋๋ฆฌ๊ฒ(?) ๋ฉ๋๋ค.
Accordingly, the function 1 / (1โe^(โlรs)) is called the โsquashingโ function, because it maps a very large input domain onto a small range of outputs.
์๊ทธ๋ชจ์ด๋ ํจ์๋
์ค์ฟผ์ฑ ํจ์
๋ผ๊ณ ๋ถ๋ฆฌ์ฐ๋๋ฐ, ์ด๋ ํด๋น ํจ์๊ฐ ๋งค์ฐ ๊ฑฐ๋ํ ์ ๋ ฅ ๋๋ฉ์ธ์ ์์ฃผ ์์ ๋ฒ์์ ์ถ๋ ฅ๋ค๋ก ๋งคํํ๊ธฐ ๋๋ฌธ์ด๋ค.
For a low total input value, the output of the sigmoid function is close to zero, whereas it is close to one for a high total input value.
์ ๋ ฅ ๊ฐ์ ์ดํฉ์ด ๋ฎ์ ๊ฒฝ์ฐ๋ ์๊ทธ๋ชจ์ด๋ ํจ์์ ์ถ๋ ฅ์ 0์ ๊ทผ์ ํ๊ฒ ๋๊ณ , ๋ฐ๋๋ก ์ ๋ ฅ ๊ฐ์ ์ดํฉ์ด ๋์ ๊ฒฝ์ฐ๋ 1์ ๊ทผ์ ํ๊ฒ ๋ฉ๋๋ค.
The slope of the sigmoid function is adjusted by the threshold value.
์๊ทธ๋ชจ์ด๋ ํจ์์ ๊ธฐ์ธ๊ธฐ๋ ์๊ณ๊ฐ์ ์ํด ์ ์ฉ๋ฉ๋๋ค.
The advantage of neural networks using sigmoid units is that they are capable of representing non-linear functions.
์๊ทธ๋ชจ์ด๋ ์ ๋์ ์ฌ์ฉํ๋ ์ ๊ฒฝ๋ง์ ์ฅ์ ์ ๋น์ ํ ํจ์๋ฅผ ํํํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
Cascaded linear units, like the perceptron, are limited to representing linear functions. A sigmoid threshold unit is sketched in Figure 3.
ํผ์ ํธ๋ก ๊ฐ์ ๊ณ๋จ์ ์ ํ ์ ๋๋ค์ ์ ํ ํจ์๋ค๋ง ํํํ ์ ์์ต๋๋ค. ์๊ทธ๋ชจ์ด๋ ์๊ณ ์ ๋์ Figure 3 ์ ๋์์์ต๋๋ค.
Figure 3: The sigmoid threshold unit is capable of representing non-linear functions. Its output is a continuous function of its input, which ranges between 0 and 1.
Figure 3: ์๊ทธ๋ชจ์ด๋ ์๊ณ ์ ๋์ ๋น์ ํ ํจ์๋ ํํํ ์ ์์ต๋๋ค. ํด๋น ์ ๋์ ์ถ๋ ฅ์ ์ ๋ ฅ์ ์ฐ์์ ์ธ ํจ์์ด๋ฉฐ 0~1 ์ฌ์ด์ ๋ฒ์๋ฅผ ๊ฐ์ต๋๋ค.
dictionary
squashed : ์ง๋๋ฅธ? cascaded : ๊ณ๋จ์, ํญํฌ์ ํ์ represent : ํํํ๋ค