筆記 - jenhaoyang/ml_blog GitHub Wiki
CH8
8.1.1 Data as Vectors
- x: sample
- N: dataset samples 總數
- n: sample的index
- xn: 資料堆裡面的其中一個sample
- d: feature
- D: feature的總數
- {}:代表set
把每一個資料點x都以向量表示,則每一個資料點x都是維度為D的向量
dataset以下面這種方式表達
{(x1, y1), . . . ,(xn, yn), . . . ,(xN , yN )}
每一個example xn都有一個label yn
可以寫為
使用vector來表示sample x讓我們可以使用線係代數的觀念。在許多的機器學習演算法我們可以比較兩個vector的相似度或是距離,有高相似度或是距離近的sample很有可能會有相似的label
由於使用vector來表示sample x,我們有兩種方法可以更好的線我們的資料。
- finding lower-dimensional approximations of the original feature vector : 使用低維度來近似高維度vector(尋找 principal components, principal components使用到eigenvalue and singular value decomposition)
- using nonlinear higher-dimensional
combinations of the original feature vector:
feature map: 從原來的feature建立新的feature,由feature製造kernel,這在機器視覺領域取得許多成果
8.1.2 Models as Functions
model有兩種:
- predictor as a function
- predictor as a probabilistic model
predictor as a function
給定一個example作為輸入,就會輸出一個結果。假設我們的輸出是一個數,我們可以寫成下面格式
由上式我們可以看到x是維度為D的vector(D個feature),然後經過f處理後變成一個實數
8.1.3 Models as Probability Distributions
不同於predictor is a function主會輸出單一個值,Models as Probability Distributions會給出一個預測值的機率分布。
8.1.4 Learning is Finding Parameters
訓練機器的時候有三個層面可以討論:
- Prediction or inference:
使用訓練後的模型對新的資料做出預測 - Training or parameter estimation:
尋找好的predictor有兩種方法
- point estimate:可以用在 probabilistic models 或 non-probabilistic models
- Bayesian inference:只能用在 probabilistic models 對於 non-probabilistic models,我們依照 **empirical risk minimization **原則,他直接提供一個最佳化問題讓我們尋找最好的模型
對於probabilistic models我們依照maximum likelihood原則來尋找最好的權重
模型如果只能吻合訓練資料是不夠的,他必須也要對沒見過的資料作出準確預測。因此我們利用cross-validation來模擬讓模型去預測沒看過的資料。為了要讓模型可以在兩種資料集都表現很好,我們可以利用regularization或是adding a prior,
3. Hyperparameter tuning or model selection
決定模型的架構之類沒辦法從訓練學習到的參數,必須人工調整,我們稱為hyperparameter
empirical risk minimization
用於 predictor 為 function 我們有四個設計要做抉擇:
- 有什麼function我們可以用
- 如何測量predictor的表現
- 如何讓predictor經過training data訓練後就可以對沒看過的資料做出正確的預測
- 尋找模型的過程是什麼
參考:
http://www.sciweavers.org/free-online-latex-equation-editor