機器學習(一)
人工智慧與機器學習
1. 人工智慧起源與定義
1.1 人工智慧簡述
人工智慧(Artificial Intelligence,簡稱 AI)在生活中已非常普遍,許多產品如 AI 吸塵器、AI 電鍋、AI 電動車等都標榜「AI」。但加上「AI」究竟意味什麼?這讓人有些困惑。
在了解人工智慧前,需先釐清「智慧」的定義。根據國家教育研究院,智慧指透過人腦思維展現的能力,如記憶、計算、判斷、決策、規劃、學習、探索、推理等。
人工智慧則是利用程式設計或其他技術,讓機器模仿人類大腦的上述能力,試圖模擬人類智慧行為的科技。許多科技發明從自然界獲取靈感,如飛機模仿鳥類翅膀,人工智慧同樣試圖模仿人類思考與學習,讓機器自主處理資訊、判斷與行動。
1.2 人工智慧重要歷史
人工智慧是一門約六、七十年的年輕科學,結合數學邏輯、機率、統計學、神經生物學及計算機科學。以下為重要歷史里程碑:
- 1950 年:圖靈測試(Turing Test)。英國數學家艾倫·圖靈提出,若提問者無法分辨機器與人類的回答,該機器即具備人類智慧水準。
- 1955 年:人工智慧誕生。美國科學家約翰·麥卡錫首次提出「Artificial Intelligence」名詞,並召開達特茅斯會議,開啟 AI 研究序幕。
- 1997 年:DEEP BLUE 擊敗西洋棋冠軍。IBM 的 Deep Blue 擊敗世界西洋棋冠軍卡斯帕羅夫,展現「符號主義」AI 的計算與預測能力。
- 2016 年:ALPHAGO 擊敗圍棋冠軍。Google DeepMind 的 AlphaGo 擊敗李世乭,透過深度學習與強化學習,開啟新一代 AI 時代。
1.3 早期人工智慧分類
人工智慧第一波浪潮始於 1950 年代,尚未進入網際網路時代,稱為「古典人工智慧」。兩大主流理論為「符號主義」與「聯結主義」,分別奠定「專家系統」與「深度學習」基礎。
1.3.1 符號主義
符號主義透過建立知識庫與規則系統,模擬人類推理過程,使用「If…Then…」條件判斷篩選答案。例如:
IF 有流鼻水 AND 發燒 THEN 可能是感冒
缺點:
- 僅限特定領域,知識庫外無法回答。
- 維護與更新成本高。
1.3.2 聯結主義
聯結主義模仿人腦神經元結構,建立人工神經網路(Artificial Neural Networks)。不依賴明確規則,透過數據學習調整網路權重,完成分類、預測、識別等任務,是現今深度學習的基礎。
2. 要怎麼實現人工智慧
人類透過學習與經驗累積智慧,如閱讀、背誦與練習內化知識。人工智慧的核心理念是讓機器透過學習獲得智慧。機器學習(Machine Learning)是實現 AI 的主要方法之一,其中包含進階的深度學習(Deep Learning)。本文以機器學習為主軸,介紹其運作方式與應用。
3. 機器學習
機器學習(Machine Learning, ML)讓機器具備學習能力,透過資料找出規律,建立模型以預測或判斷新資料。類似人類從觀察與經驗學習,機器學習分為三大類:監督式學習(Supervised Learning)、無監督式學習(Unsupervised Learning)與強化學習(Reinforcement Learning)。
3.1 機器學習三劍客
3.1.1 監督式學習
監督式學習類似童年學習辨認汽車的過程。觀察特徵(如四個輪子、兩個車燈),猜測(機車或腳踏車),由正確答案(汽車)修正認知。這種「預測—修正—再預測—再修正」的循環是監督式學習的核心,透過標籤(Label)回饋讓機器掌握判斷能力。
3.1.1.1 簡單線性回歸
簡單線性回歸是基本機器學習演算法,用於發現自變量(x)與應變量(y)的關聯性。其公式為:
$$
\hat{y} = w \cdot x + b
$$
其中:
- (y):模型預測的 y 值
- (x):輸入的自變量(特徵)
- (w):斜率,代表 x 對 y 的影響程度
- (b):截距,當 x 為 0 時的 y 預測值
目標是找出最佳 (w) 與 (b),使 (y) 接近實際 y 值,透過最小化損失函數(如均方誤差,MSE)達成。
3.1.1.2 誤差函數
誤差函數常用:
- 平方誤差
- 絕對誤差
3.1.1.3 梯度下降優化演算法
核心概念
機器學習的核心目標:
找出一組最佳參數,使模型預測值與實際值的誤差最小。
常用的誤差衡量指標:均方誤差(SME)
$$
\text{SME} = \frac{1}{2n} \sum (y - \hat{y})^2
$$
什麼是梯度下降?
梯度下降(Gradient Descent)是一種優化演算法(Optimization Algorithm),
目的是透過不斷調整參數,最小化損失函數。
應用於
- 監督式學習(Supervised Learning)
- 模型訓練過程中的參數調整(如權重
w、偏差b)
簡單理解
你站在一座高山上(誤差最大處),但迷失了方向,現在你的目標是一步步走到平地(誤差最小的地方)去。
對你當下的位置取斜率(也就是求梯度 L)
看這個坡是往上還是往下走比較快接近地面
梯度告訴你哪個方向「誤差增加得最快」
所以我們就反方向走 —— 因為我們要讓誤差減少
這時候就要用到 學習率(learning rate) 來控制你的「步伐大小」:
學習率太大:你可能一下子走過頭,甚至不斷震盪、來回跳,無法穩定落地。
學習率太小:每次移動太少,你可能永遠走不到平地,太慢了!
總結公式
$$
w := w - \eta \cdot \frac{\partial J}{\partial w}
$$
$$
b := b - \eta \cdot \frac{\partial J}{\partial b}
$$
詳細推導請參考
(待更新)
3.1.1.4 多元線性回歸
(待更新)
3.1.1.5 邏輯回歸
(待更新)
3.1.1.6 二元交叉熵
(待更新)
3.2 無監督式學習
(待更新)
3.3 強化學習
(待更新)
4. 參考資料
- 幻影狐狸,2020,〈第12屆iThome 鐵人賽〉,「窺探人工智慧與資料科學的面貌系列 第 4. 篇」 https://ithelp.ithome.com.tw/articles/10239971
- 什麼是平均絕對誤差-mean-absolute-error-mae?