機器學習是人工智能的一個子集,它通過示例和經(jīng)驗教會計算機執(zhí)行任務,是研究和開發(fā)的熱門領域。我們每天使用的許多應用程序都使用機器學習算法,包括 AI 助手,Web 搜索和機器翻譯。
您的社交媒體新聞提要由機器學習算法提供支持。您、看到的推薦視頻是機器學習模型的結果。Spotify 的“發(fā)現(xiàn)周刊”利用機器學習算法的強大功能來創(chuàng)建符合您喜好的歌曲列表。
但是機器學習有許多不同的風格。在這篇文章中,我們將探討有監(jiān)督和無監(jiān)督學習,這是機器學習算法的兩個主要類別。每個子集由許多適合各種任務的不同算法組成。
關于機器學習的快速筆記
在深入研究有監(jiān)督和無監(jiān)督學習之前,我們先來了解一下什么是機器學習。當今的 AI 系統(tǒng)以最簡單的形式將輸入轉換為輸出。例如,圖像分類器將圖像或視頻幀作為輸入,并輸出圖像中包含的對象的種類。欺詐檢測算法將支付數(shù)據(jù)作為輸入,并輸出交易欺詐的可能性。下棋的 AI 將棋盤的當前狀態(tài)作為輸入并輸出下一個動作。
開發(fā)智能系統(tǒng)的經(jīng)典方法稱為符號人工智能,要求程序員明確指定將輸入映射到輸出的規(guī)則。盡管符號 AI 有很多好處,但在輸入可以以多種形式出現(xiàn)的領域中使用有限,例如計算機視覺,語音識別和自然語言處理。
相反,機器學習使用不同的方法來發(fā)展行為。在創(chuàng)建 ML 系統(tǒng)時,開發(fā)人員會創(chuàng)建一個通用結構,并在許多示例中進行培訓。這些示例可以是帶有相應圖像的圖片,國際象棋游戲數(shù)據(jù),客戶購買的物品,用戶聽過的歌曲或與 AI 模型要解決的問題有關的任何其他數(shù)據(jù)。在分析了訓練數(shù)據(jù)之后,機器學習算法對其內(nèi)部參數(shù)進行了調(diào)整,以能夠處理新的輸入數(shù)據(jù)。
監(jiān)督學習
Logistic 回歸是一種有監(jiān)督的機器學習算法,可以將輸入分類為不同的類。
如果您關注人工智能新聞,您可能已經(jīng)聽說過 AI 算法需要很多人工標記的示例。這些故事指的是監(jiān)督學習,這是機器學習算法中比較流行的類別。監(jiān)督式機器學習適用于您知道輸入數(shù)據(jù)結果的情況。假設您要創(chuàng)建一個圖像分類機器學習算法,該算法可以檢測貓,狗和馬的圖像。
要訓練 AI 模型,您必須收集貓,狗和馬照片的大型數(shù)據(jù)集。但是在將它們輸入機器學習算法之前,您必須使用它們各自類的名稱對其進行注釋。批注可能包括使用文件命名約定將每個類的圖像放在單獨的文件夾中,或將元數(shù)據(jù)附加到圖像文件中。這是費力的手動任務,在提到 AI 工廠的故事中經(jīng)常提到。
標記數(shù)據(jù)后,機器學習算法(例如卷積神經(jīng)網(wǎng)絡或支持向量機)將處理這些示例并開發(fā)可將每個圖像映射到其正確類別的數(shù)學模型。如果對 AI 模型進行足夠的帶標簽的示例訓練,它將能夠準確地檢測出包含貓,狗,馬的新圖像類別。
監(jiān)督機器學習解決了兩種類型的問題:分類和回歸。上面說明的示例是一個分類問題,其中機器學習模型必須將輸入放入特定的存儲桶或類別中。分類問題的另一個示例是語音識別。
回歸機器學習模型不限于特定類別。它們可以具有連續(xù)的無限值,例如客戶將為產(chǎn)品支付多少費用或明天下雨的可能性。
一些常見的監(jiān)督學習算法包括:
- 線性和邏輯回歸
- 樸素貝葉斯
- 支持向量機
- 決策樹和隨機森林
- 人工神經(jīng)網(wǎng)絡
- 無監(jiān)督學習

無監(jiān)督機器學習算法可以基于共享特征將數(shù)據(jù)劃分為集群
假設您是一個電子商務零售企業(yè)所有者,他擁有成千上萬的客戶銷售記錄。您想找出哪些客戶有共同的購買習慣,以便您可以使用該信息向他們提出相關建議并改善您的追加銷售政策。問題是您沒有預定義的類別將客戶劃分為多個類別。因此,您不能訓練監(jiān)督式機器學習模型來對客戶進行分類。
這是一個聚類問題,主要用于無監(jiān)督機器學習。與監(jiān)督學習不同,無監(jiān)督機器學習不需要標記數(shù)據(jù)。它仔細研究了訓練示例,并根據(jù)它們的共同特征將它們分為幾類。訓練有素的無監(jiān)督機器學習算法會將您的客戶劃分為相關的集群。這將幫助您根據(jù)客戶與集群中其他人的共同偏好來預測客戶將購買的產(chǎn)品。
K-means 是眾所周知的無監(jiān)督聚類機器學習算法。使用k均值的挑戰(zhàn)之一是知道將數(shù)據(jù)劃分為多少個群集。太少的包會打包不太相似的數(shù)據(jù),而太多的簇只會使您的模型復雜且不準確。除了聚類之外,無監(jiān)督學習還可以執(zhí)行降維。當數(shù)據(jù)集具有太多特征時,可以使用降維。假設您有一個有關客戶的信息表,該表有 100 列。擁有有關您的客戶的大量數(shù)據(jù)可能聽起來很有趣。但實際上并非如此。
隨著數(shù)據(jù)中功能數(shù)量的增加,您還將需要更大的樣本集來訓練準確的機器學習模型。您可能沒有足夠的樣本來訓練 100 列模型。太多的功能也增加了過度擬合的機會,這實際上意味著您的AI模型在訓練數(shù)據(jù)上表現(xiàn)良好,而在其他數(shù)據(jù)上表現(xiàn)不佳。
無監(jiān)督的機器學習算法可以分析數(shù)據(jù)并找到不相關的特征,可以將其刪除以簡化模型而不會失去寶貴的見解。例如,對于我們的客戶表,通過降維算法運行它之后,我們可能會發(fā)現(xiàn)與客戶的年齡和家庭住址相關的功能幾乎沒有關聯(lián),因此可以將其刪除。
主成分分析(PCA)是一種流行的降維機器學習算法。一些安全分析師還使用無監(jiān)督的機器學習進行異常檢測,以識別組織網(wǎng)絡中的惡意活動。
無監(jiān)督學習的好處之一是,它不需要監(jiān)督學習必須經(jīng)歷的費力的數(shù)據(jù)標記過程。但是,要權衡的是,評估其性能的有效性也非常困難。相反,通過將監(jiān)督學習算法的輸出與測試數(shù)據(jù)的實際標簽進行比較,可以很容易地衡量監(jiān)督學習算法的準確性。
原文鏈接:
https://ai.51cto.com/art/202006/617921.htm
來源:51cto