轉行人工智能之前，你需要掌握這 5 項技能！

來源：北大青鳥總部 2019年07月03日 11:30

摘要：轉行人工智能之前，你需要掌握這 5 項技能！

最近，人工智能很火，所以導致很多人都在轉行人工智能，可有很多人都不知道人工智能都做什么的，應該掌握什么技能？今天，小編在轉行人工智能之前，你需要掌握的 5 項技能，希望能夠幫助到大家！

1562124507(1).jpg

1—統(tǒng)計學

為了理解機器學習，堅實的統(tǒng)計學基礎知識是必須的。這包含了以下方面：

評估模型成功的不同方法（精確度、召回率（recall）、特征曲線下的面積等）。你選擇的損失函數(shù)和度量是如何測量你的模型輸出的偏差的。

如何理解過擬合和欠擬合，以及偏差/變量的平衡。

模型的結果與置信度之間存在什么聯(lián)系。

2—機器學習理論

當你在訓練神經網絡時，實際上發(fā)生了什么？是什么使這些任務可行而其它的不行呢？對待該問題的好方法是，在深入理解理論之前，首先通過圖片和范例理解機器學習。

需要理解的概念，從不同的損失函數(shù)工作的方法，到反向傳播有用的原因，最后要明白計算圖究竟是什么。深入理解構建函數(shù)模型并且與團隊中其他人有效地對其進行溝通非常關鍵。

3—數(shù)據(jù)糾紛

問任何一個數(shù)據(jù)科學家，他們會告訴你其 90% 的工作是數(shù)據(jù)再加工（data munging）。它對于應用人工智能的重要性就如同你的模型的成功與你的數(shù)據(jù)的質量（和數(shù)量）高度相關一般。數(shù)據(jù)在許多方面起作用，可分為以下幾個類別：

獲得數(shù)據(jù)（找到好的數(shù)據(jù)源，正確的測定數(shù)據(jù)的質量和分類，獲得并推測標簽）

數(shù)據(jù)預處理（補全缺失值（missing data），特征工程，數(shù)據(jù)增強，數(shù)據(jù)歸一化，拆分交叉檢驗）

數(shù)據(jù)后處理（使模型的輸出有用，去除人為數(shù)據(jù)，處理特殊情況和異常值）

熟悉數(shù)據(jù)糾紛（data wrangling）最好的方法是掌握混亂的數(shù)據(jù)集，并嘗試使用它。網上有很多的數(shù)據(jù)集并且許多社交媒體和新聞媒體網站都有著很好的應用程序接口。

遵循以下步驟是一個不錯的學習方法：

掌握一個開源的數(shù)據(jù)集并對其進行檢測。它有多大（觀測值和特征值的數(shù)量）？數(shù)據(jù)是如何分布的？是否有缺失值或者不含異常值？

開始在原始數(shù)據(jù)和有用數(shù)據(jù)之間構建一條轉換的通道?；靥钍侨绾蝸G失值的呢？處理異常值最合適的方法是什么？你如何歸一化數(shù)據(jù)？你可以創(chuàng)造更多的具有表現(xiàn)力的特征嗎

測試你的轉換數(shù)據(jù)集。

4—調試/調節(jié)模型

對一些不收斂或包含與調試代碼非常不同的過程但是給出合理結果的機器學習算法進行調試。同樣地，找到正確的架構和超參數(shù)需要堅實的理論基礎，良好的基礎工作可以測試不同的配置。

由于該領域在向前發(fā)展，調試模型的方法也在不斷進化。以下是從我們的討論和部署反映了 KISS 理論和軟件工程師之間的熟悉度的模型的經驗中得來的「合理性檢查（sanity checks）」。

盡快從已經被證明可以在類似數(shù)據(jù)集上工作的簡單模型入手，掌握基準線。古典統(tǒng)計學習模型（線性回歸、最近鄰等）或者簡單的啟發(fā)式方法或規(guī)則會讓你明白 80% 的方法并且更快地進行實現(xiàn)。入門的時候，以最簡單的方法去解決問題（查看谷歌機器學習規(guī)則的第一點）。

如果你決定訓練一個更加復雜的模型以在基線上有所提升，不妨從你的數(shù)據(jù)集的一個小部分入手，在分數(shù)據(jù)集上訓練模型使其過擬合。這保證了你的模型最起碼的學習能力。不斷地在模型上迭代直到你可以過擬合 5% 的數(shù)據(jù)。

一旦你開始在更多的數(shù)據(jù)上訓練，超參數(shù)就開始變的更重要了。理解這些參數(shù)背后的理論從而去理解什么是要探索的合理值。

使用理論方法調節(jié)你的模型。寫下你使用的最低限度的配置并對其結果進行總結。理想情況下，使用自動超參數(shù)搜索策略。在最開始，隨機搜尋可能就足夠了。盡可能地去探索更多理論方法吧。

5—軟件工程

許多應用機器學習允許你充分利用軟件工程技巧，有時會有小小的轉彎。這些技巧包括：

測試轉換線路的不同方面（數(shù)據(jù)預處理和增強、輸入和輸出清除、模型推理時間）構建模塊化的代碼和可重復的實驗加速方法，在訓練的不同階段備份模型（檢查點），建立一個分布式基礎架構來運行訓練、超參數(shù)搜索或者使其更有效地推理。

以上的資源幫助你處理切實的機器學習問題。但是應用人工智能領域變化的特別快，學習的最好方式是動手實踐并且真正地嘗試構建一個完整的解決方案去解決一個實際的問題。

版權說明：部分內容來源于網絡，如有侵權，請聯(lián)系小編進行刪除!