什麼是機器學習(Machine Learning)?分類問題:這是 A 類 或 B 類嗎? 異常值判斷:這很奇怪嗎? 預測性分析:有多少? 分群問題:這是如何組織的? 增強學習協助決策:我接下來該怎麼辦?
當我們蒐集到相關、精確、連貫、足夠資料就可以挑選合適的演算法進行模型的的建置。 為什麼選擇 Python?在資料科學和機器學習領域最重要的兩大程式語言就是 Python 和 R,Python 簡潔易學、應用範圍廣(不限於數據分析)且學習曲線平緩,適合作為第一個入門的程式語言,透過 pandas、SciPy/NumPy、sckikit-learn、matplotlib 和 statsmodels 可以進行數據分析的工作,適合工程任務和需要和網路應用程式整合的專案。至於 R 由於是統計學家開發的程式語言,則是擅長於統計分析、圖表繪製,常用於學術研究領域,建議也要有一定程度的掌握。一般情況下 Python 和 R 並非互斥,而是互補,許多資料工程師、科學家往往是在 Python 和 R 兩個語言中轉換,小量模型驗證、統計分析和圖表繪製使用 R,當要撰寫演算法和資料庫、網路服務互動等情況時在移轉到 Python。為了降低學習成本,我們先使用 Python 進行介紹。 如何開始入門機器學習?事實上,資料科學是個跨領域學門,在學習如何使用 Python 進行機器學習過程中通常必須掌握以下知識: - 機器學習演算法
- Python 程式語言和資料分析函式庫
- 線性代數/統計學等相關學門
- 專業領域的領域知識(Domain Knowledge)
為了掌握以上三大領域知識(我們先把焦點放在機器學習核心技法,暫時忽略資料科學中對於領域知識的掌握),具體來說我們可以有以下步驟可以參考: 總結以上整理了一些機器學習網路學習資源,若你累積一些小小經驗後,不妨挑戰一下 Kaggle 測試一下自己的實力並累積更多數據分析的經驗。
|