跳转至

Lifelong Learn: Machine Learning

(Statistical)Machine Learning, Data Mining

这里的机器学习主要是指统计机器学习,另外数据挖掘也是机器学习的一个分支,所以这里统一放在一起。

Books

(Statistical)Machine Learning

  • Learning From Data

    高屋建瓴之神作

    这本书正如其名,是介绍如何从数据中学习的书籍。 不说别的,仅这个书名就能看出这本书的高度。 如果你想要学习机器学习,这本书是一个很好的开始。 本书用通俗易懂的表述讲解了机器学习最为基础最为本质的概念,这足以让读者受益终生

  • Machine Learning in Action

    从零开始构建机器学习模型

    也是一本经典之作。不依赖任何机器学习库,从零开始构建机器学习模型。 这本书想要教给读者的东西是最难的,也是最宝贵最重要的:复现机器学习算法。 通过复现算法,我们才能真正理解算法的本质,而不是仅仅停留在调用库的层面。 正如 Richard Feynman 所说的那样:What I cannot create, I do not understand。 这本书就是通过教你 Create,来让你更好地 Understand,同时掌握 Recreate 的能力。

  • 统计学习方法

    中文机器学习书籍的经典之作

    这本书是我学习机器学习的第一本书,也是我认为目前国内难得的一本好书。 书的亮点在于对算法的推导和解释非常清晰,而且提供了一些结合具体数据的例子来作为理论知识的补充, 这些例子可以很大程度上加深我们对算法本地的理解。

  • 机器学习

    西瓜书

    这本书是国内机器学习领域的经典之作,也是很多人学习机器学习的第一本书。 但是我想说的是,这本并不是很适合作为入门书籍。 入门更加推荐上面的Learning from Data和《统计学习方法》, 原因很简单,西瓜书并没有大众吹捧的那么好。为什么说它不好?原因很多。最关键的一点是, 它专注于给你将 WHAT,HOW,对最终要的 WHY 几乎没有涉及。

Data Mining

  • Introduction to Data Mining

    数据挖掘导论

    中文书名为《数据挖掘导论》,翻译的是第一版,现在又出了英文第二版。内容比较丰富,比较适合入门(因为书籍并没有刻意避开复杂的地方,所以也并没有很简单)。

  • Chapman & Hall/CRC Data Mining and Knowledge Discovery Series

    Data Mining 技术的历史演进

    此系列包括了 CRC Press 自 2007 年以来的数据挖掘方面的书籍,从最初的 EXCEL, 到 SAS,再到 Python 和 R,进行着明显的演进。

Courses

  • Machine Learning(NYU, DS-GA 1003)

    非常好的 Machine Learning 课程,力荐!

    这门课程没有回避任何问题,对优化问题作出了很好的解释和说明。而且课程是站在一个相当高的角度 (基于 Risk) 来展开,很有启发性。课程资料及自己的习题解答放在 Github: NYU-ML

  • Introduction to Data-Centric AI

    DCAI

    Typical machine learning classes teach techniques to produce effective models for a given dataset. In real-world applications, data is messy and improving models is not the only way to get better performance. You can also improve the dataset itself rather than treating it as fixed. Data-Centric AI (DCAI) is an emerging science that studies techniques to improve datasets, which is often the best way to improve performance in practical ML applications. While good data scientists have long practiced this manually via ad hoc trial/error and intuition, DCAI considers the improvement of data as a systematic engineering discipline.

    This is the first-ever course on DCAI. This class covers algorithms to find and fix common issues in ML data and to construct better datasets, concentrating on data used in supervised learning tasks like classification. All material taught in this course is highly practical, focused on impactful aspects of real-world ML applications, rather than mathematical details of how particular models work. You can take this course to learn practical techniques not covered in most ML classes, which will help mitigate the “garbage in, garbage out” problem that plagues many real-world ML applications.

  • Introduction To Machine Learning

    高屋建瓴

    这是根据Understanding Machine Learning: From Theory to Algorithms 这本书找到的课程。

    这本书只看了开头几章,真的是高屋建瓴!而且对 PAC 理论的推导是我目前见过最为精彩而且容易懂的,所以打算把 DS-GA 1003 的完成度作为目标,配合课程,书籍,习题和答案将这 learning theory 这部分的理论补充起来!

  • Introduction to Machine Learning(CMU, 10-301 + 10-601)

    Introduction

    CMU 的 ML 课程。对我而言比较熟悉的算法,比如 Decision Tree,看这个课的 lecture notes 就感觉略简单了。但是一些不是很熟悉的算法如 Reinforcement Learning 这些,看这种 Introduction 级别的还是挺不错的。

  • Mining Massive Data Sets(Stanford, CS246, Winter 2020)

    MMDS

    聚焦算法的大规模工程部署,很值得学的课程

  • Machine Learning & Data Mining(Caltech, CS 155, Winter 2020)

    Caltech 机器学习

    Lecture notes 看着还不错

  • CS 189/289A-Introduction to Machine Learning

    Berkeley 统计机器学习

    理论讲的比较深入,给了很多有用的资料。(后面需要重点看的)

  • Foundations of Machine Learning-Fall2020

    硬核 ML Foundation

    书籍Foundations of Machine Learning作者开设的对应的课程

  • Machine Learning and Data Mining-CSC 411 Winter 2019

    Toronto 大学的机器学习课程

    选录进入此系列是因为这个课程覆盖面较全,虽然较为精简。然后也有配套的 homework。