总结与展望

全书总结

亲爱的读者,至此你已经完成了《动手学机器学习》全部章节的学习,祝贺你!本书以“动手学”为编写机器学习内容的主要思路,将主要的机器学习基础知识分为了四部分。

  • 第一部分以有监督学习中最简单的非参数化模型KNN和参数化线性回归为主要案例,通过讲解模型原理和代码让读者了解这两类机器学习模型,并由此进一步了解机器学习中的基本思想,包括过拟合、正则化方法、训练和验证方法等。
  • 第二部分以有监督学习的参数化模型为主体,包括线性模型、双线性模型、神经网络模型,通过讲解参数化模型训练中如何设计损失函数以及对参数求梯度来更新模型参数的过程,让读者了解到实践中主要适用的机器学习模型的工作原理和主要的代码实现方式。
  • 第三部分则关注有监督学习中的非参数化模型,包括支持向量机和多种树模型,通过对模型原理和代码实践的讲解,让读者掌握各种非参数化模型背后的统一思维方式,体会非参数化模型和参数化模型的不同与优劣性。
  • 第四部分专注讨论无监督学习任务和模型,包括聚类、降维、概率图模型、EM算法、自动编码器,帮助读者了解并掌握无监督学习相关知识,体会其与有监督学习的区别。

全书共17个技术章节,每个都以模型原理讲解和对应可运行的代码块相互穿插来呈现,希望这样的编纂方式能够帮助你更加高效地入门和深入了解机器学习的基础知识,并紧密联系模型原理和代码实践,获得第一手的机器学习实现和调试经验。

不过要知道,《动手学机器学习》包含的内容都是机器学习最基础的知识。目前机器学习是人工智能领域发展最快速的方向,每年都有无数新理论、新模型、新算法涌现出来。如果你发现自己对机器学习很感兴趣,那么请拥抱它,持续跟进学习机器学习,尝试在你的领域问题中使用机器学习来提升效率,甚至开展机器学习的研究,为机器学习领域做出你的贡献!

未来展望

机器学习现在已经作为一种从数据中产生模型的工具,在服务人民生活的方方面面。在不少领域的业务中,我们已经习惯将收集的数据构建一个封闭的训练集,选择并训练一个机器学习模型,并将其投入到下一段时间的预测或决策服务中,但其实机器学习还有更大的潜力可以被挖掘和释放。以下从几个方面谈谈机器学习的未来发展。

  • 自动机器学习(auto-ML):在本书第一章中提到,机器学习工程师的一大工作重点是根据具体的任务和数据特性,选择一个适合的机器学习模型。这包括选择机器学习模型的类型,以及选择模型的架构或者调试超参数。今年涌现的自动机器学习技术则希望凭借强化的算力平台服务来降低机器学习工程师的模型选择和调参门槛。自动机器学习的服务往往由一些云计算平台来提供,这样用户只需关注任务和数据,不用雇用机器学习工程师就能得到一个服务自己业务的性能优秀的机器学习模型。
  • 元学习(meta learning):元学习又称“学习如何学习(learning to learn)”。试想如果你已经学习了100个任务,给定一个新的类似的任务,你能否更好更高效地学习完成这个任务呢?对于人类来说,这个答案显然是肯定的,因为我们总是可以在学习一个任务的过程中,积累一些更高层面的知识或者技能,进而在面对新任务时能更加从容和高效。那么机器学习是否也能做到呢?在元学习中,我们期望让模型也能做到“学习如何学习”。其中,元训练集包括了多个任务的训练集和测试集,而元测试阶段则给出一些新任务的训练集和测试集,评测元学习算法的在测试集上的学习速度和表现。
  • 持续学习(continual learning)和终身学习(lifelong learning):目前绝大部分机器学习任务都只涉及有限大小或固定的数据集,而如果一个机器可以一直喂入新的数据,它会学习成什么样呢?其实我们人就是在自己的人生中做持续学习,或者说是终身学习。对于体量接近无限、数据分布可能随时间变化的学习任务,一般的参数化模型无法记住早期学到的知识,造成灾难性遗忘,而非参数化的模型则很难有算力能存下所有数据点。持续学习和终身学习使得机器学习能从固定、孤立的小任务中扩展出来,利用一些可以利用的数据进行充分地学习,被称为通往通用人工智能的关键一步。
  • 因果学习(causal machine learning):传统监督学习任务中,一般特征都是直接同时给定的,机器学习模型根据数据特征预测数据标签。这样的学习方式容易学习出数据集中特征和标签的相关性,但不一定能学习到特征到标签的因果性。然而许多情况下,后者其实才是预测模型真正应该学到的模式。例如收集的数据中,有感冒症状的人去医院被诊断为感冒,那么机器学习就会学到“去医院”和“有感冒症状”对预测是否感冒同等重要,但去医院其实和得感冒本身是无关的。能学到因果关系的机器学习模型往往能有更好的泛化性能,更能在分布外(out-of-distribution)的数据预测上获得很大的成功。
  • 知识融入的学习(learning with knowledge base):正如第一章中提到的,机器学习的基础是数理统计,但人类的智慧中包含逻辑推理举一反三的能力。支撑人工智能的技术本身也包含除了学习以外的搜索、推理和博弈。因此,如何融合这些不同的人工智能技术十分关键,而融入知识的机器学习模型是这一研究方向的关键课题。一种结合知识库检索结果和参数化模型的学习框架是这个方向的一种解决思路。

以上讨论的技术大都还在实验室研究的阶段。一旦这些技术取得突破,我们有理由相信机器学习会突破当前作为封闭环境中产生模型的工具的角色限制,成长出新的服务形式,发挥更加的作用和影响力,为人民的生产生活带来更广大的便利。