1 of 35

Machine Learning - �Basic Principles & Practice�8. An Alternative Margin

Cong Li 李聪

机器学习 - 基础原理与实践

8. 别样的间距

2 of 35

Margin 间距

  • Margin in Linear Classifiers �线性分类器的间距
    • Limit classification capability & improve accuracy 限制分类能力并提升准确率
      • As a reflection of Occam’s Razor�奥卡姆剃刀的一种呈现方式
  • Limitation 局限性
    • Apply to linear classifiers only�仅适用于线性分类器
      • Distance from a sample to a hyperplane�从一个数据点到超平面的距离

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

3 of 35

The Alternative 替代品

  • Alternative Definition of Margin �另一种间距的定义
    • Apply to any regression function for classification 用于进行分类的回归函数
    • Also as a reflection of Occam’s Razor�也是奥卡姆剃刀的一种呈现方式
  • Here We Start from 这里我们始于
    • Another type of linear classifier: logistic regression 另一种线性分类器:对数几率回归

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

4 of 35

Logistic Regression �对数几率回归

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Numerical function for probability estimation 用于概率估计的数值函数

Output 0 or 1 for math elegance 输出0或1(以求数学上的优雅)

 

 

 

 

 

5 of 35

Classification 分类

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

 

 

 

6 of 35

Classification 分类

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

 

 

 

7 of 35

Learning 学习

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

We start from the classical principle: maximum likelihood estimation

我们从经典法则开始:极大似然估计

 

8 of 35

Maximum Likelihood Estimation�极大似然估计

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Principle: we see the observations; we adjust the parameters to maximize the probability of the observations

原则:我们看到一些现象;我们调整参数,使得这些现象的概率尽可能地大

 

 

 

9 of 35

Maximum Likelihood Estimation�极大似然估计

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Principle: we see the observations; we adjust the parameters to maximize the probability of the observations

原则:我们看到一些现象;我们调整参数,使得这些现象的概率尽可能地大

 

 

 

10 of 35

Maximum Likelihood Estimation�极大似然估计

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Principle: we see the observations; we adjust the parameters to maximize the probability of the observations

原则:我们看到一些现象;我们调整参数,使得这些现象的概率尽可能地大

 

 

To make 使得

 

as large as possible 尽可能大

11 of 35

Transformation 变换

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

We do a transformation using the logarithm function

我们用对数函数作一个变换

 

 

 

12 of 35

Transformation 变换

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

We do a transformation using the logarithm function

我们用对数函数作一个变换

 

 

Equivalent to 等价于

 

13 of 35

Transformation 变换

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

We do a transformation using the logarithm function

我们用对数函数作一个变换

 

 

Then equivalent to 于是等价于

 

14 of 35

Regularization 调整

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

 

 

 

Regularization term

调整项

15 of 35

Rationale Behind Regularization 调整的根本原因

  •  

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

16 of 35

Problem of Learning 学习问题

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

 

How to solve the problem? 怎么解这个问题?

17 of 35

How to Learn 如何学习

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

Minimum around here

最小值在这里附近

18 of 35

How to Learn 如何学习

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Solution: gradient descent

解决方法:梯度下降

Start from here

从这里开始

 

19 of 35

How to Learn 如何学习

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Solution: gradient descent

解决方法:梯度下降

 

 

20 of 35

How to Learn 如何学习

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Solution: gradient descent

解决方法:梯度下降

 

21 of 35

How to Learn 如何学习

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Solution: gradient descent

解决方法:梯度下降

 

22 of 35

How to Learn 如何学习

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Solution: gradient descent

解决方法:梯度下降

Repeat the process

重复该过程

Stop if the change of loss becomes too small

当损失变化非常小的时候终止

23 of 35

Gradient Calculation 梯度计算 (1)

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

 

 

 

 

24 of 35

Gradient Calculation 梯度计算 (2)

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

25 of 35

Gradient Calculation 梯度计算 (3)

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

26 of 35

Practice 8.1 实践8.1

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Practice time: try logistic regression on the example�实践时刻:在这个例子上尝试对数几率回归

27 of 35

We Now Know 我们现在了解了

  • A New Algorithm 一个新的算法
    • To learn linear classifiers�用以学习线性分类器
  • Where Is the Relevance w/ Margin?�和间距的相关性在哪里?
    • Recall margin as some sort of confidence�记得间距是一种置信度
    • Logistic regression outputs a probability�对数几率回归给出了概率

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

28 of 35

An Alternative Margin�别样的间距

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

0

1

0.5

 

 

29 of 35

An Alternative Margin�别样的间距

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

0

1

0.5

 

 

30 of 35

An Alternative Margin�别样的间距

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

0

1

0.5

 

 

 

 

 

 

 

31 of 35

Math Theorem 数学定理

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

 

 

 

32 of 35

Upper Bound of Error 错误上界

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

 

 

 

 

33 of 35

Practice 8.2 实践8.2

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Practice time: try logistic regression on word sense disambiguation

实践时刻:将对数几率回归用于词义消歧

How does it perform? 它的表现如何?

34 of 35

Result 结果

Machine Learning – Basic Principles & Practice: 8. An Alternative Margin

机器学习 – 基础原理与实践:8. 别样的间距

Methods 方法

Accuracy 准确率

Nearest neighbor 最近邻

69.3%

Perceptron 感知器

83.6%

Perceptron w/ margin 带间距的感知器

85.7%

Logistic regression 对数几率回归

85.0%

35 of 35

The End