斯坦福229:机器学习【P1 Welcome】¶
视频源链接¶
【ML】斯坦福CS229:机器学习中英文字幕 by Andrew Ng
Prerequisite 先决条件¶
- 基本的计算机技能和原理知识:
- 时间复杂度
- 队列,堆栈,二叉树...
- 概率
- 随机变量
- 期望、方差
- 基本线性代数
- 矩阵、向量
- 向量乘积
- 特征向量,本征向量(eigenvector)
- Python、NumPy、Octave、MATLAB
Project (不一定做的作业)¶
完成有意义的机器学习项目
1~3人的队伍进行完成project
如果项目过大也可以申请4人组,但是评分难度也会相应提高
Quick Overview¶
What is ML¶
宏观上说,每当出现技术中断的时候,机器学习给我们重塑世界大部分领域的独特机会,包括改善医疗保健系统,提供个性化家教,优化民主制度。有趣的是,有很多人渴望我们用ML这个工具来帮助他们。同样,也只有你掌握了这些工具,你才有可能创造一些有意义的事情。
不妨再详细一些,Arthur Samuel曾将机器学习定义为 使计算机能够在没有明确编程的情况下进行学习的研究领域
。也就是说,机器学习能够在没有显示编程的条件下,在一些狭窄的特定领域上,表现出比人类更好的效果。
而后,Tom Mitchell将机器学习定义为一个适当的学习问题: 如果计算机程序在某任务T上的性能(用性能度量P来测量表征)随着经验E的增长而提升,那么机器就可以从经验E中学习任务T和某些性能度量P
。
Supervised Learning¶
假设你有一个关于房价的数据集,那么你可以将你的数据集以散点的形式表示在二维坐标系上,其中x轴可以是尺寸,y轴是房价。再通过直线拟合的方式,我们可以知道任意尺寸的房子对应的房价。
同样的在监督学习中,我们的输入是一个(x,y)的数据集,我们的目标输出是形成一个从x到y的映射。
如上这个示例是一个回归问题,也就是你要测量的y值是连续的值。当然除了这种情况,还有一种y值离散的分类问题,例如x表示肿瘤大小,而y表示肿瘤是良性或者恶性。此时y的取值范围就只有{0,1}。
到目前为止,我们的所有例子都是一维的输入,但实际上,对于很多真实的机器学习应用程序而言,输入x是多维度的。
Machine Learning Strategy(Learning Theory)¶
Deep Learning¶
Unsupervised Learning¶
无监督学习相比于监督学习的区别在于:两者都是给定了一套输入的数据集,而监督学习要求在询问一个x时能够推算出y的取值,而无监督学习则是需要总结出这个数据集存在的特点。
Example:
在一个录音室中放了多个话筒,有多个人在房间内说话,你需要如何将这些人的声音区分开。
ICA(Independent Components Analysis)独立组件分析
Reinforcemeny Learning¶
强化学习是虽然你并不知道一个目标的实现方法,但是你可以通过判定一个假定方法的结果来使得机器知道这个方法是好的。在数以万计的假定方法判定后,可以得出最好的方法。就像你养狗训练狗一样,你并不能告诉狗应该怎么做,但是你可以在狗这么做之后给狗一定的反馈(reward signal),于是时间长了,狗就会更倾向于做正确的事而少做坏事了。