推荐书: Python开发最佳实践

李宏毅机器学习教程2:误差来自哪里

分享时@该用户已经被封, 我就能回答你的问题奥!

文章目录
  1. 1. 视频
  2. 2. 实践代码
  3. 3. 字幕转录

很多人联系我说是否能出一系列机器学习的视频教程, 我觉得目前市场上有很多大神的经典课程, 都讲的比我好, 我不想再创造很多轮子, 但是, 这些大神的作品都缺乏一定的配套资源, 比如练习和实验代码, 并且缺少系统的学习路线, 所以本站打算做一个整理, 把一些经典课程整理出来, 并配上相应的学习资料, 让大神的课程发挥更大的作用。 以下是本站整理的李宏毅老师的机器学习视频教程系列, 本站先放视频, 然后会逐步整理配套的代码/习题/笔记等, 只是希望这个系列教程能对大家有帮助。下面是《李宏毅机器学习教程2:误差来自哪里》的视频内容:


视频

实践代码

代码正在整理中…

字幕转录

去找最小的、最好的function,再来我们要问的问题是,我们上一次有看到说如果你选择不同的functionset你就是选择不同的model你在testingdata上也会得到不同的error而且越复杂的model不见得会给你越低的error你会发现说1到5分别代表说我们今天做linearregression的时候我们考虑的input是1次、1次2次、1次2次3次一直到1次到5次那你发现,最复杂的model,其实它的performance是最差的今天我们要讨论的问题就是这个error来自什么地方。其实error有两个来源一个是来自于bias一个是来自于variance。了解这个error的来源其实是重要的因为你常常做一下machinelearning然后做完就发现说,得到一个errorrate比如说60%的errorrate接下来你要怎么improve你的model呢?如果你没有什么方向的话毫无头绪的乱做,你就没有效率如果你今天可以诊断你的error的来源比如说error可以分成两种,一种是来自bias,一种是来自variance如果你可以诊断你的error的来源你就可以挑选适当的方法来improve你的model我们在上週的时候我们举的例子是这样我们要做宝可梦进化后的CP值的估测也就是说我们要找一个function这个functioninput一只宝可梦output就是他进化以后的CP值那这个function理论上有一个最佳的function这个理论上最佳的function我们写成f̂那这个理论上最佳的function我们是不知道的只有Niantic知道Niantic大家知道是甚么吗?就是做宝可梦的那个公司因为他一定是用那个程式写出来的所以如果你知道那个程式的话你就可以知道input一个宝可梦照理说,output他的进化后的CP值应该是甚么但是问题就是这个function,f̂是你不知道的那你能够做的事情是你有一些trainingdata你实际去抓一些宝可梦然后去找一个根据你的trainingdata所学出来、所找到的最好的functionf那这个f并不会真的等于f̂因为根本不知道真的f̂是什么样子。那个f可能不等于f̂这个f呢,它就好像是一个f̂的估测值一样它的estimator一样所以就想成说现在是在打靶f̂是靶的中心点你今天收集到一些data做training以后你找到一个你觉得最好的functionf这个f它不等于f̂它是在把纸上的另外一个位置这个f*跟这个f̂它们中间有一段距离这个距离来自于两件事它可能来自于bias也有可能来自于variance那一个estimator的bias和variance指的是甚么呢?我们先举一个你在机率里面看过的例子这个地方在机率我想应该是机率与统计,你应该是学过的所以你可以很快地看过去假设我们现在有一个variablex我想要估测它的mean怎么做呢?假设这个variablex它的mean是μ它的variance是σ²那我要估测mean的话我怎么做呢?我就先sampleN个点我就对这个variablesampleN个点x^1,x^2….到x^N我们再把这N个点算平均值得到m这个N个点算出来的平均值会跟μ一样吗?其实不会,对不对?除非你sample无穷多个点不然如果你只sample比如说5个点、10个点,n=5跟10这个μ跟m它们不见得是一样的所以假设这个是μ的value现在你做一次sample你samplen个点算出来的m可能不会跟μ一样。

本教程由mlln.cn站长整理和发布, 有需求请关注我的网站DataScienct mlln.cn