概率论从入门到放弃?布朗学霸火到宕机的毕业作品,让统计“看得见”(2)
时间:2019-01-12 10:49 来源:百度新闻 作者:巧天工 点击:次
从个人主页上可以看出,Daniel还是一个生活非常丰富多彩的极客:运动爱好者,他曾跟一个七人团队在北极徒步600km,跟两个伙伴在以色列境内刷了1000km,独自穿越650km的太平洋(601099,股吧)山脊步道;生活上也非常精致,喜欢做饭,尤其是酿酒。 有颜值又好玩的统计概念入门平台 最后,还是跟文摘菌一起来探索一下这个网站。 这个网站的界面非常友好漂亮。它的导引菜单和有趣漂亮的界面吸引着笔者把上面所有内容浏览了一遍。这些作品里主要用到了D3和Mike Bostock’s data visualization software实现。 拿这个线性回归章节中的最小二乘法做个简单介绍。 第一步:选择不同的数据集,这里有四组。它所使用的数据集是:安斯库姆四重奏,它由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造的,用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。 第二步:拖动右侧方形滑块的点。你会看到你随意点击拉动的方块大小,最终影响到这条直线的斜率,即线性回归的相关系数不断变化,包括SSE(残差平方和)的变化。如图所示,你不理解一些特定的字母意义,也可以点击查看介绍。我们通过互动理解了这个方程的每一部分。 接着下一节【相关性】,用的是Edgar Anderson的著名的 鸢尾花(Iris flower)数据集来显示数据的视觉特征。诸位曾经学习datamining, analytics, stat, biostat的同学,就会懂得这朵花。 其实人们对于对于可见的事物更容易理解,对于抽象理论的理解应该被放在入门以后去深入。 再换一个板块也是一样简单操作,只需点点鼠标就能将大样本绘制出图形。点击不同的格子: (安德森鸢尾花卉数据集指的是,最初埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据,后由罗纳德·费雪作为判别分析的一个例子,运用到统计学中。其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合,费雪发展了一个线性判别分析以确定其属种。) 想想当年学数学时候的痛苦,遥远的黑板与听不清教师的方言,都让我们对美妙的数学望而却步,今天有这么多学习工具,有一个探索的心,学习还是问题吗? 本文首发于微信公众号:大数据文摘。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。 (责任编辑:赵艳萍 HF094) (责任编辑:波少) |