【R微课】14天用R做机器学习第四天

-回复 -浏览
楼主 2018-04-21 03:53:47
举报 只看此人 收藏本贴 楼主

编者按:14天用R做机器学习的系列微课,小编已经说了前三天的内容,感谢伙伴们的阅读和实践。第三天的内容,有小伙伴们说有些简单。小编要说,第三天的内容非常重要,内容的可扩展性很大,已经指明了学习的方向,即R中如何加载标准化数据集?有很多问题可以去思考和实践,比方说什么是标准数据集?如何让原始的数据集转化为标准数据集?如何把不同格式或者类型的数据集转化为标准数据集。做机器学习一定需要数据集。




第四天:从数据中找到有用的真相——数据理解之描述统计

伙伴们,当我们加载完毕数据集后,我们就需要去理解数据,读懂数据。你对数据理解的越透彻,你所建立的模型也会越好或者精准。如何做数据理解呢?对数据进行描述统计是一种很好的方法。第四天的学习,伙伴们要实践这些内容:

1 实践head()函数查看数据集开头6条记录(小编在第三天里面已经应用了);

2 实践dim()函数查看数据集的维度;

3 实践str()函数查看数据集的结构;

4 实践names()函数查看数据集的属性名(特征名);

5 实践attributes()函数查看对象的属性列表;

6 实践summary()函数查看对象的摘要;

7 实践cor()函数查看相关系数据矩阵。


“实践出真知”,小编以iris数据集为例,Coding如下。


拓展:若是要看10行记录,怎么处理?若是要看最后面6行记录,怎么实现?




拓展:数据集的结构分析,请伙伴们自己实践,运行str(iris)函数后,观察得到了什么结果。我们做数据分析,对于结果的解读,也是非常重要的能力。


说明:对数据集进行摘要分析,即用summary()函数,1表示数值型属性的返回值,包括最小值、最大值、均值、中位数、第一四分位数和第三四分位数;2表示因子属性的返回值,每种因子类型的计数,三种类型的花,分别都是50个样本。


最后,伙伴们思考这些问题?

1 均值和中位数有什么区别,有什么作用?如何选择?

2 分位数这个概念怎么定义,四分位数表示什么意思?

3 数据集怎么理解?数据集如何做描述性统计?

4 数据探索性分析如何做?


期待伙伴们的留言和见解。

第五天的内容,小编会继续来说。伙伴们,下回见。


伙伴们,数据人网发起了【猴年我要写100篇原创数据主题作品】活动,欢迎伙伴们积极参与进来。知识积累和共享,从数据人网(http://shujuren.org)启程。数据人网核心价值观:利他、真实、热爱、感恩。了解活动详情的伙伴们,请加小编微信,注明参与活动。您的地盘您做主,数据人网是您的后勤服务。当然了,小编已经在投入到这个活动了。2016年12月13日,让我们一起来总结!


更多精彩内容,请点击阅读原文。

数据人网(http://shujuren.org),数据人学习、交流和分享的平台,专注于从数据中学习,努力发觉数据之洞见,积极利用数据之价值。为“让人懂数据、用数据”之使命坚持做点事情。大家可以来投稿,做分享和传播,可以给反馈。您有什么想法,请反馈给我们,谢谢。数据人网,我们共建和共享。

数据人网构建了数据人圈子,诚邀热爱数据和应用数据的伙伴们入群加小编微信:luqin360,注明入圈子。

数据人网平台的QQ社群,欢迎伙伴们按需加入。


     

数据人网官方公众号:数据科学自媒体,分享数据科学干货。

      

      



我要推荐
转发到