经常有刚从事数据分析的职场萌新,问我做数据分析工作要学些什么,应该怎样规划学习路径。我会告诉他:如果你Excel还用的不溜的话,就先学学Excel,当你用Excel处理和分析一些小数据集没有问题的时候(具体表现就是:常用函数公式信手拈来,数据透视表,筛选,排序,图表绘制操作熟练),你就去学习SQL语言,然后用BI去分析去熟悉业务。然后到了一定阶段,你可以上手R或者Python。后面如果你能更进一步,可以去了解一些Spark等大数据框架。 为什么要学习Excel? 首先Excel是我们最常用的数据分析和处理工具,Excel的功能非常丰富,基本可以涵盖我们在之后在其它软件(SQL、BI、Python、R)中要学到的那些功能。 有的人可能会问,既然Excel这么强大,为什么还要学其它的工具?这是因为Excel是通过菜单的形式来进行操作的,很难实现自动化和功能复用,当然你也可以通过VBA来实现,用VBA也就是编程了,不过因为VBA这种语言学会了基本只能在office软件中使用,学习的投入成本和产出收益不成比例,不推荐学习,这是客观原因之一;另外就是Excel在处理比较大的数据集的时候,性能很差,并且经常崩溃。(虽然Excel2013及以上版本宣称可以容纳100+万条记录,但几万条数据就开始卡顿了)。 为什么Excel学完要学SQL? 客观原因是绝大部分数据分析岗都有SQL技能的要求。企业里面为了保证数据的安全性和管理的方便,数据都是统一存放在数据库中,从数据库中提取和查询数据需要使用SQL语言,甚至有的公司就是用SQL语言来做数据分析。 另外一个原因就是即使你先学了其它的工具,比如R,Python,甚至Spark等大数据框架,你会发现最后你还是得学习SQL。如果你先学习SQL,那么很多概念你都能在学习R,Python,Spark等更加复杂的工具之前弄清楚。对于后面的学习会有帮助。这就好比建房子,都是先打地基,然后一层一层的盖。 SQL语言的学习排在Excel之后,其它工具之前,还有一个很重要的原因就是,SQL可以在一定程度上帮Excel解决大数据集的问题,同时架起一个通往其它工具的桥梁。 关于数据库和SQL的学习,也是分为两篇,第一篇讲数据库以及表的概念。第二篇是SQL语句的掌握和数据库的操作。 一、数据库基础知识先谈一下我对数据库的理解。数据库顾名思义就是数据的集合,是由一张张数据表组成的。 放在物理实体上,是一堆写在磁盘上的文件,文件中有数据。这些最基础的数据组成了表(table),我们把它想象成一张Excel的sheet,如下图: 每一张表都有一个唯一标识,即主键,也就是ID。ID是数据库中重要的概念,叫做唯一标识符/主键,用来表示数据的唯一性。就相当于我们的身份证,是唯一的,有了身份证,就知道数据在哪了。 ID通常没有业务含义,就是一种唯一标识,每张表只能有一个主键,且主键通常是整数,主键一旦设立,值通常不允许修改。 数据库是表的集合。一个数据库中可以放多张表,我们给每张表命名,表与表之间能互相联系。联系就是数据能够对应匹配,正式名称叫联接,对应的操作叫做Join,我们想象成Excel中的vlookup。 比如上面两张图,左图是学生信息表,右图是老师信息表。左图的主键是学生ID,右图的主键是老师ID。细心的读者可能发现右图还有一个学生ID,这里的学生ID是专门用来联接用户表的,它并不是主键。只不过两张表通过学生ID这个唯一信息来关联。 但两张表关联也并不是信息能一一对应的,也会存在空缺的时候,比如: 那两表建立连接就会变成: 了解上面的概念,你就知道什么叫关系型数据库。简单说,它是由多张能互相联接的二维行列表格组成的数据库。在数据准备时,我们通常要建立表关联来分析。 |
本文地址:生活解惑频道 https://www.hubei88.com/jiehuo/562430.html ,楚汉网—湖北本地生活服务平台,捕捉湖北武汉生活大小事件动态,时时分享热点资讯,以及提供湖北各地吃喝玩乐,相亲交友,人才招聘,房产买卖,农产品批发,团购旅游门票,热点娱乐事件等一站式资讯,让您了解湖北的方方面面;另外,本站原创文章,禁止转载,违者必究,谢谢!