基于知识分解的数据分析人才背景知识体系分析

2017-05-30 11:28彭之军
现代信息科技 2017年3期
关键词:机器学习数据分析

摘 要:随着数据时代的到来,数据分析人才现在受到各个行业的重视。而高校的数据分析人才培养体系暂未有公认的标准,本文旨在分析企业对数据分析人才的能力要求,对应知识分解的方式来研究数据分析人才背景课程体系的建立。

关键词:数据科学;机器学习;python;数据分析

中图分类号:TN915.11 文献标识码:A 文章编号:2096-4706(2017)03-0026-02

Analysis of Background Knowledge System of Data Analysis Based on Knowledge Decomposition

PENG Zhijun

(Neusoft Institute Guangdong,Foshan 528225,China)

Abstract: With the advent of the data age, data science talent is now the attention of various industries. And the university data science personnel training system yet to recognize the standard, this paper aims to analyze the ability of enterprises to data science talent requirements, corresponding to the way decomposition of knowledge to study the establishment of data personnel training system.

Keywords: data science; machine learning; python; data analysis

信息技术的广泛深入各行行业,每时每刻都在产生和存储海量的数据。数据的来源越来越多元化,网络入侵检测,传感器,网站访问点击记录,超市购物记录,银行的交易记录都会产生记录。

如何让这些数据产生价值?这就是数据分析工程師面临的问题。从这些原始数据抽取,整理,分析从而得到有价值的结论,从原始数据中抽取有价值信息的过程称为数据分析。

图1为数据分析的工作流程[1]。

现在用于数据分析的工具,处理传统的Excel和R语言和Matlab。Python语言由于它除了提供数据处理平台,它本身是一门通用的编程语言。它可以操作数据库,还可以开发Web应用程序。所以它越来越广泛地应用于数据分析领域。

根据对数据科学就业工作职位的调查,对于一名合格的数据分析工程师或者高级的数据科学家。他(她)所应该具有的知识结构如图2[1]。

本文分析Python被广泛使用的数据分析包NumPy库,Pandas库和机器学习库scikit-learn中所需要的背景知识对应的课程体系。

从图2可以看出数据分析师的所需的科学知识主要分为四个方面(除了沟通技巧等软技能)。

1 计算机科学

至少掌握C++、Java、Python等编程语言和一种用于统计的语言如R语言等。掌握常见的数据存储格式,如XML,JSON,CVS,XLS等。掌握在数据库系统中存储和读取数据。

2 数学和统计学

数据分析的目的已经称为数据建模的一种方法论。建模就必不可少的需要数学知识。数据分析也涉及大量的数学和统计学知识。数据分析使用的频率较高的统计技术有以下几点。

(1)贝叶斯方法;

(2)回归;

(3)聚类。

3 人工智能和机器学习

谷歌公司的AlphaGo战胜人类最顶尖的棋手向我们展示了人工智能和机器学习技术的强大之处。机器学习方法是目前数据分析领域最先进的工具之一。机器学习已经成为一个独立的人工智能分支,机器学习慢慢成为数据分析的基础工具,数据分析师至少要了解基本的机器学习知识。

4 业务领域知识

数据来源于各行各业,例如医学,金融,生物,物理等。对数据来源的业务熟悉,能够深入地理解数据从而更好地解释数据的含义。

以下我们将会对以Python语言的数据分析包中的各个知识点进行分解,需要的背景知识点。

在NumPy中主要的操作是数组的创建和运算等操作,这在任何计算机编程语言中都能学习到相关的或类似的背景知识。

NumPy中还要用到矩阵的运算,那就需要开发者具有线性代数的基础知识。

而在Pandas包也引用到了NumPy包,另外的DataFrame这种数据形式,需要学生具有数据结构的背景知识。

并且Pandas包新增统计功能,例如计算相关性(correlation)和协方差(covrariance),需要统计学的相关知识。

在对于文件的读取中,Pandas支持读取以上提到的XML,JSON,CVS,XLS以及HTML多种格式,这需要在计算机课程的课程中涉及到相关的知识,CVS和Excel非常简单但是XML和JSON以及HTML至少需要16-32学时的时间才能掌握。

而对于操作数据库中的数据,这需要有数据库的背景知识。

最后讨论机器学习算法的包。

机器学习的算法主要有三大部分:预测,分类和聚类。

其中贝叶斯方法基于概率论中的贝叶斯公式。而回归分析中简单的线性回归只需要学生掌握线性方程,这个知识点在高中数学中学习过,但是复杂的回归方法例如多项式回归和多元线性回归则必须要有统计学的相关知识。

5 结 论

由上表1可以看出。

(1)目前计算机科学中设置的主干课程基本都包含了《程序设计语言》《数据结构》《数据库》。而《Web开发》不是特别普遍。

(2)数学与统计学背景知识中,普通工科专业一般设置的三门数学相关课程《高等数学》《线性代数》《概率论与数理统计》都已经基本涵盖。在统计学基础不够,需要补充64学时左右的统计学课程。

(3)程序设计语言中开设Python的院校较少,如果没有开设但有其他面向独享编程的经验,需要补充32学时左右的对应课程

参考文献:

[1] [美]Rachel Schutt等 数据科学实战 [M].北京.人民邮电出版社,2015.

[2] [意]Fabio Nelli Python数据分析实战 [M].北京.人民邮电出版社,2016.

[3] [美]Brett Lantz 机器学习与R语言 [M].北京.机械工业出版社,2015.

作者简介:彭之军,男,讲师,高级工程师。研究方向:JavaEE企业信息系统开发、数据分析与机器学习。

猜你喜欢
机器学习数据分析
基于网络搜索数据的平遥旅游客流量预测分析
前缀字母为特征在维吾尔语文本情感分类中的研究
新常态下集团公司内部审计工作研究
浅析大数据时代对企业营销模式的影响
基于支持向量机的金融数据分析研究