Sci论文 - 至繁归于至简,Sci论文网。 设为首页|加入收藏
当前位置:首页 > 教育论文 > 正文

数据科学与大数据技术专业核心课程建设的探索与研究(附论文PDF版下载)

发布时间:2018-08-12 23:18:51 文章来源:SCI论文网 我要评论














SCI论文(www.scipaper.net):
 
摘    要:
随着大数据时代的到来, 数据科学作为一门新兴学科迅速崛起。文章针对本科教育中数据科学相关人才的培养需求, 探讨数据科学的背景和特点、数据科学与大数据技术专业课程建设、主干课程教材建设以及实践平台建设等问题, 并给出建设性构想, 提出基本思路和建设原则。

关键词:
大数据; 数据科学; 课程体系建设; 教材建设;

基金: 教育部2017年度人文社会科学研究专项任务项目“工程科技人才培养研究” (编号17JDGC028); 福建省教育科学“十三五”规划2016年度重点课题“大数据时代数据科学类课程建设与教学研究” (编号FJJKCGZ16-018); 2016年度福建省自然科学基金项目“大规模学习问题中平衡学习效率与学习性能的随机策略研究” (编号2016J01750); 2016年度福建工程学院研究生教育教学改革研究项目“机器学习与数据挖掘课程建设” (编号GB-YJ-16-08) 的研究成果;

一、引言

在高速发展的信息化时代, 数据正以惊人的速度产出并渗透到各行各业, 成为重要的生产要素。IDC预测至2020年数据总量将增加至40ZB, 人均5.2TB。[1]伴随着人们对数据价值的认识不断深入, 大数据时代已经到来。数据科学也随之崛起成为一门独立的学科, 在学术与应用领域均受到广泛的关注。[2]

2016年, 教育部批准北京大学等3所高校开设“数据科学与大数据专业”, 2017年增至35所, 其中4所授予理学学位点, 其他则授予工学学位点。数据科学与大数据技术是新兴学科专业, 包含其课程体系在内的相关建设尚在发展与完善中。在此背景下, 本文将就数据科学与大数据技术核心课程建设相关问题, 探索应用型本科院校本科生相关素养的培养。

二、大数据背景下的数据科学

作为一门新兴学科, 数据科学严格的研究边界尚不十分清晰, 其基础理论、方法、技术与工具等都在不断发展变化中。比较共性的认识是, 数据科学是以科学的方法从数据中获取知识与智慧, 提供数据洞见的学科。

大数据背景下, 数据科学是以数据, 特别是大数据为研究对象, 以从数据中获取知识与智慧为主要目的, 以数学、统计学、计算机科学、可视化以及专业领域知识等为理论基础, 以数据采集、预处理、数据管理及数据计算等为研究内容的一门学科。基于文献[3], 我们绘制数据科学的韦恩图 (见图1) 。作为一门新兴学科, 笔者认为数据科学具有以下几个特点。

一是独立性。数据科学的方法体系与理论基础与现有统计学、计算机科学等学科联系紧密, 亦有明显区别。统计学一直是研究数据的科学, 但在数据科学框架下, 统计学自身发展也受到挑战。一方面, 数据科学中的“科学”部分会跳出统计学, 诸如拓扑学、随机场、几何甚至表示论等更一般的数学概念与理论也成为数据科学理论基础的重要组成部分。另一方面, 大数据背景下, 数据具有多类型、大规模、高速度与低价值密度等新特点, 相关算法的设计及其实现是数据科学的重要研究内容, 现有学科并不能全面覆盖。而计算机科学的研究对象是计算机软硬件系统本身, 并不直接以数据为研究对象。在其基础上增加数据科学相关内容, 只会使之臃肿并偏移自身的研究核心。数据科学是一门独立学科, 与统计学、计算机科学及其他相关学科是补充而非简单的替代关系。
\
图1 数据科学韦恩图

二是交叉性。数据科学涉及数学、统计学、计算机科学、信息论、机器学习、数据可视化、分布式与并行计算、大数据存储与管理等多学科、多领域相关知识, 其理论基础、研究方法已超出现有一级学科范围, 是一门典型的交叉性学科。同时, 其研究对象———大数据自身具有独特性质, 且在诸如金融、生物等不同应用领域呈现不同特点, 必须有应用领域专业知识的支撑, 需要新的专门性方法。

三是实践性。数据科学以从数据中获取知识为基本目的, 具有工程实践性特点。其流程包括数据化 (数据采集) 、数据预处理、探索性分析、建模、结果验证与展现以及模型部署与应用等完整过程。实际应用中, 数据科学项目更是一个交互、循环而不断完善的动态过程。新设本科专业“数据科学与大数据技术”, 其名称实际上已经体现科学与技术并重的特点。其重要构成部分———应用领域实务知识也体现出数据科学面向应用的实践性特点。为便于理解, 基于文献[4]我们绘制数据科学项目生命周期图 (见图2) 。

四是系统性。数据科学以数据特别是大数据为研究对象, 面临新的挑战与机遇, 需要基于现有多学科知识交叉融合、继承创新, 建立一套包括理论、方法、模型、技术、平台、工具以及应用实践等在内的完整、系统的知识体系。

\
图2 数据科学项目生命周期

三、数据科学与大数据技术专业课程体系建设

(一) 数据科学与大数据技术本科专业课程设置情况
2010年前后, 国外如哥伦比亚大学等一些著名高校开始设置数据科学相关专业硕士培养计划。据统计, 2015-2016年度QS世界排名前50的大学中有17所大学开设数据科学相关硕士培养计划, 其中10所在美国、6所在英国。[5]我国北京航空航天大学自2013年开设数据科学专业硕士培养计划, 清华大学于2014年开设大数据硕士培养计划, 复旦大学于2015年开设数据科学专业研究生培养计划。从世界范围来看, 绝大部分高校尚未在本科教育中将数据科学作为独立学科专业。我国部分高校则在数据科学本科教育方面迈出一大步。

就数据科学与大数据技术专业的课程建设而言, 我们以北京大学、中南大学以及笔者所在的福建工程学院初拟的培养方案为例进行探讨。其所拟主要课程 (见表1。*表示相应课程为新开课程) 。表中没有列入公共基础课以及素质教育类课程。3所学校均有开设诸如程序设计、数据结构、数据库、算法设计与分析等计算机科学相关课程, 也开设高等数学、线性代数 (几何) 、概率论与数理统计等数学公共基础课, 还设有丰富的实践环节与相关技能训练课程。

3所学校的课程设置架构基本一致, 涵盖数学基础、数据分析、计算机科学及大数据技术相关课程, 具体又各有侧重。北京大学的课程体现“理学”特点, 倾向于“数据科学”, 强调扎实的数学与数据分析基础;中南大学的课程则凸显其“大数据技术”特色, 相关课程丰富;福建工程学院的课程重视大数据技术应用, 数据分析方面的课程比重较大。
\
表1 数据科学与大数据专业所拟主要课程

作为新兴本科专业, 数据科学与大数据技术各方面的建设工作尚在发展与完善中。如, 笔者所在学校, 强调专业的实践性, 充分利用交通大数据资源及其在机电、土木与材料等学科上的相对优势, 开设“领域知识+大数据技术”特色课程, 培养符合地方产业需求的应用型人才。

(二) 数据科学与大数据技术专业课程体系
数据科学与大数据技术专业旨在培养全面掌握数据科学与大数据基础理论、基本技术与常用工具, 了解应用领域大数据, 能胜任大数据分析与挖掘、大数据处理系统开发与构建等工作的专门性科学技术人才, 其课程体系应完整覆盖所涉基础学科以及大数据对象引发的专门性问题。为求不失一般性, 我们从“科学” (数学、统计学、“数据数学”) 、“技术” (计算机科学与大数据技术) 及“应用与实务”三个基本方面给出数据科学与大数据技术本科专业主干课程体系的构想 (见表2) 。
\
表2 数据科学与大数据技术专业主干课程体系
 
具体建设中, 相关高校可根据自身特色做相应调整, 特别是应用与实务方面的课程, 可依托资源优势与时下人才需求开设, 协调好经济“快变量”与教育“慢变量”间的关系。因客观条件所限, 校内教育只是完善人才培养的一个子环节, 倾向于理论基础、基本技术与普适性技能的系统培养, 更多领域知识与实务素养则需要在实际工作环境中长期学习来养就。学校与产业联合培养大数据技术人才是当下重要的探索方向。

(三) 泛专业数据科学素养的培养
数据科学与实际应用领域知识的深度融合, 在实际项目中普遍采用团队合作方式, 需要既有领域专业背景又有一定数据科学素养的复合型人才。实际上, 很多非数据科学学科, 比如金融学[6]、医学信息学[7]等, 在大数据背景下也开始思考其数据科学素养的培养。依托专业领域, 建设数据科学类课程, 与大数据技术专业教育相辅相成, 方能适应不同层次的人才需求。实践中, 我们可设置“?+大数据”式的精简、融合类课程, 或设置与大数据技术交叉的“微专业”, 开设相对系统的数据科学系列课程, 培养领域知识与数据思维高度结合的“π” (两专多能) 型人才。

近年来, 我国高校不少专业已面向本科生开设诸如数据挖掘与商务智能等课程。比如笔者所在学校的信息与计算科学本科专业于2009年就开设了数据挖掘技术课程。数据科学单门课程建设的关键问题在于如何平衡教学课时与教学内容之间的关系。当前, 国内外已出版一些直接面向“数据科学”的优秀著作[8]。与现行数据挖掘、机器学习或应用统计学不同, 此类著作更具针对性、系统性, 充分考虑到大数据的冲击, 既让读者了解数据科学全貌, 又让其主要过程能基于开源工具平台实施落地。

对于新开课程, 笔者认为以直接开设“数据科学导论”为宜;对原已开设数据挖掘之类的相关课程, 应适当调整, 补充数据科学基础理论、大数据基本知识与技术, 相对系统地了解数据科学全貌。对应用型院校本科生, 其基本原则是理解数据科学的基本思想、落地大数据的通用方法与技术。

四、数据科学与大数据技术主干课程教材建设

数据科学是新兴学科, 针对性、系统性的教材尚在建设之中。围绕知行合一的理念, 其主干课程教材建设可从三个层面着手:课堂理论教学教材、学习指导书以及上机实验教材。具体建设内容可根据实际需要灵活组合。比如, 理论与实践性并重的课程可采用理论教学教材与上机实验教材组合;理论性强的课程可采用理论教学教材与学习指导书组合;又或者如文献[9], 理论与实践合一。具体有如下几种。

一是课堂理论教学教材。此类教材主要目标在于培养学生所习课程的“科学”素养, 使之理解课程所涉基本原理、方法或模型思想, 为技术实现与工具应用打下“知其所以然”的理论基础。其基本原则是广泛覆盖相关知识点、深入阐述代表性原理与方法、适当探讨前沿热门话题。

二是上机实验教材。此类教材主要目标在于培养学生所习课程的“技术”素养, 使之能基于相关平台熟练运用相关工具, 建立适当的模型, 解决某 (类) 实际问题, “知其然”进而“知其所以然”, 深入理解并落地所习原理方法。其基本原则是案例丰富而有代表性、基本技术细节详尽、综合性项目过程完整、前沿技术适当点拨。

三是学习指导书。指导书通常会充实教材相关细节、辨析模糊知识点、解析重点与难点, 拓展知识面, 详细解析课后练习, 并补充设计有针对性或指向性的习题。其目标在于为学生提供学习指导、为教师提供教学参考, 降低学生课堂学习阻力、减轻教师相关工作负荷, 基本原则是全面覆盖、深入难点、补充细节、开阔视野。

数据科学与大数据技术尚在快速发展中, 其实践工具更新快, 对于某些课程, “去教材”化或是一种有效途径。值得注意的是, “去教材”化对教师要求高, 需要教师对所讲授课程有深入理解与完整认识;“去教材”化也并非无教材, 只是教师相对自由地组织教学材料、把控教学过程;对学生要求也高, 需要学生在课堂内外能主动学习、探究相关问题。

五、数据科学与大数据技术实践平台建设

如前文所述, 数据科学实践性极强, 其工程素养需要在适当的实践平台上强化。相关院校应根据其人才培养目标, 结合自身软硬件条件, 建设适当的数据科学与大数据技术实践平台。

平台建设包括硬件与软件两个基本方面。诸如阿里云计算、亚马逊云平台就是比较知名的大数据硬件平台。它们通过虚拟化方式将多台或单台机器虚拟成资源池, 用户可以付费租用。诸如Hadoop、Spark等则是大数据软件计算平台。在处理大数据方面, Hadoop生态圈已经成为事实上的标准。[10]Hadoop是由Apache基金会开发的开源分布式系统基础构架, 解决了大数据两大问题:存储与分析, 即HDFS和MapReduce两大核心。

数据科学平台建设中, 各院校可根据需要, 充分利用Hadoop的开源性与灵活性, 将其合理部署在相关硬件平台上 (可以是单机) 。应注意的是, 并非所有数据科学问题都需要在大数据层面上处理。如文献[11]所言, 很多有意义的数据科学问题出现在数据库级别或文件级别可管理的规模上。下面我们从不同层面进行探讨。

一是分布式并行大数据计算平台。开设数据科学与大数据技术专业的院校, 通常其本身具备进行大数据存储、分析与计算的相关硬件设施。比如, 笔者所在学校就有云计算中心与大型存储设备, 并有实时交通大数据资源。在此情形下, 应着重处理好教学、科研与社会服务之间的关系, 合理配置相关资源。在教学需求方面, 可适当增加终端数量而降低单点算力配置, 在满足教学基本需求的条件下, 优先、优质保证科研与服务需求。此外, 学生应适当参与科研与社会服务, 提升其大数据技术的综合实践能力、开阔学术视野。

二是大数据教学实训平台。国内不少企业已经着手开发面向高校的大数据教学实训平台, 比如TipDM-H8, TipDM-H8能整合云存储、服务器与网络资源, 进而通过VMware虚拟化, 搭建私有云平台, 在云平台上进一步搭建基于Hadoop的大数据分析与挖掘平台。基于此类平台, 学生能了解数据科学项目全流程并能具体深入大数据技术相关细节。此外, 该类平台也有相应程序接口, 能灵活进行二次开发, 完成实际数据科学项目。

三是数据科学与大数据开源语言工具平台。分布式并行计算与Hadoop等相关技术有一定门槛, 同时, 并非所有数据科学学习者都需要全面掌握相关技术与工具。熟悉某 (几) 种通用性语言工具是泛专业背景下大多数数据科学与大数据技术学习者更实际的选择。R与Python是当下最受欢迎的数据科学开源语言工具, 其编程相对简单、易于学习, 同时其整合能力强, 能集成诸如C、C++、Java等多种语言, 可通过各种接口链接各类数据库, 进行跨平台兼容多操作系统, 一般学习者强化掌握其中一种即可。整体上, 相关院校应根据培养目标与自身条件灵活选择实践平台与语言工具。

六、结语

本文探讨了新兴学科专业数据科学与大数据技术课程建设的相关问题。我们从数据科学的背景与特点、数据科学与大数据技术专业课程体系建设、主干课程教材建设以及实践平台建设等方面做了一定探索, 给出建设性构想, 提出了基本思路与原则, 对数据科学与大数据技术相关教育者与学习者或有一定参考价值。综上所述, 在新工科[12]大背景下, 探讨数据科学与大数据技术相关建设的具体问题应具有实际指导性价值。

参考文献:

[1]朝乐门.数据科学[M].北京:清华大学出版社, 2016:1-40.

[2]李国杰, 陈学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊, 2012 (06) :647-657.

[3][8][9]李舰, 肖凯.数据科学中的R语言[M].西安:西安交通大学出版社, 2015:1-27.

[4][11]Zumel N, Mount J.Practical Data Science with R[M].New York:Manning Publications, 2014:3-17.

[5]陈振冲, 贺田田.数据科学人才的需求与培养[J].大数据, 2016 (5) :95-106.

[6]汪连新.互联网金融和大数据时代金融学课程改革及人才培养的思考[J].教育教学论坛, 2015 (32) :189-191.

[7]罗志辉, 吴民, 赵逸青.大数据在生物医学信息学中的应用[J].医学信息学杂志, 2015 (5) :2-9.

[10]张良均, 樊哲, 等.Hadoop与大数据挖掘[M].北京:机械工业出版社, 2017:6-17.

[12]吴爱华, 侯永峰, 杨秋波, 郝杰.加快发展和建设新工科主动适应和引领新经济[J].高等工程教育研究, 2017 (1) :1-9.

       《数据科学与大数据技术专业核心课程建设的探索与研究》附论文PDF版下载:
        http://www.scipaper.net/uploadfile/2018/0812/20180812112148399.pdf
 
关注SCI论文创作发表,寻求SCI论文修改润色、SCI论文代发表等服务支撑,请锁定SCI论文网!

文章出自SCI论文网转载请注明出处:https://www.scipaper.net/jiaoyulunwen/465.html

发表评论

Sci论文网 - Sci论文发表 - Sci论文修改润色 - Sci论文期刊 - Sci论文代发
Copyright © Sci论文网 版权所有 | SCI论文网手机版 | 豫ICP备2022008342号-1 | 网站地图xml | 百度地图xml