大数据是新一轮科技革命和产业变革的重要驱动力量,是构建数字社会和数字经济的核心基础,是塑造国家竞争力的重要抓手。“十三五”期间,我国确立大数据发展战略,将大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。“十四五”规划纲要对数字中国建设做出顶层设计,提出“打造数字经济新优势、加快数字社会建设步伐、提高数字政府建设水平、营造良好数字生态”。
自“十三五”时期起,基于海量数据资源和丰富应用场景的先天发展优势以及国家大数据战略支持,我国大数据生态体系逐步完善,大数据技术与产业得到长足发展,市场规模不断扩大,社会影响力不断提高。要实现大数据产业高质量发展,加快建设实体经济、科技创新、现代金融、人力资源协
同发展现代产业体系,大数据产业人才是不可或缺的资源。加快培养发展一大批兼顾大数据技术和行业经验的复合型人才是我国从“数据大国”迈向“数据强国”的关键。但是,当前大数据人才队伍建设滞后产业发展,存在人才结构性短缺、人才质量良莠不齐等问题。因此,建立以产业需求为导向、岗位能力需求为基础的大数据产业人才标准是推进我国大数据产业人才队伍建设的重要举措之一。
1 范围
2 术语定义
2.1
大数据 big data
具有体量巨大、来源多样、生成极快、且多变等特征并且难以用传统数据体系结构有效处理的包含大量数据集的数据。
2.2
非结构化数据 unstructured data
不具有预定义模型或未以预定义方式组织的数据。
2.3
大数据生存周期模型 lifecycle model for big data
用于描述大数据的“数据—信息—知识—价值”生存周期和指导大数据相关活动的模型;这些活动主要由收集、准备、分析和行动等阶段覆盖。
2.4
数据挖掘 data mining
从大量的数据中通过算法搜索隐藏于其中信息的过程。
2.5
数据预处理 data preprocessing
包括数据验证、 清洗、 标准化、 格式化和存储。
2.6
数据处理 data processing
数据操作的系统执行。
2.7
数据管理 data management
在数据处理系统中, 提供对数据的访问, 执行或监视数据的存储, 以及控制输入输出操作等功能。
2.8
大数据服务 big data service
基于大数据参考体系结构提供的数据服务。
3 大数据主要方向及岗位
3.1 主要方向
3.2 主要岗位及职责
4 大数据产业人才岗位能力要素
5 大数据产业人才岗位能力要求
5.1 大数据预处理岗位能力要求
5.1.1 数据采集工程师
a)综合能力
——熟悉大数据采集汇聚技术体系及其发展趋势;
——熟悉典型应用场景下大数据采集的解决方案和流程;
——具备良好的沟通表达及团队合作能力;
b)专业知识
——熟悉典型文件采集、日志采集、消息采集、DPI采集原理及方案;
——熟悉网络协议,如TCP/IP、FTP、HTTP等技术原理,了解COAP、MQTT等物联网协
议技术原理;
——熟悉HTML技术、正则表达式及爬虫原理;
——熟悉多进程/多线程并发处理及容器化技术;
——熟悉大数据采集相关的标准与规范知识、有关法律法规以及行业准则;
c)技术技能
——熟悉标准SQL语言,熟练至少一种常用关系型数据库,如MySQL、PostgreSQL等;
——熟悉至少一种常用编程语言,如Python、GO、Java等,具备编程基本技能及良好的代码编写习惯;
——熟悉网页爬取技术,熟练使用Scrapy等常见爬虫框架,并且可做二次开发;
——熟悉ELKB日志采集分析方案,熟练使用如Logstash、Beats等常见日志采集工具;
——熟悉如Kafka、Flume、RocketMQ、RabbitMQ等消息队列方案,为不同类型的大数据计算框架提供数据汇聚;
——熟悉至少一种NoSQL数据库、分布式文件系统、ETL工具,如MongoDB、HDFS、Sqoop等;
d)工程实践
——具备日志分析、网页数据爬取、数据库数据采集、传感器或移动终端数据采集等典型业务场景下数据采集方案的设计和开发经验;
——具备良好的项目方案及技术文档编制能力;
——具备典型业务场景下数据采集系统的建设、实施、运维经验。
5.1.2 数据清洗工程师
a)综合能力
——熟悉数据治理体系、数据质量控制、数据稽核方法,以及行业发展趋势;
——具备良好的沟通能力和表达能力,善于学习和归纳,能够独立开展业务调研、规范制定、流程设计、报告编写工作;
——具备良好的协调能力和合作精神,善于配合开展数据采集、加工、存储、分析工作;
b)专业知识
——掌握统计学、应用数学相关知识,了解数据分析常用手段及其数学原理;
——熟悉常见的数据清洗方法和流程;
——熟悉常见的数据预处理方法,如数据转换、平滑处理、规范化处理和数据脱敏的方法和原则;
——掌握管理学知识、工程统筹知识,熟悉人机协作计划制定的关键要素;
——掌握常用数据库的管理和使用方法、常用数据库间数据传输技术,掌握标准SQL语言;
——了解数据质量相关的标准与规范知识;
c)技术技能
——熟悉使用编程语言或清洗工具进行数据清洗,如Java、Python、Kettle等;
——熟悉Hadoop生态组件,如Hive、HDFS、HBase、Spark、Storm、Flume、Kafka等;
——熟悉标准SQL语言,能熟练使用和管理常用数据库;
——熟悉至少一种主流NoSQL数据库,熟悉至少一种主流关系型数据库;
——熟悉Linux,能熟练使用Shell、Python等脚本语言,并编写自动化脚本;
——熟练运用统计方法进行数据统计;
d)工程实践
——具备数据仓库建模、设计ETL数据抽取流程、设计任务调度、制定维护作业计划、按照数据存储结构进行数据清洗的经验;
——具备设计稽核点的经验,能合理设计稽核逻辑,完成完整性、一致性、及时性、准确性稽核;
——具备相当的文档撰写能力,能够完成系统运维文档、维护作业计划、应急处理方案等文档的编写。
6.1.3 数据存储工程师
a)综合能力
——熟悉典型应用场景下大数据存储需求及问题解决的方案;
——具备良好的学习能力,能够跟踪大数据存储技术发展趋势;
——具备良好的沟通能力和表达能力;
b)专业知识
——熟悉大数据存储分类、存储方式、处理特性、数据库数据模型、数据库存储与处理架构等相关知识;
——熟悉分布式文件系统HDFS基础知识、熟悉NoSQL数据库,如列数据库Hbase、文档型数据库MongoDB、键值数据库Redis等的相关技术原理和运行机制;
——熟悉关系数据库概念、原理和应用场景;
——了解云数据库的概念、基本原理和代表性产品的使用方法;
——了解大数据安全存储方法;
c)技术技能
——熟悉常见分布式文件系统,如HDFS、FastDFS等系统的操作和使用;
——熟悉列数据库HBase、文档型数据库MongoDB、键值数据库Redis等NoSQL数据库的部署及使用;
——熟悉标准的SQL语言,熟练使用常用关系数据库如Oracle、MySQL等;
——熟悉常用的数据库中间件如Hibernate、Mango、Cobar等的部署及应用;
——熟悉一种主流编程语言、脚本语言、大数据相关编程语言,具备较强的编码能力和良好的代码编写习惯;
——能够制定多副本存储,数据备份和恢复数据备份,故障恢复与迁移故障恢复方案;
d)工程实践
——具备相当的大数据存储需求分析与存储架构设计经验;
——具备相当的大数据项目相关数据库部署经验。
5.2 大数据标注岗位能力要求
5.2.1 标注采集工程师
a)综合能力
——了解人工智能产业发展趋势;
——了解数据标注典型业务场景和业务流程;
——具备良好的沟通表达及团队合作能力;
——熟悉人工智能数据相关的需求和定义,掌握解析、采集项目需求文档的能力;
b)专业知识
——熟悉数据采集作业的规范和操作流程;
——了解常见数据类型采集所需的专业设备及型号;
——掌握数据采集相关知识,了解数据标注工具组件功能;
——掌握人工智能、深度学习、语音识别、计算机视觉、自然语言理解等基础知识和原理;
——深入了解数据标注规范及质检标准;
c)技术技能
——掌握合法合规获取人工智能数据的渠道和方法;
——掌握专业采集环境及工具(含硬件)的搭建和调配;
——掌握复杂场景或专业领域的数据采集任务技能,且数据质量满足规范要求;
——掌握特定需求下的数据采集场景搭建能力;
——能够熟练应用数据采集软件,具备对于指定数据采集设备应用的快速学习能力;
——能够独立完成采集工具部署以及采集脚本开发准备;
d)工程实践
——具备完成通用领域,不涉及专业采集设备的简单数据和复杂数据采集任务的能力;
——具备完成复杂场景或专业领域的数据采集任务的能力,如3D点云采集、3D人脸采集等。
5.2.2 数据标注工程师
a)综合能力
——了解人工智能产业发展趋势;
——了解数据标注典型业务场景和业务流程;
——具备良好的沟通表达及团队合作能力;
——熟悉人工智能数据相关的需求和定义,掌握解析、标注项目需求文档的能力;
b)专业知识
——掌握人工智能基础知识和原理;
——熟悉数据标注作业的架构体系和操作流程;
——熟悉数据标注工具组件功能;
——了解数据标注的工作内容,使用范围及形式,熟悉各项标注类型;
——掌握数据标注规范及质检标准;
c)技术技能
——具备解析标注项目需求文档的能力;
——熟练使用人工智能数据标注工具和平台;
——掌握复杂场景、专业领域的数据标注能力,且标注数据质量满足规范要求;
——熟悉Windows、Linux等常见操作系统、常用办公软件;
——具备保密条件下的数据标注能力;
d)工程实践
——具备完成通用领域简单数据标注任务的能力,如图像标框、视频切割标注、语音切分标注、中文朗读普通话转写标注和中文实体名标注等;
——具备完成通用领域复杂数据标注任务的能力,如人脸106点关键点标注、视频人体追踪标注、方言识别标注、文本相关性判断标注等;
——具备完成复杂场景或专业领域的数据标注任务的能力,如图文混合标注、3D点云标注、航空语音标注等。
5.2.3 标注质检工程师
a)综合能力
——了解采集和标注数据的典型应用场景;
——掌握解析采集和标注项目需求文档的能力;
——具备总结提炼能力,能够将工作实践上升为理论与经验;
b)专业知识
——掌握人工智能、深度学习、语音识别、计算机视觉、自然语言理解等基础知识和原理;
——熟悉质检审核作业操作规范和流程;
——掌握样本抽样检测知识,能够合理设计有效质检方案;
c)技术技能
——熟练应用数据标注工具进行在线数据审核与修改;
——掌握各类数据格式,能够实现对数据交付技术参数的检查;
——掌握复杂场景和专业领域内的数据质量要求、评判标准和质检/验收流程,具有拟定验收标准的能力;
——能够完成项目质检,对已有的质量问题提供改善方案,并对验收结果负责;
d)工程实践
——具备全类型数据标注结构审核与修改经验;
——具备根据项目需求,完成相应的质检任务并按照流程反馈质检结果的能力;
——具备完成复杂场景或专业领域的数据标注项目质检能力。
5.2.4 标注管理工程师
a)综合能力
——了解人工智能产业发展趋势;
——了解数据标注典型业务场景和业务流程;
——具备大项目、项目集管理与沟通能力;
——能够建立清晰的项目数据集管理机制;
b)专业知识
——掌握项目管理相关知识;
——了解数据定制服务的报价规则;
——了解工期管控和精准预测的方法;
——掌握人工智能数据生产工艺流程;
c)技术技能
——熟悉项目环境,能够针对不同标注项目制定特定标注流程、配置对应工具模板;
——熟悉项目范围管理,能够使用标注工具和平台执行在线任务分配;
——具备项目风险管理能力,能够制定项目计划,管控项目资源,控制项目整体风险;
——熟悉项目约束,能够把握项目进度、质量与成本间的平衡关系,合理控制项目变更;
——熟悉项目文档管理,能够完成项目交付文档,汇报项目整体进展,总结项目实践经验;
d)工程实践
——具备丰富的数据采集、标注、质检项目经验;
——熟悉项目操作规范和流程,具备组建与带领团队的组织协调经验,完成数据采集、标注任务,且数据质量满足规范要求。
5.3 大数据分析岗位能力要求
6.3.1 数据算法工程师
a)综合能力
——熟悉大数据算法演进及其演化趋势,具备典型业务场景下的算法应用能力;
——具备优秀的抽象建模能力、逻辑思维能力,独立将现实问题转化为数学模型;
——具备良好的沟通技巧和推动能力,能够正确理解业务需求,并能够选择合适的算法方案;
b)专业知识
——熟悉数据结构与算法,熟悉概率论、数理统计、线性代数、随机过程、最优化理论等相关基础知识;
——熟悉折半、倍增、搜索、分治、贪心、暴力、构造等基础算法;
——熟悉常见的机器学习和深度学习模型、原理和应用场景;
——掌握大数据生命周期管理方法;
——熟悉大数据平台基础知识及相应的大数据算法运行环境及其并行算法框架;
c)技术技能
——了解一种或多种主流深度学习框架,如TensorFlow、PyTorch、MXNet、Caffe、Theano等,具备根据实际应用场景设计算法和算法调优的能力;
——熟悉MATLAB等仿真工具,熟悉数据分析工具SAS、SPSS等的使用;
——熟悉Hadoop生态组件,如Hive、HDFS、HBase、Spark、Storm、Flume、Kafka等;
——熟悉Oracle、MySQL、SQL Server等关系型数据库及相应的数据库中间件,熟悉标准SQL语言使用;
——熟悉使用Java、C++、Scala、Python、R等编程语言,具备扎实可靠的编程能力及良好的代码编写习惯;
——熟悉Hadoop、Spark、Storm、Flink等常见的大数据计算框架;
d)工程实践
——具备相当的大数据算法分析研发经验;
——具备相当的大数据算法优化经验。
6.3.2 数据挖掘工程师
a)综合能力
——熟悉大数据下数据挖掘各方法体系及其应用领域的现状和发展趋势;
——掌握典型的数据分析与数据挖掘的任务场景和问题解决过程;
——掌握数据分析思维方法,善于沟通并充分理解需求;
——掌握良好的业务建模能力,能够协调数据团队、业务团队协同工作;
b)专业知识
——熟悉数据结构与算法,熟悉概率论、数理统计、线性代数、随机过程、最优化理论等相关基础知识;
——掌握常见数据挖掘算法的原理和应用,如分类算法、聚类算法、回归算法、关联分析算法、特征工程算法;
——熟悉数据采样、数据透视、数据集成、缺失值处理、异常值检测、异常值处理、标准化等数据预处理方法;
——了解多层感知机、卷积神经网络、循环神经网络、生成式对抗网络等深度神经网络的原理和应用;
c)技术技能
——熟练使用Pandas、Numpy、Matplotlib、Scikit-learn等数据处理与挖掘算法包;
——掌握数据库的原理和标准SQL语言的使用;
——掌握交互式数据挖掘分析工具Orange Dataming的使用;
——掌握大数据平台下的Spark SQL查询语句和Spark MLlib机器学习框架;
——了解至少一种深度学习算法框架,如Tensorflow、PyTorch、飞桨等;
d)工程实践
——具备相当的工程应用能力,能够权衡并解决工程应用中的性能、安全、隐私、成本等问题;
——具备相当的文档撰写能力,能够撰写分析报告以及应用开发方案等。
6.3.3 数据分析工程师
a)综合能力
——熟悉大数据分析技术体系及其发展趋势;
——熟悉典型应用场景下大数据分析的需求场景和解决方案;
——具备良好的沟通能力和表达能力,善于进行数据分析成果的推广和辅助决策;
b)专业知识
——熟悉统计学、应用数学相关知识,了解数据分析常用手段及其数学原理;
——掌握数据结构、数据库、数据建模、数据挖掘、数据分析等知识;
——掌握数据分析常见分类、基本原理与常见数据分析方法;
——掌握基本数据分析方法和高级数据分析方法,如数据统计分析与特征描述、数据相关性分析、分类分析、回归分析、聚类分析、异常检测、离群点分析等;
——了解大数据分析相关的标准、规范知识以及有关法律法规;
c)技术技能
——掌握常用于统计分析、交互式分析、批处理分析和实时流分析等的数据分析工具,如SAS、SPSS、Hive SQL/Spark SQL等;
——熟悉至少一种主流编程语言、脚本语言和大数据相关编程语言,如Java、Python、Scala等,具备编程基本技能及良好的代码编写习惯;
——熟悉主流NoSQL数据库,如Hbase、Kudu、Redis、MongoDB等,熟悉至少一种主流关系型数据库,如Oracle、SQL Server、MySQL等;
——熟悉SQL、HQL等数据库编程语言及相关管理工具,熟悉脚本语言开发和优化提升;
——熟悉Hadoop、Spark、Storm、Flink等常见的大数据计算框架;
d)工程实践
——具备较强的典型业务场景下的数据敏感性和分析能力,有能力选择适合的数据分析方法;
——具备较强的大数据项目分析经验;
——具备一定的大数据分析环境搭建经验。
6.3.4 数据可视化工程师
a)综合能力
——熟悉大数据下数据可视化相关技术和方法的应用领域和发展趋势;
——掌握常见业务场景下的数据可视化方案;
——掌握数据分析思维方法和一定的美学设计原则;
——掌握利用数据可视化技术解决具体问题的方法;
b)专业知识
——掌握数据可视化的含义、作用和基本流程,熟悉数据可视化基本工具和数据可视化科学研究工具的类型和应用领域;
——掌握OLAP方法的定义及应用,掌握数据多维分析方法的原理;
——掌握常用的数据统计分析方法,掌握常用统计指标的含义及用法;
——掌握商业场景数据分析与可视化理论和方法;
——掌握Java服务端开发框架,包括Spring Boot、JPA、Spring Security等;
——掌握JavaScript面向对象的思想以及MVVM的前端开发理论;
c)技术技能
——精通数据库的原理和标准SQL语言的使用;
——精通一款商业级可视化分析工具或图表制作工具;
——精通Hive、HBase、Spark SQL、MongoDB等NoSQL数据库应用与查询优化;
——精通至少一门应用数据开发语言,如Java语言、Python语言等;
——理解并掌握JavaScript语言核心技术,如DOM、BOM、Ajax、JSON等;
——熟练常见前端框架及工具库,如 Webpack、Vue.js、jQuery、RequireJs;
——熟悉常见网页前端数据可视化技术,如Echarts、Highcharts、D3.js等;
d)工程实践
——具备相当的业务需求分析能力,能够发现数据可视化分析的目标问题;
——具备相当的数据可视化技术应用能力,能够完成数据可视化分析过程;
——具备相当的文档撰写能力,能够撰写数据分析报告,并提出业务问题的解决方案;
——具备一定的产品设计能力,研究并持续改善产品的质量、性能和用户体验。