学习大数据,也需要一些编程语言要基础,之后还要学习Hadoop、spark等技术栈,在加上一些项目实战,就可以找工作喽!
第一阶段:零基础数据仓库管理可掌握的核心能力
•掌握企业级ETL平台的kettle
•掌握BI的可视化平台Superset
•掌握Kettle ETL处理设计思想
•掌握大数据企业开发中最常见的linux的操作
•掌握一款主流数据库客户端工具DataGrip
•掌握企业MySQL的调优方案
•掌握大数据分析中数据全量及增量同步解决方案
•掌握生产环境中数据分析程序的部署解决方案
第二阶段:Java语言编程可掌握的核心能力
•掌握Java程序基础数据类型
•掌握开发中常用类如集合、IO流、常用类等操作
•掌握Java异常处理机制
•掌握反射、网络编程、多线程开发
•掌握Jsoup的网络爬虫开发
•掌握JDBC操作
•掌握ETL数据处理和BI报表开发
第三阶段:Hadoop技术栈可掌握的核心能力
•掌握shell编程
•掌握ZooKeeper原理并应用
•掌握HDFS的使用和MapReduce编程
•理解MapReduce原理和调优
•掌握Yarn的原理和调优
•掌握Hive的使用和调优
第四阶段:项目一(在线教育)可掌握的核心能力
•掌握从需求、设计、研发、测试到落地上线的完整项目流程
•掌握大量教育行业的真实业务逻辑,涉及20多个主题,100多个指标
•掌握海量数据如何调优、使用拉链表、增量数据处理,以及Hive函数的具体应用等
•掌握基于CM的大数据环境部署和管理
•掌握数据仓库的核心概念和应用
•掌握常用离线大数据技术:Oozie、Sqoop、Hive等
•掌握FineReport可视化
第五阶段:数据微服务接口开发可掌握的核心能力
•掌握SpringBoot整合SpringMVC开发
•掌握SpringBoot整合MyBatis开发
•掌握Eureka搭建
•掌握Feign的使用
第六阶段:实时生态圈可掌握的核心能力
•掌握Redis原理及架构
•掌握Redis命令操作、及数据结构
•掌握Hbase原理及架构
•掌握HBase命令操作、MapReduce编程
•掌握Phoneix二级索引优化查询
•掌握ELK开发掌握Kafka原理及架构
掌握KafkaStreams开发
掌握基于Flink进行实时和离线数据处理、分析
掌握基于Flink的多流并行处理技术
掌握千万级高速实时采集技术
第七阶段:项目二(证券、物联网任选其一)可掌握的核心能力
•掌握基于FTP、Flume + Kafka的实时数据采集开发
•掌握TB级海量规模下Flink实时处理开发,保证实时计算高容错
•掌握三种不同时间维指标的存储、计算方案(Druid、MySQL、HBase),例如:毫秒级\秒级\分时等时间维
•掌握基于Kylin的即席快速OLAP开发
•掌握基于Flink CEP的实时预警监控开发
•掌握基于Spring Boot的数据服务接口开发
第八阶段:Spark技术栈可掌握的核心能力
•掌握Scala语言基础、数据结构
•掌握Scala语言高阶语法特性
•掌握Spark的RDD、DAG、CheckPoint等设计思想
•掌握SparkSQL结构化数据处理,Spark On Hive整合
•掌握Spark Streaming整合Kafka完成实时数据处理
•掌握Spark Streaming偏移量管理及Checkpoint
•掌握Structured Streaming整合多数据源完成实时数据处理
第九阶段:项目三可掌握的核心能力
•掌握Docker环境部署、管理操作
•掌握基于Oracle + MySQL异构数据源数据处理技术
•掌握基于Oracle Golden Gate以及Canal的实时采集技术
•掌握Kudu + Spark的快速离线数据处理、分析技术
•掌握Kudu + Impala即席数据分析技术
•掌握基于ClickHouse高性能存储、计算引擎技术
•掌握基于ELK的全文检索技术
•掌握Kudu、Spark的调优能力
•掌握基于Spring Cloud的数据微服务接口开发技术
如果想要学习,有免费教程,可以私信偶哦
mysql远程访问mysql,mysql数字格式查询,mysql怎么降序查询,mysql常见引擎及区别,linux mysql slowquery,mysql使用的sql标准