一面
1.项目的人员结构是怎样的?
2.介绍一下你负责的模块项目的具体逻辑流程
3.实时分析和离线分析的区别?
4.hashmap和hashtable的区别以及原理?
5.hashmap使用需要注意的地方,会踩哪些坑?
6.讲一下java反射机制?
7.简单说下spring依赖注入的原理
8.arrayList和linkList的原理
9.spring和springboot的区别?
10.有没有遇到像淘宝秒杀这样的业务场景?这样的场景关键之处是什么?
11.说说java内存机制
12.docker了解吗,简单说下?
13.说一说生产中常用到的linux命令?
14查看端口占用情况是什么命令?
二面
1.spark中产生shuffle的算子,除了
groupbykey,countbykey,reducebykey,还有哪些?
2.宕机的namenode怎么恢复
3.hadoop集群的权限配置是怎样的?
4.hadoop集群的维护过程,做了哪些工作?(调优,数据倾斜都可以答)
5.保证线上hadoop集群的正常运行,采取了哪些措施?(hadoop高可用的知识点)
6.spark进行计算与分析的过程中,有没有遇到一些性能问题?
7.hadoop高可用架构中,zookeeper是如何进行主备切换的?
8.有没有处理过线上问题,举个例子简单说下?(这个得准备下,展现真正的技术的时候到了)
9.hive提交hql语句到hive上执行的方式以及区别,为什么这么做?
10你单独负责维护和搭建了这些大数据组件中哪一些?(准备了容易得高分)
11.你对hive做了哪些维护工作?(调优和数据倾斜)
12.spark2.x与spark1.x的内存管理方面有什么区别?
13.写spark任务的一些参数的设置依据是什么?
14.每次提交spark任务,有设置动态资源分配吗?
15.namnode的内存管理简单说下?
16.spark中stage的划分依据是什么