1..mapreduce过程介绍一下
2.项目中用到的hive存储结构有哪些
3.查看连续5天登陆的用户
4.spark 的yarn集群的cluster模式运行和client模式运行的区别是什么
5.spark调优你知道的有哪些?
6.RDD宽依赖和窄依赖的区别
7.RDD是什么
8.spark sql和hive sql的开窗函数的格式是怎样的
9.对数据仓库有什么了解?
10.项目中的集群规模是怎样的?
11.介绍一下项目的整体流程?
12.sqoop拉取mysql业务数据时,拉取的频率太高,导致数据库压力过大,出现一些慢查询,怎么解决?
13.每天的增量数据大概是多少?
14.当前一些同步的工具和性能有受到一些影响吗,这边有做一些什么优化吗?
15.mq如何避免重复消费?如何避免消息丢失?(这是自己引导面试官问的,已准备充分,子弹充沛,突突就完事了)
16.线上环境的垃圾收集,jvm参数是怎么配置的,如果要求响应速度比较快的话,应该用什么垃圾收集器?
17.根据线上GC频不频繁,从而定位一些问题,如何查看GC频不频繁这些问题(比如说GC多少次,GC的频率)?
18.线上环境有遇到过代码上的一些死循环,和一些内存OOM的问题吗?怎么去排查解决的?
19.有这样一个场景,有一些数据,这些数据大部分相互之间是独立的,处理不存在依赖,目前是单线程去处理,如果想要更快的处理这些数据,应该怎么做?
20.如果使用线程池去处理,就是希望能够较快的处理,当线程池的线程用完了,希望能够降级成单线程处理,应该怎样去配置线程池。(不希望出现线程池的线程用完了,而导致其他任务没有处理,出现丢任务的情况)
21.介绍一下项目的结构和项目中大数据平台的搭建,然后说说为什么这样做?
(一般这样问,主要是问一些技术的选型,为什么这么选,比如:为什么用zookeeper做hadoop高可用,而不用redis等,可以准备一下zookeeper和redis的优缺点等比较)
22.spark数据倾斜,有做哪些处理?
23.jvm调优了解吗?
24.mysql事务隔离级别了解吗?
25简单介绍下spark streaming(这个完全没看,直接说不太了解)
26.hbase简单介绍下
27.数仓的用户漏斗转化了解吗?
28.sparksql出现数据倾斜如何排查
29.同一用户登录多个平台,如何确认是同一个用户的行为;
30.mysql索引了解吗
31.
32.为什么用zookeeper做hadoop高可用,不用mysql或者redis?
33.数据仓库建设中,有没有涉及一些中间表的创建?
34.hdfs简单介绍一下
35.hdfs再hadoop2.x版本中为什么是128m
36.hdfs写满,如何去处理
37.用户下单之后,会进行出库操作,然后运输,把货交到客户手中,问了我用户如果没有收到货,然后怎么去跟踪这个问题?(项目相关,围绕这个问题展开了很多项目相关的)