大数据面试题汇总

阅读 430 标签:大数据  

1..mapreduce过程介绍一下

2.项目中用到的hive存储结构有哪些

3.查看连续5天登陆的用户

4.spark 的yarn集群的cluster模式运行和client模式运行的区别是什么

5.spark调优你知道的有哪些?

6.RDD宽依赖和窄依赖的区别

7.RDD是什么

8.spark sql和hive sql的开窗函数的格式是怎样的

9.对数据仓库有什么了解?

10.项目中的集群规模是怎样的?

11.介绍一下项目的整体流程?

12.sqoop拉取mysql业务数据时,拉取的频率太高,导致数据库压力过大,出现一些慢查询,怎么解决?

13.每天的增量数据大概是多少?

14.当前一些同步的工具和性能有受到一些影响吗,这边有做一些什么优化吗?

15.mq如何避免重复消费?如何避免消息丢失?(这是自己引导面试官问的,已准备充分,子弹充沛,突突就完事了)

16.线上环境的垃圾收集,jvm参数是怎么配置的,如果要求响应速度比较快的话,应该用什么垃圾收集器?

17.根据线上GC频不频繁,从而定位一些问题,如何查看GC频不频繁这些问题(比如说GC多少次,GC的频率)?

18.线上环境有遇到过代码上的一些死循环,和一些内存OOM的问题吗?怎么去排查解决的?

19.有这样一个场景,有一些数据,这些数据大部分相互之间是独立的,处理不存在依赖,目前是单线程去处理,如果想要更快的处理这些数据,应该怎么做?

20.如果使用线程池去处理,就是希望能够较快的处理,当线程池的线程用完了,希望能够降级成单线程处理,应该怎样去配置线程池。(不希望出现线程池的线程用完了,而导致其他任务没有处理,出现丢任务的情况)

21.介绍一下项目的结构和项目中大数据平台的搭建,然后说说为什么这样做?

(一般这样问,主要是问一些技术的选型,为什么这么选,比如:为什么用zookeeper做hadoop高可用,而不用redis等,可以准备一下zookeeper和redis的优缺点等比较)

22.spark数据倾斜,有做哪些处理?

23.jvm调优了解吗?

24.mysql事务隔离级别了解吗?

25简单介绍下spark streaming(这个完全没看,直接说不太了解)

26.hbase简单介绍下

27.数仓的用户漏斗转化了解吗?

28.sparksql出现数据倾斜如何排查

29.同一用户登录多个平台,如何确认是同一个用户的行为;

30.mysql索引了解吗

31.

32.为什么用zookeeper做hadoop高可用,不用mysql或者redis?

33.数据仓库建设中,有没有涉及一些中间表的创建?

34.hdfs简单介绍一下

35.hdfs再hadoop2.x版本中为什么是128m

36.hdfs写满,如何去处理

37.用户下单之后,会进行出库操作,然后运输,把货交到客户手中,问了我用户如果没有收到货,然后怎么去跟踪这个问题?(项目相关,围绕这个问题展开了很多项目相关的)

文章来源:网络 版权归原作者所有,如涉及知识产权问题,请权利人联系我们,我们将立即处理.
标签: 大数据
血叶洛莉兰
文章 96 获得 0个赞 共 0个粉丝

推荐阅读 更多精彩内容