大数据面试题汇总

血叶洛莉兰

2022-02-13 10:50:38 阅读 477 标签：大数据

1..mapreduce过程介绍一下

2.项目中用到的hive存储结构有哪些

3.查看连续5天登陆的用户

4.spark 的yarn集群的cluster模式运行和client模式运行的区别是什么

5.spark调优你知道的有哪些？

6.RDD宽依赖和窄依赖的区别

7.RDD是什么

8.spark sql和hive sql的开窗函数的格式是怎样的

9.对数据仓库有什么了解？

10.项目中的集群规模是怎样的？

11.介绍一下项目的整体流程？

12.sqoop拉取mysql业务数据时，拉取的频率太高，导致数据库压力过大，出现一些慢查询，怎么解决？

13.每天的增量数据大概是多少？

14.当前一些同步的工具和性能有受到一些影响吗，这边有做一些什么优化吗？

15.mq如何避免重复消费？如何避免消息丢失？（这是自己引导面试官问的，已准备充分，子弹充沛，突突就完事了）

16.线上环境的垃圾收集，jvm参数是怎么配置的，如果要求响应速度比较快的话，应该用什么垃圾收集器？

17.根据线上GC频不频繁，从而定位一些问题，如何查看GC频不频繁这些问题（比如说GC多少次，GC的频率）？

18.线上环境有遇到过代码上的一些死循环，和一些内存OOM的问题吗？怎么去排查解决的？

19.有这样一个场景，有一些数据，这些数据大部分相互之间是独立的，处理不存在依赖，目前是单线程去处理，如果想要更快的处理这些数据，应该怎么做？

20.如果使用线程池去处理，就是希望能够较快的处理，当线程池的线程用完了，希望能够降级成单线程处理，应该怎样去配置线程池。（不希望出现线程池的线程用完了，而导致其他任务没有处理，出现丢任务的情况）

21.介绍一下项目的结构和项目中大数据平台的搭建，然后说说为什么这样做？

（一般这样问，主要是问一些技术的选型，为什么这么选，比如：为什么用zookeeper做hadoop高可用，而不用redis等，可以准备一下zookeeper和redis的优缺点等比较）

22.spark数据倾斜，有做哪些处理？

23.jvm调优了解吗？

24.mysql事务隔离级别了解吗？

25简单介绍下spark streaming（这个完全没看，直接说不太了解）

26.hbase简单介绍下

27.数仓的用户漏斗转化了解吗？

28.sparksql出现数据倾斜如何排查

29.同一用户登录多个平台，如何确认是同一个用户的行为；

30.mysql索引了解吗

31.

32.为什么用zookeeper做hadoop高可用，不用mysql或者redis？

33.数据仓库建设中，有没有涉及一些中间表的创建？

34.hdfs简单介绍一下

35.hdfs再hadoop2.x版本中为什么是128m

36.hdfs写满，如何去处理

37.用户下单之后，会进行出库操作，然后运输，把货交到客户手中，问了我用户如果没有收到货，然后怎么去跟踪这个问题？（项目相关，围绕这个问题展开了很多项目相关的）

文章来源：网络版权归原作者所有,如涉及知识产权问题，请权利人联系我们，我们将立即处理.

血叶洛莉兰

文章 96 获得 0个赞共 0个粉丝