大数据组件技术面试

hadoop框架

1.hdfs的读写基本不问,但是还是要知道

2.mapjoin的原理

3.hadoop的shuffle原理也没问,也要知道

4.你在工作中的hadoop的小文件处理,结合项目进行说明

5.hadoop常用的端口号,mapreduce过程发生了几次排序

6.yarn提交job的流程

7.yarn的调度器选择,工作中怎么选择调度器的

8.hadoop的优化

9.zookeeper的选举机制

hive框架

10.hive的架构以及hive是怎么解析成mr的,说下即可

11.hive和数据库的比较,有哪些区别

从数据的存储,底层的原理,语法的不同,分析业务的不同,具体的业务场景以及各自的优化(就说了这些,其他的没有问我了)

12.hive的优化,分区,分桶

13.4个排序的区别

14.hive工作中常用的函数

15.怎么自定义udf函数

16.hive导入数据的几种方式

17.hive导出数据的几种方式

flume框架

1.flume的组件

2.flume怎么采集数据的

3.flume怎么自定义拦截器

4.flume的数据积压,回答分区和提交拉取批数(实际工作中怎么提高拉取数的,举例说明)

5.flume如何支持断点续传

flume最新的版本有tail sources (你要去了解配置的过程)

kafka框架

1.kafka消息不丢失机制

这个问题从两个方面讲一般没问题 1.从kafka0.8版本和kafka0.10版本讲各自偏移量的一个位置 2.kafka的ack机制

2.kafka副本机制

3.项目中kafka的topic设置

4.kafka挂掉怎么解决

5.kafka分区策略

6.kafka重平衡机制

hbase框架

1.hbase机构必须了解

2.hbase的读写流程

3.rowkey的设计(项目中如何设计,为什么要这样设计)

4.hbase是怎么将数据保存到hdfs的

具体是怎么刷写到hdfs的

5.hbase的二级索引是怎么实现的

6.hbase的小文件太多怎么处理的

7.hbase的高水位机制

scala语言

1.scala中class与case class区别

2.scala的柯里化

3.scala闭包如何理解的

4.scala高阶函数(必须会,这块问的最多)

spark框架

1.spark作业提交流程

2.spark中的rdd特点,说下你分别是怎么理解的

3.spark的部署模式

4.宽依赖和窄依赖

5.spark的shuffle与hadoop的shuffle有什么区别

6.saprk广播变量

7.spark的调优(调优结合工作中的项目来说)

8.saprksql与hivesql有什么区别

9.sparkstreaming消费kafka的两种api

10.saprkstreaming：

你在工作中消费kafka数据如何保证数据的不丢失和只消费一次(这块工作中无法保证数据的重复消费)

重复消费:官网解释是有三个条件 1.采用kafka数据源 2.采用rdd 3.幂等性或者事务约束事务是把提交偏移量和写数据搞成事务,做到两个成功才算成功,这个是我之前看spark官网看到的,说出这个就不会再问你了

11.手写saprk的wordcount程序

12.saprk提交作业的参数有哪些,工作中如何设置参数的

文章来源：网络版权归原作者所有,如涉及知识产权问题，请权利人联系我们，我们将立即处理.

九公里浅绿

文章 12 获得 0个赞共 0个粉丝

大数据组件技术面试

推荐阅读 更多精彩内容

推荐阅读更多精彩内容