大数据组件技术面试

阅读 419 标签:大数据  hadoop  
hadoop框架
1.hdfs的读写基本不问,但是还是要知道
2.mapjoin的原理
3.hadoop的shuffle原理也没问,也要知道
4.你在工作中的hadoop的小文件处理,结合项目进行说明
5.hadoop常用的端口号,mapreduce过程发生了几次排序
6.yarn提交job的流程
7.yarn的调度器选择,工作中怎么选择调度器的
8.hadoop的优化
9.zookeeper的选举机制


hive框架
10.hive的架构以及hive是怎么解析成mr的,说下即可
11.hive和数据库的比较,有哪些区别
从数据的存储,底层的原理,语法的不同,分析业务的不同,具体的业务场景以及各自的优化(就说了这些,其他的没有问我了)
12.hive的优化,分区,分桶
13.4个排序的区别
14.hive工作中常用的函数
15.怎么自定义udf函数
16.hive导入数据的几种方式
17.hive导出数据的几种方式


flume框架
1.flume的组件
2.flume怎么采集数据的
3.flume怎么自定义拦截器
4.flume的数据积压,回答分区和提交拉取批数(实际工作中怎么提高拉取数的,举例说明)
5.flume如何支持断点续传
flume最新的版本有tail sources (你要去了解配置的过程)


kafka框架
1.kafka消息不丢失机制
这个问题从两个方面讲一般没问题 1.从kafka0.8版本和kafka0.10版本讲各自偏移量的一个位置 2.kafka的ack机制
2.kafka副本机制
3.项目中kafka的topic设置
4.kafka挂掉怎么解决
5.kafka分区策略
6.kafka重平衡机制


hbase框架
1.hbase机构必须了解
2.hbase的读写流程
3.rowkey的设计(项目中如何设计,为什么要这样设计)
4.hbase是怎么将数据保存到hdfs的
具体是怎么刷写到hdfs的
5.hbase的二级索引是怎么实现的
6.hbase的小文件太多怎么处理的
7.hbase的高水位机制


scala语言
1.scala中class与case class区别
2.scala的柯里化
3.scala闭包如何理解的
4.scala高阶函数(必须会,这块问的最多)


spark框架
1.spark作业提交流程
2.spark中的rdd特点,说下你分别是怎么理解的
3.spark的部署模式
4.宽依赖和窄依赖
5.spark的shuffle与hadoop的shuffle有什么区别
6.saprk广播变量
7.spark的调优(调优结合工作中的项目来说)
8.saprksql与hivesql有什么区别
9.sparkstreaming消费kafka的两种api
10.saprkstreaming:
你在工作中消费kafka数据如何保证数据的不丢失和只消费一次(这块工作中无法保证数据的重复消费)

重复消费:官网解释是有三个条件 1.采用kafka数据源 2.采用rdd 3.幂等性或者事务约束 事务是把提交偏移量和写数据搞成事务,做到两个成功才算成功,这个是我之前看spark官网看到的,说出这个就不会再问你了

11.手写saprk的wordcount程序
12.saprk提交作业的参数有哪些,工作中如何设置参数的
文章来源:网络 版权归原作者所有,如涉及知识产权问题,请权利人联系我们,我们将立即处理.
标签: 大数据 hadoop
专栏:   Java架构
九公里浅绿
文章 12 获得 0个赞 共 0个粉丝

推荐阅读 更多精彩内容

  • 学习编程语言,早已不是学一点语法规则那么简单。现在更习惯称作选择 Ecosystem(生态圈),而这其中标准库的作用和分量尤为明显。在Go语言的安装文件里包含了一些可以直接使用的包,即标准库。Go语言
    顾你木偶 顾你木偶 阅读 522 标签: go  
  • 根据 Go 开发团队和基本的算法测试,Go语言与C语言的性能差距大概在 10%~20% 之间。虽然没有官方的性能标准,但是与其它各个语言相比已经拥有非常出色的表现。时下流行的语言大都是运行在虚拟机上,
    顾你木偶 顾你木偶 阅读 453
  • 在早期 CPU 都是以单核的形式顺序执行机器指令。Go语言的祖先C语言正是这种顺序编程语言的代表。顺序编程语言中的顺序是指:所有的指令都是以串行的方式执行,在相同的时刻有且仅有一个 CPU 在顺序执行
    顾你木偶 顾你木偶 阅读 564 标签: go  
  • Go语言也称为 Golang,是由 Google 公司开发的一种静态强类型、编译型、并发型、并具有垃圾回收功能的编程语言。接下来从几个方面来具体介绍一下Go语言的特性。语法简单抛开语法样式不谈,单就类
    顾你木偶 顾你木偶 阅读 676 标签: go  
  • Go语言(或 Golang)起源于 2007 年,并在 2009 年正式对外发布。Go 是非常年轻的一门语言,它的主要目标是“兼具 Python等动态语言的开发速度和 C/C++等编译型语言的性能与安
    顾你木偶 顾你木偶 阅读 713 标签: go  
  • 1.介绍项目:完整的2.zookeeper:zkServer,使用过这在内部删除东西?不明白他想问啥?3.zookeeper的反压:4.DAG:DAGscheduler,taskscheduler,t
    上杉夏香 上杉夏香 阅读 278 标签: 大数据  hadoop  storm  
  • 1.hbase有什么特点,他的优缺点:海量存储,列式存储,高并发,稀疏(列的灵活性,列族中可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的),高可用(WAL解决高可用,瞬间写入量)2.单
    一生所爱の赫萝 一生所爱の赫萝 阅读 289 标签: 大数据  hadoop  
  • hadoop框架1.hdfs的读写基本不问,但是还是要知道2.mapjoin的原理3.hadoop的shuffle原理也没问,也要知道4.你在工作中的hadoop的小文件处理,结合项目进行说明5.ha
    九公里浅绿 九公里浅绿 阅读 420 标签: 大数据  hadoop  
  • 一面1.hive数据倾斜有哪几种?举例说明2.数据采集方式是什么?3.数仓是如何分层的?4.数据应用层对外使用的话,是通过什么方式去使用的?5.数据应用程序指标的设计过程是怎样的?6.能举例说下进行过
    田井中律 田井中律 阅读 310
  • 1.spark sql和hive sql的区别2.从原始数据层获取数据,数据丢失的情况有没有遇到过?3.kafka消息丢失,如何发现这些问题以及如何处理?4.项目中用到的kafka的topic,以及一
    田井中律 田井中律 阅读 290