1.spark sql和hive sql的区别
2.从原始数据层获取数据,数据丢失的情况有没有遇到过?
3.kafka消息丢失,如何发现这些问题以及如何处理?
4.项目中用到的kafka的topic,以及一些相关的历史天数之类的参数是怎么去设计的?
5.kafka消息队列的消息一般会保存几天?
6.datax了解吗?
7.sparksql和hivesql的语法上的区别有哪些?举例说明
8.hivesql的查询语句中有select,from,join,order by group by的执行顺序是怎样的?
你遇到hive中哪几类数据倾斜,以及如何解决这些问题的?
9.hivesql的行转列的语法上是怎么实现的?
10.找出连续三天及以上访问网站的用户
四 哔哩哔哩(b站)
1.进程、线程间如何通信
2.Hadoop高可用简单介绍下
3.集群规模,你们订单表全量数据有多少
4.JVM垃圾回收算法那些、标记算法哪些、根据哪些指标选择垃圾回收器。
5.项目中哪些场景有Spark数据倾斜
6.MySQL中订单数据表如何进行分库分表
7.Sqoop 读取MySQL数据导入HDFS 的流转过程
8.如何感知订单表变化数据导入了HDFS
9.订单表导入HDFS后是如何进行分区的。
10.MySQL中订单表总共数据量多少T, 实际行数有多少?
总结:没答好,卒,总结了一波,这个岗位偏数据平台建设和开发,没准备太充分。