字节面试题汇总

阅读 221

一面

1.spark调优,spark数据倾斜体现在项目中,具体在哪些场景出现了?

2.订单服务,仓储服务以及其他业务模块之前是怎么进行关联的?是通过消息队列异步的吗?

3.sql中row_number和rank的区别?

4.负责的模块中,你主要做了哪些工作?

5.订单的整个流转过程?

6.rabbitmq怎么避免重复消费?

7.rabbitmq中怎么去通过消息日志判断消息被消费了,简单说下过程。

8.你觉得你工作中有哪些方面能做的更好?

算法题:

给定一个整数数组,判断这个数组是否可以重新分组,使得每个组内的元素个数为w,且这些数字是连续的数字。


二面

1.项目中数据仓库是怎么分层的?

2.怎么保证数据仓库每层之间的数据完整性?

3.原始数据层中,用于存储原始数据的hadoop高可用架构的主备namenode节点之间是怎么保证数据同步的?

4.为什么要将主节点的写操作对应的editlog文件放在共享文件中,而不是直接让备节点去主节点中拉取文件同步呢?

5.namenode主备同步的共享文件保存在哪里?在主备节点还是另外一台机器?

6.namenode主备同步的共享数据文件是怎么保证高可用的?

7.数据仓库中层与层之间,怎么保证某一层数据出现变化,该层的下游能够感知到?(数据血缘)

8.产品问你,你通过sparksql计算出的数据,如何保证是正确的,该如何回答?(数据质量如何保证)

9.spark的计算过程是怎样的?

10.sparksql转化为spark的具体任务,转化的过程是怎样的?

11.spark计算过程中,没有使用会产生shuffle的算子,会产生shuffle吗?

12.写sparksql从hive中获取数据,如何解决一次性获取大量数据加载进spark节点内存,从而导致网络传输带宽压力过大的问题?

13算法题

M * N 的矩阵。

例子:

3 * 5

1 2 3 4 5

3 4 5 6 7

2 3 4 5 6

特征:每一行是单调递增的。

目标:尽可能快的找到整个矩阵中第 k 小的数字。


二面卒,前期没有准备好算法的训练,投的太早,建议还是小公司先面,大公司往后放放。

文章来源:网络 版权归原作者所有,如涉及知识产权问题,请权利人联系我们,我们将立即处理.
标签:
冰雪殇璃陌梦
文章 84 获得 0个赞 共 0个粉丝

推荐阅读 更多精彩内容

  • 学习编程语言,早已不是学一点语法规则那么简单。现在更习惯称作选择 Ecosystem(生态圈),而这其中标准库的作用和分量尤为明显。在Go语言的安装文件里包含了一些可以直接使用的包,即标准库。Go语言
    顾你木偶 顾你木偶 阅读 823 标签: go  
  • 根据 Go 开发团队和基本的算法测试,Go语言与C语言的性能差距大概在 10%~20% 之间。虽然没有官方的性能标准,但是与其它各个语言相比已经拥有非常出色的表现。时下流行的语言大都是运行在虚拟机上,
    顾你木偶 顾你木偶 阅读 747
  • 在早期 CPU 都是以单核的形式顺序执行机器指令。Go语言的祖先C语言正是这种顺序编程语言的代表。顺序编程语言中的顺序是指:所有的指令都是以串行的方式执行,在相同的时刻有且仅有一个 CPU 在顺序执行
    顾你木偶 顾你木偶 阅读 864 标签: go  
  • Go语言也称为 Golang,是由 Google 公司开发的一种静态强类型、编译型、并发型、并具有垃圾回收功能的编程语言。接下来从几个方面来具体介绍一下Go语言的特性。语法简单抛开语法样式不谈,单就类
    顾你木偶 顾你木偶 阅读 931 标签: go  
  • Go语言(或 Golang)起源于 2007 年,并在 2009 年正式对外发布。Go 是非常年轻的一门语言,它的主要目标是“兼具 Python等动态语言的开发速度和 C/C++等编译型语言的性能与安
    顾你木偶 顾你木偶 阅读 988 标签: go  
  • 1.介绍项目:完整的2.zookeeper:zkServer,使用过这在内部删除东西?不明白他想问啥?3.zookeeper的反压:4.DAG:DAGscheduler,taskscheduler,t
    上杉夏香 上杉夏香 阅读 600 标签: 大数据  hadoop  storm  
  • 1.hbase有什么特点,他的优缺点:海量存储,列式存储,高并发,稀疏(列的灵活性,列族中可以指定任意多的列,在列数据为空的情况下,是不会占用存储空间的),高可用(WAL解决高可用,瞬间写入量)2.单
    一生所爱の赫萝 一生所爱の赫萝 阅读 648 标签: 大数据  hadoop  
  • hadoop框架1.hdfs的读写基本不问,但是还是要知道2.mapjoin的原理3.hadoop的shuffle原理也没问,也要知道4.你在工作中的hadoop的小文件处理,结合项目进行说明5.ha
    九公里浅绿 九公里浅绿 阅读 714 标签: 大数据  hadoop  
  • 一面1.hive数据倾斜有哪几种?举例说明2.数据采集方式是什么?3.数仓是如何分层的?4.数据应用层对外使用的话,是通过什么方式去使用的?5.数据应用程序指标的设计过程是怎样的?6.能举例说下进行过
    田井中律 田井中律 阅读 608
  • 1.spark sql和hive sql的区别2.从原始数据层获取数据,数据丢失的情况有没有遇到过?3.kafka消息丢失,如何发现这些问题以及如何处理?4.项目中用到的kafka的topic,以及一
    田井中律 田井中律 阅读 564