进入BAT系列：阿里大数据研发面试总结（含5轮技术面试80题）

2024-03-22 09:37:24 大数据 ℃

后台-插件-广告管理-内容页头部广告（手机）

据最新发布的《大数据人才报告》显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万，大数据研发工程师缺口巨大，大数据相关的面试题目更少，希望本篇能帮助想进入大数据行业的从业者。

大数据方面：

mapreduce过程
hbase和传统数据库的区别
hbase读数据过程
hbase master和regionserver的交互
hbase的ha，zookeeper在其中的作用，master宕机的时候，哪些能正常工作，读写数据？region分裂？
数据倾斜
mysql索引，哪些索引？实现原理？哪些存储引擎支持B树索引，哪些支持hash索引？
为啥mysql索引要用B+树而MongoDB用B树？
Mysql查询优化？
主键和唯一索引的区别
事务的隔离机制，mysql默认是哪一级
MyISAM和InnoDB存储引擎的区别
mysql查询优化，慢查询怎么去定位？
mysql中的各种锁，乐观锁，悲观锁（排他锁，共享锁）；行锁，表锁是怎么实现的？
mapreduce支持哪些join，map端？reduce端？semi join？semi join你可以通过什么算法去优化？
mapreduce实现二次排序
用mapreduce实现两表join
用mapreduce实现一个存储kv数据的文件，对里面的v进行全量排序
zookeeper实现原理，zab协议以及原子广播协议
paxos协议，multi-paxos，zab，raft各种分布式协议内容，使用场景
hadoop namenode的ha，主备切换实现原理，日志同步原理，QJM中用到的分布式一致性算法（就是paxos算法）
spark运行架构
spark运行原理，从提交一个jar到最后返回结果，整个过程
spark的stage划分是怎么实现的？拓扑排序？怎么实现？还有什么算法实现？
spark rpc，spark2.0为啥舍弃了akka，而用netty?
spark的各种shuffle，与mapreduce的对比
spark的各种ha，master的ha，worker的ha，executor的ha，driver的ha,task的ha,在容错的时候对集群或是task有什么影响？
spark的内存管理机制，spark1.6前后对比分析
spark2.0做出了哪些优化？tungsten引擎？cpu与内存两个方面分别说明
spark rdd、dataframe、dataset区别
callable runnable 区别
synchronized与lock区别
类加载机制
gc算法
spark数据倾斜
spark shuffle
spark 内存管理
各种排序算法，时间复杂度，空间复杂度，spark和hadoop中shuffle中各个阶段用到的排序算法把这几种排序算法的使用场景表现得淋漓尽致啊。
spark里面有哪些参数可以设置？针对各个场景说明
类加载过程（class文件到jvm这个过程）
内存泄露，哪些场景会出现
top k问题，有哪些实现方案
两串数字找同时出现的
B树索引
慢查询定位
说说你熟悉的加密算法
怎么快速统计出一个城市有多少家餐馆
讲讲最能代表你技术能力的项目
进程线程区别
hashMap和treeMap的区别，以及实现
concurrenthashmap怎么实习同步？各个版本的实现方案？
hdfs读取流程，小文件处理

算法数据结构方面：

图怎么存的、有哪些图算法
红黑树怎么实现、如果树里面有两个值相等的节点，怎么识别？
一排正整数，每次只能去两头的数，甲乙两个人轮流取，如果甲先取，问最后谁取得数相加和最大，最大和为多少？典型博弈论问题（可以看看海盗分金问题），写了两个动态规划方程

HBASE，HDFS，HIVE,MAPREDUCE

1 HBASE为何能海量存储，ORACLE为何不行，底层什么形式存在HDFS上？

2 HBASE和HDFS区别？

3 HADOOP1.0和2.0区别？

4 NAMENODE的HA？

5 槽位数的共享问题？需要注意什么？（REDUCE SLOT提前启动和MAPSLOT饿死）

6 ZK的LEADER选举算法？

7 如何设置优先级？

8 2.0如何资源调度？

9 MAPREDUCE和HIVE区别？HIVE的外部表和内部表？

10 怎么优化？

11 HADOOP1.0和2.0HDFS的BLOCK各为多少？

后台-插件-广告管理-内容页尾部广告（手机）

标签：

上一篇：腾讯公司申请交通状态预测专利，有效提高交通状态的预测结果的精准性

下一篇：ChatGPT“出圈” 人大教育数字化讲座释惑

人工智能物联网_17aiot.com

进入BAT系列：阿里大数据研发面试总结（含5轮技术面试80题）

大数据方面：

算法数据结构方面：

HBASE，HDFS，HIVE,MAPREDUCE

评论留言

我要留言

进入BAT系列：阿里大数据研发面试总结（含5轮技术面试80题）

大数据方面：

算法数据结构方面：

HBASE，HDFS，HIVE,MAPREDUCE

相关推荐

评论留言

我要留言