据最新发布的《大数据人才报告》显示,目前全国的大数据人才仅46万,未来3-5年内大数据人才的缺口将高达150万,大数据研发工程师缺口巨大,大数据相关的面试题目更少,希望本篇能帮助想进入大数据行业的从业者。
大数据方面:
- mapreduce过程
- hbase和传统数据库的区别
- hbase读数据过程
- hbase master和regionserver的交互
- hbase的ha,zookeeper在其中的作用,master宕机的时候,哪些能正常工作,读写数据?region分裂?
- 数据倾斜
- mysql索引,哪些索引?实现原理?哪些存储引擎支持B树索引,哪些支持hash索引?
- 为啥mysql索引要用B+树而MongoDB用B树?
- Mysql查询优化?
- 主键和唯一索引的区别
- 事务的隔离机制,mysql默认是哪一级
- MyISAM和InnoDB存储引擎的区别
- mysql查询优化,慢查询怎么去定位?
- mysql中的各种锁,乐观锁,悲观锁(排他锁,共享锁);行锁,表锁是怎么实现的?
- mapreduce支持哪些join,map端?reduce端?semi join?semi join你可以通过什么算法去优化?
- mapreduce实现二次排序
- 用mapreduce实现两表join
- 用mapreduce实现一个存储kv数据的文件,对里面的v进行全量排序
- zookeeper实现原理,zab协议以及原子广播协议
- paxos协议,multi-paxos,zab,raft各种分布式协议内容,使用场景
- hadoop namenode的ha,主备切换实现原理,日志同步原理,QJM中用到的分布式一致性算法(就是paxos算法)
- spark运行架构
- spark运行原理,从提交一个jar到最后返回结果,整个过程
- spark的stage划分是怎么实现的?拓扑排序?怎么实现?还有什么算法实现?
- spark rpc,spark2.0为啥舍弃了akka,而用netty?
- spark的各种shuffle,与mapreduce的对比
- spark的各种ha,master的ha,worker的ha,executor的ha,driver的ha,task的ha,在容错的时候对集群或是task有什么影响?
- spark的内存管理机制,spark1.6前后对比分析
- spark2.0做出了哪些优化?tungsten引擎?cpu与内存两个方面分别说明
- spark rdd、dataframe、dataset区别
- callable runnable 区别
- synchronized与lock区别
- 类加载机制
- gc算法
- spark数据倾斜
- spark shuffle
- spark 内存管理
- 各种排序算法,时间复杂度,空间复杂度,spark和hadoop中shuffle中各个阶段用到的排序算法把这几种排序算法的使用场景表现得淋漓尽致啊。
- spark里面有哪些参数可以设置?针对各个场景说明
- 类加载过程(class文件到jvm这个过程)
- 内存泄露,哪些场景会出现
- top k问题,有哪些实现方案
- 两串数字找同时出现的
- B树索引
- 慢查询定位
- 说说你熟悉的加密算法
- 怎么快速统计出一个城市有多少家餐馆
- 讲讲最能代表你技术能力的项目
- 进程线程区别
- hashMap和treeMap的区别,以及实现
- concurrenthashmap怎么实习同步?各个版本的实现方案?
- hdfs读取流程,小文件处理
算法数据结构方面:
- 图怎么存的、有哪些图算法
- 红黑树怎么实现、如果树里面有两个值相等的节点,怎么识别?
- 一排正整数,每次只能去两头的数,甲乙两个人轮流取,如果甲先取,问最后谁取得数相加和最大,最大和为多少?典型博弈论问题(可以看看海盗分金问题),写了两个动态规划方程
HBASE,HDFS,HIVE,MAPREDUCE
1 HBASE为何能海量存储,ORACLE为何不行,底层什么形式存在HDFS上?
2 HBASE和HDFS区别?
3 HADOOP1.0和2.0区别?
4 NAMENODE的HA?
5 槽位数的共享问题?需要注意什么?(REDUCE SLOT提前启动和MAPSLOT饿死)
6 ZK的LEADER选举算法?
7 如何设置优先级?
8 2.0如何资源调度?
9 MAPREDUCE和HIVE区别?HIVE的外部表和内部表?
10 怎么优化?
11 HADOOP1.0和2.0HDFS的BLOCK各为多少?
评论留言