岗位描述
没错和我的经历可以说是match得不能再match了,但是还是挂了hh。
面试内容
给我面试的是唐杰老师的博士生,方向是社交网络数据挖掘,知识图谱。不cue名了,态度很友好的
,很赞。
date:6.28
Q1
自我介绍
Q2
问如果在需要load预训练大模型的时候,出现了一些网络的错误导致无法load,你有什么解决方法。
当时有点紧张,不知道该答什么,在问我一些关于网络的实际问题???后来才想起来会不会就是想让我答把模型参数download下来用就行。
Q3
讲一下我自己的项目。
讲了篇参与的EI论文。还有一个我的毕业论文。都是知识图谱、推荐系统方向的。
以及论文的idea和其它baseline model相比好在哪里。这里我说的还是非常详细的,属于是把当前task历史使用过的方法都介绍了一遍。
Q4
防止过拟合的方法。
当时答的batch norm、以及dropout。(以及脑子冒泡答了个sigmoid,和梯度搞混了)后来想起来最简单的早停没说。还把dropout需要注意的train和test 的区别说了一下,虽然pytorch不需要吧。
Q5
一组python代码,问我输出的什么
a = []
b = []
for i in range(10):
a.append(i)
c = a
b.append(c)
print(b)
主要考察的是深拷贝和浅拷贝的问题,答稀烂了。深拷贝和浅拷贝的概念弄反了,太久没看这方面的了。
Q6
接触过语言模型吗,bert、transformer之类的。
这个还好最近在研的东西有用到bert,所以还是比较了解的。但是没深问。
Q7
给了我一组万级数据,里面是一些期刊会议的名称以及其它信息,让我对某个给定的会议名称作为query,在万级数据中寻找和它最相近的一组名称。不需要排序,不需要考虑语义,就是简单的字符串比较,你能想到什么方法。
当时没怎么理解这个题,以为让我手撸word2vec之类的神经网络,后来说不用考虑语义,就是字符串。当时说了个On的方法,通过统计词频来进行len(query word)次数的筛选,筛选剩下的就是相似度最相近的。
然后她让我想一个Olgn的方法,我就想不出来了,憋死到最后说了个寻找一个优秀的函数哈希字符串然后二分查找,然后问我怎么hash…最后问我知道倒排索引吗,这个我确实没有了解过,看来还是得学一下搜索推荐的面试题。问题太多了。
Q8
你现在是准备读研吗
Q9
你现在是跟着哪个老师做的,现在还在跟着**老师科研吗
说来惭愧,好好学吧。