颍上人才网
颍上职场资讯
颍上面试技巧
正文:2024年三月大模型在国内突然走红,笔者面试经历分享
2024年三月大模型在国内突然走红,笔者面试经历分享
来源:网络整理2025-05-07

2024年三月左右,国内大模型领域突然变得热门,我接触了不少企业,既有知名大厂也有新兴初创公司。近期,许多朋友都在讨论大模型相关的话题,对面试也表现出浓厚兴趣,因此我想在此综合整理一下相关内容,并希望能与各位同行进行交流。由于时间已过去一段时间(最早面试已有半年),许多细节已经模糊,以下内容按照面试时间顺序大致排列。

接下来,我将大致概括面试过程中的心得体会,并列出我认为应当关注的关键点,这些仅代表我个人的看法,供大家参考。

1. 智元机器人(Agibot)(拒)

稚晖君那里。面试较早,他们似乎正忙于组建团队并开展项目,其中就包括稚晖君本人。他询问了简历上的经历,并提出了关于transformer的一些常见问题,比如MHA、复杂度以及BERT/GPT等。此后便再无消息,估计是未能通过。这是我面试的第一家公司,因此记忆尤为清晰。与大咖对话体验颇佳,对其所涉领域及具身智能的发展前景十分看好。对稚晖君这位大佬表示由衷的敬意!

2. 面壁科技/面壁智能(offer)

记得一共是两页,技术方面主要探讨了大型模型的训练、transformer相关技术以及过往的工作经验,而第二页似乎主要讨论了offer的事情,若记忆无误。团队整体较为年轻,成员大多拥有清华的背景。当时我还在想,是不是因为清华的背景,他们显得有些年轻。据我所知,他们的资金支持相当充足。另外,待遇方面相当丰厚。

3. 光年之外 (简历拒)

三月份猎头帮忙推荐的,简历拒。

4. 北京智源人工智能研究院 (消失)

面试涉及三到四面,考官来自不同的团队,包括评估和培训等。整体上,我感觉他们更倾向于招聘偏向评估方向的成员。在面试过程中,我记得有一次面试官未能按时参加约定好的面试,随后提出重新安排时间,然而,无论是猎头还是HR,都没有再提供后续的信息,这应该意味着他们已经无声地拒绝了。

5. 360(简历拒)

当时猎头说要高P,P8+

6. Minimax (口头offer):

这家面试轮次挺多,具体记不清但是起码4+轮。

前期考试主要围绕leetcode进行,涉及的大模型内容很少且较为基础,记得有一面面试要求手写MHA。在最后一轮与主管沟通后,我获得了框架组的offer。随后,我向猎头咨询了算法组是否考虑我,得到的答复是不考虑,因此我没有再进一步接触。

他家提供的薪酬待遇相对较高,总额预计能够达到X+,在众多初创企业中算是较为丰厚的,然而在面试过程中,面试官对于公司的未来发展方向以及业务技术领域并未进行深入的交流。即便是主管面试,也仅仅持续了20分钟,双方并未有太多的信息交换。

7. 昆仑万维 (offer)

面试中似乎涉及了之前训练大型模型的相关知识,诸如模型参数的规模以及训练过程中的诸多细节,记忆中并未提及leetcode。面试官是一位给人留下愉快印象的人。当时收到的薪酬待遇相对较低,与其它公司相比。然而,后来接触到的猎头都表示该公司的待遇相当不错,因此我不确定是自己记错了,还是沟通中出现了误解。

8. 云从科技 (拒)

面试经历中,两次面试均未能通过,尤其是第二轮面试给我留下了深刻印象,因为它的时间异常漫长,原定一个小时的面试实际上持续了两个多小时。面试官针对我过往的经验提出了诸多问题,包括大模型训练的细节、模型端和框架端的技术,以及我之前的研究成果。尽管整个过程中双方交流愉快,但最终还是未能通过选拔。

9. 阿里夸克(offer)

在面试过程中,首先经历了两轮涉及leetcode的测试,紧接着对相关工作经验进行了简短的询问。进入第三轮时,主要围绕大模型相关内容展开,提出了一系列标准问题,例如transformer架构、训练过程、分布式计算以及如何应对训练中出现的诸如loss spike等问题。第四轮面试涉及cross面,推荐组的一位资深成员似乎担任了象征性的角色,毕竟他在之前关于搜广推的讨论中已经提出了一些问题。面试中,他询问了概率问题以及脑筋急转弯,最后还涉及了一些操作系统的问题,这些我并不擅长。

几天之后,我收到了那份工作邀请,但在与人力资源部门的负责人交流时,我感受到了一种不太得体的礼貌,我们的沟通中出现了一些不和谐之处。

10. 衔远(offer)

大约三面左右,提问都比较规范。最后一面是与周伯文老师进行了交流。他们家最终提供了框架职位,但我个人更倾向于从事模型方面的研究。那个包裹相当庞大。

11. 潞晨科技(Colossal-AI)(拒)

他家主要从事框架开发,询问了许多关于框架的细节,包括不同模型的分割方法,提问相当深入,似乎还涉及了flash-attention的相关内容,感觉回答得尚可。

之后,我向他们表明了想从事算法端工作的意愿。他们那边确实在招聘算法方面的人才,但名额有限。第二轮面试是由算法组的人员负责的,主要询问的是应用端相关的问题。我心中不禁产生了疑问:难道我不适合做基座?遗憾的是,我最终未能通过面试。在他们公司,我在业界了解到他们的框架端口碑相当不错,甚至记得公司内部曾经有人转发过他们公司的新闻。

12. 蚂蚁(offer)

徐鹏老师的团队,一面记忆模糊,二面则是徐鹏老师亲自出席。在交谈中,我们谈到了诸多过往经历,包括大模型、搜广推,以及本科实习时期的前端和后端工作。给我留下深刻印象的是,徐鹏老师强调团队成员都希望模型研究和工程实践并重,认为两者之间不应有过于严格的界限,这与我的看法不谋而合。紧接着,在下一轮的HR面试中,我就收到了offer,包括第一年的合同签字在内,整个过程就是这样顺利。

13. 腾讯(简历拒)

猎头说要phd。

14. 小红书(简历拒)

猎头说要phd。

15. 商汤(没消息了,被拒)

两面面试,其中一面我负责了leetcode的编写和MHA的撰写,感觉表现尚可。另一面似乎回答得不够理想,具体问题内容已经记不清了。之后便没有了音讯,最终遗憾地被拒绝了。

16. 百川智能(拒)

猎头推荐的,为我安排了面试机会。经过首轮面试,顺利通过。然而,在后续的二面中,我因记错时间而迟到许久(当时正在驾车)。结果,HR以需要三年以上工作经验为由拒绝了我,但或许也是给我留了点情面。

17. 百度文心(offer)

这边经历了多轮面试。首先,数据组的人员提问了关于大模型数据处理的大量问题,我的回答还算尚可,同时我也表达了希望加入模型组的意愿。随后,面试官似乎与人力资源部门进行了沟通,紧接着第二组面试官便是来自模型组的。至于是否记得leetcode的问题,我已记不清了,面试的内容也相对常规,涉及transformer和大模型训练等相关内容。与那位负责人和人力资源部门的人员交流同样顺畅。与初创公司不同,他们公司内部部门划分较为细致,比如模型、框架、数据等都有各自独立的部门。(基本工资在* 万左右,具体几个月前的情况已记不清。)

18. 科大讯飞(拒)

HR先聊的,觉得我不可能来合肥就拒了。

19. IDEA研究院(拒)

这家确实啥也不记得了,记得的就是一面就被拒了,很尴尬。

20. 好未来(offer)

这家公司的团队整体背景在众多企业中不算突出,面试时,尽管被问了一个基础的LeetCode问题,但未能给出满意的答案,场面略显尴尬。尽管如此,在模型轮面试中表现尚可,最终还是收到了offer。面试中的问题较为常规,关于项目包装的内容并未深入探讨。我参与的项目是关于数学领域的GPT模型,对此领域并不是特别熟悉。

21. 零一万物(拒)

一位是先前阿里的推荐系统领域的专家,询问了关于leetcode以及推荐系统的问题,我的回答还算令人满意。而二面则遇到了另一位在搜广推和NLP领域拥有丰富经验的大佬,虽然我尝试解答了一个需要动脑筋的leetcode题目,但遗憾的是未能成功,因此未能通过。由于我的面试并未深入到后期阶段,我对他们公司后续面试是否会有大模型领域的专家参与感到好奇。

22. 月之暗面(moonshot)(拒)

这家公司的面试涉及范围之广和内容之深,在国内同类面试中堪称翘楚,亦属行业顶尖。面试官是一位业界资深人士,曾是Kaiming大神的某些高被引论文的合著者。面试伊始,便涉及了诸如基础的大模型训练知识,以及transformer架构等多个方面。接着,我询问了关于框架端的一些细节,包括分布式训练中数据的分割以及不同设备间的交互。随后,我进一步追问了不同设备间通信的具体方式,以及底层的通信算法。在我的回答中提到了环状减少(ring-reduce)这一算法。接着,对方又深入探讨了reduce算法在底层是如何实现的,但我对此并不了解。询问了关于使用CUDA编程的技能,我回应说对此了解不深。随后,被分配了一道相对复杂的LeetCode题目,遗憾的是题目内容已不记得,未能完成,因此未能通过。浏览了他们的主页,发现创始人和员工都颇具实力。尽管只是简短的一面之缘,但感觉这家公司在国内应该是相当顶尖的存在。遗憾的是,没有机会进行更深入的交流。

23. 阿里达摩院(新达摩)(offer)

我参加了leetcode的考试,并对大模型技术进行了初步探讨。在第二轮面试中,我遇到了团队的资深老板,一位海归人士,他曾在北美成功创办了多家企业。他向我汇报了行癫的情况,并就大模型技术的未来愿景、理解以及市场趋势等话题进行了深入交流。虽然我对这些内容并不完全理解,但从中收获颇丰。他的团队专注于纯研究,听他介绍,他们的算力非常强大。他们主要致力于开发大语言模型和多模态大模型。我承认自己在做leetcode方面表现不佳,于是补充了一轮coding测试,最终成功获得了offer。

24. 边塞科技 (拒)

面试腾讯会议要开视频吗_腾讯 it面试_面试腾讯会议可以用手机吗

这家公司专注于研发RLHF技术,以及进行微调工作。其创始人拥有清华大学的学术背景,并且在OpenAI有过丰富的经验。经过两次交流,我感受到他们在RLHF领域有着丰富的积累,也学到了许多宝贵的知识。相比之下,我对于RLHF的了解仅限于业余爱好者的水平。

总结

近期参加了众多面试,收获颇丰。我的专业领域主要集中于基座预训练算法的研发,对框架端以及强化学习的内容有一定掌握(面试表现尚可),但在ML compiler、内核以及CUDA等相关后端技术方面的了解相对有限(遇到此类问题可能难以过关)。至于硬件方面,则几乎一窍不通。在交流过程中,我有以下几点体会:

大模型领域竞争激烈,面试过程中,各种新型模型和论文层出不穷,新成果的产生速度简直超过了我的阅读进度。

Research岗位对工程也有要求,工程端也需要了解模型。

这类岗位的门槛较高,特别是在初创企业中,它们往往对多个方面都有严格的要求,包括但不限于应用开发、模型设计、框架构建、底层后端技术以及硬件支持。

目前楼主的关注点依次是:模型、框架、底层以及其它领域。在保持对模型研究的投入之余,楼主的计划是在此基础上,进一步提升底层技术(如内核等)的功力。

目前市场情况尚不明朗,楼主对市场过往的关注度不高,且缺乏兴趣,他更倾向于技术领域的研究。

RLHF领域具有广阔的发展潜力,此外,强化学习这一领域,若有机会,也应进行深入探究。

大模型包总体给的相对高一些(同P)。

当前,大部分企业仍聚焦于语言模型领域,而在偏重研究方面,则倾向于采用多模态预训练技术。

考点

一些频率较高的内容(主要针对基座算法及框架相关岗位,大致按照重要程度进行排列):

多头注意力机制的应用频率相当高,无论是coding轮还是概念轮,都对此有所考察。复习时需关注时间与空间复杂度,以及优化方面的知识,如kv-cache、MQA和GQA等,还需要掌握手写多头代码的技能。此外,各种Norm的考察频率同样不低,虽然内容相对标准,没有太多特别需要强调的,但部分考试会涉及手写操作,也有的是对概念及理解能力的测试,比如为何这种方法有效。

关于框架的相关内容,需探讨其并行执行的各种方法及其利弊。例如,DeepSpeed和Megatron的源代码值得研究,Flash-Attention等也是重点。此外,这一点在代码题中经常被考察。

BERT与GPT等主流的大型模型在细节上存在差异,例如它们在位置编码、训练过程中的损失函数、激活函数以及模型架构等方面都有所不同。这些差异是自回归机制的核心关注点。

大模型训练环节,往往与个人工作经验紧密相连,面试中常会遇到诸如训练过程中loss值异常升高的问题,以及解决这类问题的技巧等。部分面试官会深入探讨细节,似乎是在核实应聘者是否真正具备实际操作基座模型训练的能力,而非仅仅空谈。

数据预处理阶段涉及BPE、分词以及掩码等关键概念,这些概念对模型训练过程有着显著的影响。此外,数据配比的问题在相关论文中已有详细探讨。

评估大模型涉及多个方面,包括安全性、有效性等;对于公开数据,部分研究者已尝试构建手写评估框架,涉及多个选项,如多选和生成等。

根据应聘的职位,可以适当阅读一些关于多模态和基于强化学习和人类反馈的内容。这两方面的论文似乎相当关键,且在多数研究型岗位中都很重要。虽然楼主也尝试了解了一些自动驾驶和强化学习等相关内容,但效果并不理想。

PS:有些非基座相关的或者实在没啥印象的就没写。

有几家公司背景和面试体验都相当出色,但猎头特别强调需要保密,不便公开分享。若有人感兴趣,欢迎私信咨询。

底层牛的朋友们希望能留下一些学习资源,比如编译工具、CUDA等,以便他们能在空闲时间开始学习。

如何学习AI大模型?

在长达十余年的互联网行业一线工作经历中,我指导了众多同行业的新人。我见证了他们通过我的帮助,在学习和成长的道路上迈出了坚实的步伐。

我察觉到众多宝贵的经验和知识有待与大家共享,同时,我们凭借自身的能力和过往经验,能够帮助解决大家在人工智能学习过程中遇到的诸多难题。即便工作繁重,我依然坚持对相关内容进行整理与分享。由于知识传播渠道相对有限,众多互联网界的同仁们难以获取到准确的学习资料以促进个人能力的提升,因此,我们决定无偿提供一系列关键的AI大模型资料,包括AI大模型的基础学习思维导图、精选的AI大模型学习手册、教学视频以及实战演练的录播视频。

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

在第二阶段,我们需从Prompts的视角出发,通过大模型提示词工程,更有效地发挥模型潜能。

在第三阶段,我们依托阿里云PAI平台,致力于开发大模型平台,并构建了针对电商行业的虚拟试衣系统。

在第四阶段,我们以LangChain框架为示范,致力于开发物流领域的智能咨询问答系统,该系统将运用大模型知识库。

第五阶段,我们将进行大模型的微调开发,这一过程将依托于大健康、新零售以及新媒体等领域的实际需求,旨在构建出适合这些特定领域的大规模模型。

在第六阶段,我们以SD多模态大型模型为核心,成功构建了基于文本生成图像的小程序实例。

第七阶段,主要聚焦于大型模型平台的应用与开发,依托星火大模型、文心大模型等成熟的大模型技术,致力于打造大模型行业的应用场景。

学会后的收获:

依托于全面覆盖前端、后端、产品管理、设计以及数据分析等领域的全栈大模型工程实践,学习这门课程将有助于提升多种技能。

在数据量激增的大数据时代,众多企业和机构迫切需要处理海量的数据信息。运用大模型技术,能够有效提升数据处理能力,增强数据分析和决策的精确度。故此,程序员若能精通大模型的应用开发,将能更有效地应对实际项目中的需求挑战。

依托于大型模型与企业数据的AI应用开发,我们能够深入理解大模型理论,熟练运用GPU计算能力,精通硬件设施,掌握LangChain开发框架,并具备项目实战技巧;同时,我们学会了如何进行Fine-tuning垂直训练大模型,包括数据准备、数据精炼以及大模型的部署,实现了一站式的全面掌握。

具备当下流行的大模型在特定领域模型训练的技能,增强程序员的编程技巧:在进行大模型的应用开发时,程序员需精通机器学习算法和深度学习框架等相关技术,对这些技术的熟练运用不仅能提升他们的编程和分析水平,还能使他们更高效地编写出高质量的程序代码。

1.AI大模型学习路线图

2.100套AI大模型商业化落地方案

3.100集大模型视频教程

4.200本大模型PDF书籍

5.LLM面试题合集

6.AI产品经理资源合集

获取方式:

有需求的朋友们,请将图片保存至微信,扫描二维码即可免费获取,我们承诺100%免费。

温馨提示:本内容地址http://m.ysjob.cc/article/articledetail-312528.html转载请注明,以上2024年三月大模型在国内突然走红,笔者面试经历分享资讯信息来自颍上人才网(颍上地区最大的颍上人才网颍上人才网

 
 ©2003-2018 颍上人才网  
客服电话:  QQ: