最近这一两周不少互联网公司都已经开始秋招面试了
不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位要求还更高了。
最近,我们又陆续整理了很多大厂的面试题,帮助一些球友解惑答疑,分享技术面试中的那些弯弯绕绕。
《AIGC 面试宝典》圈粉无数!
《大模型面试宝典》(2024版) 发布!
喜欢本文记得收藏、关注、点赞。更多实战和面试交流,文末加入我们星球
与常规的系统化内容分享不同,我们今天将聚焦于那些在实践中发现的难点和创新应用。我们相信,这些真实的案例和经验,能够给大家带来不同角度的思考和启发。
难点:文件解析
在落地实施中,我们遇到的第一个难点是文件解析。我们从今年年初开始,在许多企业的落地实施中发现,尽管我们自信能够解析大多数文件,但在实践中,我们遇到了很多我们甚至从未见过的文件类型。
在文件解析的挑战中,老旧文件的解析尤其突出。我们发现,尽管市面上的许多软件声称支持DOC格式,但它们往往不支持DOCX,这在国企和一些特定场景中非常常见。我们遇到了一些不完整的文件,这些文件的解析对我们来说是一个必须大力解决的问题。
难点:PDF 表格解析
另一个挑战是PDF表格的解析,这在金融行业、标准化工业领域等是非常刚需的。表格解析的难点在于,它需要精确地识别和处理表格数据,这对于自动化处理和数据分析至关重要。
OCR(光学字符识别)技术在处理纯图片文件时相对简单,但当图片与文字混合时,判断何时启动OCR成为一个挑战。我们需要开发智能的算法来识别何时需要启动OCR,以确保文本的准确识别。
难点:结构化数据融合
在索引过程中,我们不仅依靠大模型的能力,还进行了一系列的其他工作,以提高检索的准确性和效率。这包括:
-
元数据处理:在上传文件的同时,我们自动处理文件的元数据,包括文件名称、属性信息和内容中的标题等,以提取实体和关系。
-
意图识别:我们使用基于BERT的NER模型来理解用户的查询意图,并进行拆分和解析,以提高检索的准确性。
在提高检索和问答系统的效果方面,我们采用了Rerank技术,这是一种在多个环节中都能显著提升结果相关性和准确性的技术。
-
HNSW和交叉编码验证:我们使用HNSW(高维空间中的最近邻搜索)和交叉编码验证来提高检索的精度。
-
密度函数:通过使用密度函数,我们能够舍弃那些相关度较低的结果,从而提高检索质量。
在问答系统中,每个答案都会默认显示相关的原文。但是,原文的显示并不一定与答案的匹配度完全一致。为了解决这个问题,我们在大模型给出最终答案后,再次使用Rerank技术进行比对,确保显示的原文与答案高度匹配。
场景 1:金融研报的挑战与创新
在金融行业,制作研报是一项耗时且复杂的过程。传统上,投资机构会派遣团队,花费数周时间研读数百份文件,以形成对一家公司的深入分析。这个过程不仅耗时,而且需要大量的人力资源。
-
快速处理大量文件:用户可以将数百份文件一次性导入TorchV Assistant。
-
直接提问,获得最佳答案:通过自然语言处理技术,用户可以直接向系统提问,如“这家公司最近3年的复合增长率是多少?”系统将从文件中提取最准确的答案。
-
原文比对:系统提供原文比对功能,确保用户可以验证答案的准确性。
-
内容快速生成:用户可以将答案快速整合到编辑器中,系统还能帮助生成图表,极大地加快了研报的草稿制作。
场景 2:零售行业的挑战与创新
在零售行业,面对成千上万的产品和复杂的客户需求,如何快速、准确地为客户提供满意的服务是一个巨大的挑战。
TorchV Doraemon,就像客户身边的哆啦A梦,能够快速理解复杂的客户需求,并从成千上万的产品中找到最合适的解决方案。以下是我们如何通过TorchV Doraemon改变游戏规则:
-
快速理解客户需求:通过结合RAG(Retrieval-Augmented Generation)和Function-call,TorchV Doraemon能够快速理解产品的说明书和数据库,为客户提供最合适的产品推荐。
-
简化导购流程:对于导购员来说,TorchV Doraemon能够识别出最合适的几款产品,大大简化了导购流程。
-
多样的交互形式:TorchV Doraemon不仅仅支持问答形式,还可以通过图片和其他互动方式与客户进行交流。
场景 3:规则审批的挑战与创新
随着业务量的增加,合同和项目审批的工作量也随之增加。传统的审批流程往往耗时且效率低下,特别是在法务审核合同时,反复的修改和审核过程会浪费大量时间。
TorchV Comparison,基于规则和上下文的审批系统,能够帮助企业快速完成合同和项目的预审工作。以下是我们如何通过TorchV Comparison改变游戏规则:
-
合同预审:业务部门可以直接提交合同,系统会根据预设的规则(如必填项、歧义词分析、权利义务对等、合法合规等)进行自动审核。
-
项目预审:对于项目评审,系统也可以根据每个项目的特定规则进行预审,大大提高了审批的准确性和效率。
-
元数据的利用:系统利用元数据提高审批的精确度,确保审批结果更加可靠。
实践中的挑战与思考
-
功能小而精:我们追求的是小而精的功能,而非大而全。这意味着我们需要明确目标,量化指标,例如提高销售量、缩短合同评审时间等,这些都是可以明确衡量的成果。
-
高质量:在技术实现上,我们需要确保高质量。这涉及到在当前技术环境下,对客户需求的合理评估,以及对技术能力的准确把握。
-
高价值:我们关注的是为客户带来的实际价值。如果一个功能背后的目标具有高价值,那么这将是我们的首要任务。
在实际的落地过程中,我们发现这个过程并不像想象中的那么“性感”,而是充满了挑战。从与客户交流确认方案,到POC(Proof of Concept,概念验证),再到部署实施,以及后续的培训和陪跑,这是一个漫长而复杂的过程。