阿里云OpenSearch-LLM智能问答故障的一天

news2024/11/20 0:25:32

上周五使用阿里云开放搜索问答版时,故障了一整天,可能这个服务使用的人比较少,没有什么消息爆出来,特此记录下这几天的阿里云处理过程,不免让人怀疑阿里云整体都外包出去了,反应迟钝,水平业余,却又很在意KPI。

1. 什么是智能开放搜索OpenSearch

在抨击阿里云服务之前,还是要肯定open search问答版挺好用的,解决了公司想要根据内部知识内容搭建大模型,进行内部AI的数据问答,在这之前我也试用过模型服务灵积的定制模型,但作为传统型公司,训练模型所需要的语料库根本没有,公司的诉求更多是给一堆内部文档,然后对此进行提问回答,省去过往人工查找,还能将内部知识进行概括总结,给出所属的知识来源文档,所以要想生成基于问答形式的语料库不太现实。或者还有更好的方法我还没探索出来吧。

基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜索业务开发平台,目前为包括淘宝、天猫在内的阿里集团核心业务提供搜索服务支持。通过内置各行业的查询语义理解、机器学习排序算法等能力,以及充分开放的文本向量检索引擎能力,助力开发者快速搭建智能搜索服务。

OpenSearch LLM智能问答版

2. 故障过程

因为还属于开发阶段,出于成本考虑,我们的实例并不是一直运行的,LLM模型的费用分为实例资源运行费+调用处理费,实例资源运行时按小时0.2元/小时,每次问答调用差不多0.13元/次。

早上新建了实例后,通过Python将结构化后的文档数据通过API传到实例中,发现怎么都传不上去,返回参数正常,通过控制台也不行,显示上传成功,但不展示数据内容,只有空Id列表,以为是实例创建错误,先自己进行尝试。

  1. 先销毁了几次实例,创建了好几个不同App名称的实例进行试验,都不行
  2. 怀疑自己运行了十多次的Python代码有问题,可能是官方sdk库更新,重新下载了官方文档代码,发现还不行
  3. 切换了网络,切换了数据集,切换了控制台,都不行

3. 提报工单

总结了下我这里应该是没问题,有点怀疑是阿里云的问题,索性提个工单吧,看看工程师怎么说。

一直到下午五点多,阿里云才开始正式处理,不知道中间这两个小时在干什么,可能他们觉得是用户的问题,什么参数没有配置对,等五点半开始看的时候发现真的崩了,五点半开始给我打了四五个电话,都是阿里云的工程师直接联系我,让提供上传的文档,截图,代码,API开发过程,想要复现问题,但我不理解直接工程师本地复现不就行吗。

经过一个多小时,我都下班回家了,工程师又打来电话让试下有没有恢复,确实是好了,从早上崩溃到工单提报处理也有五六个小时的时间,真正问题定位处理用了一个多小时,在我们过往线上问题处理中,一个小时才能定位处理的事故,已经很严重了。

4. 退钱退钱

在周五提报工单时一直没有销毁实例,阿里云工程师打电话时也说先别销毁,想通过这个实例来复现问题,等晚上处理结束打电话通知我好了以后,我问了下今天宕机一天的费用怎么办,服务虽然不能用,但费用一点也没少扣,工程师说后续可以补偿,但也就没了后续。。。

周一想起来这事发现还没人联系我,就在之前的工单里继续询问,虽然没有多少钱,不过就这么点钱你们也不想处理,我只能自己催了。

中途又让我自己导出账单,自己进行核算,就暴脾气突然上来了,好好说就拖着不给好好解决,6块钱的代金券也是要了一整天,下午六点才确认回复,六点多连着打了两个电话让我关闭工单,可能是从周五一直拖到现在,影响到平均处理时长的考核KPI吧。

5. 说实话

上个月阿里云的大故障也不知道后续怎么处理的,反正没有我公司什么事,公司在阿里云上有三万多的资源,但用户量不大所以没有核算什么损失,阿里云也没有一点点动静,也是因为这些资源,使得很多云服务都得继续用阿里云的,可以说是深度绑定。这次故障之前也有很多小问题,提个工单也不怎么处理,后来索性点投诉才能继续推进。

这次问题让我感觉到阿里云处理能力挺差的

  1. 像AI这类新业务没有主动检测预警:正常这些大的业务板块都会有服务检测,监控接口或者日志等数据,在用户感知之前就能同步响应到阿里云后台,这次崩了这么久也没当回事,应该就是没什么人用,提了工单也没当回事,第一反应是用户的使用问题,后来发现真的报错了才慌了(后来多次打电话时语气有点焦急)
  2. 线上事故处理能力差:在工单里我已经很详细的描述了问题,但他们还是啰嗦的要了各种截图,文件,代码来复现,其实自己连上去就可以操作,反复咨询用户只会让人觉得很不专业。
  3. 用户补偿机制不完善:或者说国内这些厂商也没想着补偿用户,发现问题第一反应是:就你事多,我们已经给你处理了,你还想怎么样呢,如果我不去要补偿,可能也不会再去联系我,毕竟多一事不如少一事。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1337915.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

sheng的学习笔记-【中】【吴恩达课后测验】Course 4 -卷积神经网络 - 第三周测验

课程4_第3周_测验题 目录 第一题 1.现在你要构建一个能够识别三个对象并定位位置的算法,这些对象分别是:行人(c1),汽车(c2),摩托车(c3)。下图中的标签哪个…

Chrome插件精选 — 前端工具

Chrome实现同一功能的插件往往有多款产品,逐一去安装试用耗时又费力,在此为某一类型插件挑选出比较好用的一款或几款,尽量满足界面精致、功能齐全、设置选项丰富的使用要求,便于节省一个个去尝试的时间和精力。 1. FeHelper(前端助…

ARCGIS PRO SDK 要素空间关系

一、要素与要素查询,返回的是bool值 1、 Touches 判断几何要素是否接触 Touches 如果 geometry1 与 geometry2 接触,则返回 true,否则 false。 touches GeometryEngine.Instance.Touches(Geometry1, Geometry2) 2、…

KEPServerEX 6 之【外篇-1】PTC-ThingWorx服务端软件安装 Tomcat10本地安装

本文目标: 安装 Java 和 Apache Tomcat ,为ThingWorx安装做基础。 ----------------------------------------------------------------------- 安装重点 --------------------------------------------------------------------- 1. 安装 Java 11 / JDK 11 添加系…

LabVIEW进行激光斑点图像处理与分析

LabVIEW进行激光斑点图像处理与分析 近年来,激光技术的应用日益繁荣。激光光斑的质量评估和分析技术决定了应用效果,对机器视觉、武器装备、光学测量和医疗设备产生深远影响。就具体用途和技术而言,激光光斑的采集和处理至关重要。即插即用的…

【三维目标检测】【自动驾驶】IA-BEV:基于结构先验和自增强学习的实例感知三维目标检测(AAAI 2024)

系列文章目录 论文:Instance-aware Multi-Camera 3D Object Detection with Structural Priors Mining and Self-Boosting Learning 地址:https://arxiv.org/pdf/2312.08004.pdf 来源:复旦大学 英特尔Shanghai Key Lab /美团 文章目录 系列文…

Linux:查询当前进程或线程的资源使用情况

目录 一、/proc/[PID]/下的各个文件1、proc简介2、/proc/[PID]/详解 二、通过Linux API获取当前进程或线程的资源使用情况1、getrusage2、sysinfo3、times 在工作中,我们排除app出现的一些性能/资源问题时,通常要先知道当前app的资源使用情况&#xff0c…

一种改进的平衡生成对抗网络用于视网膜血管分割

A Refined Equilibrium Generative Adversarial Network for Retinal Vessel Segmentation 一种改进的平衡生成对抗网络用于视网膜血管分割背景贡献实验方法Symmetric equilibrium architecture(对称均衡架构)Multi-scale features refine block&#xf…

40G多模光模块QSFP-40G-SR4优势及应用领域介绍

QSFP-40G-SR4光模块是一种常用的光纤传输解决方案。传输速率40G,SR代表短距离多模光纤(Short Range Multimode Fiber),4表示有四个光纤通道。这种光模块采用MPO/MTP多模光纤连接器来实现高速传输,传输距离可以达到300米…

如何将语音版大模型AI接入自己的项目里(语音ChatGPT)

如何将语音版大模型AI接入自己的项目里语音ChatGPT 一、语音版大模型AI二、使用步骤1、接口2、请求参数3、请求参数示例4、接口 返回示例5、智能生成API代码 三、 如何获取appKey和uid1、申请appKey:2、获取appKey和uid 四、重要说明 一、语音版大模型AI 基于阿里通义千问、百…

WPF 消息日志打印帮助类:HandyControl+NLog+彩色控制台打印

文章目录 前言相关文章Nlog配置HandyControl配置简单使用显示效果文本内容 前言 我将简单的HandyControl的消息打印系统和Nlog搭配使用,简化我们的代码书写 相关文章 .NET 控制台NLog 使用 WPF-UI HandyControl 控件简单实战 C#更改控制台文字输出颜色 Nlog配置 …

Python中的用户交互函数详解,提升用户体验!

更多Python学习内容:ipengtao.com 大家好,我是彭涛,今天为大家分享 Python中的用户交互函数详解,提升用户体验!全文4200字,阅读大约12分钟 用户进行交互的Python应用程序,有许多常用的用户交互函…

linux开放tomcat 8080端口

1、查看8080是否开放 firewall-cmd --query-port8080/tcp查看已开启的端口 firewall-cmd --list-ports开启防火墙 systemctl start firewalld2、永久开放8080端口 firewall-cmd --zonepublic --add-port8080/tcp --permanent3、重加载(重启防火墙) …

设计模式-依赖注入模式

设计模式专栏 模式介绍模式特点应用场景依赖注入和控制反转的区别代码示例Java实现依赖注入模式Python实现依赖注入模式 依赖注入模式在spring中的应用 模式介绍 依赖注入(Dependency Injection,简称DI)是一种面向对象编程中的设计模式&…

基于SSM的教育管理系统

基于SSM的教育管理系统 一、系统介绍二、功能展示1.项目内容2.项目骨架3.管理员登录4.系统界面5.注册6.系统管理7.课程管理8.添加科目9.学员信息 四、其它1.其他系统实现五.获取源码 一、系统介绍 项目名称:基于ssm的教育管理系统 当前版本:V1.0.0版本…

android——自定义TextView

效果展示&#xff1a; 代码解析&#xff1a; 1、首先设置自定义属性&#xff08;res/values下新建一个attrs.xml文件&#xff09; <?xml version"1.0" encoding"utf-8"?> <resources><!-- name 自定义view的名字 CustomTextView--&…

flask文件夹列表改进版--Bug追踪

把当前文件夹下的所有文件夹和文件列出来&#xff0c;允许点击返回上层目录&#xff0c;允许点击文件夹进入下级目录并显示此文件夹内容 允许点击文件进行下载 from flask import Flask, render_template, send_file, request, redirect, url_for import osapp Flask(__name_…

51单片机(STC8)-- 串口配置及串口重定向(printf)

文章目录 STC8串口概述串口寄存器配置串口1控制寄存器SCON串口1数据寄存器SBUF串口1模式 1工作方式串口1波特率计算方式 串口注意事项串口1通信demo串口重定向 STC8串口概述 由下图可知STC8H3K64S4带有4个4个串行通信接口&#xff0c;芯片名后两位S所带的数字即代表这款芯片带…

Systemctl | 系统服务管理利器

功能介绍 systemctl 是用于管理系统服务的命令行工具&#xff0c;常用于 Linux 系统中。提供了对系统服务&#xff08;包括启动、停止、重启、启用、禁用等&#xff09;的控制&#xff0c;以及对系统单元&#xff08;units&#xff09;的操作。 语法结构 systemctl 的基本语…

burpsuite的安装与介绍

安装(挑一个你喜欢的版本安装就行) 编程环境安装指南:Java、Python 和 Burp Suite抓包工具_burpsuite和java-CSDN博客 简介 Burp Suite是一个用于攻击Web应用程序的集成平台。它集成了多种渗透测试组件,能够帮助我们更好地完成对Web应用的渗透测试和攻击,无论是自动化还…