万万没想到,我用文心一言开发了一个儿童小玩具

news2024/11/26 19:26:16

最近关注到一年一度的百度世界大会今年将于10月17日在北京首钢园举办,本期大会的主题是“生成未来(PROMPT THE WORLD)”。会上,李彦宏会做主题为「手把手教你做AI原生应用」的演讲,比较期待 Robin 会怎么展示。据说,大会当天百度还会发布文心4.0版本,估计要炸一波街。

在这里插入图片描述

作为一名对人工智能技术深感兴趣的开发者,我相信这次大会将带来各种新颖的想法和独特的观点,激发参会者们探索AI技术更广阔应用场景的热情。也很期待从李彦宏和其他嘉宾的分享中汲取灵感并拓宽视野,进一步认识到AI技术带给我们的巨大机遇。

想法由来

文心大模型覆盖了很多AI应用场景,有NLP大模型、CV大模型、跨模态大模型等等。今年3月,百度发布了大模型服务平台文心千帆,纳入管理包括文心大模型在内的国内外主流大模型,对于除文心大模型之外的第三方大模型,千帆平台不只是简单的接入,还提供中文增强、性能增强、上下文增强等能力。比如,原来要用英文对话效果才好的 Llama2 等国外大模型,现在用中文也一样好。

看到文心提供的强大功能,感觉不做点什么都觉得对不起它。想到最近工作比较忙,没时间陪伴自己的女儿,她现在正是需要益智小游戏的年龄段,于是就有了开发一款适用于婴幼儿的【看图语音识别】小游戏的创意。

实现流程构想

  • 程序弹出小动物的图片;
  • 孩子发出“小动物名字”的语音;
  • 程序识别语音并告知孩子是否回答正确;
  • 正确则切换下一张图片,错误则告知孩子请重新作答;

小游戏应用实现流程

准备工作:SDK安装及使用流程

(1)安装SDK

pip install qianfan

这里需要注意:目前支持 Python >= 3.7版本。且调用SDK前,需确保已完成SDK安装。

(2)调用SDK(具体操作步骤)

  • 步骤一,在百度千帆大模型平台创建应用,获取应用API Key(AK) 和 Secret Key(SK)。
  • 步骤二,初始化AK 和 SK。
  • 步骤三,调用SDK。

第一步,随机展示动物图片

我们先搜集几张不同的动物图片,然后用动物的名字来命名,将它们放在程序的固定路径下。

from PIL import Image
import os
import random

# 指定图片文件夹路径
img_folder = "path/to/image/folder"

# 获取图片列表
img_list = os.listdir(img_folder)

# 从列表中随机选择一张图片
img_name = random.choice(img_list)

# 打开并显示选中的图片
img_path = os.path.join(img_folder, img_name)
img = Image.open(img_path)
img.show()

在这里插入图片描述

第二步,完成图像识别

首先通过应用的API_KEY和SECRET_KEY 获取应用的 access_token。

def get_access_token():
    # 使用 AK,SK 生成鉴权签名(Access Token)
    # return: access_token,或是None(如果错误)
    url = "https://aip.baidubce.com/oauth/2.0/token"
    params = {"grant_type": "client_credentials", "client_id": API_KEY, "client_secret": SECRET_KEY}
    return str(requests.post(url, params=params).json().get("access_token"))

然后根据图片获取到对应的base64编码:

def get_file_content_as_base64(path, urlencoded=False):
   
    # 获取文件base64编码
    # :param path: 文件路径
    # :param urlencoded: 是否对结果进行urlencoded
    # :return: base64编码信息
  
    with open(path, "rb") as f:
        content = base64.b64encode(f.read()).decode("utf8")
        if urlencoded:
            content = urllib.parse.quote_plus(content)
    return content

最后调用图片识别接口,获取图片识别的动物名称

def get_result():

   url = "https://aip.baidubce.com/rest/2.0/image-classify/v1/animal?access_token=" + get_access_token()

   # 获取图片的base64编码
   payload= get_file_content_as_base64("C://path//to//image//folder//斑马.jpg",True)
   headers = {
       'Content-Type': 'application/x-www-form-urlencoded',
       'Accept': 'application/json'
   }

   response = requests.request("POST", url, headers=headers, data=payload)

   print(response.text)

打印结果如下,返回结果对应不同score,我们取score最高的作为返回结果即“斑马”。

{
    "result": [
        {
            "score": "0.948385",
            "name": "斑马"
        },
        {
            "score": "0.0410539",
            "name": "平原斑马"
        },
        {
            "score": "0.00519192",
            "name": "细纹斑马"
        },
        {
            "score": "0.000554136",
            "name": "斑马驴"
        },
        {
            "score": "0.000273289",
            "name": "斑驴"
        },
        {
            "score": "0.000155838",
            "name": "孟加拉虎"
        }
    ],
    "log_id": "1710925525288202877"
}

第三步,识别小朋友的语音

在这里插入图片描述
在孩子看到图片之后用语音的方式说出动物的名字,此时我们需要将孩子的语音文件进行 base64 转码处理。

def get_file_content_as_base64(path, urlencoded=False):
    
    # 获取文件base64编码
    # :param path: 文件路径
    # :param urlencoded: 是否对结果进行urlencoded
    # :return: base64编码信息
   
    with open(path, "rb") as f:
        content = base64.b64encode(f.read()).decode("utf8")
        if urlencoded:
            content = urllib.parse.quote_plus(content)
    return content

然后需要将该语音文件转化为文本:

def get_text():
    url = "https://vop.baidu.com/server_api"
    speech = get_file_content_as_base64("C://path//to//image//folder//banma.m4a",False)
    payload = json.dumps({
        "format": "pcm",
        "rate": 16000,
        "channel": 1,
        "cuid": "0kGgQCWS6F1A7lYR5sBQCVT3Id4TsEY4",
        "token": get_access_token(),
        "speech": speech,
        "len": 36414
    })
    headers = {
        'Content-Type': 'application/json',
        'Accept': 'application/json'
    }
    response = requests.request("POST", url, headers=headers, data=payload)
    print(response.text)

打印结果如下,我们根据返回的结果将 result 中的数据取出来,即“斑马”。

{
    "corpus_no": "7287496064443398818",
    "err_msg": "success.",
    "err_no": 0,
    "result": [
        "斑马"
    ],
    "sn": "928281938221696752399"
}

最后就需要我们把“通过图像识别出来的文字”和“通过语音识别出来的文字”进行比对,如果一致就切换下一张图片,不一致则告知孩子请重新作答。

到这儿,我的创意就全部实现了,虽然只是简单的软件层面的实现,但是我希望以后儿童玩具厂商可以把它来最终落地,毕竟这种AI原生应用小玩具肯定会广受儿童喜欢的。它到底是“斑马”还是“马”呢?让程序告诉小朋友吧。

最后多啰嗦几句,很期待在百度世界大会上看到更多的AI原生应用,包括智能家居、智能医疗、智能零售、智能交通等领域的创新应用。这些应用将有望在未来实现更好的人机交互、智能化的自动化流程、个性化的服务和体验,推动产业升级和社会进步。同时,我们也期待看到更多企业和开发者加入到AI原生应用的创新行列中,共同推动人工智能技术向前发展。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1075628.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【后端】韩顺平Java学习笔记(入门篇)

目前准备学后端,java虽然大二上学了但是基本忘没了orz 争取大三卷一点啊啊啊 九月份写的10月份才发orz 中间摆烂了很久,现在目标清晰准备行动了kkk 来源:韩顺平 零基础30天学会Java 目录 I. 简介 一、特点 ✿ 跨平台性 → 运行机制…

GIN框架路由的实现原理

文章目录 首先回顾一下gin框架的路由如何使用的从源码分析一下gin框架gin的路由实现前缀树前缀树的实现压缩前缀树--Radix TrieTrie VS Map 首先回顾一下gin框架的路由如何使用的 package mainimport ("fmt""github.com/gin-gonic/gin""net/http&quo…

使用策略模式重构审批

之前在公司与同时合作开发了一个考核系统,最后干完后整个代码也是合在了我这里,于是进行了codereview,进行优化代码,在审核这边,我先是拆分了公共代码,然后对重复的代码块进行了封装,但是审核这…

Flutter配置Android SDK路径

在使用VSCode作为开发Flutter的工具时,当选择调试设备时,通常看不到android的模拟器,只能看到Chrome之类的。 原因就是Flutter找不到Android的SDK路径,所以无法识别模拟器,我们用flutter doctor命令检查环境时&#xf…

论文《Link Prediction on Latent Heterogeneous Graphs》阅读

论文《Link Prediction on Latent Heterogeneous Graphs》阅读 论文概况IntroductionLHGNNA.语义嵌入a.节点级语义嵌入b.路径级语义嵌入 B.潜在异构上下文聚合a.上下文个性化b.上下文聚合 C.链路预测a.链路编码器b.损失函数 总结 论文概况 本文是2023年WWW上的一篇论文&#xf…

LeetCode 59. 螺旋矩阵 II【数组,模拟】中等

本文属于「征服LeetCode」系列文章之一,这一系列正式开始于2021/08/12。由于LeetCode上部分题目有锁,本系列将至少持续到刷完所有无锁题之日为止;由于LeetCode还在不断地创建新题,本系列的终止日期可能是永远。在这一系列刷题文章…

563. 二叉树的坡度

563. 二叉树的坡度 C代码: int sum;int dfs(struct TreeNode* root) {if (root NULL) {return 0;}int left dfs(root->left);int right dfs(root->right);sum fabs(left - right);return root->val left right; }int findTilt(struct TreeNode* roo…

【HTML5】语义化标签记录

前言 防止一个页面中全部都是div,或者ul li,在html5推出了很多语义化标签 提示:以下是本篇文章正文内容,下面案例可供参考 常用语义化案例 一般我用的多的是header,main,footer 这些标签不难理解&#x…

G1 GC详解及设置

一、概述 G1 GC,全称Garbage-First Garbage Collector,在JDK1.7中引入了G1 GC,从JAVA 9开始,G1 GC是默认的GC算法。通过-XX:UseG1GC参数来启用。G1收集器是工作在堆内不同分区上的收集器,分区既可以是年轻代也可以是老…

ChatGLM2-6B微调实践-Lora方案

ChatGLM2-6B微调实践-Lora方案 环境部署Lora微调项目部署准备数据集修改训练脚本adapter推理模型合并与量化合并后的模型推理 微调过程中遇到的问题参考: 环境部署 安装Anaconda、CUDA、PyTorch 参考:ChatGLM2-6B微调实践-P-Tuning方案 Lora微调 项目…

基于opencv,卡尺工具

机器视觉尺寸测量项目中,测量工件尺寸中最基本的卡尺工具。 卡尺工具涉及到的最主要任务: 扫描边缘点,亚像素精度 拟合直线 实现了一个小demo,用来获取工件边缘,亚像素精度。 代码链接放下下面 https://download.cs…

饥荒服务器阿里云租用价格表一年和一个月收费报价表

饥荒阿里云服务器多少钱一个月?阿里云服务器价格9元一个月,阿里云轻量应用服务器2核2G3M带宽轻量服务器一年108元,2核4G4M带宽轻量服务器一年297.98元12个月;阿里云ECS云服务器e系列2核2G配置182元一年、2核4G配置365元一年、2核8…

苹果遭遇安全危机,应用商店曝出不良APP,或影响iPhone的销售

据澎湃新闻报道指苹果的App Store被曝出不良APP位居下载榜前列,这对于向来强调APP严格审核的苹果来说是巨大的打击,更影响向来被认为信息安全遥遥领先的名声,对当下正热销的iPhone15或造成打击。 据了解被曝的软件以“学习XX字母”为命名&…

Apache Shiro 漏洞复现

文章目录 Apache Shiro 漏洞复现1. Apache Shiro 1.2.4 反序列化漏洞1.1 漏洞描述1.2 漏洞原理1.3 漏洞复现1.3.1 环境启动 1.4 漏洞利用1.5 修复方案 Apache Shiro 漏洞复现 链接地址:Vulhub - Docker-Compose file for vulnerability environment 1. Apache Shi…

Chrome自动播放限制策略

原文链接:Chrome 自动播放限制策略 Web浏览器正在朝着更严格的自动播放策略发展,以便改善用户体验,最大限度地降低安装广告拦截器的积极性并减少昂贵和/或受限网络上的数据消耗。这些更改旨在为用户提供更大的播放控制权,并使开发…

ThreeJs中场景(scene)、 相机(camera)、渲染器(renderer)等方法类使用

ThreeJs笔记 简介 WebGL(Web Graphics Library,Web图形库),是一个JavaScript API,可在任何兼容的Web浏览器中渲染高性能的交互式3D和2D图形,而无需使用插件 。 WebGL通过引入一个与OpenGL ES 2.0非常一致…

学编程,为什么优先推荐学Python?

编程,也就是用计算机语言来控制计算机的过程,是当今社会中一项非常重要和有用的技能。无论你是想从事科学研究、工程设计、商业管理、教育传播、艺术创作,还是其他任何领域,学习编程都可以给你带来很多好处。 本文将从以下几个方…

Maven 构建生命周期

目录 构建阶段由插件目标构成 Clean 生命周期 Default (Build) 生命周期 命令行调用 Site 生命周期 Maven 构建生命周期定义了一个项目构建跟发布的过程。 一个典型的 Maven 构建(build)生命周期是由以下几个阶段的序列组成的: 阶段 处…

express-generator快速构建node后端项目

express-generator是express官方团队开发者准备的一个快速生成工具,可以非常快速的生成一个基于express开发的框架基础应用。 npm安装 npm install express-generator -g初始化应用 express my_node_test 创建了一个名为 my_node_test 的express骨架项目通过 Exp…

Session 机制

一、Session 会话机制原理 Session(会话)机制是一种在 Web 应用程序中用来跟踪用户状态的技术。它通过在服务器端存储和管理用户信息,为每个用户分配一个唯一的会话标识符(Session ID/Token),并将该标识符…