如果你看到下图的产品,你的第一反应是什么?
我的第一反应是,这样的产品会有市场吗?一个鼠标加上几个奇奇怪怪的键,披上 AI 的外衣,就有用户买单吗?
第二反应是,就算有市场,能赚到钱吗?我们都知道,电脑外设产品利润非常低,基本上都是搭在其它产品送出去。
第三反应是,如果能赚钱,那讯飞、阿里这样的大厂下场,有自己的语言识别系统、自己的大模型,一个创业小公司怎么竞争得过?
后来我去京东和淘宝一搜,发现这样的产品非常多。上京东以 "AI鼠标" 为关键字搜索相关产品,品牌和品类相当多:
一看价格,就知道绝对不是无利可图。一个普通的无线鼠标,可能就五六十元,加上 AI,成本并没有增加多少,可以卖到 200 ~ 500 元,只要能卖出去,绝对是有得赚的。
此外,目光不能局限在卖产品,可以做方案,将方案卖给外设厂商。将软硬件集成,鼠标生产厂家拿过去,换个标,就是他们的新产品。这种模式风险较小,虽然没有自己的品牌,但少了很多生产成本。
在方案中集成 AI 软件,这也是一个增值服务的入口。只要有用户用,总归可以赚到钱的。
至于大厂下场,纯属想多了。这个市场总体盘面不大,大厂看不上,最多想作为他们服务产品的入口。事实上和大厂可以是合作关系,当然也有竞争,比如讯飞也有 AI 鼠标这样的产品,但用户体验并不好。原因也很简单,看不上,没有花功夫去认真做。
其实我个人算是比较早关注 AI 领域,当年就关注了 AlphaGo 和李世石的世纪大战,之后还关注过 AI 绘画,甚至为了研究 AI 投入了真金白银(一台昂贵的电脑、NVIDIA Jetson Nano 等等)。
因为前一份工作比较清闲,有大量的时间可以研究一些感兴趣的技术方向,所以我做过一些东西,比如开发图片识别微信小程序,使用 Jetson Nano 做边缘 AI 计算、浏览器中的深度学习等等。然而,做这些都是浅尝辄止,因为怎么做都觉得没啥搞头。
就拿大模型来说吧,为了能够更加深入理解深度学习,我读过被戏称为西瓜书的《机器学习》,也啃过大部头的《深度学习》。
但这些书实在太生涩,一个个字都认识,但组合在一起就不知道讲些什么,对自信心也是一个重大打击。
后来我又打算从应用开发入手,但一直在寻找做什么东西。受识花君微信小程序(一款拍照识花的微信小程序)启发,我也尝试做了一个识狗君微信小程序,研究了 tensorflow-js 在微信小程序上的移植,做到了不依赖服务器就能拍照识别狗的品种。但这个小程序做得相当粗糙,训练的模型也非常小,一直也没有动力去完善它。这其中主要原因还是觉得没有技术含量,问题是,有技术含量的东西又做不来。一直处在纠结中,一方面觉得这个方向挺好,该做点什么,另一方面,简单的不想做,难的又做不来。
现在做具体的产品,语音识别集成第三方方案、大模型也是使用大厂的,看起来一点技术含量没有,但真正做的时候,才发现没那么简单。
首先,作为方案提供商,总得做多平台支持吧,Windows、Mac OS 都得上,最近国产系统起来了,还得考虑 Linux、鸿蒙等系统。虽然 QT 本身支持跨平台开发,但就实际情况,就支持 Windows 就忙得够呛,Windows 有 7、8、10、11 几个版本,还有 32 位系统的支持。有些问题与 Windows 版本相关,得一个个去解决。
其次,我们也不能像高通这样的公司,提供解决方案,由客户进行二次开发。我们的客户都是直接拿做好的包过去,但又不想和别的厂商一样,总得有些个性化的需求。这导致随着客户的增多,定制版本也越来越多。如何高效管理众多定制版本,也是一个巨大挑战。
再次,面向 C 端的产品,用户的环境各种各样,你永远无法预料那个环节会影响程序的正常运行。像这种只会在客户机器上出现的问题,调试起来非常麻烦。即使用户配合,你也不可能在用户机器上装开发环境,只能通过分析日志来判断问题出在什么地方。这种特定用户的随机问题,解决起来非常棘手。
最后,集成第三方服务的坑也是相当多,比如使用讯飞的语音识别服务就花很多时间去解决识别率不高等诸多问题。还有对接大模型,内置浏览器等等,真的防不胜防。
现在每天睁眼就是思考如何解决问题,也不用关心各种乱七八糟的社会新闻,和前一份工作有着天壤之别。说来也奇怪,人忙起来,睡得也香一些,不用去思考诸如人生意义这样的终极问题,反而获得内心的安宁。