文章目录
- 1 AI 公司的火爆程度和发展趋势
- 1.1 AI 市场的规模和增长趋势
- 1.2 全球 AI 公司数量和分布情况
- 1.3 我们如何把握 AI 风口?
- 2 方法一:网络数据采集 - 使用亮数据代理
- 2.1 动态 ip 代理,获取数据
- 2.2 浏览器代理
- 3 方法二:网络数据采集 - 爬虫浏览器
- 4 方法三:直接购买现成的数据集
- 4.1 数据集商城介绍
- 4.2 数据集商城
- 4.3 按需定制数据集
- 5 2023 最值得投资的 AI 公司榜单
1 AI 公司的火爆程度和发展趋势
就在刚刚,一篇名为《4 位富豪因 AI 暴赚 10000 亿》的消息冲上百度热榜。
近期人工智能持续火爆,自 ChatGPT 发布以来,一股 AI 热潮迅速蔓延到了整个市场,知名投资者纷纷抢购他们认为可能推动 AI 崛起的公司的股票。Meta 和英伟达等大型科技巨头已经取得了三位数的涨幅,而微软、谷歌母公司 Alphabet 和甲骨文的股价也都在飙升。据统计,扎克伯格、拉里埃里森、比尔盖茨、黄仁勋这四位富豪,今年以来因为这波 AI 热,个人财富就合计增长了 1500 亿美元,折合人民币超 10000 亿元。
1.1 AI 市场的规模和增长趋势
随着 chatGPT 的横空出世,犹如在 AI 圈引爆核弹,掀起新一轮科技浪潮。一个快速增长的市场,其规模和增长趋势引起了广泛关注。根据国际市场研究机构 IDC 发布的数据,全球人工智能(AI)市场规模在 2019 年达到了 352 亿美元,预计到 2023 年将超过 550 亿美元。这表明全球 AI 市场正在以惊人的速度增长。
在中国,据艾瑞咨询发布的《2019-2020 中国人工智能产业发展趋势报告》显示,2018 年中国人工智能产业规模为 777.2 亿元(约合 111 亿美元),同比增长 67.7%。预计到 2022 年,中国人工智能产业规模将突破 1.5 万亿元(约合 2142 亿美元)。可以看出,中国也是一个非常重要的 AI 市场。
1.2 全球 AI 公司数量和分布情况
根据 CB Insights 发布的数据,截至 2021 年 2 月,全球 AI 公司数量已经超过 23000 家。这些公司主要分布在北美、欧洲和亚洲等地区。
在北美地区:硅谷是全球最著名的科技创新中心之一,也是全球 AI 公司最为密集的区域之一。除了硅谷之外,美国东部的纽约、波士顿等地也拥有众多 AI 公司。
在欧洲地区:英国、德国和法国等国家都拥有众多高质量的 AI 企业。此外,瑞典和以色列等小型国家也在人工智能领域取得了不俗成就。
在亚洲地区:中国是一个非常重要的市场。中国拥有大量优秀的人工智能企业和创新公司,例如百度、阿里巴巴、腾讯等。此外,日本也是一个非常重要的人工智能市场。
总体来说,全球各个地区都在加速发展人工智能产业,未来随着技术进步和应用场景不断扩展,AI 公司数量还将持续增长。
1.3 我们如何把握 AI 风口?
在过去的几十年里,科技行业经历了一次又一次的变革和创新,诞生了数个巨无霸的科技互联网公司。老话说得好:”站在风口,猪都会飞~“,今天西红柿尝试用数据技术把握 AI 风口。授人以鱼不如授人以渔,我会详细分享过程中的一些方法。
整体分为以下 4 个步骤:确定指标 >>> 数据获取 >>> 数据分析 >>> 榜单揭晓
确定指标:选择合适的指标是分析 AI 公司的关键。常见的指标包括收入、利润、市值、股价、研发支出等。
数据获取:通过爬虫或购买数据集等方式获取 AI 公司的相关数据。可以从公开渠道获取数据,如财报、新闻报道和社交媒体信息等。
数据分析:使用统计学方法和机器学习算法对数据进行分析,探索各个指标之间的关系。同时,将结果可视化以便更好地理解。
榜单揭晓:根据分析结果,得到最值得投资的 AI 公司名单,重点投资关注。
2 方法一:网络数据采集 - 使用亮数据代理
2.1 动态 ip 代理,获取数据
动态IP代理是指使用动态分配的IP地址作为代理服务器的网络技术,完全匿名、安全性和更好访问体验。相比于静态IP,动态IP代理具有以下优势:
隐藏IP地址:使用动态IP代理可以隐藏我们的真实IP地址,保护我们的隐私和安全。
防止封禁:频繁访问某网站,可能会被服务商对IP地址误封禁,使用动态IP代理可以避免这种情况发生。
获取准确数据:避免因为地理位置而造成的数据误差,我们都知道,网络会根据不同的地理IP来提供相对应的数据信息,好的动态住宅代理能够让你自由通过不同的国家,定位不同的城市采集数据。
提高访问速度:使用动态IP代理可以将网络请求转发到距离我们更近、更快速的服务器上,从而提高访问速度。
下述代码,西红柿将展示一个使用代理IP的方法,大概分为这样几个步(详见注释):
1.判断执行环境 > 2.导入request和random包 > 3.输入代理账户信息 > 4.执行代理访问
#!/usr/bin/env python
import sys
if sys.version_info[0]==3: ## 判断你的环境版本
import urllib.request
import random
username = 'brd-customer-hl_31f1e46f-zone-residential'
password = '3ztz8xik7777' ## 换成你自己的哟
port = 22225
session_id = random.random()
super_proxy_url = ('http://%s-session-%s:%s@brd.superproxy.io:%d' %
(username, session_id, password, port))
proxy_handler = urllib.request.ProxyHandler({
'http': super_proxy_url,
'https': super_proxy_url,
})
opener = urllib.request.build_opener(proxy_handler)
print('Performing request')
print(opener.open('http://lumtest.com/myip.json').read())
代理效果展示:
输入代理账户信息:实例代码是我个人的,仅供参考,可自助申请你的账号。
操作详见: 亮数据 - 代理网络技术
2.2 浏览器代理
当然,如果想要方便快捷的浏览数据,也可以使用浏览器代理。
使用浏览器代理,可以将网络请求转发到离我们更近、更快速的服务器上,从而提高访问速度或流量限制。
针对 Chrome Mac 浏览器,其他浏览器详见官方文档。
- 打开浏览器 “设置”
- 点击“显示高级设置”
- 在“网络”部分,点击“更改代理设置”
- 系统偏好设置应该会自动启动
- 选择“Web代理(HTTP)”和“安全Web代理(HTTPS)”
- 在“Web代理服务器”中:输入brd.superproxy.io
- 在“端口”中:输入22225
- 勾选“代理服务器需要密码”
- 用户名填写:brd-customer-hl_31f1e46f-zone-residential
- 密码填写:3ztzxxxxxx
温馨提示: 该代理网络设定将被应用到所有的流量,记得在你不需要时关闭它。
也可以查看代理流量使用情况(小时级更新)~
3 方法二:网络数据采集 - 爬虫浏览器
第二种网络数据采集的方法是: 亮数据 - 爬虫浏览器
这是该公司的一款新产品,行业内领先,目前进行新产品推广:使用他们的爬虫浏览器,可以获50%的折扣!
这是一个非常强大的浏览器,他利用内置解锁功能和代理一体的爬虫浏览器,大规模轻易解锁网站,抓取数据。简单来说,帮你自动实现了数据所见即所得。
同时,这也是一款非常方便的浏览器,浏览器内置的解锁功能,包括验证码解决、浏览器指纹识别和代理管理,可以节省大量时间和资源。也可以使用浏览器自动化 API,启动和操控大量爬虫浏览器会话。
基于强大的技术底座,ip 代理技术和浏览器技术,获取信息将变得如此简单。
当然,亮数据浏览器也支持集成到代码里。
官网提供了针对主流语言,如Python、Node.js 的使用实例。
第一步:你需要安装必要的Python 包。
pip3 install playwright
第二步:执行浏览器代理。(这里就不详细演示代码了,如有兴趣请看上文”你不是一个人在编程“)
4 方法三:直接购买现成的数据集
如果想更加简单高效的获取数据, 也可以直接使用: 亮数据 - 数据集商城
4.1 数据集商城介绍
数据集商城 的最大的优势:全平台覆盖,实时更新。
全平台覆盖是指覆盖全域使用场景的,已经采集好的,结构化的,准确的公开大数据集。比如,2023 年最值得投资的 AI 公司,在数据集商城能查到很多有用的信息。
那为什么我们有这么好的数据集?因为有十分高效稳定的代理网络,和数据采集工具,才能采集到这些数据集,并保证采集数据的完整性和可用性。
当然,最重要的是我们的操作必须安全合规,大家也可以放心。首先,亮数据全部为外网数据(如互联网公司的基本信息,类似于国内的企查查的部分功能),另外,所有数据集都是在法律允许和网站协议允许的条件下的。
4.2 数据集商城
有 3 种方式帮助我们快速获取想要的数据:
- 数据按照受欢迎程度,进行了降序推荐;
- 数据按照行业分类进行关联;
- 支持模糊搜索,输入关键词快速查找想要的数据。
为了自动化的获取最新数据,还可以进行以下设置:
- 选择喜欢的文件格式:支持 JSON, NDJSON, XLSX, CSV, FLAT CSV 等。
- 选择接收方式:支持 Email, API download, Webhook, Amazon S3, Google Cloud Storage, Microsoft Azure Storage, SFTP
- 设置更新频率: 一次性,每日,每周,没月,每季度
4.3 按需定制数据集
当然,如果没有获取到你想要的数据,甚至可以将需求告知在亮数据官网,为你订制采集,或者使用在线IDE自己创建一个数据采集器。
比如,我可以直接问:
Which is the most valuable AI company for investment?
5 2023 最值得投资的 AI 公司榜单
最后,西红柿也大胆预测了2023最有潜力的AI公司,他们都在某个行业或领域做了大量实践探索,期待他们让未来人类生活方式更加便捷美好。
OpenAI:OpenAI 是一家人工智能研究机构,致力于开发安全、友好和有益于人类的 AI 技术。OpenAI 已经在自然语言处理、计算机视觉等领域取得了重大突破,并与多家大型企业合作推出了各种 AI 产品和服务。
UiPath:UiPath 是一家总部位于美国纽约的软件公司,专注于开发自动化流程技术。UiPath 提供了一套完整的 RPA(Robotic Process Automation)解决方案,帮助企业实现流程自动化,提高效率。
SenseTime:商汤科技是中国领先的人工智能公司之一,其核心技术包括计算机视觉、深度学习等。商汤科技已经与多个行业建立了合作关系,并推出了各种面向消费者和企业客户的 AI 产品和服务。
NVIDIA:NVIDIA 是一家全球领先的图形处理器制造商,同时也是人工智能领域的重要参与者。NVIDIA已经在 AI 计算、自动驾驶等领域取得了重大突破,并与多家企业建立了合作关系。
IBM Watson:IBM Watson 是 IBM 公司推出的一套人工智能解决方案,涵盖了自然语言处理、计算机视觉、机器学习等多个领域。IBM已经在医疗保健、金融服务等行业推出了各种 AI 产品和服务,并与多家企业建立了合作关系。