行业前景咋样?大厂找我用C++抓取化工产品数据并分析

news2024/9/21 19:23:53

最近又来活了,天天忙到半夜,但是想想收益还是再坚持坚持。是这么一回事,兄弟所在的化工公司最近想看看某些行业数据,看看市面的同类型产品销量收益等情况是否满足预期效果,也就找到我让我给用爬虫写一个采集并分析的报告,为朋友两肋插刀在所不辞,说干就干,详细的步骤和代码我将会一一分享出来。

在这里插入图片描述

首先,这是一个使用C++编写的爬虫程序,用于抓取化工产品数据。程序使用了代理信息,代理服务器的IP地址为duoip,端口为8000。

#include <iostream>
#include <string>
#include <curl/curl.h>

这行代码包含必要的库文件。iostream库用于输入/输出,string库用于处理字符串,curl库用于实现网络请求。

int main()
{
    CURL *curl;
    CURLcode res;
    std::string url="honkan/"; //化工产品数据抓取网站的URL
    std::string proxy_host = //提取免费IP jshk.com.cn/mb/reg.asp?kefu=xjy&csdn
    std::string proxy_host = "duoip";
    int proxy_port = 8000;
    std::string post_data = "login=1&password=123456&submit=提交"; //模拟登录表单的数据
    std::string response = ""; //用于存储抓取到的网页内容

    curl_global_init(CURL_GLOBAL_ALL); //初始化curl库

    curl = curl_easy_init(); //初始化curl对象

    if(curl)
    {
        curl_easy_setopt(curl, CURLOPT_URL, url.c_str()); //设置请求的URL

        curl_easy_setopt(curl, CURLOPT_PROXY, proxy_host.c_str()); //设置代理服务器的IP地址
        curl_easy_setopt(curl, CURLOPT_PROXYPORT, proxy_port); //设置代理服务器的端口

        curl_easy_setopt(curl, CURLOPT_POST, 1); //设置请求为POST请求
        curl_easy_setopt(curl, CURLOPT_POSTFIELDS, post_data.c_str()); //设置请求体

        curl_easy_setopt(curl, CURLOPT_FOLLOWLOCATION, 1L); //启用重定向

        curl_easy_setopt(curl, CURLOPT_WRITEFUNCTION, WriteCallback); //设置回调函数,用于处理返回的数据

        curl_easy_setopt(curl, CURLOPT_WRITEDATA, &response); //设置回调函数的参数,用于存储返回的数据

        res = curl_easy_perform(curl); //发送请求

        if(res != CURLE_OK)
        {
            std::cerr << "curl_easy_perform() failed: " << curl_easy_strerror(res) << std::endl;
        }

        curl_easy_cleanup(curl); //清理curl对象
    }

    curl_global_cleanup(); //清理curl全局变量

    std::cout << response << std::endl; //输出抓取到的网页内容

    return 0;
}

这行代码初始化了curl库。然后,初始化了一个curl对象,并设置了请求的URL和代理服务器的IP地址和端口。接着,设置了请求为POST请求,并设置了请求体。然后,启用了重定向,并设置了回调函数用于处理返回的数据。最后,发送了请求,并清理了curl对象和curl全局变量。

这就是这个C++爬虫程序的工作原理。它使用了代理服务器,通过POST请求发送到化工产品数据抓取网站,然后处理返回的数据并输出。

其实了解爬虫的都知道,无非就是防止IP被限制,然后禁止触发网站反爬虫限制,只要解决这连个问题,基本上爬虫也就不会遇到什么难事了,如果有请评论区留言一起讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1325518.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何实现设备联网控制?

在工业自动化领域&#xff0c;设备联网控制已经成为一种趋势。通过设备联网&#xff0c;可以实现设备的远程监控和管理&#xff0c;提高设备的可用性和效率。本文将介绍如何实现设备联网控制。 设备如何联网&#xff1f; 使用网关联网&#xff1a; HiWoo Box是一款功能强大的…

Sectigo的ov多域名ssl证书

OV多域名SSL证书和EV多域名SSL证书都只支持企事业单位申请&#xff0c;但是EV多域名SSL证书审核比较严格&#xff0c;价格也比较高&#xff0c;OV多域名SSL证书能加密网站传输数据&#xff0c;也能对服务器身份进行认证。对于大多数事业单位&#xff0c;OV多域名SSL证书就能满足…

外贸业务员该如何写好一份有质感的年终总结?内附外贸大神例文

庄子云&#xff1a;人生天地之间&#xff0c;若白驹之过隙&#xff0c;忽然而已... 2023年注定是不平凡的一年&#xff0c;临近年终&#xff0c;你可能听到最多的关键词就是外贸有点难做。不管是因为什么&#xff0c;客观来说2023年的外贸之路确实不太平坦&#xff0c;最近胡塞…

车辆违规开启远光灯检测系统:融合YOLO-MS改进YOLOv8

1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 研究背景与意义 随着社会的不断发展和交通工具的普及&#xff0c;车辆违规行为成为了一个严重的问题。其中&#xff0c;车辆违规开启远光灯是一种常见的违规行为&#xff0c;给其…

快速能访问服务器的文件

1、背景 访问ubuntu上的文件 2、方法 python3 -m http.server 8081 --directory /home/ NAS 共享访问协议 — NFS、SMB、FTP、WebDAV 各有何优势&#xff1f;http://1 Ubuntu 搭建文件服务器&#xff08;Nginx&#xff09;

【开源】USB转4路RS422+4路RS485电路板设计

简介 CH348Q是沁恒出品的一款USB转8路串口的芯片&#xff0c;USB为2.0接口&#xff0c;其中4路串口支持流控&#xff0c;另外4路不支持流控&#xff0c;之前介绍过一款开源USB转8路串口的板子&#xff0c;文章链接&#xff1a;https://mp.weixin.qq.com/s/KsrV3nwemQyq3tdv7Lk…

超分辨数据集:Set5 Set14 BSD100 Urban100 Manga109

DIV2K数据集官网上很好找到&#xff0c;但是网上流传的Set5 14 BSD100,Urban100 Manga109都是私人进行处理过的版本&#xff0c;各个处理方式都不同&#xff0c;为了统一方式写了这篇文章。 官方的DIV2K x2、x3、x4的LR图片使用下面matlab代码生成&#xff08;已经经过测试最后…

精细经营:为 Web3 游戏长期卓越奠定基石

作者&#xff1a;lesleyfootprint.network 随着越来越多的人涌入 Web3 游戏世界&#xff0c;构建精细化运营体系成为保持项目长期发展的关键。充分利用数据分析对于明智的决策至关重要&#xff0c;它能揭示用户行为、交易模式和市场趋势的内在奥秘。 基于数据驱动的决策、风险…

汤晓鸥:以科技改变世界,以教育照亮未来

原创 | 文 BFT机器人 汤晓鸥是我国人工智能领域的杰出代表&#xff0c;也是商汤科技的创始人。他在AI领域有着深厚的研究背景和丰富的实践经验&#xff0c;其主要研究方向是计算机视觉&#xff08;CV&#xff09;、模式识别和视频处理。 汤晓鸥积极推动AI技术的发展&#xff0…

uniapp实现豆瓣电影微信小程序(附源码)

演示 运行 基于本地代理1 npm run dev:proxy1基于本地代理2 npm run dev:proxy2基于nginx 代理 npm run dev:nginx目录结构 |__ douban # 本地代理|__ app.js # 方式 1|__ proxy.js …

深度学习的十大核心算法

引言 深度学习是人工智能领域中最热门和最具影响力的分支之一。其核心在于通过构建复杂的神经网络模型&#xff0c;从大量的数据中自动学习并提取出有用的特征&#xff0c;从而实现各种高级的任务&#xff0c;如图像识别、自然语言处理等。本文将介绍深度学习中的十大核心算法…

Linux之进程(五)(进程控制)

目录 一、进程创建 1、fork函数创建进程 2、fork函数的返回值 3、fork常规用法 4、fork调用失败的原因 二、进程终止 1、进程终止的方式 2、进程退出码 3、进程的退出方法 三、进程等待 1、进程等待的必要性 2、wait函数 3、waitpid函数 四、进程程序替换 1、概念…

c++11特性:右值引用的作用以及使用

右值&#xff1a; C11 增加了一个新的类型&#xff0c;称为右值引用&#xff08; R-value reference&#xff09;&#xff0c;标记为 &&。在介绍右值引用类型之前先要了解什么是左值和右值&#xff1a; 1. lvalue 是locator value的缩写&#xff0c;rvalue 是 read v…

Swagger2接口测试文档

目录 一、Swagger简介 1.1 Swagger是什么&#xff1f; 1.2 为什么要用Swagger 1.3 Swagger注解 二、Spring集成Swagger 三、测试环境配置 一、Swagger简介 1.1 Swagger是什么&#xff1f; Swagger是一款RESTFUL接口的文档在线自动生成功能测试功能软件。Swagger是一个规…

(自适应手机版)英文外贸网站模板 - 带三级子目录

(自适应手机版)英文外贸网站模板 - 带三级子目录 PbootCMS内核开发的网站模板&#xff0c;该模板适用于外贸网站、英文网站类等企业&#xff0c;当然其他行业也可以做&#xff0c;只需要把文字图片换成其他行业的即可&#xff1b; 自适应手机版&#xff0c;同一个后台&#x…

数据安全扫描仪荣膺网络安全优秀创新成果大赛优胜奖 - 凸显多重优势

近日&#xff0c;由中国网络安全产业联盟&#xff08;CCIA&#xff09;主办、CCI数据安全工作委员会中国电子技术标准化研究院等单位承办的“2023年网络安全优秀创新成果大赛”获奖名单公布。天空卫士数据安全扫描仪&#xff08;DSS&#xff09;产品获得创新成果大赛优胜奖。 本…

从源码到实践:深入了解鸿鹄电子招投标系统与电子招投标

在数字化采购领域&#xff0c;企业需要一个高效、透明和规范的管理系统。通过采用Spring Cloud、Spring Boot2、Mybatis等先进技术&#xff0c;我们打造了全过程数字化采购管理平台。该平台具备内外协同的能力&#xff0c;通过待办消息、招标公告、中标公告和信息发布等功能模块…

JetBrains AI Assistant 最佳平替方案来了

先看看官方推荐 JetBrains IDE 中的 AI 助手 除了你自己&#xff0c;谁最了解你的项目&#xff1f;你的IDE&#xff01;这就是为什么 AI Assistant 可以如此具有上下文感知能力和帮助性的原因。 JetBrains AI 服务采用不同的大型语言模型 &#xff08;LLM&#xff09;&#xf…

ChatGPT助力Excel数据分析:让你的工作事半功倍!

文章目录 一、ChatGPT简介二、ChatGPT在Excel数据分析中的应用1. 数据清洗2. 数据处理3. 数据分析4. 数据可视化 三、如何使用ChatGPT进行Excel数据分析1. 安装ChatGPT插件2. 输入问题或命令3. 查看结果并调整参数4. 导出结果并分享四、总结与展望 《巧用ChatGPT高效搞定Excel数…

想将电脑屏幕共享到iPhone上,但电脑是Linux系统,可行吗?

常见Windows系统或macOS系统的电脑投屏到手机&#xff0c;难道Linux系统的电脑要投屏就是个难题吗&#xff1f; 想要将Linux系统投屏到iPhone、iPad、安卓设备、鸿蒙设备&#xff0c;其实你可以利用软件AirDroid Cast和Chrome浏览器&#xff01;连接同一网络就可以直接投屏。 第…