浅谈 php 采用curl 函数库获取网页 cookie 和 带着cookie去访问 网页的方法!!!!

news2024/12/12 19:35:19

由于近段时间帮朋友开发一个能够查询正方教务系统的微信公众平台号。有所收获。这里总结下个人经验。

开讲前,先吐槽一下新浪云服务器,一个程序里的   同一个函数  在PC测试可以正常运行,在它那里就会挂的现象。

老样子,我将在代码里注释清楚。使用下面的函数,将会获得两种形式的 cookie,一种保存在文件中,一种直接以变量的形式返回,

经验提示: 有时候,在不同的代码运行环境中,带着文件cookie 去访问会成功,而变量却失败,有时候却想法。不过,

目前,这两种方法总有一种会成功。

function get_cookie($url_,$params_,$referer_){

        if($url_==null){echo "get_cookie_url_null";exit;}
        if($params_==null){echo "get_params_null";exit;}
        if($referer_==null){echo "get_referer-null";exit;}
        $this_header = array("content-type: application/x-www-form-urlencoded; charset=UTF-8");//访问链接时要发送的头信息

        $ch = curl_init($url_);//这里是初始化一个访问对话,并且传入url,这要个必须有

        //curl_setopt就是设置一些选项为以后发起请求服务的


        curl_setopt($ch,CURLOPT_HTTPHEADER,$this_header);//一个用来设置HTTP头字段的数组。使用如下的形式的数组进行设置: array('Content-type: text/plain', 'Content-length: 100')
        curl_setopt($ch, CURLOPT_HEADER,1);//如果你想把一个头包含在输出中,设置这个选项为一个非零值,我这里是要输出,所以为 1

        curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);//将 curl_exec()获取的信息以文件流的形式返回,而不是直接输出。设置为0是直接输出

        curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);//设置跟踪页面的跳转,有时候你打开一个链接,在它内部又会跳到另外一个,就是这样理解

        curl_setopt($ch,CURLOPT_POST,1);//开启post数据的功能,这个是为了在访问链接的同时向网页发送数据,一般数urlencode码

        curl_setopt($ch,CURLOPT_POSTFIELDS,$params_); //把你要提交的数据放这

        curl_setopt($ch, CURLOPT_COOKIEJAR, 'cookie.txt');//获取的cookie 保存到指定的 文件路径,我这里是相对路径,可以是$变量

        //curl_setopt($ch, CURLOPT_COOKIEFILE, 'cookie.txt');//要发送的cookie文件,注意这里是文件,还一个是变量形式发送

        //curl_setopt($curl, CURLOPT_COOKIE, $this->cookies);//例如这句就是设置以变量的形式发送cookie,注意,这里的cookie变量是要先获取的,见下面获取方式

        curl_setopt ($ch, CURLOPT_REFERER,$referer_); //在HTTP请求中包含一个'referer'头的字符串。告诉服务器我是从哪个页面链接过来的,服务器籍此可以获得一些信息用于处理。

        $content=curl_exec($ch);     //重点来了,上面的众多设置都是为了这个,进行url访问,带着上面的所有设置

        if(curl_errno($ch)){
            echo 'Curl error: '.curl_error($ch);exit(); //这里是设置个错误信息的反馈
         }

        if($content==false){
            echo "get_content_null";exit();
        }
        preg_match('/Set-Cookie:(.*);/iU',$content,$str); //这里采用正则匹配来获取cookie并且保存它到变量$str里,这就是为什么上面可以发送cookie变量的原因

        $cookie = $str[1]; //获得COOKIE(SESSIONID)

        curl_close($ch);//关闭会话

        return     $cookie;//返回cookie
}

下面这个是如何利用上面的cookie  去访问网页,去post数据,去get页面代码的函数。

function post($url,$post_data,$location = 0,$reffer = null,$origin = null,$host = null){

            $post_data = is_array($post_data)?http_build_query($post_data):$post_data;
            //产生一个urlencode之后的请求字符串,因为我们post,传送给网页的数据都是经过处理,一般是urlencode编码后才发送的

            $header = array( //头部信息,上面的函数已说明
                'Accept:*/*',
                'Accept-Charset:text/html,application/xhtml+xml,application/xml;q=0.7,*;q=0.3',
                'Accept-Encoding:gzip,deflate,sdch',
                'Accept-Language:zh-CN,zh;q=0.8',
                'Connection:keep-alive',
                'Content-Type:application/x-www-form-urlencoded',
                //'CLIENT-IP:'.$ip,
                //'X-FORWARDED-FOR:'.$ip,
            );

            //下面的都是头部信息的设置,请根据他们的变量名字,对应上面函数所说明
            if($host){
                $header = array_merge_recursive($header,array("Host:".$host));
            }
            else if($this->option["host"]){
                $header = array_merge_recursive($header,array("Host:".$this->option["host"]));
            }
            if($origin){
                $header = array_merge_recursive($header,array("Origin:".$origin));
            }
            else{
                $header = array_merge_recursive($header,array("Origin:".$url));
            }
            if($reffer){
                $header = array_merge_recursive($header,array("Referer:".$reffer));
            }
            else{
                $header = array_merge_recursive($header,array("Referer:".$url));
            }

            $curl = curl_init();  //这里并没有带参数初始化

            curl_setopt($curl, CURLOPT_URL, $url);//这里传入url

            curl_setopt($curl, CURLOPT_HTTPHEADER, $header);

            curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0);//对认证证书来源的检查,不开启次功能

            curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1);//从证书中检测 SSL 加密算法

            curl_setopt($curl, CURLOPT_USERAGENT, $this->useragent);
            //模拟用户使用的浏览器,自己设置,我的是"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0"
            curl_setopt($curl, CURLOPT_FOLLOWLOCATION, $location);

            curl_setopt($curl, CURLOPT_AUTOREFERER, 1);//自动设置referer

            curl_setopt($curl, CURLOPT_POST, 1);//开启post

            curl_setopt($curl, CURLOPT_ENCODING, "gzip" );
            //HTTP请求头中"Accept-Encoding: "的值。支持的编码有"identity","deflate"和"gzip"。如果为空字符串"",请求头会发送所有支持的编码类型。
            //我上面设置的是*/*

            curl_setopt($curl, CURLOPT_POSTFIELDS, $post_data);//要传送的数据

            //curl_setopt($curl, CURLOPT_COOKIE, $this->cookies);//以变量形式发送cookie,我这里没用它,文件保险点

            curl_setopt($curl, CURLOPT_COOKIEJAR, 'cookie.txt');    //存cookie的文件名,

            curl_setopt($curl, CURLOPT_COOKIEFILE, 'cookie.txt');  //发送

            curl_setopt($curl, CURLOPT_TIMEOUT, 30);//设置超时限制,防止死循环

            curl_setopt($curl, CURLOPT_HEADER, 1);

            curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);

            $tmpInfo = curl_exec($curl);
            if (curl_errno($curl)) {
                echo  'Curl error: ' . curl_error ( $curl );exit();
            }

            curl_close($curl);
            list($header, $body) = explode("\r\n\r\n", $tmpInfo, 2);//分割出网页源代码的头和bode
            $tmpInfo = $this->auto_charest($tmpInfo);//转码,防止乱码,自定义函数
            return array("header"=>$header,"body"=>$body,"content"=>$tmpInfo);
        }

上面是post,下面是get,两者差不多,差别在于,get是没有post,传送数据给放前访问的网页的,仅仅只是获取源代码。

function get($url,$location = 1,$origin = null,$reffer = null,$host = null){
            //$ip = $this->randip();
            if($url==null){
                echo "get-url-null";exit();
            }
            $header = array(
                'Accept:*/*',
                'Accept-Charset:GBK,utf-8;q=0.7,*;q=0.3',
                'Accept-Encoding:gzip,deflate,sdch',
                'Accept-Language:zh-CN,zh;q=0.8',
                'Connection:keep-alive',

                //'CLIENT-IP:'.$ip,
                //'X-FORWARDED-FOR:'.$ip,
            );
            if($host){
                $header = array_merge_recursive($header,array("Host:".$host));
            }
            else if($this->option["host"]){
                $header = array_merge_recursive($header,array("Host:".$this->option["host"]));
            }
            if($origin){
                $header = array_merge_recursive($header,array("Origin:".$origin));
            }
            else{
                $header = array_merge_recursive($header,array("Origin:".$url));
            }
            if($reffer){
                $header = array_merge_recursive($header,array("Referer:".$reffer));
            }
            else{
                $header = array_merge_recursive($header,array("Referer:".$url));
            }

            $curl = curl_init();
            curl_setopt($curl, CURLOPT_URL, $url);
            curl_setopt($curl, CURLOPT_HTTPHEADER, $header);
            curl_setopt($curl, CURLOPT_SSL_VERIFYPEER, 0);
            curl_setopt($curl, CURLOPT_SSL_VERIFYHOST, 1);
            curl_setopt($curl, CURLOPT_USERAGENT, $this->useragent);
            curl_setopt($curl, CURLOPT_FOLLOWLOCATION, $location);
            curl_setopt($curl, CURLOPT_FOLLOWLOCATION, 1);
            curl_setopt($curl, CURLOPT_AUTOREFERER, 1);
            curl_setopt($curl, CURLOPT_ENCODING, "gzip" );
            curl_setopt($curl, CURLOPT_HTTPGET, 1);
            //curl_setopt($curl, CURLOPT_COOKIE, $this->cookies);
            curl_setopt($curl, CURLOPT_COOKIEJAR, 'cookie.txt');
            curl_setopt($curl, CURLOPT_COOKIEFILE, 'cookie.txt');
            curl_setopt($curl, CURLOPT_TIMEOUT, 30);
            curl_setopt($curl, CURLOPT_HEADER, 1);
            curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
            $tmpInfo = curl_exec($curl);

            if (curl_errno($curl)) {
                echo  'Curl error: '.curl_error ($curl);exit();
            }
            curl_close($curl);
            list($header, $body) = explode("\r\n\r\n", $tmpInfo, 2);
            $tmpInfo = $this->auto_charest($tmpInfo);
            return array("header"=>$header,"body"=>$body,"content"=>$tmpInfo);
        }

OK,如果觉得对你有点用的,请默默点一下顶。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2258393.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

打开分页机制

分页机制的表 一般线性地址和物理地址大小不会一样,物理内存空间不够时候,涉及和外部磁盘的swap过程,但是这个系统不涉及 CR3放的是页表的起始地址 代码部分 PDE:4MB page 一级页表的页块大小为4MB 然后是这个二级页表 PTE:4KB page 关于什…

EasyPlayer.js播放器如何在iOS上实现低延时直播?

随着流媒体技术的迅速发展,H5流媒体播放器已成为现代网络视频播放的重要工具。其中,EasyPlayer.js播放器作为一款功能强大的H5播放器,凭借其全面的协议支持、多种解码方式以及跨平台兼容性,赢得了广泛的关注和应用。 那么要在iOS上…

多模态大语言模型 MLLM 部署微调实践

1 MLLM 1.1 什么是 MLLM 多模态大语言模型(MultimodalLargeLanguageModel)是指能够处理和融合多种不同类型数据(如文本、图像、音频、视频等)的大型人工智能模型。这些模型通常基于深度学习技术,能够理解和生成多种模…

uniapp uni-table最简单固定表头

需求:固定表头数据,在网上找了半天,啥都有,就是一直实现不了,最后更改代码实现 1.效果 2.主要代码讲解完整代码 表格的父级一定要设置高度,不然会错位,我看网上说设置position:fixed…

在C#中编程绘制和移动线段

这个示例允许用户绘制和移动线段。它允许您根据鼠标下方的内容执行三种不同的操作。 当鼠标位于某个线段上时,光标会变成手的形状。然后您可以单击并拖动来移动该线段。当鼠标位于线段的终点上时,光标会变成箭头。然后您可以单击并拖动以移动终点。当鼠…

Hyperbolic Representation Learning: Revisiting and Advancing 论文阅读

Hyperbolic Representation Learning: Revisiting and Advancing 论文地址和代码地址1 介绍2 背景知识2.1 黎曼几何与双曲空间(RiemannianGeometry and Hyperbolic Space)2.2 双曲浅层模型2.3 双曲神经网络(HNNs)2.4 双曲图卷积神经网络(HGCN…

Ansible自动化运维(三)playbook剧本详解

Ansible自动化运维这部分我将会分为五个部分来为大家讲解 (一)介绍、无密钥登录、安装部署、设置主机清单 (二)Ansible 中的 ad-hoc 模式 模块详解(15)个 (三)Playbook 模式详解 …

【机器学习】手写数字识别的最优解:CNN+Softmax、Sigmoid与SVM的对比实战

一、基于CNNSoftmax函数进行分类 1数据集准备 2模型设计 3模型训练 4模型评估 5结果分析 二、 基于CNNsigmoid函数进行分类 1数据集准备 2模型设计 3模型训练 4模型评估 5结果分析 三、 基于CNNSVM进行分类 1数据集准备 2模型设计 3模型训练 4模型评估 5结果分…

196-基于CPCI Express架构的6u 主控板

一、板卡概述 该板卡是基于 CPCI Express架构的3U主控板,CPU采用Intel Pentium M 2.0GHz CPU,2M L2 cache,533M前端总线,支持512MB / 1GB表贴DDRII 400/533 MHz内存。 二、功能和技术指标 Intel Pentium M 2.0GHz CPU&#xff0c…

机器学习01-发展历史

机器学习01-发展历史 文章目录 机器学习01-发展历史1-传统机器学习的发展进展1. 初始阶段:统计学习和模式识别2. 集成方法和核方法的兴起3. 特征工程和模型优化4. 大规模数据和分布式计算5. 自动化机器学习和特征选择总结 2-隐马尔科夫链为什么不能解决较长上下文问…

HTA8998 实时音频跟踪的高效内置升压2x10W免电感立体声ABID类音频功放

1、特征 输出功率(fIN1kHz,RL4Ω,BTL) VBAT 4V, 2x10.6W(VOUT9V,THDN10%) VBAT 4V, 2x8.6W (VOUT9V,THDN1%) 内置升压电路模式可选择:自适应实时音频跟踪 升压(可提升播放时间50%以上)、强制升压 最大升压值可选择,升压限流值可设置 ACF防破音功能 D类…

Modern Effective C++ 条款三十八:关注不同线程句柄的析构行为

之前内容的总结: item37中说明了可结合的std::thread对应于执行的系统线程。未延迟(non-deferred)任务的future(参见item36)与系统线程有相似的关系。 因此,可以将std::thread对象和future对象都视作系统…

【Spring】IoC和DI,控制反转,Bean对象的获取方式

阿华代码,不是逆风,就是我疯 你们的点赞收藏是我前进最大的动力!! 希望本文内容能够帮助到你!! 目录 一:什么是IoC 1:什么是容器 2:什么是IoC 二:IoC应用…

【网络协议栈】TCP/IP协议栈中重要协议和技术(DNS、ICMP、NAT、代理服务器、以及内网穿透)

每日激励:“请给自己一个鼓励说:Jack我很棒!—Jack” 绪论​: 本章是TCP/IP网络协议层的完结篇,本章将主要去补充一些重要的协议和了解一些网络中常见的名词,具体如:DNS、ICMP、NAT、代理服务器…

离屏渲染概述

我们知道,图像的处理基本都是在GPU中进行,然后GPU将渲染的结果放入当前渲染屏幕的帧缓冲区中,视频控制器取出里面的内容,在屏幕上进行显示。那么有没有什么情况,会因为某些限制,GPU无法将全部的渲染结果直接…

探索 Python 应用的分层依赖:解决 Linux 环境中的 libvirt-python 安装问题

探索 Python 应用的分层依赖:解决 Linux 环境中的 libvirt-python 安装问题 背景Python 版本升级 问题描述原因分析与解决方案 Python 应用的分层依赖:安装与部署的视角libvirt-python的分层依赖尝试的解决方案 使用编译好的 .whl 文件"嫁接"整…

vmware vsphere5---部署vCSA(VMware vCenter Server)附带第二阶段安装报错解决方案

声明 因为这份文档我是边做边写的,遇到问题重新装了好几次所以IP会很乱 ESXI主机为192.168.20.10 VCSA为192.168.20.7,后台为192.168.20.7:5480 后期请自行对应,后面的192.168.20.57请对应192.168.20.7,或根据自己的来 第一阶段…

Unity3D下采集camera场景并推送RTMP服务实现毫秒级延迟直播

技术背景 好多开发者,希望我们能够分享下如何实现Unity下的camera场景采集并推送rtmp服务,然后低延迟播放出来。简单来说,在Unity 中实现采集 Camera 场景并推送RTMP的话,先是获取 Camera 场景数据,通过创建 RenderTex…

指令周期流程图

例题一 例题二 例题三

使用C#通过ColorMatrix对象为图像重新着色

此示例产生了一些令人印象深刻的结果,但实际上非常简单。 它使用其他几个示例演示的 ImageAttribute 技术来快速操作图像的颜色。 下面的AdjustColor方法启动图像着色的过程。 // Adjust the images colors. private Image AdjustColor(Image image) {// Make the …