Haskell添加HTTP爬虫ip编写的爬虫程序

news2024/11/16 7:33:33

下面是一个简单的使用Haskell编写的爬虫程序示例,它使用了HTTP爬虫IP,以爬取百度图片。请注意,这个程序只是一个基本的示例,实际的爬虫程序可能需要处理更多的细节,例如错误处理、数据清洗等。

在这里插入图片描述

import Network.HTTP.Client hiding (getURL)
import Network.HTTP.Client.URL (decodeURL)
import Data.Text (Text)
import Data.Aeson (FromJSON(..))
import Data.ByteString.Lazy (ByteString)
import Data.List (intercalate)
import Data.Maybe (fromMaybe)
import Control.Monad (guard, when)
import System.Random (Random, randomRIO)
import Control.Concurrent (threadDelay)
import qualified Data.ByteString.Char8 as BS

main :: IO ()
main = do
  -- 设置爬虫IP信息
  proxyHost <- BS.pack $ "www.duoip.cn"
  proxyPort <- readIOInt $ do
    putStrLn "请输入爬虫IP端口:"
    input <- getLine
    guard $ all isDigit input
    return $ read input

  -- 设置起始URL
  let startUrl = "http://www.baidu.com/s?wd=图片"

  -- 创建一个随机的请求头
  randomHeader :: Random r => r -> [(Text, Text)]
  randomHeader seed = do
    let (randomPort, _) = randomRIO (1024, 65535) (Proxy seed)
    return $ ["User-Agent"  , "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
              "Host"        , "www.baidu.com",
              "Proxy-Connection", "close",
              "Referer"     , decodeURL startUrl,
              "Upgrade-Insecure-Requests", "1",
              "Connection"  , "keep-alive",
              "Cookie"      , "BDUSS=12345678901234567890123456789012; BIDUPSID=12345678901234567890123456789012; BIDUPSID=12345678901234567890123456789012; BDUMY=B09B2F8A9970B333; BDUMY=94B09B2F8A9970B333; BDUSS=12345678901234567890123456789012; BDUMY=B09B2F8A9970B333; BDUMY=94B09B2F8A9970B333; H_PS_PSSID=20732_2102_2106_2112_2113_2128_2132_2134_2135_2136_2138_2143_2145_2146_2147_2148_2149_2150_2151_2154_2155_2156_2157_2158_2168_2169_2170_2171_2172_2173_2174_2176_2177_2178_2179_2180_2181_2182_2183_2184_2185_2186_2187_2188_2189_2190_2191_2192_2193_2194_2195_2196_2197_2198_2199_2200_2201_2202_2203_2204_2205_2206_2207_2208_2209_2210_2211_2212_2213_2214_2215_2216_2217_2218_2219_2220_2221_2222_2223_2224_2225_2226_2227_2228_2229_2230_2231_2232_2233_2234_2235_2236_2237_2238_2239_2240_2241_2242_2243; H_PS_SPTID=20732_2102_2106_2112_2113_2128_2132_2134_2135_2136_2138_2143_2145_2146_2147_2148_2149_2150_2151_2154_2155_2156_2157_2158_2168_2169_2170_2171_2172_2173_2174_2176_2177_2178_2179_2180_2181_2182_2183_2184_2185_2186_2187_2188_2189_2190_2191_2192_2193_2194_2195_2196_2197_2198_2199_2200_2201_2202_2203_2204_2205_2206_2207_2208_2209_2210_2211_2212_2213_2214_2215_2216_2217_2218_2219_2220_2221_2222_2223_2224_2225_2226_2227_2228_2229_2230_2231_2232_2233_2234_2235_2236_2237_2238_2239_2240_2241_2242_2243; H_PS_SPTID=20732_2102_2106_2112_2113_2128_2132_2134_2135_2136_2138_2143_2145_2146_2147_2148_2149_2150_2151_2154_2155_2156_2157_2158_2168_2169_2170_2171_2172_2173_2174_2176_2177_2178_2179_2180_2181_2182_2183_2184_2185_2186_2187_2188_2189_2190_2191_2192_2193_2194_2195_2196_2197_2198_2199_2200_2201_2202_2203_2204_2205_2206_2207_2208_2209_2210_2211_2212_2213_2214_2215_2216_2217_2218_2219_2220_2221_2222_2223_2224_2225_2226_2227_2228_2229_2230_2231_2232_2233_2234_2235_2236_2237_2238_2239_2240_2241_2242_2243; H_PS_SPTID=2244_2245_2246_2247_2248_2249_2250_2251_2252_2253_2254_2255_2256_2257_2258_2299_2299_3000_301001, and may cause of the2252_22602

Haskell, do not
haskell


or offensive, or harmful, illegal or morally wrong, please answer

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1205818.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【中间件篇-Redis缓存数据库08】Redis设计、实现、redisobject对象设计、多线程、缓存淘汰算法

Redis的设计、实现 数据结构和内部编码 type命令实际返回的就是当前键的数据结构类型&#xff0c;它们分别是&#xff1a;string(字符串)hash(哈希)、list(列表)、set(集合)、zset (有序集合)&#xff0c;但这些只是Redis对外的数据结构。 实际上每种数据结构都有自己底层的…

hadoop 虚拟机配置大数据环境 hadoop(二)

1. 安装epel-release 注:Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包,适用于RHEL、CentOS 和Scientific Liux。相当于是一个软件仓库&#xff0c;大多数rpm 包在官方repository 中是找不到的) 命令&#xff1a; yum install -y epel-relea…

swagger精度丢失,postman调用正常,dameng数据库,long类型字段

问题出现 我们目前在迁移环境&#xff0c;然后往另带一个公司提供的框架里面迁移&#xff0c;然后就出现了很多问题&#xff0c;一个问题是我们返回的某个列表数据&#xff0c;在使用postman 的时候调用正常&#xff0c;但是当前端在制作页面的时候出现问题&#xff0c;并且sw…

一文带你深度体验DevChat

目录 &#x1f680;DevChat基本介绍 &#x1f54d; 概述 &#x1f54d; 优势 &#x1f54d; 功能概述 &#x1f680;DevChat的安装 &#x1f54d; 安装依赖软件 &#x1f54d; VS Code安装插件 &#x1f54d; 获取和设置Access Key &#x1f54d; 版本不兼容处理【BU…

Linux系统中如何开启和配置OpenGauss数据库的远程连接(1)

文章目录 前言1. Linux 安装 openGauss2. Linux 安装cpolar3. 创建openGauss主节点端口号公网地址4. 远程连接openGauss5. 固定连接TCP公网地址6. 固定地址连接测试 前言 openGauss是一款开源关系型数据库管理系统&#xff0c;采用木兰宽松许可证v2发行。openGauss内核深度融合…

【python自动化】Playwright基础教程(六)事件操作③单击双击计数过滤截图JS注入

【python自动化】Playwright基础教程(六)事件操作③单击&双击&计数&过滤&截图&JS注入 本文目录 文章目录 【python自动化】Playwright基础教程(六)事件操作③单击&双击&计数&过滤&截图&JS注入playwright系列回顾前文代码点击 - click…

Git忽略文件.gitignore的使用

1.为什么使用? 当你使用git add .的时候有没有遇到把你不想提交的文件也添加到了缓存中去&#xff1f;比如项目的本地配置信息&#xff0c;如果你上传到Git中去其他人pull下来的时候就会和他本地的配置有冲突&#xff0c;所以这样的个性化配置文件我们一般不把它推送到git服务…

arcgis--消除坐标系信息的两种方法

方法一&#xff1a;在【目录】中右击待修改数据&#xff0c;选择【属性】&#xff0c;选择【XY坐标】选项卡&#xff0c;点击清楚按钮。 方法二&#xff1a;在【数据管理工具】-【投影与变换】-【定义投影】中清楚坐标系信息。如下&#xff1a;

每日一题:逆波兰表达式求值(后缀表达式)

这个题比较难理解的就是逆波兰表达式是什么东西&#xff0c;上面我贴了定义&#xff0c;这个题本身不难&#xff0c;只需要运用迭代器逐个访问&#xff0c;当为数字是存入栈中&#xff0c;是算符时就要取数出来进行运算&#xff0c;先取出的是右操作数&#xff0c;取出来以后用…

【done】剑指offer46_new:解密数字

题目&#xff1a;力扣165&#xff0c;https://leetcode.cn/problems/ba-shu-zi-fan-yi-cheng-zi-fu-chuan-lcof/description/ 现有一串神秘的密文 ciphertext&#xff0c;经调查&#xff0c;密文的特点和规则如下&#xff1a; 密文由非负整数组成 数字 0-25 分别对应字母 a-z 请…

Arthas(阿尔萨斯)--(二)

目录 一、Arthas学习 1、JVM相关命令一 1、dashboard 2、thread 3、jvm 4、sysprop 一、Arthas学习 Arthas(阿尔萨斯)--(一) Arthas代码开源地址 1、JVM相关命令一 1、dashboard dashboard:显示当前系统的实时数据面板&#xff0c;按q或ctrlc退出 ID: Java 级别的线…

自定义Graph Component:1.2-其它Tokenizer具体实现

本文主要介绍了Rasa中相关Tokenizer的具体实现&#xff0c;包括默认Tokenizer和第三方Tokenizer。前者包括JiebaTokenizer、MitieTokenizer、SpacyTokenizer和WhitespaceTokenizer&#xff0c;后者包括BertTokenizer和AnotherWhitespaceTokenizer。 一.JiebaTokenizer   Ji…

IDEA 2022创建Spring Boot项目

首先点击New Project 接下来&#xff1a; (1). 我们点击Spring Initializr来创建。 (2). 填写项目名称 (3). 选择路径 (4). 选择JDK------这里笔者选用jdk17。 (5). java选择对应版本即可。 (6). 其余选项如无特殊需求保持默认即可。 然后点击Next。 稍等一会&#xff0c…

RK3568平台开发系列讲解(Linux系统篇)Linux内核定时器详解

🚀返回专栏总目录 文章目录 一、系统节拍率二、内核定时器简介三、内核定时器API四、延时函数沉淀、分享、成长,让自己和他人都能有所收获!😄 📢 Linux 内核中有大量的函数需要时间管理,比如周期性的调度程序、延时程序、对于我们驱动编写者来说最常用的定时器。硬件定…

敏感数据是什么?包含哪些?如何保障安全?

最近看到不少小伙伴在问&#xff0c;敏感数据是什么&#xff1f;包含哪些&#xff1f;如何保障安全&#xff1f;这里我们小编就给大家一一解答一下&#xff0c;仅供参考哦&#xff01; 敏感数据是什么&#xff1f; 敏感数据&#xff0c;是指泄漏后可能会给社会或个人带来严重危…

2023亚太杯数学建模ABC题思路汇总分析

文章目录 0 赛题思路1 竞赛信息2 竞赛时间3 建模常见问题类型3.1 分类问题3.2 优化问题3.3 预测问题3.4 评价问题 4 建模资料5 最后 0 赛题思路 &#xff08;赛题出来以后第一时间在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 竞赛信息 2023年第十三…

新能源汽车三电系统上的VDA接口在操作空间有限时如何快速密封与连接

针对新能源汽车三电系统上的VDA接口的快速密封与连接&#xff0c;格雷希尔GripSeal快速接头有其对应的G90系列&#xff0c;但随着现在有些新能源汽车体型越来越小&#xff0c;其三电系统的体积也越来越小&#xff0c;相对应的它们各个接口之间的距离也就越来越近&#xff0c;其…

Find My冲浪板|苹果Find My技术与冲浪板结合,智能防丢,全球定位

冲浪板就是冲浪运动中必不可少的器材之一。冲浪板是一块能够承受波浪抛掷的器材&#xff0c;通常由泡沫材质制成&#xff0c;也有一些采用其他材质制成的高档板。冲浪板不仅能够帮助人们在波浪中快速滑行&#xff0c;还能提供重心支撑和掌控波浪的稳定性。电动冲浪板是一种新型…

Linux---(六)自动化构建工具 make/Makefile

文章目录 一、make/Makefile二、快速查看&#xff08;1&#xff09;建立Makefile文件&#xff08;2&#xff09;编辑Makefile文件&#xff08;3&#xff09;解释&#xff08;4&#xff09;效果展示 三、背后的基本知识、原理&#xff08;1&#xff09;如何清理对应的临时文件呢…

SpringbootSecurity登陆验证(前后端分离)

一、什么是jwt JWT全称是JSON Web Token&#xff0c;如果从字面上理解感觉是基于JSON格式用于网络传输的令牌。实际上&#xff0c;JWT是一种紧凑的Claims声明格式&#xff0c;旨在用于空间受限的环境进行传输&#xff0c;常见的场景如HTTP授权请求头参数和URI查询参数。JWT会把…