Swift使用Embassy库进行数据采集:热点新闻自动生成器

news2024/9/24 11:30:35

亿牛云.png

概述

爬虫程序是一种可以自动从网页上抓取数据的软件。爬虫程序可以用于各种目的,例如搜索引擎、数据分析、内容聚合等。本文将介绍如何使用Swift语言和Embassy库编写一个简单的爬虫程序,该程序可以从新闻网站上采集热点信息,并生成一个简单的新闻摘要。

正文

Swift语言和Embassy库

Swift是一种现代的、高性能的、安全的、表达力强的编程语言,主要用于开发iOS、macOS、watchOS和tvOS等平台的应用。Swift也可以用于开发服务器端和命令行工具等应用。Swift支持多种编程范式,例如面向对象、函数式、协议导向等。Swift还提供了强大的错误处理机制,可以让开发者更容易地处理异常情况。

Embassy是一个基于Swift NIO的网络库,可以让开发者轻松地创建异步的网络应用。Embassy提供了一个事件循环,可以在单线程中处理多个网络请求和响应。Embassy还提供了一个HTTP客户端,可以发送HTTP请求并接收HTTP响应。Embassy还支持HTTPS、WebSocket、HTTP/2等协议。

爬虫程序的设计和实现

本文将使用Swift语言和Embassy库编写一个爬虫程序,该程序可以从新浪新闻网站上采集热点信息,并生成一个简单的新闻摘要。该程序的设计和实现如下:

  • 首先,创建一个事件循环,用于处理网络请求和响应。
  • 然后,创建一个HTTP客户端,用于发送HTTP请求并接收HTTP响应。
  • 接着,使用爬虫代理,通过代理IP池用于随机选择代理IP地址,以避免被目标网站屏蔽。
  • 然后,创建一个URL队列,用于存储待抓取的URL地址。
  • 接着,创建一个解析器,用于解析HTML文档,并提取出新闻标题、链接、时间和内容等信息。
  • 然后,创建一个生成器,用于根据新闻内容生成一个简单的新闻摘要。
  • 最后,创建一个主函数,用于启动事件循环,并从URL队列中取出URL地址,发送HTTP请求,并处理HTTP响应。

以下是该程序的代码实现(加上中文注释):

// 导入Embassy库
import Embassy

// 创建一个事件循环
let loop = try SelectorEventLoop(selector: try KqueueSelector())

// 创建一个HTTP客户端
let httpClient = DefaultHTTPClient(eventLoop: loop)

// 创建一个URL队列
let urlQueue = [
    "https://news.sina.com.cn/",
    // ...
]

// 创建一个解析器
func parse(html: String) -> (title: String, link: String, time: String, content: String)? {
    // 使用正则表达式或其他方法解析HTML文档,并提取出新闻标题、链接、时间和内容等信息
    // 如果解析成功,返回一个元组;如果解析失败,返回nil
    // 这里只是一个示例,实际的解析方法可能需要更复杂的逻辑
    let pattern = "<h1><a href=\"(.*?)\".*?>(.*?)</a></h1>.*?<span class=\"time\">(.*?)</span>.*?<p class=\"content\">(.*?)</p>"
    let regex = try? NSRegularExpression(pattern: pattern, options: [])
    if let match = regex?.firstMatch(in: html, options: [], range: NSRange(location: 0, length: html.count)) {
        let link = (html as NSString).substring(with: match.range(at: 1))
        let title = (html as NSString).substring(with: match.range(at: 2))
        let time = (html as NSString).substring(with: match.range(at: 3))
        let content = (html as NSString).substring(with: match.range(at: 4))
        return (title, link, time, content)
    } else {
        return nil
    }
}

// 创建一个生成器
func generate(content: String) -> String {
    // 使用自然语言处理或其他方法根据新闻内容生成一个简单的新闻摘要
    // 这里只是一个示例,实际的生成方法可能需要更复杂的逻辑
    // 这里使用了一个简单的规则:取出新闻内容中的前三句话作为新闻摘要
    let sentences = content.components(separatedBy: ".")
    if sentences.count >= 3 {
        return sentences[0...2].joined(separator: ".") + "."
    } else {
        return content
    }
}

// 创建一个主函数
func main() {
    // 启动事件循环
    loop.runForever { error in
        print(error)
    }

    // 从URL队列中取出URL地址
    for url in urlQueue {
        // 使用代理IP池(参考 亿牛云 爬虫代理的域名、端口、用户名、密码,需要到官网注册并免费获取)
        let proxy = "http://16YUN:16IP@www.16yun.cn:7102"
        // 发送HTTP请求,并处理HTTP响应
        httpClient.request(
            method: "GET",
            url: url,
            headers: ["User-Agent": "Mozilla/5.0"],
            proxyURLString: proxy,
            body: nil
        ) { response, error in
            if let error = error {
                print(error)
            } else if let response = response {
                print("Status code:", response.statusCode)
                print("Headers:", response.headers)
                var data = Data()
                response.body.drain { chunk, error in
                    if let chunk = chunk {
                        data.append(chunk)
                    } else if let error = error {
                        print(error)
                    } else {
                        // 将数据转换为字符串
                        if let html = String(data: data, encoding: .utf8) {
                            // 调用解析器,解析HTML文档,并提取出新闻信息
                            if let news = parse(html: html) {
                                print("Title:", news.title)
                                print("Link:", news.link)
                                print("Time:", news.time)
                                print("Content:", news.content)
                                // 调用生成器,根据新闻内容生成一个简单的新闻摘要
                                let summary = generate(content: news.content)
                                print("Summary:", summary)
                            } else {
                                print("Failed to parse HTML")
                            }
                        } else {
                            print("Failed to convert data to string")
                        }
                    }
                }
            } else {
                print("No response")
            }
        }
    }
}

// 调用主函数
main()

结语

本文介绍了如何使用Swift语言和Embassy库编写一个简单的爬虫程序,该程序可以从新闻网站上采集热点信息,并生成一个简单的新闻摘要。本文还提供了该程序的代码实现,并加上了中文注释。如果你对爬虫技术感兴趣,可以继续深入学习和探索。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1111340.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【MyBatis】MyBatis日志信息配置

目录 什么是MyBatis相关的日志&#xff1f; 标准日志信息配置&#xff1a; 配置logback日志信息&#xff1a; 什么是MyBatis相关的日志&#xff1f; 首先什么叫做与MyBatis相关的日志呢&#xff1f;就是我们在执行sql语句的时候&#xff0c;如果没有MyBatis相关的日志&…

SpringBoot项目访问后端页面404

检查项目的路径和mapper映射路径没问题后&#xff0c;发现本级pom文件没有加入web启动模块的pom文件中 maven做项目控制时&#xff0c;要注意将maven模块加入到web启动模块中

IDEA项目import报错清理缓存

1、清理maven缓存 2、整个项目清理缓存

易点易动上线招标管理模块:提升企业高效招标管理的解决方案

在当今竞争激烈的商业环境下&#xff0c;招标管理对于企业的成功至关重要。为了帮助企业实现高效的招标管理&#xff0c;易点易动固定资产管理系统上线了全新的招标管理模块。该模块涵盖了供应商资质审核、采购询价单、重新报价单、招标结果单、招标作废单等功能&#xff0c;为…

【动态规划】583. 两个字符串的删除操作、72. 编辑距离

提示&#xff1a;努力生活&#xff0c;开心、快乐的一天 文章目录 583. 两个字符串的删除操作&#x1f4a1;解题思路&#x1f914;遇到的问题&#x1f4bb;代码实现&#x1f3af;题目总结 72. 编辑距离&#x1f4a1;解题思路&#x1f914;遇到的问题&#x1f4bb;代码实现&…

知识分享:如何制作一个电子名片二维码?

参加国际展会、寻找合作商、线下客户拜访、渠道开发、商务对接、行业交流大会……在这些场合中&#xff0c;商务名片都是必不可少的。随着二维码应用的流行&#xff0c;名片上使用二维码已经非常普遍了。你也可以在商务名片上使用一个自己设计的电子名片二维码&#xff0c;扫描…

基于 KubeSphere 部署 KubeBlocks 实现数据库自由

作者&#xff1a;尹珉&#xff0c; KubeSphere Contributor & Ambassador&#xff0c;KubeSphere 社区用户委员会杭州站站长。 KubeSphere 是什么&#xff1f; KubeSphere 是在 Kubernetes 之上构建的面向云原生应用的分布式操作系统&#xff0c;完全开源&#xff0c;支持…

使用HTML制作一个摊煎饼小游戏

铁打的行业流水的人&#xff0c;与其被动等待35岁的到来&#xff0c;不如主动出击探索副业&#xff0c;实现一个HTML摊煎饼小游戏&#xff0c;结合传统方法和现代技术&#xff0c;致力于制作出既美味又有创意的煎饼。 目录 引言简介游戏背景 所需材料和工具HTML基础知识CSS样式…

python作图

最重要的一张图了&#xff0c;有助于了解一下图的各个组成部分。最重要的一句话就是 Figure包含至少一个Axes&#xff0c;每个Axes可以被认为是一个模块&#xff08;包含坐标轴&#xff0c;标题&#xff0c;图像内容等&#xff09;。因此&#xff0c;创建单图的时候就是在Figur…

BAT028:批量将文件修改日期后缀更新为最新修改日期

引言&#xff1a;编写批处理程序&#xff0c;实现批量将文件修改日期后缀更新为最新修改日期。 一、新建Windows批处理文件 参考博客&#xff1a; CSDNhttps://mp.csdn.net/mp_blog/creation/editor/132137544 二、写入批处理代码 1.右键新建的批处理文件&#xff0c;点击【…

文本识别工具 TextSniper for Mac有哪些特点

TextSniper 是一款 macOS 平台上的文本提取工具&#xff0c;它可以将屏幕上的文字内容快速转换为可编辑的文本。无论是从图像、视频、PDF 文件还是其他类型的文档中提取文字&#xff0c;TextSniper 都提供了便捷的功能。 以下是 TextSniper的一些主要特点和功能&#xff1a; …

智慧粮仓粮库解决方案:视频+AI识别技术赋能,守护大国粮仓

一、需求背景 我国作为世界人口大国&#xff0c;农产品需求量庞大&#xff0c;保障粮食等重要农产品安全是经济社会稳定发展的重要基础。粮食安全涉及到生产、收购、加工、储藏、销售等全产业链&#xff0c;既涉及新型基础设施建设&#xff0c;也有对软件技术等专业能力要求。…

我的128创作纪念日

我的创作128纪念日 &#x1f388;1.机缘&#x1f388;2.收获&#x1f388;3.反思与憧憬 &#x1f388;1.机缘 2023年6月13日的那天&#xff0c;开始了CSDN的创作之旅&#xff0c;那时的我还是一名大一的学生&#xff0c;机缘巧合下开始了创作&#xff0c;主要也是分享自己在学习…

Apache Doris (四十二): RECOVER数据删除恢复

🏡 个人主页:IT贫道_大数据OLAP体系技术栈,Apache Doris,Clickhouse 技术-CSDN博客 🚩 私聊博主:加入大数据技术讨论群聊,获取更多大数据资料。 🔔 博主个人B栈地址:豹哥教你大数据的个人空间-豹哥教你大数据个人主页-哔哩哔哩视频 目录

web前端面试-- IEEE754标准JS精度丢失问题0.1+0.2!=0.3、0.2+0.3==0.5 十进制转二进制讲解

本人是一个web前端开发工程师&#xff0c;主要是vue框架&#xff0c;整理了一些面试题&#xff0c;今后也会一直更新&#xff0c;有好题目的同学欢迎评论区分享 ;-&#xff09; web面试题专栏&#xff1a;点击此处 背景 WEB前端面试官&#xff1a;0.20.3是否等于0.5&#xff…

文心一言 VS 讯飞星火 VS chatgpt (116)-- 算法导论10.3 1题

一、用go语言&#xff0c;画图表示序列(13&#xff0c;4&#xff0c;8&#xff0c;19&#xff0c;5&#xff0c;11)&#xff0c;其存储形式为多数组表示的双向链表。同样画出单数组表示的形式。 文心一言&#xff1a; 在Go语言中&#xff0c;我们无法直接画图&#xff0c;但我…

用Python造轮子

目录 背景安装setuptools库准备要打包的代码创建setup.py文件打包生成whl文件把库装到电脑上使用这个库 背景 如何把自己写的代码&#xff0c;打包成库方便其他人使用 安装setuptools库 正所谓想要富先修路&#xff0c;先把造轮子要用的库装上 pip install wheel pip insta…

C# Socket通信从入门到精通(1)——单个同步TCP客户端C#代码实现

前言: Socket通信中有tcp通信,并且tcp有客户端和服务器,本文介绍的就是如何使用c#去实现一个tcp客户端,并且由于c#中有多种方式可以实现tcp客户端的功能,本文介绍的是使用TcpClient类来实现tcp客户端功能(如需源码,订阅专栏后加入文章底部qq群获取),demo软件界面如下…

供应链 | 零售商-供应商柔性承诺契约:一种鲁棒优化方法 (二)

原文作者&#xff1a;Aharon Ben-Tal, Boaz Golany, Arkadi Nemirovski, Jean-Philippe Vial​ 引用&#xff1a;Ben-Tal, A., Golany, B. , Nemirovski, A., & Vial, J. P… (2005). Retailer-supplier flexible commitments contracts: a robust optimization approach. …

View 自定义 - 概览

一、体系 详见&#xff1a;Activity、Window、DecorView、ViewRoot 之间的关系 二、绘制前的准备 DecorView 详见&#xff1a;DecorView 顶部图中可以看出 ViewRoot 最后一步是绘制&#xff0c;在绘制之前系统会有一些准备&#xff0c;即前面几个步骤&#xff1a;创建PhoneW…