用于从 HTML Web 应用程序中提取干净的结构化数据的 C# 框架。
IronWebScraper for .NET 2023 :Adds support for Microsoft .NET 6 and .NET 7.January 27, 2023 - 17:25 New Version :::
Added support for Microsoft .NET 6 and .NET 7.
Intellisense documentation improvements.
Package and DLL are now signed.
Removes dependency on System.Common.Drawing. Now using IronSoftware.System.Drawing.
IronWebScraper for .NET 是一个 C# 网络抓取库,它允许开发人员模拟和自动化人类浏览行为,以从 Web 应用程序中提取内容、文件和图像作为本机 .NET 对象。IronWebScraper 在后台管理礼貌和多线程,让您的应用程序易于理解和维护。
IronWebScraper 功能
- 由您控制的强大的抓取引擎- 只需编写一个 C# 网络抓取类,即可将数千甚至数百万个网页抓取到 C# 类实例、JSON 或下载的文件中。IronWebScraper 允许您编写简洁、线性的工作流代码来模拟人类浏览行为。IronWebScraper 将把你的代码作为一大群虚拟网络浏览器运行,大规模并行,但礼貌和容错。
- 简单、灵活的逻辑- IronWebScraper 必须经过编程才能知道如何处理它遇到的每种“类型”的页面。这是使用 CSS 选择器或 XPath 表达式以非常简洁的方式实现的,并且可以在 C# 中完全自定义。这种自由允许您决定在网站中抓取哪些页面,以及如何处理提取的数据。每个方法都可以在 Visual Studio 中整齐地调试和观看。
- 快速- IronWebScraper 处理多线程和网络请求以允许数百个并发线程,而无需开发人员管理它们。礼貌可以设置为限制请求,从而降低目标 Web 服务器上负载过大的风险。
- 创建虚拟用户身份——IronWebScraper 可以使用一个或多个“身份”——模拟真实世界人类请求的会话。每个请求都可以以编程方式或随机分配自己的身份、用户代理、Cookie、登录名甚至 IP 地址。请求通过 URL、解析方法和发布变量的组合设置为自动唯一。
- 动作回放- IronWebScraper 使用高级缓存,允许开发人员“即时”更改他们的代码,并在不联系互联网的情况下重放之前的每个请求。每个抓取作业都会自动保存,并可以在出现异常或断电时恢复。
- 使用 Microsoft Visual Studio 快速安装- IronWebScraper 通过 Visual Studio 安装程序将 Web 抓取工具快速交到您自己的手中。无论是直接从 Visual Studio 中的 Nuget 安装还是下载 DLL,您都可以立即完成设置。只有一个 DLL,没有依赖项。