关于 .NET 的 IronWebScraper
用于从 HTML Web 应用程序中提取干净的结构化数据的 C# 框架。
IronWebScraper for .NET 是一个 C# 网络抓取库,它允许开发人员模拟和自动化人类浏览行为,以从 Web 应用程序中提取内容、文件和图像作为本机 .NET 对象。IronWebScraper 在后台管理礼貌和多线程,让您的应用程序易于理解和维护。
IronWebScraper 功能
由您控制的强大的抓取引擎- 只需编写一个 C# 网络抓取类,即可将数千甚至数百万个网页抓取到 C# 类实例、JSON 或下载的文件中。IronWebScraper 允许您编写简洁、线性的工作流代码来模拟人类浏览行为。IronWebScraper 将把你的代码作为一大群虚拟网络浏览器运行,大规模并行,但礼貌和容错。
简单、灵活的逻辑- IronWebScraper 必须经过编程才能知道如何处理它遇到的每种“类型”的页面。这是使用 CSS 选择器或 XPath 表达式以非常简洁的方式实现的,并且可以在 C# 中完全自定义。这种自由允许您决定在网站中抓取哪些页面,以及如何处理提取的数据。每个方法都可以在 Visual Studio 中整齐地调试和观看。
快速- IronWebScraper 处理多线程和网络请求以允许数百个并发线程,而无需开发人员管理它们。礼貌可以设置为限制请求,从而降低目标 Web 服务器上负载过大的风险。
创建虚拟用户身份——IronWebScraper可以使用一个或多个“身份”——模拟真实世界人类请求的会话。每个请求都可以以编程方式或随机分配自己的身份、用户代理、Cookie、登录名甚至 IP 地址。请求通过 URL、解析方法和发布变量的组合设置为自动唯一。
动作回放- IronWebScraper 使用高级缓存,允许开发人员“即时”更改他们的代码,并在不联系互联网的情况下重放之前的每个请求。每个抓取作业都会自动保存,并可以在出现异常或断电时恢复。
使用 Microsoft Visual Studio 快速安装- IronWebScraper 通过 Visual Studio 安装程序将 Web 抓取工具快速交到您自己的手中。无论是直接从 Visual Studio 中的 Nuget 安装还是下载 DLL,您都可以立即完成设置。只有一个 DLL,没有依赖项。
Iron WebScraper provides a powerful framework to extract data and files from websites using C# code.
Install IronWebScraper to your Project using NuGet
Create a Class Extending WebScraper
Create an Init method that uses the Request method to parse at least one URL.
Create a Parse method to process the requests, and indeed Request more pages. Use response.Css to work with HTML elements using jQuery style CSS selectors
In your application please create and instance of your web scraping class and call the Start(); method
Read our C# webscraping tutorials to learn how to create advanced web crawlers using IronWebScraper