看到其他项目引用了这个项目 Firecrawl
用免费额度试了一下,这个项目和之前的 https://r.jina.ai/ 很像(类似的还有 https://www.scrapingbee.com/?),将爬取到的网页转换为 markdown 格式,这样大语言模型用起来就很方便
商业模式就是卖 api,看了一下如果长期大量跑价格不便宜
不过好在还可以本地部署,本地部署的话,不知道代理什么的怎么配置,没有细看
分别用小红书的浏览器首页(小红书 - 你的生活指南)和详情页试了一下
firecrawl | jina | |
可以从首页拿到详情页链接 | 可以 | 可以 |
可以拿到详情页标题 + 图片 | 可以 | 拿不到 |
通过简单的测试看起来比 jina 强一点点,不过 jina 实际可以白嫖,但 firecrawl 没有深入研究能不能白嫖
官网地址(可以免费尝试):Firecrawl
github 地址(fork 2.6k,star 30k+):GitHub - mendableai/firecrawl: 🔥 Turn entire websites into LLM-ready markdown or structured data. Scrape, crawl and extract with a single API.