在 RAG 中,通常需要将 HTML 转为 Markdown,有很多第三方 API 都支持 HTML 的转换,本文使用一个代码文档的例子 https://www.joinquant.com/help/api/help#name:Stock,将聚宽 API 转为 Markdown。本文通过两种方式进行实现,使用收费和开源的解决方案。聚宽 API 格式转为 Markdown
Firecrawl
使用 Firecrawl API 处理 HTML,登录并直接在网页输入网址
https://www.joinquant.com/help/api/help#name:Stock
预览这个转换之后的 Markdown,效果非常好。
Scrapy
Scrapy 是个开源的爬