reader-lm：小模型 html转markdown

news2026/3/29 13:05:28

参考：
https://huggingface.co/jinaai/reader-lm-0.5b

在线demo：
https://colab.research.google.com/drive/1wXWyj5hOxEHY6WeHbOwEzYAC0WB1I5uA#scrollTo=0mG9ISzHOuKK

输入网址：https://www.galaxy-geely.com/E5
结果：
在这里插入图片描述

代码：

# pip install transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
checkpoint = "jinaai/reader-lm-0.5b"

device = "cuda" # for GPU usage or "cpu" for CPU usage
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint).to(device)

# example html content
html_content = "<html><body><h1>Hello, world!</h1></body></html>"

messages = [{"role": "user", "content": html_content}]
input_text=tokenizer.apply_chat_template(messages, tokenize=False)

print(input_text)

inputs = tokenizer.encode(input_text, return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=1024, temperature=0, do_sample=False, repetition_penalty=1.08)

print(tokenizer.decode(outputs[0]))

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2129133.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

搭建ipv6并发代理池

声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者无关，若有侵权，请联系我立即删除！ 学习目标 ipv6代理池学习…

UI自动化测试痛点解决方案

前言 UI自动化测试可以快速、准确地执行大量的测试用例，减少人工测试所需的时间和劳动力。能够在短时间内完成多个测试用例的执行，提高测试的效率和速度。但是UI自动化有个最大的痛点。当前端界面发生变化时，往往页面元素定位也会改变&#…

ultralytics实现DeepSort之级联匹配

前面博客中说过，通过Market-1501数据集的训练后可以得到特征提取模型，这个模型最终的输出值为（bs，num_class）,但在DeepSort算法应用中的输出结果并非如此，其输出的是特征信息。特征提取通过训练后的特征…

通信工程学习：什么是PDF策略决策功能

PDF策略决策功能 PDF策略决策功能（Policy Decision Function, PDF）在通信网络中，特别是在IP多媒体子系统（IMS）中，扮演着至关重要的角色。以下是对PDF策略决策功能的详细解释： 一、定义与功能概…

C语言——课设万能模板、实战项目——学生信息管理系统

本人无偿奉献学生管理系统的所有代码，包括.h头文件和.c文件，要源码私信，或者评论，希望点个关注。可以完整运行。介绍一下这个系统，该系统包括八个功能： printf("1.录入学生信息\n"); print…

软考中级软件设计师-【计算机系统】必考题汇总

🤹‍♀️潜意识起点：个人主页 🎙座右铭：得之坦然，失之淡然。 💎擅长领域：前端是的，我需要您的： 🧡点赞❤️关注💙收藏💛 是我持…

中原地产：人力资源数字化创新实践分享

近日，法大大与人力资源智享会（以下简称“智享会”）联合发布了《第七届人力资源共享服务中心研究报告》（点击阅读及下载：最新！《第七届人力资源共享服务中心研究报告》重磅来袭），该报…

2024【华为战报】8月HCIP考试战报！

了解更多往期考试→点【考试战报】华为认证 HCIP 8月微思 | HCIP 考试战报 HCIP 最新开班厦门面授全国直播每月循环开班点击查看【华为认证 HCIP】 END 微思网络，始于2002年专业IT认证培训22年，面向全国招生！ 微思-主要课程有&a…

【App】

1. 移动App的开发模式原生开发 - 原生App > Android、IOS、Windows混合开发 - 混合App > React Native、Weex、Flutter React Native 是基于 React 语法开发的一个混合开发框架Weex 是基于 Vue 语法开发的一个混合开发框架Flutter 是 Google 推出来的一款混合开发框架比…

AI大模型全栈工程师课程笔记 - RAG 检索增强生成

文章目录 \1. RAG\2. 构建流程 2.1 文档加载与切分2.2 传统检索引擎2.3 LLM接口封装2.4 构建prompt \3. 向量检索\4. 向量数据库\5. 基于向量检索的RAG\6. 进阶知识 6.1 文本分割粒度6.2 检索后再排序6.3 测试 1. RAG RAG（Retrieval Augmented Generation&#…

计算机网络 --- 计算机网络的分类

一、计算机网络分类 1.1 按分布范围分类举例：广域网（WAN）、局域网（LAN） 举例：个域网（PAN） 1.2 按传输技术分类广播式网络――当一台计算机发送数据分组时，广播范围…

xmake与包管理:又一个现代c++构建工具?

个人博客:Sekyoro的博客小屋个人网站:Proanimer的个人网站主要起因是我在逛Reddit帖子时,看到关于一些c构建系统的评价. cmake似乎有些过于复杂,它与vcpkg,conan的包管理之间的"融合"可能在有些时候也显得麻烦. 一些人尝试了我没见过的选项, 所以这里主要试试除了…

场外期权合法吗？

今天期权懂带你了解场外期权合法吗？场外期权是指在场外市场进行交易的期权合约，而非在标准化交易所进行交易。这些期权合约通常由交易双方直接协商具体条款，包括到期时间、行权价格和标的资产等。场外期权主要特点 1.定制化：OT…

通过 Activator.CreateInstance 以及继承关系实现 public interface Name{String GetName();}public class Join : Name{public string GetName(){return "Join";}}public class Thomas : Name{public string GetName(){return "Thomas";}}public class …

MongoDB的Map-Reduce操作与聚合管道操作的两个实例相互转换

一、插入集合 comment 的文档的内容二、题目要求将集合 comment 中的文档进行聚合操作，即将字段 state为1的文档查询出来，然后按字段 nickname 进行分组,最后计算出每个评论者的评论条数。三、mapReduce 操作代码 db.comment.mapReduce(// Map函数&…

机器学习（西瓜书）第 7 章贝叶斯分类器

7.1 贝叶斯决策论贝叶斯决策论(Bayesian decision theory)是概率框架下实施决策的基本方法.对分类任务来说,在所有相关概率都已知的理想情形下，贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记.下面我们以多分类任务为例来解释其基本原理. 贝…

9月12号作业

主要更改的代码 void Widget::read_solt() { QByteArray msg socket->readAll();//接受信息 if(QString::fromLocal8Bit(msg)msg2||msg3QString::fromLocal8Bit(msg)||msg6QString::fromLocal8Bit(msg)) { QListWidgetItem *listItem new QListWidgetItem(QString::fromL…

策略抉择：左右为难，交易方向要如何破局？

交易决策的核心往往围绕着一个关键问题：是采取左侧交易策略还是右侧交易策略？左侧交易，亦称逆向交易，与右侧交易（顺势交易）形成鲜明对比，两者路径迥异，所以让很多交易员不知道该如何…

flac格式怎么转换成mp3？给你介绍8种flac转MP3的方法

flac格式怎么转换成mp3？flac格式以其无损压缩方式闻名，能够保存音频的原始质量，满足高保真音频需求。然而，这种高质量也意味着flac文件通常占用较多的存储空间，这在某些场景下可能不太方便。例如，对于那些希…