备忘录导出的HTML文档转换MarkDown尝试记录
- 1. pandoc命令行
- 2. HTML转换MARKDOWN
- 3. MD导入CSDN记录过长报错及压缩尝试
- 参考
本地备忘录写了些旅游攻略,想做个纪念,导出为长图片ok,导出为HTML,也可以。但是导出图片是base64格式的,所以导致特别大,7M-50M不等;没法直接把html导入到CSDN,或者其他旅游帖子平台。只支持导入MD格式的。
有俩个办法,在重写一遍攻略…,那也太浪费时间和痛苦了。
so 研究下,备忘录导出的HTML文档转换MarkDown。
1. pandoc命令行
# 要转换 hello.txt 从 Markdown 到 LaTeX:
pandoc -f markdown -t latex hello.txt
# 要将hello.html从 HTML 转换为 Markdown:
pandoc -f html -t markdown hello.html
# 支持的输入和输出格式列在下面的“选项”下(参见 -f 输入格式和 -t 表示输出格式)。你 还可以使用 pandoc --list-input-formats 和 pandoc --list-output-formats 来 打印支持格式的列表。
# 如果未显式指定输入或输出格式, Pandoc将尝试从文件名自动解析
pandoc -o hello.tex hello.txt
2. HTML转换MARKDOWN
eg:可以成功转为md,但图片是base64格式的,导入csdn会提示文章过长报错;
pandoc -f html -t markdown D:\Installsoft\pydemo\test1\6edbe23a7385b27f18cfac1179690909_25c5bbc2bf2c47815eaf2c48379a17a7_8.html -o D:\Installsoft\pydemo\test1\test.md
原始HTML如下:特意挑了个小的HTML,图片也比较少;
转换为test.md效果图如下:
可以看到文字都解析没问题,包括格式+小表情,然而图片就不堪一读了,超长的base64格式。
3. MD导入CSDN记录过长报错及压缩尝试
导入csdn效果图如下:图片base64格式不行…
分析原因:base64图片实在是太长了,转为md到页面还是根本没法导入,那就先压缩图片在导入吧;
- base64图片压缩:
- base64图片在线转换:
最终以失败告终,即使图片压缩+等比例缩放图片宽高比后,base64还是很长,如下:
就这样吧,一次失败的尝试。
参考
- https://blog.csdn.net/qq_20984273/article/details/135834023
- https://pandoc.org/MANUAL.html