如何从文本中去除 HTML 标签
HTML 在排版方面很有用,但当你只需要可读的正文内容时,它就成了干扰。在从网站、CMS 编辑器、邮件或富文本字段中复制文本时,经常会带来你不希望出现在最终结果中的标签。
移除 HTML 标签与转换为 Markdown 并不一样。这里的目标是纯文本:可读的文字、必要处保留的间距,以及不再包含 <p>、<strong> 或 <a> 这样的标记包装。
当你需要在另一个只接受纯文本的系统中复用内容,或在比较、排序、统计之前先清理内容时,这尤其有用。
什么时候会有用
- 清理从网站或 CMS 编辑器复制的内容。
- 在粘贴到笔记、电子表格或纯文本字段之前去除标记。
- 为对比、字数统计或按行清理准备文本。
- 在保留可读内容的同时,从充满 HTML 的导出中去掉标签。
实际示例
如果复制的文本包含 <h1>Hello</h1><p>This is <b>example</b></p>,纯文本输出应当只是“Hello”和“This is example”出现在可读的行上。价值不在于保留标记,而在于保留内容本身。
常见使用场景
- 清理来自 WordPress、网页编辑器或邮件构建器的内容。
- 在进行字数统计之前先去除标签。
- 为 diff 或列表对比准备文本。
- 从充满 HTML 的片段中提取可读文本。
- 在手动编辑前清理生成的内容。
在浏览器中去除标签
使用浏览器中的工具,几秒钟就能完成这件事。
常见问题
去除标签会保留文本吗?
会。目的是保留可读的文本,同时去掉标记层。
这和转换为 Markdown 是一回事吗?
不是。Markdown 会保留一部分结构,而纯文本会完全去掉格式语法。
什么时候纯文本更合适?
当目标字段、导出或流程只需要内容、不需要格式时。