如何从文本中去除 HTML 标签

HTML 在排版方面很有用,但当你只需要可读的正文内容时,它就成了干扰。在从网站、CMS 编辑器、邮件或富文本字段中复制文本时,经常会带来你不希望出现在最终结果中的标签。

移除 HTML 标签与转换为 Markdown 并不一样。这里的目标是纯文本:可读的文字、必要处保留的间距,以及不再包含 <p>、<strong> 或 <a> 这样的标记包装。

当你需要在另一个只接受纯文本的系统中复用内容,或在比较、排序、统计之前先清理内容时,这尤其有用。

什么时候会有用

如果复制的文本包含 <h1>Hello</h1><p>This is <b>example</b></p>,纯文本输出应当只是“Hello”和“This is example”出现在可读的行上。价值不在于保留标记,而在于保留内容本身。

试用工具

使用浏览器中的工具,几秒钟就能完成这件事。

打开工具 →

去除标签会保留文本吗?

会。目的是保留可读的文本,同时去掉标记层。

这和转换为 Markdown 是一回事吗?

不是。Markdown 会保留一部分结构,而纯文本会完全去掉格式语法。

什么时候纯文本更合适?

当目标字段、导出或流程只需要内容、不需要格式时。