テキストから HTML タグを除去する方法
HTML は書式付けには便利ですが、読みやすい本文だけが欲しいときには邪魔になります。ウェブサイト、CMS エディタ、メール、リッチテキストフィールドからコピーすると、最終結果に残したくないタグがついてきがちです。
HTML タグの除去は Markdown への変換とは違います。ここでの目標はプレーンテキストです。読みやすい単語、必要な箇所の空白を保ったうえで、<p>、<strong>、<a> のようなマークアップ用ラッパーは残しません。
プレーンテキストしか受け付けない別のシステムで内容を再利用したいときや、比較・並べ替え・カウントの前にきれいにしておきたいときに特に役立ちます。
どんなときに役立つか
- ウェブサイトや CMS エディタからコピーしたコンテンツを整理する。
- メモ、スプレッドシート、プレーンテキストフィールドに貼り付ける前にマークアップを取り除く。
- 比較、語数カウント、行単位のクリーンアップに向けてテキストを整える。
- HTML だらけのエクスポートからタグだけを取り除き、読みやすい内容は残す。
実用的な例
コピーしたテキストに <h1>Hello</h1><p>This is <b>example</b></p> が含まれているなら、プレーンテキストの出力は単に「Hello」と「This is example」を読みやすい行で並べたものになるべきです。価値はマークアップを残すことではなく、コンテンツそのものを残すことにあります。
よくあるユースケース
- WordPress、ウェブエディタ、メールビルダー由来のコンテンツを整える。
- 語数カウントの前にタグを取り除く。
- diff やリスト比較に向けてテキストを整える。
- HTML だらけのスニペットから読みやすいテキストを取り出す。
- 手で編集する前に生成されたコンテンツを整える。
ブラウザでタグを取り除く
ブラウザ上のツールを使えば、数秒で実行できます。
よくある質問
タグを取り除いてもテキストは残りますか?
はい。目的は読みやすいテキストを残し、マークアップの層を取り除くことです。
これは Markdown への変換と同じですか?
いいえ。Markdown は一部の構造を残しますが、プレーンテキストは書式の構文を完全に取り除きます。
プレーンテキストが向くのはどんなときですか?
対象のフィールド、エクスポート、ワークフローが書式ではなく中身だけを必要としているときです。