打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
去除HTML、Word标签的一切样式,获得纯文本

用户从Word文档粘贴文本到编辑器,简直是一场灾难。大量的注释、样式和xml标签令人痛苦不堪。如何使用最简便的方法彻底清理一切样式,回归淳朴的txt格式?
导读

我使用wangEditor富文本编辑器,需要面对用户输入。因此不可能要求用户先把文本粘贴到txt文档净化样式,必须得通过js捕获净化粘贴板。如何处理一段字符串,彻底清除所有样式?这个问题缠绕了我很久。

我在百度上搜了很久,都是用一段长长的正则进行替换。近百行的代码我都不想看一眼。而我用英文查了一下Google,第一条答案就解决了我的问题。

function strip_html(html) { //获得纯文本
    var tmp = document.createElement("DIV");
    tmp.innerHTML = html;
    var html = tmp.textContent || tmp.innerText;
    html = html.replace(/(?:(\r\n)+|\r+|\n+)/g, "<br>");
    return html;
}

这个思路和我一开始用textarea处理的想法很相似。就是生成一个div,让浏览器处理这些文本,最后只需要取div显示的内容就可以了。我额外做了一步处理,用正则将换行符替换为<br>,并清理Word产生的多个换行。

结论:英语很重要,少翻百度多用Google。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
web前端——基础部分
HTML <span> 标签 的详细用法
[置顶] 史上最全的HTML、CSS知识点总结,浅显易懂。
每日学习心得:UEditor样式被过滤无法显示问题
css总结-笔记--部分非原创--属于资源整合
WEB前端——HTML标签与文档结构
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服