打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
分享5个开源文本文档处理工具
userphoto

2023.06.12 上海

关注

编辑/排版:卒見

处理文本文档,是工作中的必备技能。我们需要分享它、编辑它、标记它、转换它、搜索它,还需要谨慎细心让自己不要弄错它。今天给大家分享几个开源免费的文本文档处理工具。

01

FileCodeBox

一个基于FastAPI+SQLite3开发的文本和文件分享的服务。

支持分享文件、口令提取文件等功能,无需注册即可完成文件提取。

你可以将文字、文件使用拖拽、粘贴或是点击上传的方式,放到该工具中,设置文件可保留天数,获取取件口令。

你可以将它当成一个文件快递柜,输入口令即可分享文本和文件内容。

02

doccano

一款开源的文本标记工具。提供文本分类、序列标记、情感分析、文本摘要等功能,帮助快速完成打标工作,支持中文和多人协作。

它可以为文本分类、序列标记和序列到序列任务提供注释功能。你可以为情绪分析、命名实体识别、文本摘要等创建标记数据。创建项目后,上传数据并开始注释,就能够在数小时内构建一个数据库。

03

pdf2docx

一款开源的PDF转Word转换服务,一个可以将PDF转换成docx文件的Python库。

该项目通过PyMuPDF库提取PDF文件中的数据,例如文本,图像和图纸等,然后采用python-docx库解析内容的布局、段落、图片、表格等,最后自动生成docx文件。

04

OCRmyPDF

一个可以把PDF文件变成可搜索文件的工具。它使用Tesseract OCR引擎,将PDF的内容识别成文本,然后给PDF文件增加OCR文本层。用以实现可搜索和复制PDF的内容,当前支持100多种语言。

支持从常规PDF生成可搜索的PDF/A文件;将OCR文本准确地放置在图像下方,以方便复制/粘贴;支持保持原始嵌入图像的精确分辨率等多种功能。

05

Pycorrector

不要认为自己的母语是中文,就不需要学习了,我们也可能会在中文上“犯错误”。

这是一个中文文本纠错工具,支持中文音似、形似(或变体字)、语法错误纠正等,python3开发。可用于中文拼音、笔画输入法的错误纠正。

依据语言模型检测错别字位置,通过拼音音似特征、笔画五笔编辑距离特征及语言模型困惑度特征纠正错别字。帮助解决在文本识别模型处理后,对识别结果中个别词汇错误进行纠错。

今天的文本文档处理工具就给大家分享到这里,希望在工作上帮助到你!

PS:关注公众号,私信“20230612”,获取文中提及软件网站链接及安装包!

❶强烈推荐6款好用不踩雷的开源工具!

❷5个完全免费且开源的翻译工具

❸excel批量删除没用的空白行

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
不花一分钱教你免费pdf转Word
扫描或图片版PDF文档的编辑
恭喜你,许多人在找这款PDF软件
许多人在找这款PDF软件
PDF转Word……这几招好用的技巧一定能满足你的需求
轻闪PDF
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服