词库软件 的应用
[正则表达式基本知识】
1.匹配单个单词:\b单词\b
he→\bhe\b
2.将每行第一个字符删除:^.→空
行首:^
任意单个字符:.
3.将每行第一个字母删除:^[a-z]或^\l→空
匹配范围内的字符:[ ]
匹配单个字母:[a-z](可不区分大小写)或\l(小写)或\u(大写)
匹配数字:[0-9]或\d
匹配中文:[\x{4e00}-\x{9fa5}]
4.将每行前两个字母删除:^\l{2}→空
最少匹配n次,最多匹配m次:{n,m}
匹配n次:{n}
5.将所有编码删除:^\l{1,4}_或^\l+_→空(“_”指空格)
匹配1次或多次:+
匹配0次或多次:*
匹配0次或1次:?
非贪婪模式:+?或*?或??或{n,m}?
【贪婪模式】:在整个表达式匹配成功的前提下,尽可能多地匹配;
【非贪婪模式】:在整个表达式匹配成功的前提下,尽可能少地匹配。
6.将所有空行删除:^[_\t]*\n→空
【空行】:含有零个或零个以上空格或制表符,不含其他字符的行)
将行末的空格删除:_+$→空(行末:$)
换行符:\n
7.每行前面加两个全角空格:^→(两个全角空格)
8.转义符
匹配 ^$.*+?\ 等字符需要用转义符:
\^ \$ \. \* \+ \? \\
其他转义符:\n换行 \t制表符
9.将前300字调整为每字一行:.→\0\n
引用整个表达式:\0
10.将前300调整为每字一/两行交替:(.{2})(.)→\1\n\2\n
子表达式分组:( )
引用第z个表达式(z=1,2,3...):\z
11.去掉词库中的生僻字
①~.→空(去掉生僻字)
② +$→空(去掉行末空格)
③^\l{1,4}\n(去掉纯编码行)
联系客服