Hive的特殊符号的转义
特殊字符
常见的特殊符号有如下的几种;
符号 | 描述 |
---|---|
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 也匹配 '\n' 或 '\r'。要匹配 字符本身,请使用 \$ |
() | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \) |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \* |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+ |
. | 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 \[ |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \? |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "(" |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^ |
{ | 标记限定符表达式的开始。要匹配 {,请使用 \{ |
| | 指明两项之间的一个选择。要匹配| ,请使用 \| |
在Hive的的转义
CLI
如果在hive的CLI或者presto中执行hive脚本,只需要按照上表中使用即可。
例如,我们想replace \s 为某个字符
regexp_replace('\\s', '');
regexp_replace('\(', '');
这样使用都没有问题,但是如果是通过shell的方式执行就不是这样了。
Shell
在Shell中执行,因为其本身也有转义,加上Hive本身的转义就需要两次,也就是说转义符号就需要在原来的基础上翻倍。 例如,
regexp_replace('\\\\s', ''));
regexp_replace('\\(');
为了保证能够正确的执行,我们可以explain一下hive语句看看执行计划是怎样的。