Hive的特殊符号的转义

Table of Contents

特殊字符

常见的特殊符号有如下的几种;

符号 描述
$ 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 也匹配 '\n' 或 '\r'。要匹配 字符本身,请使用 \$
() 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \)
* 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \*
+ 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+
. 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \.
[ 标记一个中括号表达式的开始。要匹配 [,请使用 \[
? 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?
\ 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, 'n' 匹配字符 'n'。'\n' 匹配换行符。序列 '\\' 匹配 "\",而 '\(' 则匹配 "("
^ 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^
{ 标记限定符表达式的开始。要匹配 {,请使用 \{
| 指明两项之间的一个选择。要匹配| ,请使用 \|

在Hive的的转义

CLI

如果在hive的CLI或者presto中执行hive脚本,只需要按照上表中使用即可。

例如,我们想replace \s 为某个字符

regexp_replace('\\s', '');
regexp_replace('\(', '');

这样使用都没有问题,但是如果是通过shell的方式执行就不是这样了。

Shell

在Shell中执行,因为其本身也有转义,加上Hive本身的转义就需要两次,也就是说转义符号就需要在原来的基础上翻倍。 例如,

regexp_replace('\\\\s', ''));
regexp_replace('\\(');

为了保证能够正确的执行,我们可以explain一下hive语句看看执行计划是怎样的。

Ref