Centos7 Shell编程之正则表达式、文本处理工具详解

更新时间：2022年08月04日 16:32:01 作者：Bulut0907

正则表达式可以很灵活的提供各种模糊匹配的筛选规则。常被用来检索、替换那些符合某个模式的文本，这篇文章主要介绍了Centos7 Shell编程之正则表达式、文本处理工具,需要的朋友可以参考下

1. 正则表达式

正则表达式可以很灵活的提供各种模糊匹配的筛选规则。常被用来检索、替换那些符合某个模式的文本。grep、sed、awk等文本处理工具都支持通过正则表达式进行模式匹配

1.1 常规匹配

一串不包含特殊字符的正则表达式，匹配包含它自己的字符，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep root
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@bigdata001 ~]#

1.2 常用特殊字符

特殊字符：^：匹配一行的开头，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep ^root
root:x:0:0:root:/root:/bin/bash
[root@bigdata001 ~]#

特殊字符：$：匹配一行的结束，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep bash$
root:x:0:0:root:/root:/bin/bash
[root@bigdata001 ~]#

特殊字符：.：匹配一个任意的字符，例如：

[root@bigdata001 ~]# cat /etc/passwd | grep r..t
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
ftp:x:14:50:FTP User:/var/ftp:/sbin/nologin
[root@bigdata001 ~]#

特殊字符：*：不单独使用，和上一个字符连用，表示匹配上一个字符0次或多次，例如

[root@bigdata001 ~]# cat /etc/passwd | grep ro*t
root:x:0:0:root:/root:/bin/bash
operator:x:11:0:operator:/root:/sbin/nologin
[root@bigdata001 ~]#

字符区间：[ ]：表示匹配某个范围内的一个字符

[68]：匹配6或者8
[0-9]：匹配一个0-9的数字
[0-9]*：匹配任意长度的数字字符串
[a-z]：匹配一个a-z之间的字符
[a-c, e-f]-匹配a-c或者e-f之间的任意一个字符

[root@bigdata001 ~]# echo 12345 | grep "[0-9]*"
12345
[root@bigdata001 ~]#

**特殊字符：**：表示转义，并不会单独使用。由于所有特殊字符都有其特定匹配模式，当我们想匹配某一特殊字符本身时(例如我想找出所有包含’$'的行)，就会碰到困难。此时我们就要将转义字符和特殊字符连用，来表示特殊字符本身，例如：

[root@bigdata001 ~]# echo -e 'abc$def'"\n123456" | grep '\$'
abc$def
[root@bigdata001 ~]#

实战练习：

[root@bigdata001 ~]# echo 13667894536 | grep -E ^1[34578][0-9]{9}$
13667894536
[root@bigdata001 ~]#

grep默认是不支持正则特殊字符{}的，需要开启拓展正则表达式功能

2. 文本处理工具

2.1 cut

cut可以将文件中内容(也可以通过管道符传输)，按照指定分隔符将每一行进行切割，然后取指定字节、字符、字段进行输出

基本语法： cut [选项参数] filename

选项参数如下：

-d 分隔符：按照指定分隔符分割每行数据，默认是制表符\t

-f 列号：取第几列。可以使用3,5表示取第三列和第五列，-3、3-5、5-分布表示取前三列、第三列到第五列、第五列和后面所有列

-c 字符号：表示取第个字符。不能指定分隔符

-b 字节号：表示取第个字节。不能指定分隔符

示例：

[root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 1
root
bigdata
[root@bigdata001 ~]# 
[root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -d ":" -f 6-
/root:/bin/bash
/home/bigdata:/bin/bash
[root@bigdata001 ~]#
[root@bigdata001 ~]# cat /etc/passwd | grep bash$ | cut -c 1
r
g
[root@bigdata001 ~]#

实战示例：

[root@bigdata001 ~]# ifconfig ens33 | grep netmask | cut -d " " -f 10
192.168.8.111
[root@bigdata001 ~]#

2.2 awk

awk把文件逐行的读入(文件名或通过管道符传输)，以空格为默认分隔符将每行切片，切开的部分再进行分析处理

基本语法：awk [选项参数] ‘/pattern1/{action1} /pattern2/{action2} …’ filename

pattern：表示awk在数据中查找的内容，就是正则表达式匹配
action：在找到匹配内容时所执行的一系列命令

选项参数说明

-F 分隔符：指定输入文件每行分隔符
-v 变量名=变量值：赋值一个用户定义变量

awk的内置变量

FILENAME：文件名NR：数据所在的行号NF：每行切割后的列数

示例1：

[root@bigdata001 ~]# cat /etc/passwd | grep bash$
root:x:0:0:root:/root:/bin/bash
bigdata:x:996:1000::/home/bigdata:/bin/bash
[root@bigdata001 ~]# 
[root@bigdata001 ~]# awk -F ":" -v my_var=1 'BEGIN{print "begin line"} /bash$/{print $3+my_var", "$1", 文件名: "FILENAME", 行号: "NR",  列数: "NF} END{print "end line"}' /etc/passwd
begin line
1, root, 文件名: /etc/passwd, 行号: 1, 列数: 7
997, gpadmin, 文件名: /etc/passwd, 行号: 22, 列数: 7
end line
[root@bigdata001 ~]#

BEGIN和END都是可选的，表示在所有数据行读取之前或之后执行的操作
可以不定义pattern，只定义action
print是awk内部的命令
$1表示第一列，$2表示第二列，依次类推

示例2：

[root@bigdata001 ~]# ifconfig | awk '/netmask/{print $2}'
192.168.8.111
127.0.0.1
[root@bigdata001 ~]#

前面的多个空格会当作一个空格，且只统计有内容的列所在的位置

示例3：

[root@bigdata001 ~]# cat test.awk
#!/bin/awk -f
# 在所有数据行读取之前的操作
BEGIN {
    # 定义变量
    math = 0
    english = 0
 
    printf "name         math   english   total\n"
}

# 对每行数据进行的操作
{
    math+=$2
    english+=$3
    printf "%-10s %6d %9d %7d\n", $1, $2, $3, $2+$3
}
# 在所有数据行读取之后的操作
END {
    printf "total:     %6d %9d\n", math, english
    printf "average:   %6.2f %9.2f\n", math/NR, english/NR
}
[root@bigdata001 ~]# 
[root@bigdata001 ~]# echo -e "zhang_san 60 80\nli_si 70 90" | awk -f test.awk
name         math   english   total
zhang_san      60        80     140
li_si          70        90     160
total:        130       170
average:    65.00     85.00
[root@bigdata001 ~]#

printf是wak内置命令
printf中-表示左对齐，默认右对齐。数字表示宽度。s表示字符串，d表示数字，f表示浮点数(数字1.数字2：数字1表示宽度，数字2表示小数点位数)

到此这篇关于Centos7 Shell编程之正则表达式、文本处理工具的文章就介绍到这了,更多相关正则表达式、文本处理工具内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

一个正则表达式的看法（?:）
下午和kindle聊天的时候,他让我看一个正则,问我知不知道其中?:的作用,以偶半瓶水的正则功力,不知道杂解释给他听了,单个一个还好理解,一起就不明白了,起码我是没用过..查了下资料,说说我的看法..
2010-12-12
使用正则表达式生成随机数据的方法
这篇文章主要介绍了使用正则表达式生成随机数据的方法，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-02-02
正则表达式匹配中文与双字节的代码
匹配中文字符与匹配双字节字符的代码，需要的朋友可以参考下。
2010-11-11
Python正则表达式的7个使用典范(推荐)
这篇文章主要介绍了Python正则表达式的7个使用典范,非常不错，具有一定的参考借鉴价值，需要的朋友可以参考下
2018-11-11
idea 正则表达式搜索替换应用详解
这篇文章主要介绍了idea 正则表达式搜索替换应用详解,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-05-05
正则表达式中的特殊字符
正则表达式中的特殊字符...
2006-06-06
php中常用的正则表达式的介绍及应用实例代码
在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的语法。
2009-12-12
36个正则表达式(开发效率提高80%)
我们在日常的Java开发中，经常需要处理一些字符串，本文主要介绍了36个常用正则表达式，感兴趣的可以了解一下
2021-11-11
JS正则表达式详解[收藏]
JS正则表达式详解[收藏]...
2007-03-03
JScript 8.0 正则表达式语法
正则表达式是一种文本模式，包括普通字符（例如，a 到 z 之间的字母）和特殊字符（称为“元字符”）。模式描述在搜索文本时要匹配的一个或多个字符串。
2008-05-05