Shell实现文本去重并操持原有顺序

 更新时间:2015年03月17日 09:03:41   投稿:junjie  
这篇文章主要介绍了Shell实现文本去重并操持原有顺序,本文分步骤讲解如何解决需求,并给出了若干方法,需要的朋友可以参考下

简单来说,这个技巧对应的是如下一种场景

假设有文本如下

复制代码 代码如下:

cccc
aaaa
bbbb
dddd
bbbb
cccc
aaaa

现在需要对它进行去重处理,这个很简单,sort -u就可以搞定,但是如果我希望保持文本原有的顺序,比如这里有两个aaaa,我只是希望去掉第二个aaaa,而第一个aaaa在bbbb的前面,去重后仍旧要在它前面,所以我期望的输出结果是
复制代码 代码如下:

cccc
aaaa
bbbb
dddd

当然,这个问题本身并不难,用C++或python写起来都很容易,但所谓杀机焉用牛刀,能用shell命令解决时,它永远都是我们的首选。答案在最后给出,下面说说我是如何想到这样

我们有时候想把自己的目录加入环境变量PATH时会在~/.bashrc文件中这样写,比如待加入的目录为$HOME/bin

复制代码 代码如下:

export PATH=$HOME/bin:$PATH

这样我们等于是在PATH追加了路径$HOME/bin并让它在最前面被搜索到,但当我们执行source ~/.bashrc后,$HOME/bin目录就会被加入PATH,如果我们下次再添加一个目录,比如
复制代码 代码如下:

export PATH=$HOME/local/bin:$HOME/bin:$PATH

再执行source ~/.bashrc时,$HOME/bin目录在PATH中其实会有两份记录,虽然这不影响使用,但对于一个强迫症来说,这是无法忍受的,于是问题就变成了,我们需要去掉$PATH里重复的路径,并且保持原有路径顺序不变,也就是原本谁在前面,去重后仍旧在前面,因为在执行shell命令时是从第一个路径开始查找的,所以顺序很重要

好了,说了这么多我们来揭示最终的结果,以文章开始的数据为例,假设输入文件是in.txt,命令如下

复制代码 代码如下:

cat -n in.txt | sort -k2,2 -k1,1n | uniq -f1 | sort -k1,1n | cut -f2-

这些都是很简单的shell命令,下面稍作解释
复制代码 代码如下:

cat -n in.txt : 输出文本,并在前面加上行号,以\t分隔
sort -k2,2 -k1,1n : 对输入内容排序,primary key是第二个字段,second key是第一个字段并且按数字大小排序
uniq -f1 : 忽略第一列,对文本进行去重,但输出时会包含第一列
sort -k1,1n : 对输入内容排序,key是第一个字段并按数字大小排序
cut -f2- : 输出第2列及之后的内容,默认分隔符为\t

大家可以从第一条命令开始,并依次组合,看看实际输出效果,那样便更容易理解了。对于$PATH中的重复路径又该如何处理呢,还是以前面的例子来说,只需在前后用tr做一下转换即可

复制代码 代码如下:

export PATH=$HOME/local/bin:$HOME/bin:$PATH
export PATH=`echo $PATH | tr ':' '\n' | cat -n | sort -k2,2 -k1,1n | uniq -f1 | sort -k1,1n | cut -f2- | tr '\n' ':'`

其实这样使用PATH会有个问题,比如我们执行了以上命令后,如果想去掉$HOME/bin这个路径,仅仅修改为如下内容是不够的
复制代码 代码如下:

export PATH=$HOME/local/bin:$PATH
export PATH=`echo $PATH | tr ':' '\n' | cat -n | sort -k2,2 -k1,1n | uniq -f1 | sort -k1,1n | cut -f2- | tr '\n' ':'`

因为我们已经将$HOME/bin加入了$PATH中,这样做并没有起到删除的作用,也许最好的方式还是自己清楚的知道所有路径,然后显示指定,而不是采取追加的方式

相关文章

  • linux查看已使用内存的常用命令

    linux查看已使用内存的常用命令

    在Linux系统中,我们可以使用多个命令来查看内存使用情况,其中比较常用的命令有free、top、ps和sar,使用free命令可以查看系统内存的使用情况,这些命令可以帮助我们快速了解系统内存的使用情况,从而更好地进行内存管理和优化,需要的朋友可以参考下
    2024-01-01
  • Shell函数返回值方式

    Shell函数返回值方式

    本文主要介绍了Shell函数返回值方式,主要介绍了两种返回方式,分别介绍了场景的使用和区别,具有一定的参考价值,感兴趣的可以了解一下
    2022-08-08
  • 输出执行操作和打印日志的shell脚本实例

    输出执行操作和打印日志的shell脚本实例

    下面小编就为大家带来一篇输出执行操作和打印日志的shell脚本实例。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2017-03-03
  • 详解Linux定时任务Crontab的介绍与使用

    详解Linux定时任务Crontab的介绍与使用

    linux内置的cron进程能帮我们实现这些需求,cron搭配shell脚本,非常复杂的指令也没有问题。本文主要介绍了定时任务Crontab的使用,需要的可以学习一下
    2022-10-10
  • linux top命令基本实战

    linux top命令基本实战

    top命令的功能是用于实时显示系统运行状态,包含处理器、内存、服务、进程等重要资源信息,这篇文章主要介绍了linux top命令 实战,需要的朋友可以参考下
    2023-02-02
  • Shell管道和过滤器的使用

    Shell管道和过滤器的使用

    本文主要介绍了Shell管道和过滤器的使用,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2024-03-03
  • shell脚本读取命令行参数的实现

    shell脚本读取命令行参数的实现

    本文主要介绍了shell脚本读取命令行参数的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-07-07
  • Linux命令学习之用户切换su,sudo命令详解

    Linux命令学习之用户切换su,sudo命令详解

    在操作过程中需要使用特定的用户进行特定的操作,多数情况下是因为权限,比如要修改一个文件,只有root用户有权限修改,那么就要切换到root用户下进行操作,本文给大家讲解Linux命令学习之用户切换su,sudo命令,感兴趣的朋友跟随小编一起看看吧
    2023-02-02
  • Shell脚本实现根据文件的修改时间来分类文件

    Shell脚本实现根据文件的修改时间来分类文件

    这篇文章主要介绍了Shell脚本实现根据文件的修改时间来分类文件,本文直接给出实现代码,需要的朋友可以参考下
    2015-07-07
  • 详解Shell $*和$@之间的区别

    详解Shell $*和$@之间的区别

    这篇文章主要介绍了详解Shell $*和$@之间的区别,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-03-03

最新评论