Perl中著名的Schwartzian转换问题解决实现

更新时间：2015年06月02日 17:54:02 投稿：junjie

这篇文章主要介绍了Perl中著名的Schwartzian转换问题解决实现,本文详解讲解了Schwartzian转换涉及的排序问题,并同时给出实现代码,需要的朋友可以参考下

Perl中著名的Schwartzian转换，其产生背景主要涉及到排序问题:
比如说，根据文件名以字母顺序排序，代码如下:

use strict;  

use warnings;  

my @files = glob "*.xml";          #perl中文件操作符glob提供相当于shell中的通配符的功能  

my @sorted_files = sort @files;    #sort()，排序，默认是字母顺序排序

比如说，根据文件名长度排序，其代码如下:

复制代码代码如下:

use strict;  

use warnings;  

#length求长度。 太空船操作符<=>，默认变量是$a,$b，返回值为-1,0,1分别表示大于，==，小于。 sort进行排序  

my $files = ".xml";  

my @sorted_length = sort { length($a) <=> length($b) } @files;

上面的两种情况，对很多文件操作来说，速度还不算慢，如果是下面这种情况。
比如说:要批量比较文件大小，其代码如下:

复制代码代码如下:

use strict;  

use warnings;  

my @files     = glob "*.xml";     

my @sort_size = sort { -s $a <=> -s $b } @files;  #比较大小

上面的代码设计到三重(次)操作:
1. 从硬盘上获取文件大小(-s $b)
2. 比较文件大小(太空船操作)
3. 对其进行排序(sort操作)
考虑到要比较$a,$b大小时，要从硬盘中获取两次，所以次数是6次！也就是说，如果有1万个文件，总共是6万次。
其算法复杂度是: n*long(n),考虑到后两项(比较文件大小，进行排序)必然要进行的操作，但第一项却可以降低！
即一次性从硬盘中读取所有文件大小，将其放置到Perl中的默认的变量，并存储到内存中！于是又下面算法实现:

复制代码代码如下:

use strict;  

use warnings;  

my @files = glob "*.xml";  

my @unsorted_pairs = map  { [$_, -s $_] } @files;  

my @sorted_pairs   = sort { $a->[1] <=> $b->[1] } @unsorted_pairs;  

my @sorted_files   = map  { $_->[0] } @sorted_pairs;

看上去比较复杂，分三个步骤解释下:
第一步:遍历文件列表，对每个文件创建一个数组引用。数组引用包含两个元素：
第一个是文件名($_)，第二个是文件大小(-s $_)。这样，处理每个文件只访问一次磁盘。
第二步:对二维数组排序。因比较文件大小，所以需取元素[1]，比较它们的值。得到另一个二维数组。
第三步:丢掉文件大小元素，创建一个只含文件名的列表。完成目标!
上面的代码使用了两个临时数组，但这并不是必须的。我们可以一个语句就能完成所有的工作。为了达到目的，需要按照“数据从右流向左”的原理反转句子顺序，不如果将每个句子放在单独一行，并且留出足够的空间，我们依然可以写出可读性高的代码。

复制代码代码如下:

my @quickly_sorted_files =  

    map  { $_->[0] }  

    sort { $a->[1] <=> $b->[1] }  

    map  { [$_, -s $_] }  

    @files;

这就是以Randal L. Schwartz命名的Schwartzian转换，对数据量特多的情况下，其速度要比前者快数倍！
下面写了小程序，包括在生成1万个xml文件，在两种情况下，完整代码如下:

复制代码代码如下:

#!/usr/bin/perl -w
use strict;
use warnings;
use autodie;
use v5.10;

######################################
### 创建要比较的10,000个.xml文件 ###
######################################
my $profix = ".xml";

foreach my $num (1..10000) {
    open(my $fh, '>', $num . $profix) || die "Can not create the file: $!\n";
    print $fh "This is file size testing!";
}

print "All the 10_1000 files created! \n";

######################################
### 常规转换:      遍历20次       ###
######################################
my $t1 = time();

foreach (1..20){
    my @files     = glob "*.xml";
    my @sorted    = sort { -s $a <=> -s $b } @files;
}

say "常规算法需要时间: => ", time()- $t1;

######################################
### Schwartzian转换: 遍历20次     ###
######################################
my $t2 = time();

foreach (1..20){
    my @files = glob "*.xml";
        my @sorted =
            map {$_->[0]}
            sort {$a->[1] <=> $b->[1]}
            map {[$_, -s $_]}
       @files;
}

say "Schwartzian算法需要时间: => ", time()- $t2;

输出结果:
All the 10_1000 files created!
常规算法需要时间: => 185
Schwartzian算法需要时间: => 115

python爬虫抓取时常见的小问题总结
这篇文章主要介绍了python爬虫抓取时常见的小问题总结，整理了部分新手在爬虫过程中遇到的问题，希望可以给大家提供一点问题解决的思路和参考，需要的小伙伴可以参考下面文章内容
2022-05-05
pandas取出重复数据的方法
今天小编就为大家分享一篇pandas取出重复数据的方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2019-07-07
获取python运行输出的数据并解析存为dataFrame实例
这篇文章主要介绍了获取python运行输出的数据并解析存为dataFrame实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2020-07-07
用python实现词云效果实例介绍
大家好，本篇文章主要讲的是用python实现词云效果实例介绍，感兴趣的同学赶快来看一看吧，对你有帮助的话记得收藏一下
2022-01-01
浅析Python 中整型对象存储的位置
下面小编就为大家带来一篇浅析Python 中整型对象存储的位置。小编觉得挺不错的，现在分享给大家，也给大家做个参考，一起跟随小编过来看看吧
2016-05-05
python使用js2py库运行js代码
本文主要介绍了thon使用js2py库运行js代码，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2022-05-05
Django使用Celery实现异步发送邮件
这篇文章主要为大家详细介绍了Django如何使用Celery实现异步发送邮件的功能，文中的示例代码讲解详细，感兴趣的小伙伴可以了解一下
2023-04-04
Tensorflow Summary用法学习笔记
这篇文章主要介绍了Tensorflow Summary用法学习笔记，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2020-01-01
pyspark dataframe列的合并与拆分实例
这篇文章主要介绍了pyspark dataframe列的合并与拆分实例，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-03-03
利用Python将社交网络进行可视化
这篇文章介绍了利用Python将社交网络进行可视化，主要是一些Python的第三方库来进行社交网络的可视化，利用领英（Linkedin）的社交关系数据展开介绍，内容可当学习练习题有一定的参考价值，需要的小伙伴可以参考一下
2022-06-06

Perl中著名的Schwartzian转换问题解决实现

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具