探讨select in 在postgresql的效率问题

 更新时间:2016年04月06日 09:56:41   作者:db2zos  
这篇文章主要介绍了探讨select in 在postgresql的效率问题 的相关资料,需要的朋友可以参考下

在知乎上看到这样一个问题:

MySQL 查询 select * from table where id in (几百或几千个 id) 如何提高效率?修改

电商网站,一个商品属性表,几十万条记录,80M,索引只有主键id,做这样的查询如何提高效率?

select * from table where id in (几百或几千个id)

这些id没啥规律,分散的。。。。

看了一下答案,感觉有好多不靠谱的,但是口说无凭,所以在我的电脑上写了几个查询测试一下。我用的是Postgresql9.4,但感觉mysql应该也差不多,首先创建一个简单表,只有简单的3列,在这个问题的下面好多人提到了需要看表的大小,其实这个问题和表大小无关,只和index的大小有关,因为是index是建立在int上的,所以只和纪录数目有关。

Table "public.t9"
Column | Type | Modifiers
--------+----------------+-----------
c1 | integer |
c2 | character(100) |
c3 | character(200) |
Indexes:
"i1" UNIQUE, btree (c1)insert into t9 values(generate_series(1000,500000,1),repeat('a',90),repeat('b',180)); 

之后生成一些随机数,Mac上用jot,Linux上用shuf

for ((i=0;i<100000;i++))
do
jot -r 1 1000 600000 >>rand.file
done 

然后根据rand.file 生成查询语句:

select * from t9 where c1 in (
494613,
575087,
363588,
527650,
251670,
343456,
426858,
202886,
254037,
...
1
);

分别生成3个sql文件,in内变量的数目分别是100,1000和10000个,执行这3个sql文件,看看时间

try psql study -f test_100.sql -o /dev/null
LOG: duration: 2.879 ms
try psql study -f test_1000.sql -o /dev/null
LOG: duration: 11.974 ms
try psql study -f test_10000.sql -o /dev/null
LOG: duration: 355.689 ms 

可以看到只有在in内数据到了10,000个的时候数据时间会有比较大的变化,但也不过是在300多ms内完成。

那如果按照有些回答那样,先建一个临时表,然后用in subquery,并且希望这时候可以两表join呢?为了简单我直接用两表join了

drop table t_tmp;
create table t_tmp(id int);
insert into t_tmp (id) values
(494613),
(575087),
(363588),
(345980),...
(1);
select t9.* from t9, t_tmp
where t9.c1 = t_tmp.id; 

时间如何呢?

try psql study -f test_create_10000.sql -o /dev/null
LOG: duration: 2.078 ms
LOG: duration: 1.233 ms
LOG: duration: 224.112 ms
LOG: duration: 322.108 ms 

除去drop和create的时间,依然花费了500+的时间,这里的前提还是我用的ssd盘,所以写LOG的时间会快很多。为什么会这么慢呢?用explain看一下,这时候数据量较大,直接走Merge join 了

那1000行数据的效率如何呢?

try psql study -f test_create_1000.sql -o exp.out
LOG: duration: 2.476 ms
LOG: duration: 0.967 ms
LOG: duration: 2.391 ms
LOG: duration: 8.780 ms 

100行的数据如下:

try psql study -f test_create_100.sql -o /dev/null
LOG: duration: 2.020 ms
LOG: duration: 1.028 ms
LOG: duration: 1.074 ms
LOG: duration: 1.912 ms 

可以看到在100个值和1000个值的情况下create table的方式不会比直接在in里面写所有的变量好多少,explain看的话是在用NLJ了。但在数据量更大(按照原问题,这里in的数量其实无法预知)的情况下效率只会更低,再加上额外的表维护成本和多余的SQL语句,DBA肯定不喜欢的,还是相信数据库,放心大胆直接用in list来搞定这些问题吧。

以上内容是针对select in 在postgresql的效率问题,希望对大家有所帮助!

相关文章

  • SqlServer表死锁的解决方法分享

    SqlServer表死锁的解决方法分享

    前些天写一个存储过程,存储过程中使用了事务,后来我把一些代码注释掉来进行调试找错,突然发现一张表被锁住了,原来是创建事务的代码忘记注释掉。本文表锁住了的解决方法。
    2011-08-08
  • 常用SQL语句(嵌套子查询/随机等等)详细整理

    常用SQL语句(嵌套子查询/随机等等)详细整理

    本文整理了一些常用的sql语句:插入语句得到自动生成的递增ID值实现是1 或0 想显示为男或女/嵌套子查询/显示文章、提交人和最后回复时间/随机提取条记录的例子等等太多了就不一一讲了,感兴趣的朋友可以聊接下
    2013-01-01
  • SQL Server索引结构的具体使用

    SQL Server索引结构的具体使用

    索引是数据库的基础,只有先搞明白索引的结构,才能搞明白索引运行的逻辑,本文主要介绍了SQL Server 索引结构的具体使用,具有一定的参考价值,感兴趣的可以了解一下
    2022-02-02
  • Navicat 连接SQLServer数据库(图文步骤)

    Navicat 连接SQLServer数据库(图文步骤)

    这篇文章主要介绍了Navicat 连接SQLServer数据库(图文步骤),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-04-04
  • sqlserver字符串拼接的实现

    sqlserver字符串拼接的实现

    本文主要介绍了sqlserver字符串拼接的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-02-02
  • SQL Server2014 哈希索引原理详解

    SQL Server2014 哈希索引原理详解

    SQL Server 2014推出的的新索引类型叫做 hash index。介绍hash index之前一定要介绍哈希函数这样会让大家更明白哈希索引的原理,有需要的朋友可以参考下
    2015-09-09
  • SQLSERVER启动不起来(错误9003)的解决方法分享

    SQLSERVER启动不起来(错误9003)的解决方法分享

    这篇文章主要介绍了SQLSERVER因错误9003启动不起来的解决方法,大家参考使用吧
    2013-11-11
  • SQLServer按顺序执行多个脚本的方法(sqlcmd实用工具使用方法)

    SQLServer按顺序执行多个脚本的方法(sqlcmd实用工具使用方法)

    有一百个脚本,那么就要按顺序执行过千次,这种工作量可不是一个人能承受得了的,下面我们介绍一个方法可以SQLServer按顺序执行多个脚本的方法
    2013-11-11
  • sqlserver 快速生成汉字的首拼字母的函数(经典)

    sqlserver 快速生成汉字的首拼字母的函数(经典)

    经常要对姓名按拼音搜索,所以需要做如下函数来快速获取首拼,需要的朋友可以参考下
    2012-05-05
  • sql server服务无法启动的解决方案

    sql server服务无法启动的解决方案

    sql server软件是一款关系型数据库管理系统,具有使用方便可伸缩性好与相关软件集成程度高等优点,我们在数据编程操作时经常会使用这款编程软件,在编程时系统有时会提示sql server服务无法启动,那么大家该如何正常启动呢,下面就由小编来给大家介绍一下如何解决
    2023-11-11

最新评论