Python中用memcached来减少数据库查询次数的教程

更新时间：2015年04月07日 16:32:18 投稿：goldensun

这篇文章主要介绍了Python中用memcached来减少数据库查询次数的教程,memcached是一种分布式的内存缓存工具,使用后可以减少对硬盘的I/O次数,需要的朋友可以参考下

本来我一直不知道怎么来更好地优化网页的性能，然后最近做python和php同类网页渲染速度比较时，意外地发现一个很简单很白痴但是我一直没发现的好方法（不得不BS我自己）：直接像某些php应用比如Discuz论坛那样，在生成的网页中打印出“本页面生成时间多少多少秒”，然后在不停地访问网页测试时，很直观地就能发现什么操作会导致瓶颈，怎样来解决瓶颈了。

于是我发现SimpleCD在生成首页时，意外地竟然需要0.2秒左右，真真不能忍：对比Discuz论坛首页平均生成才0.02秒，而Discuz论坛的首页页面无疑比 SimpleCD的主页要复杂不少；这让我情何以堪啊，因为这必然不是Python语言导致的差距，只能说是我完全没做优化而Discuz程序优化得很好的后果。

其实不用分析也能知道肯定是数据库在拖累，SimpleCD在生成首页时需要在sqlite的三个数据库中进行42多次查询，是历史原因导致的极其低效的一个设计；但是这40多次查询中，其实大部分是非常快的查询，仔细分析一下就有两个是性能大户，其他都不慢。

第一个大户就是：获取数据个数

SELECT count(*) FROM verycd

这个操作每次都要花不少时间，这是因为每次数据库都要锁住然后遍历一遍主键统计个数的缘故，数据量越大耗时就越大，耗时为O(N)，N为数据库大小；实际上解决这个问题非常容易，只要随便在哪存一个当前数据的个数，只有在增删数据的时候改动就行了，这样时间就是O(1)的了

第二个大户就是：获取最新更新的20个数据列表

SELECT verycdid,title,brief,updtime FROM verycd
 
  ORDER BY updtime DESC LIMIT 20;

因为在updtime上面做了索引，所以其实真正查询时间也就是搜索索引的时间而已。然则为什么这个操作会慢呢？因为我的数据是按照publish time插入的，按update time进行显示的话就肯定需要在至少20个不同的地方做I/O，这么一来就慢了。解决的方法就是让它在一个地方做I/O。也就是，除非数据库加入新数据 /改变原有数据，否则把这条语句的返回结果缓存起来。这么一来又快了20倍：）

接下来的是20条小case：取得发布人和点击数信息

SELECT owner FROM LOCK WHERE id=XXXX;
 
SELECT hits FROM stat WHERE id=XXXX;

这里为什么没用sql的join语句来省点事呢？因为架构原因这些数据放在不同的数据库里，stat是点击率一类的数据库，因为需要频繁的插入所以用 mysql存储；而lock和verycd是需要大量select操作的数据库，因为mysql悲剧的索引使用情况和分页效率而存放在了sqlite3数据库，所以无法join -.-

总之这也不是问题，跟刚才的解决方法一样，统统缓存

所以纵观我这个例子，优化网页性能可以一言以蔽之，缓存数据库查询，即可。我相信大部分网页应用都是这样：）

终于轮到memcached了，既然打算缓存，用文件做缓存的话还是有磁盘I/O，不如直接缓存到内存里面，内存I/O可就快多了。于是memcached顾名思义就是这么个东东。

memcached是很强大的工具，因为它可以支持分布式的共享内存缓存，大站都用它，对小站点来说，只要出得起内存，这也是好东西；首页所需要的内存缓冲区大小估计不会超过10K，更何况我现在也是内存土豪了，还在乎这个？

配置运行：因为是单机没啥好配的，改改内存和端口就行了

vi /etc/memcached.conf
 
/etc/init.d/memcached restart

在python的网页应用中使用之

import memcache
 
mc = memcache.Client(['127.0.0.1:11211'], debug=0)

memcache其实就是一个map结构，最常使用的就是两个函数了：

第一个就是set(key,value,timeout)，这个很简单就是把key映射到value，timeout指的是什么时候这个映射失效
第二个就是get(key)函数，返回key所指向的value

于是对一个正常的sql查询可以这么干

sql = 'select count(*) from verycd'
 
c = sqlite3.connect('verycd.db').cursor()
 
 
 
# 原来的处理方式
 
c.execute(sql)
 
count = c.fetchone()[0]
 
 
 
# 现在的处理方式
 
from hashlib import md5
 
key=md5(sql)
 
count = mc.get(key)
 
if not count:
 
  c.execute(sql)
 
  count = c.fetchone()[0]
 
  mc.set(key,count,60*5) #存5分钟

其中md5是为了让key分布更均匀，其他代码很直观我就不解释了。

优化过语句1和语句2后，首页的平均生成时间已经降低到0.02秒，和discuz一个量级了；再经过语句3的优化，最终结果是首页生成时间降低到了 0.006秒左右，经过memcached寥寥几行代码的优化，性能提高了3300%。终于可以挺直腰板来看Discuz了）

您可能感兴趣的文章:

TensorFlow2基本操作之张量排序填充与复制查找与替换
这篇文章主要介绍了TensorFlow2基本操作之张量排序填充与复制查找与替换，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-09-09
PyQt5+requests实现车票查询工具
这篇文章主要为大家详细介绍了PyQt5+requests实现车票查询工具，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2019-01-01
如何在sublime编辑器中安装python
这篇文章主要介绍了如何在sublime编辑器中安装python,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-05-05
使用Python实现解析HTML的方法总结
HTML（Hypertext Markup Language）是互联网世界中的通用语言,用于构建网页,本文主要为大家介绍了如何使用Python解析HTML,包括各种方法和示例代码,希望对大家有所帮助
2023-11-11
Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
这篇文章主要介绍了Python3实现爬取简书首页文章标题和文章链接的方法,结合实例形式分析了Python3基于urllib及bs4库针对简书网进行文章抓取相关操作技巧,需要的朋友可以参考下
2018-12-12
Python极简代码实现杨辉三角示例代码
杨辉三角形因为其形式简单，又有一定的使用价值，因此是入门编程题中被用的最多的，也是很好的语言实例标的。这篇文章就给大家介绍了Python极简代码实现杨辉三角的方法，文章给出了详细的示例代码和解释，对大家理解很有帮助，感兴趣的朋友们下面来一起看看吧。
2016-11-11
Python编程实现控制cmd命令行显示颜色的方法示例
这篇文章主要介绍了Python编程实现控制cmd命令行显示颜色的方法,结合实例形式分析了Python针对命令行字符串显示颜色属性相关操作技巧,需要的朋友可以参考下
2017-08-08
Python实现对Excel表格的操作详解
这篇文章主要介绍了Python实现对Excel表格的操作,在数据处理和报告生成等工作中,Excel表格是一种常见且广泛使用的工具,使用Python来处理Excel表格能够大大的提升效率,感兴趣的同学可以参考下
2024-02-02
python操作yaml的方法详解
这篇文章主要为大家介绍了python操作yaml的方法，具有一定的参考价值，感兴趣的小伙伴们可以参考一下，希望能够给你带来帮助
2022-01-01
selenium携带cookies模拟登陆CSDN的实现
这篇文章主要介绍了selenium携带cookies模拟登陆CSDN的实现，文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-01-01

Python中用memcached来减少数据库查询次数的教程

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具