Python使用RethinkDB总结

更新时间：2014年03月16日 15:18:04 作者：

最近一个项目要用到文档数据库，顺便关注了一下 NoSQL 方面的消息。当前几个比较流行的文档数据库引擎有 MongoDB, CouchDB, OrientDB 等，朋友推荐的是 MongoDB 和 RethinkDB

和 MongoDB 类似 RethinkDB 是一个主要用来存储 JSON 文档的数据库引擎（MongoDB 存储的是 BSON），可以轻松和多个节点连成分布式数据库，非常好用的查询语言以及支持表的 joins 和 group by 操作等。
昨天试玩了一下 RethinkDB，在一台虚拟机上测试，插入2500万行记录性能比较稳定，维持在 1.5K 行到 2K 行每秒之间，RethinkDB 的数据分片（sharding）功能非常简单，一个点击就可以完成。下面的安装和测试在 Ubuntu 12.04.4 LTS Server 版本上完成。
加入 RethinkDB 官方源后安装：

复制代码代码如下:

$ sudo apt-get install python-software-properties
$ sudo add-apt-repository ppa:rethinkdb/ppa
$ sudo apt-get update
$ sudo apt-get install rethinkdb

拷贝一个例子配置文件后修改 bind 部分以便可以从其他机器访问：

复制代码代码如下:

$ cd /etc/rethinkdb/
$ sudo cp default.conf.sample instances.d/default.conf

$ sudo vi instances.d/default.conf
...
# bind=127.0.0.1
bind=0.0.0.0
...

启动 rethinkdb：

复制代码代码如下:

$ sudo /etc/init.d/rethinkdb start
rethinkdb: default: Starting instance. (logging to `/var/lib/rethinkdb/default/data/log_file')

访问 http://192.168.2.39:8080/ 就可以看到 rethinkdb 的管理界面了：

如果不喜欢在命令行工作，web 界面还提供了 Data Explorer 在线查询工具，支持语法高亮、在线函数提示等，不用额外查帮助文件。

要用程序的方式和 rethinkdb 打交道的话就需要安装客户端驱动（client drivers），官方支持的驱动有 JavaScript, Ruby 和 Python 3种语言，社区支持的驱动几乎包括了 C, Go, C++, Java, PHP, Perl, Clojure, Erlang 等所有主流编程语言。本人用 Python 多一些，所以这里安装 Python 客户端驱动：

复制代码代码如下:

$ sudo apt-get install python-pip
$ sudo pip install rethinkdb

测试一下驱动是否能工作了，如果 import rethinkdb 没有出错基本就可以说明模块安装成功：

复制代码代码如下:

$ python
Python 2.7.3 (default, Feb 27 2014, 19:58:35)
[GCC 4.6.3] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import rethinkdb
>>>

gene2go.txt 是一个含有基因数据的文本文件，大概1000多万行记录，格式如下：

复制代码代码如下:

$ head -2 gene2go.txt
#Format: tax_id GeneID GO_ID Evidence Qualifier GO_term PubMed Category (tab is used as a separator, pound sign - start of a comment)
3702 814629 GO:0005634 ISM - nucleus - Component

写个简单程序把 gene2go.txt 的数据导入到 rethinkdb 里：

复制代码代码如下:

#!/usr/bin/python
# -*- coding: UTF-8 -*-

import os, os.path, sys, re, csv, string

def csv2db():
data = csv.reader(open('gene2go.txt', 'rb'), delimiter='\t')
data.next()

    import rethinkdb as r
    r.connect('localhost', 28015).repl()
    r.db('test').table_create('gene2go').run()
    gene2go = r.db('test').table('gene2go')
    for row in data:
        gene2go.insert({
            'tax_id': row[0],
            'GeneID': row[1],
            'GO_ID': row[2],
            'Evidence': row[3],
            'Qualifier': row[4],
            'GO_term': row[5],
            'PubMed': row[6],
            'Category': row[7]
        }).run(durability="soft", noreply=True)

def main():
csv2db()

if __name__ == "__main__":
main()

navicat怎么卸载,navicat彻底卸载干净教程
这篇文章主要介绍了navicat怎么卸载？navicat彻底卸载干净教程。具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-02-02
详解Navicat Premium 15 无限试用脚本的方法
这篇文章主要介绍了Navicat Premium 15 无限试用脚本的方法，本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友参考下吧
2020-11-11
ACCESS转化成SQL2000需要注意的几个问题小结
ACCESS转化成SQL2000需要注意的几个问题小结...
2007-06-06
一次数据库查询超时优化问题的实战记录
当MySQL服务器出现异常(慢),首先要考虑是否因SQL语句引起数据库慢,下面这篇文章主要给大家介绍了一次数据库查询超时优化问题的实战记录,需要的朋友可以参考下
2021-10-10
SQL数据库语句大全
本篇文章详细整理了Access、MySQL以及SQL Server三种数据库语句。对大家的学习或者工作具有一定的参考学习价值，需要的朋友们下面随着小编来一起学习学习吧
2021-12-12
谈谈数据库的字段设计的几个心得
今天小编就为大家分享一篇关于谈谈数据库的字段设计的几个心得，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧
2019-03-03
SQL中代替Like语句的另一种写法
SQL中代替Like语句的另一种写法...
2006-12-12
图文详解如何在navicat中导入excel表格数据
Navicat可以方便的操作各种数据库,也提供了丰富的导入导出功能,下面这篇文章主要给大家介绍了关于如何在navicat中导入excel表格数据的相关资料,需要的朋友可以参考下
2023-02-02
sql 中将日期中分秒化为零的语句
用到了sql中的convert函数将日期中的分秒转换为零
2008-10-10
很全的SQL中文解释代码
学习sql的朋友可以参考下，中文版sql命令
2008-04-04