python爬虫数据保存到mongoDB的实例方法

 更新时间:2020年07月28日 14:19:47   作者:yang  
在本篇文章里小编给大家整理的是一篇关于python爬虫数据保存到mongoDB的实例方法,有需要的朋友们可以参考下。

爬虫数据保存到mongoDB的方法:

import pymongo

# 首先需要注意,mongodb数据库存储的类型是以键值对类型进行存储,所以在存储以前一定要进行数据筛选

def save_mongo(传入的数据):

  # 创建连接 因为使用的为本机数据库,所以IP写localhost即可,端口号为27017

  client = pymongo.MongoClient('localhost',27017)

  # 连接数据库(这里注意一点,mongo数据库有一个优点,就是当自己连接的数据库和表都没有的时候,会自动创建,所以不用担心写错或者没有表)

  db = client['自己创建数据库名']

  # 连接表

  collection = db['自己的表名(mongo中叫做集合)']

  # 插入到数据库中(这里使用dict进行强制转换,是为了保证数据为字典格式)

  collection.insert(dict(传入的数据))

mongoDB介绍:

它的特点是高性能、易部署、易使用,存储数据非常方便。主要功能特性有:

*面向集合存储,易存储对象类型的数据。

*模式自由。

*支持动态查询。

*支持完全索引,包含内部对象。

*支持查询。

*支持复制和故障恢复。

*使用高效的二进制数据存储,包括大型对象(如视频等)。

*自动处理碎片,以支持云计算层次的扩展性。

*支持 Golang,RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。

*文件存储格式为BSON(一种JSON的扩展)。

*可通过网络访问。

实例扩展:

# coding=utf-8

import re
import requests
from lxml import etree
import pymongo
import sys

reload(sys)
sys.setdefaultencoding('utf-8')

def getpages(url, total):
 nowpage = int(re.search('(\d+)', url, re.S).group(1))
 urls = []

 for i in range(nowpage, total + 1):
  link = re.sub('(\d+)', '%s' % i, url, re.S)
  urls.append(link)

 return urls

def spider(url):
 html = requests.get(url)

 selector = etree.HTML(html.text)

 book_name = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/a/text()')
 book_author = selector.xpath('//*[@id="container"]/ul/li//div/div[2]/div/a/text()')

 saveinfo(book_name, book_author)

def saveinfo(book_name, book_author):
 connection = pymongo.MongoClient()
 BookDB = connection.BookDB
 BookTable = BookDB.books

 length = len(book_name)

 for i in range(0, length):
  books = {}
  books['name'] = str(book_name[i]).replace('\n','')
  books['author'] = str(book_author[i]).replace('\n','')
  BookTable.insert_one(books)

if __name__ == '__main__':
 url = 'http://readfree.me/shuffle/?page=1'
 urls = getpages(url,3)

 for each in urls:
  spider(each)

以上就是python爬虫数据保存到mongoDB的实例方法的详细内容,更多关于爬虫数据如何保存到mongoDB的资料请关注脚本之家其它相关文章!

相关文章

  • Python实现XGBoost算法的应用实战

    Python实现XGBoost算法的应用实战

    XGBoost(Extreme Gradient Boosting)是一种高效且广泛使用的集成学习算法,它属于梯度提升树(GBDT)模型的一种改进,本文将结合实际案例,详细介绍如何在Python中使用XGBoost算法进行模型训练和预测,需要的朋友可以参考下
    2024-08-08
  • python使用线程封装的一个简单定时器类实例

    python使用线程封装的一个简单定时器类实例

    这篇文章主要介绍了python使用线程封装的一个简单定时器类,实例分析了Python线程的使用及定时器类的实现技巧,需要的朋友可以参考下
    2015-05-05
  • 解决python3 Pycharm上连接数据库时报错的问题

    解决python3 Pycharm上连接数据库时报错的问题

    今天小编就为大家分享一篇解决python3 Pycharm上连接数据库时报错的问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2018-12-12
  • Python正则表达式和re库知识点总结

    Python正则表达式和re库知识点总结

    在本篇文章中小编给大家分享了关于Python正则表达式和re库知识点内容,有兴趣的朋友们学习下。
    2019-02-02
  • Python更改pip镜像源的方法示例

    Python更改pip镜像源的方法示例

    这篇文章主要介绍了Python更改pip镜像源的方法示例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • Python中文本和数字相等判断方式

    Python中文本和数字相等判断方式

    这篇文章主要介绍了Python中文本和数字相等判断方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
    2024-03-03
  • 简单的Python动态可视化神器,编程小白也能上手

    简单的Python动态可视化神器,编程小白也能上手

    这篇文章就来介绍简单的Python动态可视化神器,最近发现了一个宝藏动态可视化库,非常简单,即使是小白也能轻松上手。这个库就是motionchart,它能够用 pandas 的 dataframe 数据直接创建交互式的动态图表,下面来简单看一下如何使用。

    2021-10-10
  • Python3数字求和的实例

    Python3数字求和的实例

    在本篇文章中小编给大家整理了关于Python3 min()函数的一些用法和相关知识点,需要的朋友们学习下。
    2019-02-02
  • selenium处理元素定位点击无效问题

    selenium处理元素定位点击无效问题

    这篇文章主要介绍了selenium处理元素定位点击无效问题,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-06-06
  • Python实现的随机森林算法与简单总结

    Python实现的随机森林算法与简单总结

    这篇文章主要介绍了Python实现的随机森林算法,结合实例形式详细分析了随机森林算法的概念、原理、实现技巧与相关注意事项,需要的朋友可以参考下
    2018-01-01

最新评论