Python实现从订阅源下载图片的方法

更新时间：2015年03月11日 09:38:54 作者：saintatgod

这篇文章主要介绍了Python实现从订阅源下载图片的方法,涉及Python采集的技巧,具有一定参考借鉴价值,需要的朋友可以参考下

本文实例讲述了Python实现从订阅源下载图片的方法。分享给大家供大家参考。具体如下：

这段代码是基于python 3.4实现的，和python2.X 比起来有了好多差别啊。
这是一个练习，数据源来自网易订阅。代码如下：

__author__ = 'Saint'

import os

import urllib.request

import json

from html.parser import HTMLParser

# 从获取的网页内容筛选图片的内容

class MyHtmlParser(HTMLParser):

    links = []

    def handle_starttag(self, tag, attrs):

        if tag == "img":

            if len(attrs) == 0:

                pass

            else:

                for name, value in attrs:

                    if name == "src":

                        self.links.append(value)

class Down(object):

    # 总的目录

    img_path = "E:/saint"

    # 下载目录

    dir = ''

    # 采集源地址

    collect_links = ["http://dy.163.com/v2/media/articlelist/T1374483113516-1", "http://dy.163.com/v2/media/articlelist/T1420776257254-1", "http://dy.163.com/v2/media/articlelist/T1376641060407-1"]

    img_links = "http://dy.163.com/v2/article"

    def handleCollect(self):

        for collect_link in self.collect_links:

            notice = "开始从[" + collect_link + "]采集图片"

            print(notice)

            # 建立下载的目录

            dir_name = collect_link.split("/")[-1]

            self.isDirExists(dir_name)

            dict = self.getListFromSubscribe(collect_link)

            if dict == False:

                print("数据采集失败，是否继续(y/n)")

                op = input();

                if op == "y":

                    os.system("cls")

                    pass

                elif op == "n":

                    print("停止采集")

                    break

                else:

                    os.system("cls")

                    print("非法输入")

                    break

            else:

                for page in dict:

                    page_uri = self.img_links + "/" + page["tid"] + "/" + page["docid"]

                    self.getImgFromUri(page_uri)

                    print("是否继续(y/n)")

                    new_op = input();

                    if new_op == "n":

                        os.system("cls")

                        print("采集完毕")

                        break

        print("OK")

    # 从订阅源获取目录

    def getListFromSubscribe(self, uri):

        res = urllib.request.urlopen(uri)

        if res.code < 200 or res.code > 300:

            os.system("clear")

            return False

        else:

            result = res.read().decode("gbk") # 3.4版本的read()返回的是byte类型，需要decode()处理，选项是网页编码

            dict = json.loads(result)

            if dict['code'] != 1:

                print(dict['msg'])

                return False

            else:

                return dict['data']

    # 获取本期订阅的网页，并从网页中提取出来需要的图片

    def getImgFromUri(self, uri):

        html_code = urllib.request.urlopen(uri).read().decode("gbk")

        hp = MyHtmlParser()

        hp.feed(html_code)

        hp.close()

        for link in hp.links: # hp.links 是图片的下载地址的列表

            self.writeToDisk(link)

    # 检查文件目录是否存在，如果不存在，则创建目录

    def isDirExists(self, dir_name):

        self.dir = self.img_path + dir_name

        isExists = os.path.exists(self.dir)

        if not isExists:

            os.makedirs(self.dir)

            return True

        else:

            return True

    # 下载文件，并且写入磁盘

    def writeToDisk(self, url):

        os.chdir(self.dir)

        file = urllib.request.urlopen(url).read()

        file_name = url.split("/")[-1]

        open(file_name, "wb").write(file)

        return True

if __name__ == "__main__":

    down = Down()

    down.handleCollect()

希望本文所述对大家的Python程序设计有所帮助。

您可能感兴趣的文章:

Python下singleton模式的实现方法
这篇文章主要介绍了Python下singleton模式的实现方法,有一定的借鉴价值,需要的朋友可以参考下
2014-07-07
pandas分组聚合(agg,transform,apply)
在SQL中我们经常使用 GROUP BY 将某个字段,按不同的取值进行分组, 在pandas中也有groupby函数,本文主要介绍了pandas分组聚合(agg,transform,apply),具有一定的参考价值,感兴趣的可以了解一下
2024-04-04
CoordConv实现卷积加上坐标实例详解
这篇文章主要介绍了CoordConv实现卷积加上坐标实例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
Python如何建立多个值和单个键的映射
在Python中,常见的字典只能映射单个键到单个值,若需映射单个键到多值,可以通过将值存储于列表或集合中实现,使用列表可以保持元素插入顺序,而使用集合则可以去重,collections模块的defaultdict类简化了此类多值字典的创建过程
2024-09-09
PyQt5类型判定+对象删除操作
这篇文章主要介绍了PyQt5类型判定+对象删除操作,本文通过实例代码给大家介绍的非常详细,感兴趣的朋友跟随小编一起看看吧
2024-06-06
手把手教你从PyCharm安装到激活（最新激活码），亲测有效可激活至2089年
最近很多网友找小编反映PyCharm激活码失效了，原来的已经不能用了。浪费了半天时间终于找到一个可以使用的了，支持最新JetBrains全系列产品(Pycharm 2020.2.x，Intellij idea 2020.2.x,WebStorm 2020.2.x)。,需要的朋友可以参考下
2020-10-10
python 破解加密zip文件的密码
这篇文章主要介绍了python 如何破解加密zip文件的密码，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-04-04
Python人工智能构建简单聊天机器人示例详解
这篇文章主要为大家介绍了Python人工智能构建简单聊天机器人示例详解，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03
详解OpenCV执行连通分量标记的方法和分析
在本教程中，您将学习如何使用 OpenCV 执行连通分量标记和分析。具体来说，我们将重点介绍 OpenCV 最常用的连通分量标记函数：cv2.connectedComponentsWithStats，感兴趣的可以了解一下
2022-08-08
Python中关于字符串对象的一些基础知识
这篇文章主要介绍了详解Python中的字符串对象,关于字符串的操作和特性是Python学习当中的基础知识,需要的朋友可以参考下
2015-04-04

Python实现从订阅源下载图片的方法

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具