Python抓取Discuz!用户名脚本代码

 更新时间:2013年12月30日 17:18:37   作者:  
这篇文章主要介绍了Python抓取Discuz!用户名脚本代码,有需要的朋友可以参考一下

最近学习Python,于是就用Python写了一个抓取Discuz!用户名的脚本,代码很少但是很搓。思路很简单,就是正则匹配title然后提取用户名写入文本文档。程序以百度站长社区为例(一共有40多万用户),挂在VPS上就没管了,虽然用了延时但是后来发现一共只抓取了50000多个用户名就被封了。。。
代码如下:

复制代码 代码如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站长平台用户名脚本

import urllib
import urllib2 
import re
import time

def BiduSpider():
     pattern = re.compile(r'<title>(.*)的个人资料  百度站长社区 </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正则匹配用户名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防频繁访问被禁止
         time.sleep(0.5)
         if theFindall :
              #中文编码防止乱码输出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #写入txt文本文档
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()

if __name__ == '__main__':
     BiduSpider()

最终成果如下:

相关文章

  • pytorch如何定义新的自动求导函数

    pytorch如何定义新的自动求导函数

    这篇文章主要介绍了pytorch如何定义新的自动求导函数问题,具有很好的参考价值,希望对大家有所帮助。以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。
    2022-12-12
  • 关于Python代码混淆和加密技术

    关于Python代码混淆和加密技术

    这篇文章主要介绍了关于Python代码混淆和加密技术,Python进行商业开发时, 需要有一定的安全意识, 为了不被轻易的逆向还原,混淆和加密就有所必要了,需要的朋友可以参考下
    2023-07-07
  • python中__slots__用法实例

    python中__slots__用法实例

    这篇文章主要介绍了python中__slots__用法,实例分析了__slots__的功能与相关使用技巧,需要的朋友可以参考下
    2015-06-06
  • Python实现轻松读取大文件的技巧揭秘

    Python实现轻松读取大文件的技巧揭秘

    Python提供了多种方法来读取文件内容,其中包括read()、readline()和readlines()三个常用的函数,本文将深入探讨这三个函数的使用方法,需要的可以参考一下
    2023-08-08
  • python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解

    python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解

    这篇文章主要介绍了python使用正则表达式去除中文文本多余空格,保留英文之间空格方法详解,需要的朋友可以参考下
    2020-02-02
  • selenium处理元素定位点击无效问题

    selenium处理元素定位点击无效问题

    这篇文章主要介绍了selenium处理元素定位点击无效问题,小编觉得挺不错的,现在分享给大家,也给大家做个参考。一起跟随小编过来看看吧
    2019-06-06
  • Python 通过正则表达式快速获取电影的下载地址

    Python 通过正则表达式快速获取电影的下载地址

    这篇文章主要介绍了Python 通过正则表达式快速获取电影的下载地址,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-08-08
  • Python与shell的3种交互方式介绍

    Python与shell的3种交互方式介绍

    这篇文章主要介绍了Python与shell的3种交互方式介绍,本文讲解了os.system、os.popen、subprocess模块等3种方法,需要的朋友可以参考下
    2015-04-04
  • Python中zipfile压缩文件模块的基本使用教程

    Python中zipfile压缩文件模块的基本使用教程

    这篇文章主要给大家介绍了关于Python中zipfile压缩文件模块的基本使用教程,文中通过示例代码介绍的非常详细,对大家学习或者使用Python具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
    2020-06-06
  • python的help函数如何使用

    python的help函数如何使用

    在本篇文章里小编给大家整理的是关于python的help函数的相关用法和知识点总结,需要的朋友们可以学习下。
    2020-06-06

最新评论