python爬取cnvd漏洞库信息的实例

更新时间：2019年02月14日 15:34:41 作者：黑面狐

今天小编就为大家分享一篇python爬取cnvd漏洞库信息的实例，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

今天一同事需要整理http://ics.cnvd.org.cn/工控漏洞库里面的信息，一看960多个要整理到什么时候才结束。

所以我决定写个爬虫帮他抓取数据。

看了一下各类信息还是很规则的，感觉应该很好写。

but这个网站设置了各种反爬虫手段。

经过各种百度，还是解决问题了。

设计思路：

1.先抓取每一个漏洞信息对应的网页url

2.获取每个页面的漏洞信息

# -*- coding: utf-8 -*-
import requests
import re
import xlwt
import time
from bs4 import BeautifulSoup
headers = {
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
 'Accept-Encoding': 'gzip, deflate, sdch',
 'Accept-Language': 'zh-CN,zh;q=0.8',
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'
}
cookies={'__jsluid':'8d3f4c75f437ca82cdfad85c0f4f7c25'}
myfile=xlwt.Workbook()
wtable=myfile.add_sheet(u"信息",cell_overwrite_ok=True)
j = 0
a = 900
for i in range(4):
 url ="http://ics.cnvd.org.cn/?max=20&offset="+str(a)
 r = requests.get(urttp://ics.cnvd.org.cnl,headers=headers,cookies=cookies)
 print r.status_code
 while r.status_code != 200:
  r = requests.get(url,headers=headers,cookies=cookies)
  print r.status_code
 html = r.text
 soup = BeautifulSoup(html)
 #print html
 
 for tag in soup.find('tbody',id='tr').find_all('a',href=re.compile('http://www.cnvd.org.cn/flaw/show')):
  print tag.attrs['href']
  wtable.write(j,0,tag.attrs['href'])
  j += 1
 a += 20
 print u"已完成%s"%(a)
filename=str(time.strftime('%Y%m%d%H%M%S',time.localtime()))+"url.xls"
myfile.save(filename)
print u"完成%s的url备份"%time.strftime('%Y%m%d%H%M%S',time.localtime())

# -*- coding: utf-8 -*-
from selenium import webdriver
import xlrd
import xlwt
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import NoAlertPresentException
import unittest, time, re
 
class Gk(unittest.TestCase):
 def setUp(self):
  self.driver = webdriver.Firefox()
  self.driver.implicitly_wait(5)
  self.verificationErrors = []
  self.accept_next_alert = True
 
 def test_gk(self):
  myfile=xlwt.Workbook()
  wtable=myfile.add_sheet(u"info",cell_overwrite_ok=True)
  data = xlrd.open_workbook('url.xlsx')
  table = data.sheets()[0]
  nrows = table.nrows
  driver = self.driver
  
  j = 0
  for i in range(nrows):
   try:
    s = []
    driver.get(table.cell(i,0).value)
    title = driver.find_element_by_xpath("//h1").text
    print title
    s.append(title)
    trs = driver.find_element_by_xpath("//tbody").find_elements_by_tag_name('tr')
    for td in trs:
     tds = td.find_elements_by_tag_name("td")
     for tt in tds:
      print tt.text
      s.append(tt.text)
    k = 0
    for info in s:
     wtable.write(j,k,info)
     k += 1
    j += 1
   except:
    filename=str(time.strftime('%Y%m%d%H%M%S',time.localtime()))+"url.xls"
    myfile.save(filename)
    print u"异常自动保存%s的漏洞信息备份"%time.strftime('%Y%m%d%H%M%S',time.localtime())
   
  filename=str(time.strftime('%Y%m%d%H%M%S',time.localtime()))+"url.xls"
  myfile.save(filename)
  print u"完成%s的漏洞信息备份"%time.strftime('%Y%m%d%H%M%S',time.localtime())
  
 def is_element_present(self, how, what):
  try: self.driver.find_element(by=how, value=what)
  except NoSuchElementException, e: return False
  return True
 
 def is_alert_present(self):
  try: self.driver.switch_to_alert()
  except NoAlertPresentException, e: return False
  return True
 
 def close_alert_and_get_its_text(self):
  try:
   alert = self.driver.switch_to_alert()
   alert_text = alert.text
   if self.accept_next_alert:
    alert.accept()
   else:
    alert.dismiss()
   return alert_text
  finally: self.accept_next_alert = True
 
 def tearDown(self):
  self.driver.quit()
  self.assertEqual([], self.verificationErrors)
 
if __name__ == "__main__":
 unittest.main()

好了。看看结果怎样！

python爬取cnvd漏洞库信息

OK！剩下手动整理一下，收工！

以上这篇python爬取cnvd漏洞库信息的实例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持脚本之家。

您可能感兴趣的文章:

多版本python的pip 升级后, pip2 pip3 与python版本失配解决方法
在本篇文章里小编给大家整理的是关于多版本python的pip 升级后, pip2 pip3 与python版本失配的解决方法内容，需要的朋友们学习下。
2019-09-09
Python 写入训练日志文件并控制台输出解析
这篇文章主要介绍了Python 写入训练日志文件并控制台输出解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-08-08
Python嵌套列表转一维的方法(压平嵌套列表)
今天小编就为大家分享一篇Python嵌套列表转一维的方法(压平嵌套列表)，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-07-07
Python中的 is 和 == 以及字符串驻留机制详解
这篇文章主要介绍了Python中的 is 和 == 以及字符串驻留机制详解,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2019-06-06
Python对列表的操作知识点详解
在本篇文章里小编给大家整理了关于Python对列表的操作知识点总结以及实例代码运用，需要的朋友们跟着学习下。
2019-08-08
如何利用python发送邮件
这篇文章主要介绍了如何利用python发送邮件，帮助大家更好的理解和学习python，感兴趣的朋友可以了解下
2020-09-09
Python图片裁剪实例代码(如头像裁剪)
本篇文章主要介绍了Python图片裁剪实例代码(如: 头像裁剪)，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-06-06
解决tensorflow模型压缩的问题_踩坑无数,总算搞定
这篇文章主要介绍了解决tensorflow模型压缩的问题_踩坑无数，总算搞定！希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03
python使用pyhook监控键盘并实现切换歌曲的功能
这篇文章主要介绍了python使用pyhook监控键盘并实现切换歌曲的功能,非常酷炫的一个小程序,可以让你在游戏时避免切出游戏直接换歌,需要的朋友可以参考下
2014-07-07
pandas调整列的顺序以及添加列的实现
这篇文章主要介绍了pandas调整列的顺序以及添加列的实现操作，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2021-03-03

python爬取cnvd漏洞库信息的实例

相关文章

最新评论

大家感兴趣的内容

最近更新的内容

常用在线小工具