Python异步爬取知乎热榜实例分享

更新时间：2022年04月11日 20:03:51 作者：程序员班长

这篇文章主要介绍了Python异步爬取知乎热榜实例分享，文章围绕Python异步爬取是我相关资料展开对知乎热榜爬取的相关内容，需要的小伙伴卡哇伊参考一下

一、错误代码：摘要和详细的url获取不到

import asyncio
from bs4 import BeautifulSoup
import aiohttp
 
headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'
}
async def getPages(url):
    async with aiohttp.ClientSession(headers=headers) as session:
        async with session.get(url) as resp:
            print(resp.status)  # 打印状态码
            html=await resp.text()
    soup=BeautifulSoup(html,'lxml')
    items=soup.select('.HotList-item')
    for item in items:
        title=item.select('.HotList-itemTitle')[0].text
        try:
            abstract=item.select('.HotList-itemExcerpt')[0].text
        except:
            abstract='No Abstract'
        hot=item.select('.HotList-itemMetrics')[0].text
        try:
            img=item.select('.HotList-itemImgContainer img')['src']
        except:
            img='No Img'
        print("{}\n{}\n{}".format(title,abstract,img))
 
if __name__ == '__main__':
    url='https://www.zhihu.com/billboard'
    loop=asyncio.get_event_loop()
    loop.run_until_complete(getPages(url))
    loop.close()

二、查看JS代码

发现详细链接、图片链接、问题摘要等都在JS里面（CSDN的开发者助手插件确实好用）

正则表达式获取上述信息:

接下来就是详细的代码啦

import asyncio
import json
import re
import aiohttp
 
headers={
    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
    'referer': 'https://www.baidu.com/s?tn=02003390_43_hao_pg&isource=infinity&iname=baidu&itype=web&ie=utf-8&wd=%E7%9F%A5%E4%B9%8E%E7%83%AD%E6%A6%9C'
}
async def getPages(url):
    async with aiohttp.ClientSession(headers=headers) as session:
        async with session.get(url) as resp:
            print(resp.status)  # 打印状态码
            html=await resp.text()
 
    regex=re.compile('"hotList":(.*?),"guestFeeds":')
    text=regex.search(html).group(1)
    # print(json.loads(text))   # json换成字典格式
    for item in json.loads(text):
        title=item['target']['titleArea']['text']
        question=item['target']['excerptArea']['text']
        hot=item['target']['metricsArea']['text']
        link=item['target']['link']['url']
        img=item['target']['imageArea']['url']
        if not img:
            img='No Img'
        if not question:
            question='No Abstract'
        print("Title：{}\nPopular：{}\nQuestion：{}\nLink：{}\nImg：{}".format(title,hot,question,link,img))
 
if __name__ == '__main__':
    url='https://www.zhihu.com/billboard'
    loop=asyncio.get_event_loop()
    loop.run_until_complete(getPages(url))
    loop.close()

到此这篇关于Python异步爬取知乎热榜实例分享的文章就介绍到这了,更多相关Python异步爬取内容请搜索脚本之家以前的文章或继续浏览下面的相关文章希望大家以后多多支持脚本之家！

您可能感兴趣的文章:

Conda创建新环境的详细图文教程
Anaconda功能庞大,其可以理解为一个工具,也是一个可执行命令,下面这篇文章主要给大家介绍了关于Conda创建新环境的详细图文教程,文中通过图文介绍的非常详细,需要的朋友可以参考下
2023-01-01
python+opencv实现阈值分割
这篇文章主要为大家详细介绍了python+opencv实现阈值分割的相关代码，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2018-12-12
python3 中文乱码与默认编码格式设定方法
今天小编就为大家分享一篇python3 中文乱码与默认编码格式设定方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧
2018-10-10
Python中实现定时任务常见的几种方式
在Python中,实现定时任务是一个常见的需求,无论是在自动化脚本、数据处理、系统监控还是其他许多应用场景中,Python提供了多种方法来实现定时任务,包括使用标准库、第三方库以及系统级别的工具,本文将详细介绍几种常见的Python定时任务实现方式
2024-08-08
Pytho常见的数据可视化库，小白必备
Python作为数据分析的重要语言为数据分析的每个环节都提供了很多库.常见的数据可视化库包括matplotib,seaborm,ggplot,bokeh,pygal,pyecharts等,下面小编一一介绍下,需要的朋友可以参考下
2021-05-05
python实现图像自动Gamma校正方式
这篇文章主要介绍了python实现图像自动Gamma校正方式,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-10-10
python中使用np.delete()的实例方法
在本篇文章里小编给大家整理的是一篇关于python中使用np.delete()的实例方法，对此有兴趣的朋友们可以学习参考下。
2021-02-02
用python写一个windows下的定时关机脚本(推荐)
由于本人经常使用笔记本共享WiFi，但是又不想笔记本开机一夜,每次都是使用dos命令关机，感觉好麻烦，然后小编想到用python写一个定时关机的脚本，具体实例代码请参考本文
2017-03-03
python实现PyEMD经验模态分解残差量分析
这篇文章主要为大家介绍了PyEMD经验模态分解及变体残余量分析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2022-05-05
Python实现贪心算法的示例
这篇文章主要介绍了Python实现贪心算法的示例，帮助大家更好的理解和学习使用python，感兴趣的朋友可以了解下
2021-04-04