python爬取链家二手房的数据

 更新时间:2021年05月22日 08:41:04   作者:秋无之地  
相信大家买房前都会在网上找找资料,看看行情,问问朋友,今天就用python带大家扒一扒《链家二手房》的数据

一、查找数据所在位置:

打开链家官网,进入二手房页面,选取某个城市,可以看到该城市房源总数以及房源列表数据。

二、确定数据存放位置:

某些网站的数据是存放在html中,而有些却api接口,甚至有些加密在js中,还好链家的房源数据是存放到html中:

三、获取html数据:

通过requests请求页面,获取每页的html数据

# 爬取的url,默认爬取的南京的链家房产信息
url = 'https://nj.lianjia.com/ershoufang/pg{}/'.format(page)
# 请求url
resp = requests.get(url, headers=headers, timeout=10)

四、解析html,提取有用数据:

通过BeautifulSoup解析html,并提取相应有用的数据

soup = BeautifulSoup(resp.content, 'lxml')
# 筛选全部的li标签
sellListContent = soup.select('.sellListContent li.LOGCLICKDATA')
# 循环遍历
for sell in sellListContent:
    # 标题
    title = sell.select('div.title a')[0].string
    # 先抓取全部的div信息,再针对每一条进行提取
    houseInfo = list(sell.select('div.houseInfo')[0].stripped_strings)
    # 楼盘名字
    loupan = houseInfo[0]
    # 对楼盘的信息进行分割
    info = houseInfo[0].split('|')
    # 房子类型
    house_type = info[1].strip()
    # 面积大小
    area = info[2].strip()
    # 房间朝向
    toward = info[3].strip()
    # 装修类型
    renovation = info[4].strip()
    # 房屋地址
    positionInfo = ''.join(list(sell.select('div.positionInfo')[0].stripped_strings))
    # 房屋总价
    totalPrice = ''.join(list(sell.select('div.totalPrice')[0].stripped_strings))
    # 房屋单价
    unitPrice = list(sell.select('div.unitPrice')[0].stripped_strings)[0]

以上就是我的分享,如果有什么不足之处请指出,多交流,谢谢!

以上就是python爬取链家二手房的数据的详细内容,更多关于python爬取链家二手房的资料请关注脚本之家其它相关文章!

相关文章

  • python入门之语句(if语句、while语句、for语句)

    python入门之语句(if语句、while语句、for语句)

    这篇文章主要介绍了python入门之语句,主要包括if语句、while语句、for语句的使用,需要的朋友可以参考下
    2015-01-01
  • 详解python字符串相关str

    详解python字符串相关str

    这篇文章主要为大家介绍了python字符串相关str,具有一定的参考价值,感兴趣的小伙伴们可以参考一下,希望能够给你带来帮助
    2022-01-01
  • 玩转python爬虫之正则表达式

    玩转python爬虫之正则表达式

    这篇文章主要介绍了python爬虫的正则表达式,正则表达式在Python爬虫是必不可少的神兵利器,本文整理了Python中的正则表达式的相关内容,感兴趣的小伙伴们可以参考一下
    2016-02-02
  • 一文掌握Python描述符与装饰器的神奇妙用

    一文掌握Python描述符与装饰器的神奇妙用

    Python 是一种多范式编程语言,具有灵活的特性,其中可调用实例、嵌套函数、描述符和装饰器是其功能强大的特性之一,这些概念对于编写高效、优雅的代码至关重要
    2024-01-01
  • 浅谈Python3多线程之间的执行顺序问题

    浅谈Python3多线程之间的执行顺序问题

    这篇文章主要介绍了浅谈Python3多线程之间的执行顺序问题,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
    2020-05-05
  • Python使用for实现无限循环的多种方式汇总

    Python使用for实现无限循环的多种方式汇总

    这篇文章主要介绍了Python使用for实现无限循环的多种方式汇总,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2023-03-03
  • Python图像处理之几何变换

    Python图像处理之几何变换

    这篇文章将详细讲解图像几何变换,包括图像平移、图像缩放和图像旋转。文中的示例代码讲解详细,感兴趣的小伙伴可以跟随小编学习一下
    2022-01-01
  • Selenium 安装和简单使用的实现

    Selenium 安装和简单使用的实现

    这篇文章主要介绍了Selenium 安装和简单使用的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2020-12-12
  • 分享介绍Python的9个实用技巧

    分享介绍Python的9个实用技巧

    本文将介绍15个简洁的Python技巧,向着简洁更高效,学习易懂出发,具说只有经验丰富程序员才知道的9种高级Python小技巧,喜欢的朋友快来看看吧
    2021-11-11
  • python中如何打包用户自定义模块

    python中如何打包用户自定义模块

    在本篇文章里小编给大家整理的是一篇关于python中如何打包用户自定义模块的相关文章,有兴趣的朋友们可以参考下。
    2020-09-09

最新评论