零基础写Java知乎爬虫之准备工作

 更新时间:2014年11月07日 09:48:35   投稿:hebedich  
上个系列我们从易到难介绍了如何使用python编写爬虫,小伙伴们反响挺大,这个系列我们来研究下使用Java编写知乎爬虫,小伙伴们可以对比这看下。

开篇我们还是和原来一样,讲一讲做爬虫的思路以及需要准备的知识吧,高手们请直接忽略。

首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。

需求如下:

1.模拟访问知乎官网(http://www.zhihu.com/

2.下载指定的页面内容,包括:今日最热,本月最热,编辑推荐

3.下载指定分类中的所有问答,比如:投资,编程,挂科

4.下载指定回答者的所有回答

5.最好有个一键点赞的变态功能(这样我就可以一下子给雷伦的所有回答都点赞了我真是太机智了!)

那么需要解决的技术问题简单罗列如下:

1.模拟浏览器访问网页

2.抓取关键数据并保存到本地

3.解决网页浏览中的动态加载问题

4.使用树状结构海量抓取知乎的所有内容

好的,目前就想了这些。

接下来就是准备工作了。

1.确定爬虫语言:由于以前写过一系列爬虫教程(点击这里),百度贴吧,糗事百科,山东大学的绩点查询等都是用python写的,所以这次决定使用Java来写(喂完全没有半毛钱联系好吗)。

2.科普爬虫知识:网络爬虫,即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛通过网页的链接地址来寻找网页。具体的入门介绍请(点击这里)。

3.准备爬虫环境:Jdk和Eclipse的安装和配置就不多说啦。这里啰嗦一句,一个好用的浏览器对于爬虫来说非常重要,因为首先你需要自己浏览网页知道你需要的东西在哪里,你才能告诉你的爬虫们去哪里怎么爬。个人推荐火狐浏览器,或者谷歌浏览器,它们的右键审查元素和查看源代码的功能都非常强大。

下面我们开始正式的爬虫之旅!~具体讲些什么呢,恩,这是个问题,让我好好想想,别急^_^

相关文章

  • 详解Java数组的定义和声明方法

    详解Java数组的定义和声明方法

    在Java开发中,数组是最常用的数据结构之一,因此,深入了解Java数组的定义和声明是非常必要的,本文将详细介绍Java数组的定义和声明方法,以及其在实际开发中的应用场景、优缺点等方面,需要的朋友可以参考下
    2023-11-11
  • java中线程池最实用的创建与关闭指南

    java中线程池最实用的创建与关闭指南

    试中经常会问到,创建一个线程池需要哪些参数啊,线程池的工作原理啊,却很少会问到线程池如何安全关闭的,下面这篇文章主要给大家介绍了关于java中线程池最实用的创建与关闭的相关资料,需要的朋友可以参考下
    2021-09-09
  • Java中深拷贝,浅拷贝与引用拷贝的区别详解

    Java中深拷贝,浅拷贝与引用拷贝的区别详解

    这篇文章主要为大家详细介绍了Java面试中常遇见的问题:深拷贝、浅拷贝与引用拷贝的区别,文中通过示例进行了详细讲解,需要的可以参考一下
    2022-08-08
  • Java中堆和栈的区别详解

    Java中堆和栈的区别详解

    这篇文章主要介绍了Java中堆和栈的区别详解,所有的Java程序都运行在JVM虚拟机内部,我们这里介绍的自然是JVM(虚拟)内存中的堆和栈,需要的朋友可以参考下
    2015-01-01
  • Maven配置单仓库与多仓库的实现(Nexus)

    Maven配置单仓库与多仓库的实现(Nexus)

    本文主要介绍了Maven配置单仓库与多仓库的实现(Nexus),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2023-01-01
  • Springboot+Flowable 快速实现工作流的开发流程

    Springboot+Flowable 快速实现工作流的开发流程

    这篇文章主要介绍了Springboot+Flowable 快速实现工作流的开发流程,本文通过实例代码图文相结合给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下
    2022-02-02
  • 浅析Java如何优雅的避免那无处不在的空指针异常

    浅析Java如何优雅的避免那无处不在的空指针异常

    在Java编程语言中,NullPointerException(简称NPE)是一种常见的运行时异常,本文主要来和大家讲讲如何优雅的避免这些空指针异常,需要的可以参考下
    2024-03-03
  • java循环删除List元素报错的原因分析与解决

    java循环删除List元素报错的原因分析与解决

    大家在工作中应该都会遇到从List集合中删除某一个或多个元素的业务场景,相信大家都会避开在循环里面删除元素,使用其他方式处理,这是为什么呢,下面小编就来和大家详细聊聊
    2023-11-11
  • Springboot整合Netty实现RPC服务器的示例代码

    Springboot整合Netty实现RPC服务器的示例代码

    这篇文章主要介绍了Springboot整合Netty实现RPC服务器的示例代码,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
    2021-01-01
  • Java如何利用LocalDate获取某个月的第一天与最后一天日期

    Java如何利用LocalDate获取某个月的第一天与最后一天日期

    这篇文章主要给大家介绍了关于Java如何利用LocalDate获取某个月的第一天与最后一天日期的相关资料,文中通过实例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
    2022-01-01

最新评论