java抓取网页数据示例

更新时间：2014年03月02日 16:10:50 作者：

要通java获取整个网页的html内容，或者某个网络文件的内容,可以使用java提供的HttpURLConnection类来实现对网页内容的抓取

下面举例说明：

抓取百度首页的内容：

URL url = new URL("http://www.baidu.com");
HttpURLConnection urlCon=(HttpURLConnection)url.openConnection();
urlCon.setConnectTimeout(50000);
urlCon.setReadTimeout(300000);
DataInputStream fIn;
byte[] content = new byte[MAX_FILE_SIZE];
fIn = new DataInputStream(urlCon.getInputStream());
int size = 0,f_size = 0;
while((size = fIn.read(content,f_size,2048))> 0){
    f_size += size;
}

在代码中我们将百度首页的内容存储到了一个byte数组中，当然我们有了 IO流以后还可以存储到文件中去了。

您可能感兴趣的文章:

java
网页

Java实现简单的模板渲染
这篇文章主要为大家详细介绍了Java实现简单的模板渲染的相关资料，具有一定的参考价值，感兴趣的小伙伴们可以参考一下
2017-12-12
idea下如何设置项目启动的JVM运行内存大小
这篇文章主要介绍了idea下如何设置项目启动的JVM运行内存大小问题,具有很好的参考价值,希望对大家有所帮助,如有错误或未考虑完全的地方,望不吝赐教
2023-12-12
如何通过Java实现时间轴过程解析
这篇文章主要介绍了如何通过Java实现时间轴过程解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-02-02
spring cglib 与 jdk 动态代理
本篇文章主要介绍了spring cglib与jdk动态代理的相关知识，具有很好的参考价值。下面跟着小编一起来看下吧
2017-05-05
JAVA mongodb 聚合几种查询方式详解
这篇文章主要介绍了JAVA mongodb 聚合几种查询方式详解，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2018-03-03
java读取文件内容的三种方法代码片断分享(java文件操作)
本文介绍java读取文件内容的三种方法，代码可以直接放到程序中使用，大家参考使用吧
2014-01-01
二进制中1的个数
这篇文章介绍了二进制中1的个数，有需要的朋友可以参考一下
2013-09-09
使用SpringBoot项目导入openfeign版本的问题
这篇文章主要介绍了使用SpringBoot项目导入openfeign版本的问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2022-03-03
javaweb中Http协议详解
HTTP是hypertext transfer protocol（超文本传输协议）的简写，它是TCP/IP协议的一个应用层协议，用于定义WEB浏览器与WEB服务器之间交换数据的过程。这篇文章主要为大家详细介绍了javaweb中的Http协议，感兴趣的小伙伴们可以参考一下
2016-05-05
springboot的Customizer源码解析
这篇文章主要为大家介绍了springboot的Customizer源码解析,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
2023-08-08