java抓取网页数据获取网页中所有的链接实例分享

更新时间：2013年12月31日 09:26:25 作者：

java抓取网页数据获取网页中所有的链接实例分享，使用方法，只要实例化HtmlParser时传入网页地址就可以了

效果图

import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.ArrayList;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

public class HtmlParser {
/**
* 要分析的网页
*/
String htmlUrl;

/**
* 分析结果
*/
ArrayList<String> hrefList = new ArrayList();

/**
* 网页编码方式
*/
String charSet;

public HtmlParser(String htmlUrl) {
// TODO 自动生成的构造函数存根
this.htmlUrl = htmlUrl;
}

/**
* 获取分析结果
*
* @throws IOException
*/
public ArrayList<String> getHrefList() throws IOException {

parser();
return hrefList;
}

/**
* 解析网页链接
*
* @return
* @throws IOException
*/
private void parser() throws IOException {
  URL url = new URL(htmlUrl);
  HttpURLConnection connection = (HttpURLConnection) url.openConnection();
  connection.setDoOutput(true);

String contenttype = connection.getContentType();
charSet = getCharset(contenttype);

  InputStreamReader isr = new InputStreamReader(
    connection.getInputStream(), charSet);
  BufferedReader br = new BufferedReader(isr);

  String str = null, rs = null;
  while ((str = br.readLine()) != null) {
   rs = getHref(str);

   if (rs != null)
    hrefList.add(rs);
  }

}

/**
* 获取网页编码方式
*
* @param str
*/
private String getCharset(String str) {
  Pattern pattern = Pattern.compile("charset=.*");
  Matcher matcher = pattern.matcher(str);
  if (matcher.find())
   return matcher.group(0).split("charset=")[1];
  return null;
}

/**
* 从一行字符串中读取链接
*
* @return
*/
private String getHref(String str) {
  Pattern pattern = Pattern.compile("<a href=.*</a>");
  Matcher matcher = pattern.matcher(str);
  if (matcher.find())
   return matcher.group(0);
  return null;
}

public static void main(String[] arg) throws IOException {
  HtmlParser a = new HtmlParser("http://news.163.com/");
  ArrayList<String> hrefList = a.getHrefList();
  for (int i = 0; i < hrefList.size(); i++)
   System.out.println(hrefList.get(i));

}

您可能感兴趣的文章:

java抓取网页数据

使用多种方式实现遍历HashMap的方法
下面小编就为大家带来一篇使用多种方式实现遍历HashMap的方法。小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧
2016-05-05
工厂方法在Spring框架中的运用
这篇文章介绍了工厂方法在Spring框架中的运用，文中通过示例代码介绍的非常详细。对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-10-10
SpringBoot之如何正确、安全的关闭服务
这篇文章主要介绍了SpringBoot之如何正确、安全的关闭服务问题，具有很好的参考价值，希望对大家有所帮助。如有错误或未考虑完全的地方，望不吝赐教
2023-03-03
IDEA配置JRebel实现热部署的方法
这篇文章主要介绍了IDEA配置JRebel实现热部署的方法,本文给大家介绍的非常想详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-01-01
教你用Java实现一个简单的代码生成器
今天给大家带来的是关于Java的相关知识,文章围绕着如何用Java实现一个简单的代码生成器展开,文中有非常详细的介绍及代码示例,需要的朋友可以参考下
2021-06-06
通过代码示例了解submit与execute的区别
这篇文章主要介绍了通过代码示例了解submit与execute的区别,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
2020-09-09
Bean Searcher配合SpringBoot的使用详解
这篇文章主要介绍了Bean Searcher配合SpringBoot的使用,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2022-06-06
MyBatis使用注解开发和无主配置文件开发的情况
这篇文章主要介绍了MyBatis使用注解开发和无主配置文件开发的情况,本文给大家介绍的非常详细，对大家的学习或工作具有一定的参考借鉴价值，需要的朋友可以参考下
2021-03-03
java中实体类转Json的2种方法
本篇文章中主要介绍了java中实体类转Json的2种方法，小编觉得挺不错的，现在分享给大家，也给大家做个参考。一起跟随小编过来看看吧。
2017-01-01
讨论分析JDK17是否会代替JDK8
这篇文章主要为大家介绍了JDK17是否会代替JDK8的问题分析，有需要的朋友可以借鉴参考下，希望能够有所帮助，祝大家多多进步，早日升职加薪
2023-03-03