Java爬虫范例之使用Htmlunit爬取学校教务网课程表信息

 更新时间:2021年11月12日 10:51:58   作者:CTCTCTCTCTCTC  
htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。今天我们用这款分析工具来爬取学校教务网课程表信息

使用WebClient和htmlunit实现简易爬虫

import com.gargoylesoftware.htmlunit.WebClient;

提供了public

P getPage(final String url)方法获得HtmlPage。

import com.gargoylesoftware.htmlunit.html.*;

包含了HtmlPage、HtmlForm、HtmlTextInput、HtmlPasswordInput、HtmlElement、DomElement等元素。

构造webclient对象

WebClient webClient= new WebClient();

无参默认是BrowserVersion.BEST_SUPPORTED,有参构造支持5种浏览器:

BrowserVersion.CHROME
BrowserVersion.EDGE
BrowserVersion.FIREFOX
BrowserVersion.FIREFOX_78
BrowserVersion.INTERNET_EXPLOER

使用webclient.getPage(String url)获得页面:

try {
   page = webClient.getPage(url);
} catch (IOException e) {
   e.printStackTrace();
}

利用webClient.getPage(url);方法,将其封装成一个getHtmlPage静态方法

private static class innerWebClient{
   private static final WebClient webClient = new WebClient();
}
public static HtmlPage getHtmlPage(String url){
   //调用此方法时加载WebClient
   WebClient webClient = innerWebClient.webClient;
   webClient.getOptions().setCssEnabled(false);
   //配置webClient
   webClient.getOptions().setCssEnabled(false);	//设置CSS是否生效
   webClient.getOptions().setJavaScriptEnabled(true);	//设置JS是否生效
   webClient.setAjaxController(new NicelyResynchronizingAjaxController());	//设置AJAX请求
   webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);	//设置是否抛出异常码
   webClient.getOptions().setThrowExceptionOnScriptError(false);	//设置是否抛出脚本错误
   webClient.waitForBackgroundJavaScript(3*1000);	//设置等待JS毫秒数
   webClient.getCookieManager().setCookiesEnabled(true);	//设置是否支持Cookie
   HtmlPage page = null;
   try {
       page = webClient.getPage(url);
   } catch (IOException e) {
       e.printStackTrace();
   }
   return page;
}

在教务官网学期课表页,拿到对应标签的ID

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SZUQdWi8-1636624187041)(C:\Users\CTC\Desktop\个人技术笔记\img\image-20211111172915897.jpg)]


登录教务官网页面:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dT0jj3LR-1636624187043)(C:\Users\CTC\Desktop\个人技术笔记\img\image-20211111171429061.jpg)]

静态解析课程信息方法:

//获取周次集合
public static ArrayList<Integer> getWeekCount(String weekAndSection){
   ArrayList<Integer> weekList = new ArrayList<>();
   int index = weekAndSection.indexOf("(周)");
   if(index == -1){
       return new ArrayList<>();
   }
   String subWeek  = weekAndSection.substring(0, index);     //1-3,5,15,18
   String[] weekArr = new String[10];
   int idx = subWeek.indexOf(",");     //1或3
   int num = 0,n = 0;
   while (subWeek.contains(",")){
       weekArr[num] = subWeek.substring(0,idx);    //第一个逗号前面的内容,给数组
       subWeek = subWeek.substring(idx+1);   //剩余内容
       n = subWeek.indexOf(",");
       idx = n;
       num++;
   }
   weekArr[num] = subWeek;
   for (String s : weekArr) {
       if(s!=null && !s.equals("")){
           if(s.contains("-")){
               int ix = s.indexOf("-");
               int begin = Integer.parseInt(s.substring(0,ix));
               int end = Integer.parseInt(s.substring(ix+1));
               for (int i = begin; i <= end; i++) {
                   weekList.add(i);
               }
           }else{
               weekList.add(Integer.parseInt(s));
           }
       }
   }
   return weekList;
}
//获取节次集合
public static ArrayList<Integer> getSectionCount(String weekAndSection){
   int begin = weekAndSection.indexOf("[") + 1;
   int end = weekAndSection.indexOf("节");
   String section = weekAndSection.substring(begin, end);
   int len = section.length();
   String first = section.substring(0,2);
   String last = section.substring(len-2,len);
   ArrayList<Integer> sectionList = new ArrayList<>();
   int firstInt = Integer.parseInt(first);
   int lastInt = Integer.parseInt(last);
   for (int i = firstInt; i <= lastInt; i++) {
       sectionList.add(i);
   }
   return sectionList;
}

开始解析课程信息

DomElement[][] domElements = new DomElement[7][6];  //7天,6个节次部分
String key = "";
//星期一~星期日:1-2~7-2
for (int i = 0;i < 7;i++){     //星期一到星期日
   for (int j = 0;j <= 5;j++){     //sectionIds[0]到sectionIds[5]
       if(j == 2){     //由于第5节为空,略过
           continue;
       }
       key = sectionIds[j] + "-" + (i+1) + "-2";
       if(page3.getElementById(key) == null){
           throw new NullPointerException("Key过期了!");
       }else{
           domElements[i][j] = page3.getElementById(key);
       }
       String course = domElements[i][j].asText();
       String temp[] = new String[10];
       int num = 0;
       int index;
       for (int g = 0; course.contains("---------------------"); g = g + index) {
           index = course.indexOf("---------------------");
           temp[num] = course.substring(0,index);
           course = course.substring(index+21);
           num++;
       }
       temp[num] = course;
       String[] courseInfo = new String[4];
       for (int k = 0;k < temp.length;k++) {
           if(temp[k] == null || temp[k].equals("") || temp[k].equals(" ")){
               continue;
           }
           if(temp[k].indexOf("\n") == 1){
               temp[k] = temp[k].substring(2);
           }
           ArrayList<Integer> weekList;
           ArrayList<Integer> sectionList;
           if(temp[k].contains("网络课")){
               temp[k] = temp[k].substring(0,temp[k].indexOf("\n"));
               courseInfo[0] = temp[k];
               weekList = null;
               sectionList = null;
           }else{
               int idx,cnum = 0;
               for(int h = 0; temp[k].contains("\n") && cnum <= 3;h = h+idx){
                   idx = temp[k].indexOf("\n");
                   courseInfo[cnum] = temp[k].substring(0,idx);
                   temp[k] = temp[k].substring(idx+1);
                   cnum++;
               }
               weekList = getWeekCount(courseInfo[2]);
               sectionList = getSectionCount(courseInfo[2]);
           }
           System.out.println("课程名===" + courseInfo[0]);
           System.out.println("教师名===" + courseInfo[1]);
           System.out.println("周次===" + weekList);
           System.out.println("节次===" + sectionList);
           System.out.println("地点===" + courseInfo[3]);
           System.out.println("星期" + (i+1));
       }
   }
}

输出效果:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yTPDKTms-1636624187045)(C:\Users\CTC\Desktop\个人技术笔记\img\image-20211111173034258.jpg)]


基于Uni-App实现的课程表小程序:

在这里插入图片描述

以上就是Java爬虫范例之使用Htmlunit爬取学校教务网课程表信息的详细内容,更多关于Java 爬虫的资料请关注脚本之家其它相关文章!

相关文章

  • Java详解entity转换到vo过程

    Java详解entity转换到vo过程

    这篇文章将用实例来和大家介绍一下entity转换到vo的方法过程。文中的示例代码讲解详细,对我们学习Java有一定的帮助,需要的可以参考一下
    2022-06-06
  • java ThreadLocal线程局部变量常用方法使用场景示例详解

    java ThreadLocal线程局部变量常用方法使用场景示例详解

    这篇文章主要介绍了为大家java ThreadLocal线程局部变量常用方法使用场景示例详解,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步,早日升职加薪
    2023-07-07
  • Java之String[] args含义及作用

    Java之String[] args含义及作用

    这篇文章主要介绍了Java之String[] args含义及作用,本篇文章通过简要的案例,讲解了该项技术的了解与使用,以下就是详细内容,需要的朋友可以参考下
    2021-08-08
  • Java中数组越界异常的优雅解决方式

    Java中数组越界异常的优雅解决方式

    ‌数组越界报错通常发生在尝试访问数组中不存在的索引时,这可能导致程序崩溃或异常,这篇文章主要给大家介绍了关于Java中数组越界异常的优雅解决方式,文中通过代码介绍的非常详细,需要的朋友可以参考下
    2024-07-07
  • 使用Maven打包时包含资源文件和源码到jar的方法

    使用Maven打包时包含资源文件和源码到jar的方法

    这篇文章主要介绍了使用Maven打包时包含资源文件和源码到jar的方法,具有很好的参考价值,希望对大家有所帮助。如有错误或未考虑完全的地方,望不吝赐教
    2022-08-08
  • java compiler没有1.8怎么解决

    java compiler没有1.8怎么解决

    这篇文章主要介绍了java compiler没有1.8的解决方法,非常不错,具有一定的参考借鉴价值,需要的朋友可以参考下
    2018-08-08
  • Java中使用synchronized关键字实现简单同步操作示例

    Java中使用synchronized关键字实现简单同步操作示例

    这篇文章主要介绍了Java中使用synchronized关键字实现简单同步操作示例,本文起讲解了synchronized修饰函数、synchronized修饰代码块、synchronized修饰静态方法等内容,需要的朋友可以参考下
    2015-04-04
  • Java反射,泛型在Json中的运用

    Java反射,泛型在Json中的运用

    这篇文章主要介绍了Java反射,泛型在Json中的运用,帮助大家更好的理解和使用Java,感兴趣的朋友可以了解下
    2020-12-12
  • Java实现简单的邮件发送功能

    Java实现简单的邮件发送功能

    这篇文章主要为大家详细介绍了Java实现简单的邮件发送功能,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
    2022-07-07
  • 关于@DS注解切换数据源失败的原因实战记录

    关于@DS注解切换数据源失败的原因实战记录

    项目配置了多个数据源,需要使用@DS注解来切换数据源,但是却遇到了问题,下面这篇文章主要给大家介绍了关于@DS注解切换数据源失败原因的相关资料,需要的朋友可以参考下
    2023-05-05

最新评论