一般我们说到爬虫程序,我们总是会想到python的爬虫,然而python爬虫拥有一些天生的劣势,python的具体实现基本是固定好的,我们无法了解底层的实现,这也就导致很多网站都可以反爬虫,今天由我给大家介绍一下使用java来写作一个爬虫,java的爬虫功能相当强大,目前我就没发现任何网站可以对java爬虫有抵制作用。
eclipse
jdk 1.7版本及以上
首先我们先来介绍一下我们需要import的jar包吧:
1.org.jsoup,这个是一个java解析html的包,它的作用是解析网页的代码,这个功能特别强大以至于没有任何网站可以做到反解析。
2.java.io,这一部分其实是不需要的,我用到这个只是因为我先把网页保存在本地,再进行网页代码的解析。至于为什么要这么做,会在之后的说明中提到。
3.java.net 这个包是java的网络包,我们必须依赖于这个包来使用java连接网络。
联系客服