学 Java 网络爬虫，需要哪些基础知识？

发布时间：2019-10-14 03:03:51 所属栏目：建站来源：平头哥

导读：副标题#e# 说起网络爬虫，大家想起的估计都是 Python ，诚然爬虫已经是 Python 的代名词之一，相比 Java 来说就要逊色不少。有不少人都不知道 Java 可以做网络爬虫，其实 Java 也能做网络爬虫而且还能做的非常好，在开源社区中有不少优秀的 Java 网络爬虫框

上面是网页版的 HTTP 请求的链接分析，如果需要采集 APP 里面的数据就需要借助模拟器了，因为 APP 里没有调试工具，所以只能借助模拟器，使用较多的模拟器工具有如下两种，有兴趣的可以执行研究。

我们采集的页面都是 HTML 页面，我们需要在 HTML 页面中获取我们需要的信息，这里面就涉及到了 HTML 页面解析，也就是 DOM 节点解析，这一点是重中之重，如果你不会这一点就像魔术师没有道具一样，只能干瞪眼啦。例如下面这个 HTML 页面

我们需要获取标题 “java user-agent 判断是否电脑访问” ，我们先通过 F12 检查元素

学 Java 网络爬虫，需要哪些基础知识？

标题所在的 span 标签我已经在图中框出来啦，我们该如何解析这个节点信息呢?方法有千千万万，经常使用的选择器应该是 CSS 选择器和 XPath ，如果你还不知道这两种选择器，可以点击下方链接学习了解一下：

CSS 选择器参考手册：https://www.w3school.com.cn/cssref/css_selectors.asp

XPath 教程：https://www.w3school.com.cn/xpath/xpath_syntax.asp

使用 CSS 选择器解析的写法为：#wgt-ask > h1 > span

使用 XPath 解析的写法为：//span[@class="wgt-ask"]

这样就获取到了 span 的节点，值需要取出 text 就好了，对于 CSS 选择器和 XPath 除了自己编写之外，我们还可以借助浏览器来帮我们完成，例如 chrome 浏览器

学 Java 网络爬虫，需要哪些基础知识？

只需要选中对应的节点，右键找到 Copy ，它提供了几种获取该节点的解析方式，具体的如上图所示，Copy selector 对应的就是 Css 选择器，Copy XPath 对应的是 XPath，这个功能还是非常有用的。

因为现在爬虫非常泛滥，很多网站都会有反爬虫机制，来过滤掉爬虫程序，以便保证网站的可以用，这也是非常有必要的手段，毕竟如果网站不能使用了，就没有利益可谈啦。反爬虫的手段非常多，我们来看看几种常见的反爬虫手段。

基于 Headers 的反爬虫机制

（编辑：萍乡站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!