学 Java 网络爬虫,需要哪些基础知识?
上面是网页版的 HTTP 请求的链接分析,如果需要采集 APP 里面的数据就需要借助模拟器了,因为 APP 里没有调试工具,所以只能借助模拟器,使用较多的模拟器工具有如下两种,有兴趣的可以执行研究。
3、学会 HTML 页面解析我们采集的页面都是 HTML 页面,我们需要在 HTML 页面中获取我们需要的信息,这里面就涉及到了 HTML 页面解析,也就是 DOM 节点解析,这一点是重中之重,如果你不会这一点就像魔术师没有道具一样,只能干瞪眼啦。例如下面这个 HTML 页面 我们需要获取标题 “java user-agent 判断是否电脑访问” ,我们先通过 F12 检查元素 标题所在的 span 标签我已经在图中框出来啦,我们该如何解析这个节点信息呢?方法有千千万万,经常使用的选择器应该是 CSS 选择器 和 XPath ,如果你还不知道这两种选择器,可以点击下方链接学习了解一下: CSS 选择器参考手册:https://www.w3school.com.cn/cssref/css_selectors.asp XPath 教程:https://www.w3school.com.cn/xpath/xpath_syntax.asp 使用 CSS 选择器解析的写法为:#wgt-ask > h1 > span 使用 XPath 解析的写法为://span[@class="wgt-ask"] 这样就获取到了 span 的节点,值需要取出 text 就好了,对于 CSS 选择器 和 XPath 除了自己编写之外,我们还可以借助浏览器来帮我们完成,例如 chrome 浏览器 只需要选中对应的节点,右键找到 Copy ,它提供了几种获取该节点的解析方式,具体的如上图所示,Copy selector 对应的就是 Css 选择器,Copy XPath 对应的是 XPath,这个功能还是非常有用的。 4、了解反爬虫策略因为现在爬虫非常泛滥,很多网站都会有反爬虫机制,来过滤掉爬虫程序,以便保证网站的可以用,这也是非常有必要的手段,毕竟如果网站不能使用了,就没有利益可谈啦。反爬虫的手段非常多,我们来看看几种常见的反爬虫手段。 基于 Headers 的反爬虫机制 (编辑:萍乡站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |