当前位置:首页 > 经验 >

最简单的爬虫代码(爬虫代码简单实例)

来源:原点资讯(m.360kss.com)时间:2022-10-28 21:50:17作者:YD166手机阅读>>

# 3. 分页器的爬取

爬取数据最经典的模型就是列表、分页、详情,接下来我也将围绕这个方向,以爬取 CSDN 博客文章去介绍几个 Selector 的用法。

分页器可以分为两种:

  • 一种是,点 下一页 就会重新加载一个页面

  • 一种是:点 下一页 只是当前页面的部分内容重新渲染

在早期的 web-scraper 版本中,这两种的爬取方法有所不同。

  • 对于需要重新加载页面的,需要 Link 选择器

  • 对于不需要重新加载页面的,可以使用 Element Click 选择器

对于某些网站的确是够用了,但却有很大的局限性。

经过我的试验,第一种使用 Link 选择器的原理就是取出 下一页的 a 标签的超链接,然后去访问,但并不是所有网站的下一页都是通过 a 标签实现。

像下面这样用 js 监听事件然后跳转的,就无法使用 Link 选择器 。

最简单的爬虫代码,爬虫代码简单实例(9)

而在新版的 web scraper ,对导航分页器提供了特别的支持,加了一个 Pagination的选择器,可以完全适用两种场景,下面我会分别演示。

不重载页面的分页器爬取

点入具体一篇 CSDN 博文,拉到底部,就能看到评论区。

如果你的文章比较火,评论的同学很多的时候,CSDN 会对其进行分页展示,但不论在哪一页的评论,他们都隶属于同一篇文章,当你浏览任意一页的评论区时,博文没有必要刷新,因为这种分页并不会重载页面。

最简单的爬虫代码,爬虫代码简单实例(10)

对于这种不需要重载页面的点击,完全可以使用 Element Click 来解决。

最简单的爬虫代码,爬虫代码简单实例(11)

其中最后一点千万注意,要选择 root 和 next_page,只有这样,才能递归爬取

最后爬取的效果如下

最简单的爬虫代码,爬虫代码简单实例(12)

栏目热文

爬虫技术抓取网站数据(爬虫怎么抓取网页数据)

爬虫技术抓取网站数据(爬虫怎么抓取网页数据)

编者按:互联网上有浩瀚的数据资源,要想抓取这些数据就离不开爬虫。鉴于网上免费开源的爬虫框架多如牛毛,很多人认为爬虫定是非...

2022-10-28 21:54:36查看全文 >>

爬虫技术可以做什么(爬虫爬取vip视频违法吗)

爬虫技术可以做什么(爬虫爬取vip视频违法吗)

爬虫可以从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网...

2022-10-28 21:32:50查看全文 >>

普通人怎么移民德国(普通人怎么移民韩国)

普通人怎么移民德国(普通人怎么移民韩国)

德国是欧洲第一经济大国,欧盟的核心国。拥有稳定的经济环境、优质的教育品质、优厚的社会福利、令人心旷神怡的自然环境。这些都...

2022-10-28 21:41:56查看全文 >>

加拿大移民费用(加拿大打工一月多少钱)

加拿大移民费用(加拿大打工一月多少钱)

很多关注移民的人都对低成本移民有着不同程度的执念,通常意义上来说可以理解为花费少,最好时间成本也低;它最主要看的是申请人...

2022-10-28 22:14:22查看全文 >>

移民加拿大条件及费用(去加拿大打工最简单办法)

移民加拿大条件及费用(去加拿大打工最简单办法)

根据2022-2024年移民水平计划,加拿大的目标是在2022年接纳431,645名新移民。到2024年,新移民数量将提...

2022-10-28 21:47:07查看全文 >>

python如何赚外快(学会了python如何搞副业)

python如何赚外快(学会了python如何搞副业)

首先是找渠道,虽说猪八戒网这一类的的接单网站被大家口口相传,但我通过python还真的没有找到一个合适的兼职接单平台,难...

2022-10-28 21:45:23查看全文 >>

python学多久可以接单(为什么不建议普通人学python)

python学多久可以接单(为什么不建议普通人学python)

以我差不多四年的 python 使用经验来看,大概可以按以下这些路子来赚到钱,但编程技能其实只是当中必不可少的一部分,搭...

2022-10-28 22:05:01查看全文 >>

爬虫能爬到哪些数据(爬虫怎么实时爬取数据)

爬虫能爬到哪些数据(爬虫怎么实时爬取数据)

爬虫技术应用合法性引争议保障数据安全亟待规制非法爬取数据行为核心阅读在大数据时代的背景下,愈来愈多的市场主体投入巨资收集...

2022-10-28 21:52:28查看全文 >>

什么是网络爬虫(爬虫赚钱的真实经历)

什么是网络爬虫(爬虫赚钱的真实经历)

作为一家大数据公司的运营小编,经常会有人问我“诶?你说的爬虫是什么呀”“爬虫的用途是什么呀?”“你们公司是卖爬虫的吗,有...

2022-10-28 22:05:18查看全文 >>

网页爬虫代码(网页爬虫编写方法)

网页爬虫代码(网页爬虫编写方法)

导读:本文主要分为两个部分:一部分是网络爬虫的概述,帮助大家详细了解网络爬虫;另一部分是HTTP请求的Python实现,...

2022-10-28 21:31:37查看全文 >>

文档排行