首页 >

新手学爬虫,页面能抓取,但解析失踪为空,定位错了吗? – 网络|

没有微信怎么发视频怎么下载不了,myeclipse怎么打开jsp页面,用源代码怎么建网新手学爬虫,页面能抓取,但解析失踪为空,定位错了吗? - 网络|新手学爬虫,页面能抓取,但解析失踪为空,定位错了吗

首先,分析数据

打开大家需要爬取的网页,这里假设大家要爬取的数据如下,涉及5个字段,都是一些比较规范的列表,提取起来也比较容易:

打开网页源码(不要右键检查),按住ctrl+F键任意搜索一个数据,可以看得出来,任何数据都查找不到,这时数据就很有可能是动态加载的,放在一个json里面,需要抓包分析进行确定:

接着,抓包分析

还是刚才的网页,按F12调出开发者工具,依次点击“Network”->“XHR”,F5刷新页面,仔细观察抓取到的文件,一个一个比照需要爬取的数据进行分析,最后可以看到加载的json如下,也就是大家需要获取的数据,这里一般都是按照一定规律进行循环,一页一页往下加载,格式是json的,主要是为了方便解析和提取,记着这里的url,后面直接用requests请求即可:

最后,编写程序

前面的json url已经确定,这里直接请求、解析数据即可,如下,代码非常简单,基本思想先requests获取数据,然后再json解析,一个一个字段的提取出来:

程序运行截图如下,已经成功获取到大家需要的数据:

至此,大家就完成了获取动态网页数据,最重要的还是进行抓包分析,静态网页数据一般都是固定不变的,直接在网页源码中可以看到,但是动态网页就不行了,只有在请求页面的时候才进行加载,而且它是实时更新和变化的,网上也有相关教程和资料,介绍的非常详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言进行补充。


新手学爬虫,页面能抓取,但解析失踪为空,定位错了吗? - 网络|
  • c语言程序的执行顺序由什么决定? - 网络|
  • c语言程序的执行顺序由什么决定? - 网络| | c语言程序的执行顺序由什么决定? - 网络| ...

    新手学爬虫,页面能抓取,但解析失踪为空,定位错了吗? - 网络|
  • 近期想分享一下摄影后期小技巧,MAC录屏选什么软件? - 网络|
  • 近期想分享一下摄影后期小技巧,MAC录屏选什么软件? - 网络| | 近期想分享一下摄影后期小技巧,MAC录屏选什么软件? - 网络| ...

    新手学爬虫,页面能抓取,但解析失踪为空,定位错了吗? - 网络|
  • 荣耀magicbook14应用程序无响应如何强制关机? - 网络|
  • 荣耀magicbook14应用程序无响应如何强制关机? - 网络| | 荣耀magicbook14应用程序无响应如何强制关机? - 网络| ...