Python 爬虫教程 07
1.示例
示例代码:
1 | import requests |
运行这段代码,会发现是解析不出我们想要的内容的。虽然url
、解析逻辑看起来填写的都是正确的,那么问题是出在哪儿呢?其实就是出在url
,这个url
只是看起来正确,但并不是真正的url
(我们想要的,包含内容的)。
2.分析页面
这时候我们来分析下网页源代码,发现在目标页面代开源码是没有我们想要的内容的,如下图所示:
那么这时候我们就得找到 真实链接 。
先看左边(红色框)部分,选中一个,看一下它的preview
,如图所示:
可以发现没有我们想要的大内容,说明原始的url
不对,我们得通过这种方式查找出包含内容的url
。可以把后缀是.js
和.css
的排除掉,这些都是指网页样式。
如下图所示:
这个inner
才是我们想要的,再看它的headers
,我们就能找到它的正确的url = https://www.spiderbuf.cn/playground/inner
把这个url
替换掉原始url
就行了:
1 | url = "https://www.spiderbuf.cn/playground/inner" |
3.总结
可以发现在html
下还有一个html
,称作iframe
。就是网页里面嵌套了一个浏览器再打开另一个网页,只有在控制台看它后台的一个请求,才能找出真实的url
。
- Title: Python 爬虫教程 07
- Author: loskyertt
- Created at : 2024-10-19 09:28:18
- Updated at : 2024-11-13 03:07:38
- Link: https://redefine.ohevan.com/2024/10/19/07Python爬虫/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments