Python 爬虫教程 04
1.测试案例
1 | import requests |
直接运行上面这段代码,会发现输出结果是这样的:
1 | 1 | None | CD-82-76-71-65-75 | 堡垒机 | 服务器 | Windows10 | 80,22,443 | |
第一列的内容都是None
,这是为什么呢?
2.分析页面源码结构
我们先来看下我们要爬取的页面的源码结构,是这段内容:
1 | <tr> |
可以发现有两个部分:
- 第二个
td
:<td><a href="#">172.16.80.178</a></td>
- 最后一个
td
:<td><font color="green">在线</font></td>
这两个部分<td>
里是不含内容的。要像这种<td>文本</td>
才说名含有内容,对于这种<td><a>文本<a></td>
是<a>
含有内容,<td>
不含。
所以我们要取出<a>
节点里的内容应该怎么做呢?有一个思路是把<td>
节点下的<a>
节点的内容再取一遍,但这未免有点麻烦了。
这里有一个简单的方法,把解析部分的代码改成这样:
1 | root = etree.HTML(html) |
这种方式可以获取元素及其所有子元素的完整文本,而不仅仅是直接子节点的文本。.
表示当前节点,这里就表示把当前节点的所有文本内容(包括子节点中的文本)提取出来。
- Title: Python 爬虫教程 04
- Author: loskyertt
- Created at : 2024-10-17 17:04:34
- Updated at : 2024-11-13 03:07:38
- Link: https://redefine.ohevan.com/2024/10/17/04Python爬虫/
- License: This work is licensed under CC BY-NC-SA 4.0.
Comments