使用BeautifulSoup库提取网页

BeautifulSoup是一个用于解析HTML和XML文档的Python库。我们来看一些常见的用法:

  1. 解析HTML或XML文档
from bs4 import BeautifulSoup
html = "<html><body><h1>Example</h1></body></html>"
soup = BeautifulSoup(html, 'html.parser')
  1. 查找特定标签
tag = soup.find('h1')
  1. 查找所有具有相同标签的元素
tags = soup.find_all('h1')
  1. 查找特定标签的父级
parent_tag = tag.parent
  1. 查找下一个兄弟节点
next_sibling = tag.next_sibling
  1. 查找前一个兄弟节点
previous_sibling = tag.previous_sibling
  1. 查找标签的文本内容
tag_text = tag.text
  1. 查找标签的属性值
attribute_value = tag['class']
  1. 根据CSS选择器查找元素
elements = soup.select('.example-class')
  1. 删除元素
tag.decompose()

已发布

分类

标签:

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注