[所需库介绍]
在 Python 中实现网页信息的自动化获取,通常会用到以下几个重要的库:
requests 库:用于发送 HTTP 请求,获取网页的文本内容。
beautifulsoup4 库(通常简称bs4):用于解析 HTML 和 XML 文档,提取所需的信息。
[基本步骤]
一般的实现步骤如下:
发送 HTTP 请求获取网页内容。使用requests.get() 方法发送一个 GET 请求获取网页的 HTML 文本。
解析网页内容。使用bs4.BeautifulSoup()函数创建一个BeautifulSoup对象,传入获取到的网页文本和指定的解析器(如html.parser )。
提取所需信息。通过BeautifulSoup对象提供的方法和属性,按照特定的规则提取出感兴趣的信息。
[示例代码]
以下是一个简单的 Python 爬虫示例代码:
Python
复制
import requests
from bs4 import BeautifulSoup
def get_web_info(url):
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 假设要提取网页中的所有标题
titles = soup.find_all('h1')
for title in titles:
print(title.text)
get_web_info('https://www.example.com')