[所需库介绍]

在 Python 中实现网页信息的自动化获取,通常会用到以下几个重要的库:

requests 库:用于发送 HTTP 请求,获取网页的文本内容。

beautifulsoup4 库(通常简称bs4):用于解析 HTML 和 XML 文档,提取所需的信息。

[基本步骤]

一般的实现步骤如下:

发送 HTTP 请求获取网页内容。使用requests.get() 方法发送一个 GET 请求获取网页的 HTML 文本。

解析网页内容。使用bs4.BeautifulSoup()函数创建一个BeautifulSoup对象,传入获取到的网页文本和指定的解析器(如html.parser )。

提取所需信息。通过BeautifulSoup对象提供的方法和属性,按照特定的规则提取出感兴趣的信息。

[示例代码]

以下是一个简单的 Python 爬虫示例代码:

Python

复制

import requests

from bs4 import BeautifulSoup

def get_web_info(url):

response = requests.get(url)

soup = BeautifulSoup(response.text, 'html.parser')

# 假设要提取网页中的所有标题

titles = soup.find_all('h1')

for title in titles:

print(title.text)

get_web_info('https://www.example.com')