[准备工作]
首先,确保您已经安装了必要的库,如 requests 用于发送 HTTP 请求,BeautifulSoup 用于解析 HTML 页面。您可以使用 pip 命令进行安装:pip install requests beautifulsoup4
[发送请求获取网页内容]
使用 requests 库发送 GET 请求获取网页的源代码。示例代码如下:
Python
复制
import requests
response = requests.get('https://example.com') # 将'https://example.com' 替换为您要抓取的网址
html_content = response.text
[解析网页内容]
使用 BeautifulSoup 对获取到的网页源代码进行解析。示例代码:
Python
复制
from bs4 import BeautifulSoup
soup = BeautifulSoup(html_content, 'html.parser')
[提取所需信息]
通过分析网页的结构,使用 BeautifulSoup 提供的方法来提取您需要的信息,例如获取所有的超链接:
Python
复制
for link in soup.find_all('a'):
print(link.get('href'))