准备工作
安装必要库(仅需基础库):
pip install requests beautifulsoup4 lxml
案例1:爬取豆瓣电影Top250(基础HTML解析)
目标:提取豆瓣电影Top250的电影名称、评分、评价人数(适合学习静态页面解析)。
import requests
from bs4 import BeautifulSoup
# 目标URL(豆瓣电影Top250第一页)
url = "https://movie.douban.com/top250?start=0"
# 模拟浏览器请求头(关键:避免被识别为爬虫)
headers =...