分类目录归档：网络爬虫

python爬虫小案例

1264 views

准备工作

安装必要库（仅需基础库）：

pip install requests beautifulsoup4 lxml

案例1：爬取豆瓣电影Top250（基础HTML解析）

目标：提取豆瓣电影Top250的电影名称、评分、评价人数（适合学习静态页面解析）。

import requests
from bs4 import BeautifulSoup

# 目标URL（豆瓣电影Top250第一页）
url = "https://movie.douban.com/top250?start=0"

# 模拟浏览器请求头（关键：避免被识别为爬虫）
headers =...

阅读全文 →

requests模块基础

1323 views

Requests 是 Python 中最流行的 HTTP 客户端库，由 Kenneth Reitz 开发，以“人类友好”为设计理念，简化了发送 HTTP 请求、处理响应的流程。相比 Python 内置的 urllib 库，Requests 语法更简洁，自动处理编码、Cookie、会话等细节，是接口测试、爬虫、API 交互等场景的首选工具。

一、Requests 安装

Requests 是第三方库，需通过 pip 安装：

pip install requests

二、核心功能：发送 HTTP 请求

Requests 支持所有常见的 HTTP 方法（GET、POST、PUT、DELE...

阅读全文 →

认识爬虫

1580 views

认识爬虫(了解)

学习目的

了解爬虫，爬虫起源；

爬虫是什么

专业术语： 网络爬虫（又被称为网页蜘蛛，网络机器人）

网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。

爬虫起源（产生背景）

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战；

搜索引擎有Yahoo，Google，百度等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南

网络爬虫是搜索引擎系统中十分重要的组成部分，它负责从互联网中搜集网页，采集信息，这些网页信息用于建立索引从而为搜索引擎提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此...

阅读全文 →

Z笔记

左老师的课堂笔记

python爬虫小案例

准备工作

案例1：爬取豆瓣电影Top250（基础HTML解析）

requests模块基础

一、Requests 安装

二、核心功能：发送 HTTP 请求

认识爬虫

认识爬虫(了解)

学习目的

爬虫是什么

爬虫起源（产生背景）