分类目录归档:网络爬虫

python爬虫小案例


准备工作

安装必要库(仅需基础库):

pip install requests beautifulsoup4 lxml

案例1:爬取豆瓣电影Top250(基础HTML解析)

目标:提取豆瓣电影Top250的电影名称、评分、评价人数(适合学习静态页面解析)。

import requests
from bs4 import BeautifulSoup

# 目标URL(豆瓣电影Top250第一页)
url = "https://movie.douban.com/top250?start=0"

# 模拟浏览器请求头(关键:避免被识别为爬虫)
headers =...

Read more

requests模块基础


Requests 是 Python 中最流行的 HTTP 客户端库,由 Kenneth Reitz 开发,以“人类友好”为设计理念,简化了发送 HTTP 请求、处理响应的流程。相比 Python 内置的 urllib 库,Requests 语法更简洁,自动处理编码、Cookie、会话等细节,是接口测试、爬虫、API 交互等场景的首选工具。

一、Requests 安装

Requests 是第三方库,需通过 pip 安装:

pip install requests

二、核心功能:发送 HTTP 请求

Requests 支持所有常见的 HTTP 方法(GET、POST、PUT、DELE...

Read more

认识爬虫


认识爬虫(了解)

学习目的

了解爬虫,爬虫起源;

爬虫是什么

专业术语: 网络爬虫(又被称为网页蜘蛛,网络机器人)

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

爬虫起源(产生背景)

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战;

搜索引擎有Yahoo,Google,百度等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南

网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索 引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此...

Read more