分类目录归档:网络爬虫

requests模块基础


requests 模块是一个优秀的 Python HTTP 库,简化了发送 HTTP 请求的过程。它比 Python 标准库中的 urllib 更加简洁和易用。以下是使用 requests 模块的基础知识:

1.安装:首先确保你已经安装了 requests 模块。如果没有安装,可以使用 pip 进行安装:

pip install requests

2.发送 GET 请求

import requests

response = requests.get('https://api.githu...

Read more

认识爬虫


认识爬虫(了解)

学习目的

了解爬虫,爬虫起源;

爬虫是什么

专业术语: 网络爬虫(又被称为网页蜘蛛,网络机器人)

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

爬虫起源(产生背景)

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战;

搜索引擎有Yahoo,Google,百度等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南

网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于...

Read more