分类目录归档:大数据

python爬虫小案例


准备工作

安装必要库(仅需基础库):

pip install requests beautifulsoup4 lxml

案例1:爬取豆瓣电影Top250(基础HTML解析)

目标:提取豆瓣电影Top250的电影名称、评分、评价人数(适合学习静态页面解析)。

import requests
from bs4 import BeautifulSoup

# 目标URL(豆瓣电影Top250第一页)
url = "https://movie.douban.com/top250?start=0"

# 模拟浏览器请求头(关键:避免被识别为爬虫)
headers =...

Read more

requests模块基础


Requests 是 Python 中最流行的 HTTP 客户端库,由 Kenneth Reitz 开发,以“人类友好”为设计理念,简化了发送 HTTP 请求、处理响应的流程。相比 Python 内置的 urllib 库,Requests 语法更简洁,自动处理编码、Cookie、会话等细节,是接口测试、爬虫、API 交互等场景的首选工具。

一、Requests 安装

Requests 是第三方库,需通过 pip 安装:

pip install requests

二、核心功能:发送 HTTP 请求

Requests 支持所有常见的 HTTP 方法(GET、POST、PUT、DELE...

Read more

认识爬虫


认识爬虫(了解)

学习目的

了解爬虫,爬虫起源;

爬虫是什么

专业术语: 网络爬虫(又被称为网页蜘蛛,网络机器人)

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

爬虫起源(产生背景)

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战;

搜索引擎有Yahoo,Google,百度等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南

网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索 引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此...

Read more

回归模型演示


实验四、回归模型演示

一、实验目的

  • 1.理解线性回归和对应参数调节。
  • 2.掌握使用任意公式进行广义线性回归拟合的方法。

二、实验内容

  • 1.调用 sklearn 的多项式特征 PolynomialFeatures 进行多项式拟合。
  • 2.调用逻辑斯蒂回归直线 LinearRegression 进行线性拟合。
  • 3.使用任意函数为 curve_fit 调用以拟合任意规律数据。

三、实验步骤

  • 1、线性回归 利用 sklearn 用于学习逻辑斯蒂回归直线的 LinearRegression 和多项式转换 PolynomialFeatures 可以拟合多项式曲线。
  • 2、广义线性回归...

Read more

数据预处理演示


实验六、数据预处理演示

一、实验目的

  • 1.了解数据集的 z-score 标准化。
  • 2.掌握数据集的不同降维方式。

二、实验内容

  • 1.调用 StandardScaler 进行数据集的 z-score 标准化。
  • 2.调用 PCA 和 LDA 进行数据集的降维。

三、实验步骤

  • 1、数据降维 关于数据降维,sklearn 库提供了常见的2种降维方式:PCA 和 LDA。若想要知 道数据的方差比,可直接在不降维的数据上使用 explained_variance_ratio_查 看方差比决定降多少维数据。为了验证降维效果,使用倒序循环,维度从高到低 降维,观察分类器分数。
  • 2、P...

Read more

分类预测基本流程演示


实验五、分类预测基本流程演示

一、实验目的

1.了解在流水线上进行数据分类预测的方法。

二、实验内容

1.调用 pipeline 进行整个数据处理流程的调用。

2.调用 train_test_split 进行数据集的分割。

三、实验步骤

使用 train_test_split 可拆分数据,保留一部分数据进行测试,以尽量避免过 拟合,保留一部分数据做测试训练模型用,改变 random_state 还可以改变分离 数据的位置,test_size 默认是 0.25,可通过这个变量改变分离的数据量比例; 把常用的可重复的操作放进流水线 pipeline 上以方便训练模型。由于 sklearn 的...

Read more

Flume组件安装配置


Flume 组件安装配置

安装

[root@master software]# tar -xvf apache-flume-1.7.0-bin.tar.gz  -C /usr/local/
[root@master software]# ln -s /usr/local/apache-flume-1.7.0-bin/ /usr/local/flume

配置Flume

[root@master software]# vim /etc/profile
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
...

Read more

Sqoop 组件安装与配置


Sqoop 组件安装与配置

1.下载和解压 Sqoop

Sqoop相关发行版本可以通过官网 https://mirror-hk.koddos.net/apache/sqoop/来

获取

[root@master local]# tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz  -C /usr/local/

[root@master local]# ln -s /usr/local/sqoop-1.4.7.bin__hadoop-2.6.0  /usr/local/sqoop

[root@master local]# cd /usr/loca...

Read more

HBase 常用 Shell 命令


HBase 常用 Shell 命令

1.HBase 常用命令

启动 hdfs、zookeeper、hbase 服务

start-all.sh
zkServer.sh start
start-hbase.sh
# 使用 HBase 命令行
[hadoop@master hbase]$ hbase shell
HBase Shell
Use "help" to get list of supported commands.
Use "exit" to quit this interactive shell.
Version 1.7.1, r2d92...

Read more

HBase 组件安装与配置


HBase 组件安装与配置

1.HBase 安装与配置

[root@master local]# tar -xvf hbase-1.7.1-bin.tar.gz  -C /usr/local/

[root@master local]# ln -s /usr/local/hbase-1.7.1/ /usr/local/hbase

# 在所有节点添加环境变量
[root@master ~]# vi /etc/profile
export HBASE_HOME=/usr/local/hbase

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/b...

Read more