分类目录归档:大数据

requests模块基础


requests 模块是一个优秀的 Python HTTP 库,简化了发送 HTTP 请求的过程。它比 Python 标准库中的 urllib 更加简洁和易用。以下是使用 requests 模块的基础知识:

1.安装:首先确保你已经安装了 requests 模块。如果没有安装,可以使用 pip 进行安装:

pip install requests

2.发送 GET 请求

import requests

response = requests.get('https://api.githu...

Read more

认识爬虫


认识爬虫(了解)

学习目的

了解爬虫,爬虫起源;

爬虫是什么

专业术语: 网络爬虫(又被称为网页蜘蛛,网络机器人)

网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

爬虫起源(产生背景)

随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战;

搜索引擎有Yahoo,Google,百度等,作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南

网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于...

Read more

回归模型演示


实验四、回归模型演示

一、实验目的

  • 1.理解线性回归和对应参数调节。
  • 2.掌握使用任意公式进行广义线性回归拟合的方法。

二、实验内容

  • 1.调用 sklearn 的多项式特征 PolynomialFeatures 进行多项式拟合。
  • 2.调用逻辑斯蒂回归直线 LinearRegression 进行线性拟合。
  • 3.使用任意函数为 curve_fit 调用以拟合任意规律数据。

三、实验步骤

  • 1、线性回归 利用 sklearn 用于学习逻辑斯蒂回归直线的 LinearRegression 和...

Read more

数据预处理演示


实验六、数据预处理演示

一、实验目的

  • 1.了解数据集的 z-score 标准化。
  • 2.掌握数据集的不同降维方式。

二、实验内容

  • 1.调用 StandardScaler 进行数据集的 z-score 标准化。
  • 2.调用 PCA 和 LDA 进行数据集的降维。

三、实验步骤

  • 1、数据降维 关于数据降维,sklearn 库提供了常见的2种降维方式:PCA 和 LDA。若想要知 道数据的方差比,可直接在不降维的数据上使用 explained_variance_ratio_查 看方差比决定降多...

Read more

分类预测基本流程演示


实验五、分类预测基本流程演示

一、实验目的

1.了解在流水线上进行数据分类预测的方法。

二、实验内容

1.调用 pipeline 进行整个数据处理流程的调用。

2.调用 train_test_split 进行数据集的分割。

三、实验步骤

使用 train_test_split 可拆分数据,保留一部分数据进行测试,以尽量避免过 拟合,保留一部分数据做测试训练模型用,改变 random_state 还可以改变分离 数据的位置,test_size 默认是 0.25,可通过这个变量改变分离的数据量比例; 把常...

Read more

Flume组件安装配置


Flume 组件安装配置

安装

[root@master software]# tar -xvf apache-flume-1.7.0-bin.tar.gz  -C /usr/local/
[root@master software]# ln -s /usr/local/apache-flume-1.7.0-bin/ /usr/local/flume

配置Flume

[root@master software]# vim /etc/profile
export JAVA_HOME=/usr/loc...

Read more

Sqoop 组件安装与配置


Sqoop 组件安装与配置

1.下载和解压 Sqoop

Sqoop相关发行版本可以通过官网 https://mirror-hk.koddos.net/apache/sqoop/来

获取

[root@master local]# tar -xvf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz  -C /usr/local/

[root@master local]# ln -s /usr/local/sqoop-1.4.7.bin__hadoop-2.6.0  /usr/lo...

Read more

HBase 常用 Shell 命令


HBase 常用 Shell 命令

1.HBase 常用命令

启动 hdfs、zookeeper、hbase 服务

start-all.sh
zkServer.sh start
start-hbase.sh
# 使用 HBase 命令行
[hadoop@master hbase]$ hbase shell
HBase Shell
Use "help" to get list of supported commands.
Use "exit" to quit ...

Read more

HBase 组件安装与配置


HBase 组件安装与配置

1.HBase 安装与配置

[root@master local]# tar -xvf hbase-1.7.1-bin.tar.gz  -C /usr/local/

[root@master local]# ln -s /usr/local/hbase-1.7.1/ /usr/local/hbase

# 在所有节点添加环境变量
[root@master ~]# vi /etc/profile
export HBASE_HOME=/usr/local/hbase

exp...

Read more

ZooKeeper组件安装配置


ZooKeeper 组件安装配置

1.安装 ZooKeeper

# 准备好ZooKeeper安装包
[root@master software]# tar -xvf apache-zookeeper-3.5.9-bin.tar.gz -C /usr/local/
[root@master software]# cd /usr/local/
[root@master local]# ln -s /usr/local/apache-zookeeper-3.5.9/  /usr/local/zookeepe...

Read more