分类目录归档:大数据

Hive 组件安装与配置


Hive 组件安装与配置

1.基础环境和安装准备

Hive 组件的部署规划和软件包路径如下:

(1)当前环境中已安装 Hadoop 全分布系统。

(2)本地安装 MySQL 数据库(账号 root,密码 root123)

(3)MySQL 端口号(3306)。

(4)MySQL 的 JDBC 驱动包/opt/software/mysql-connector-java-5.1.49.jar,

在此基础上更新 Hive 元数据存储。

(5)Hive 软件包/opt/software/apache-hive...

Read more

Hadoop环境搭建


Hadoop环境搭建

1.配置Linux基础环境

# 获取IP
[root@base ~]# ifconfig |grep  inet|head -1
        inet 192.168.91.10  netmask 255.255.255.0  broadcast 192.168.91.255
 # 设置主机名
[root@base ~]# hostnamectl set-hostname master
[root@base ~]# hostname
master
# 绑定主机名和IP地址
[...

Read more

Pandas的透视表


透视表

  • 透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Excel使用过数据透视表,也体会到它的强大功能,而在pandas中它被称作pivot_table。

  • 透视表的优点:

    • 灵活性高,可以随意定制你的分析计算要求
    • 脉络清晰易于理解数据
    • 操作性强,报表神器
# 使用pivot_table创建透视表
pivot_table(data,         # DataFrame
      values=None,        # 值
      index=None,...

Read more

Pandas分组处理数据


数据分组聚合

import numpy as np
import pandas as pd
from pandas import DataFrame

替换操作

  • 替换操作可以同步作用于Series和DataFrame中
  • 单值替换

    • 普通替换: 替换所有符合要求的元素:to_replace=15,value='e'
    • 按列指定单值替换: to_replace={列标签:替换值} value='value'
  • 多值替换

    • 列表替换: to_replace=[] value=[]
    • 字典替换(推荐...

Read more

DataFrame的级联and合并操作


import pandas as pd
import numpy as np

级联操作

  • pd.concat, pd.append

pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数:

objs
axis=0
keys
join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配),而inner只会将匹配的项级联到一起,不匹配的不级联
ignore_index=Fa...

Read more

Matplotlib基础二


import matplotlib.pyplot as plt
import numpy as np

plt.plot()绘制线性图

  • 绘制单条线形图
  • 绘制多条线形图
  • 设置坐标系的比例plt.figure(figsize=(a,b))
  • 设置图例legend()
  • 设置轴的标识
  • 图例保存
    • fig = plt.figure()
    • plt.plot(x,y)
    • figure.savefig()

In [2]:

#绘制单条线形图
x = np.array([1,2,3,4,5])
y = x + 3

p...

Read more

数据可视化练习


#!/usr/bin/env python
# coding: utf-8

# In[1]:


import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('city_temperature.csv',dtype={'State':object})


# In[2]:


data['AvgTemperature'] = (dat...

Read more

数据分析练习之城市气温分析


数据分析练习之城市气温分析

数据分析的方法很多,参考答案仅供参考,你也可以使用更加简洁高效的方法实现相同的功能。

数据下载(提取码:1024)

【练习1】准备数据和转换格式

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
data = pd.read_csv('city_temperature.csv',dtype={'State':object})

# 温度转换
dat...

Read more