分类目录归档:数据分析

Pandas入门(二)


Pandas数据分析基础

Pandas之所以能成为Python数据分析领域的事实标准库,是因为它对日常数据分析的便捷操作和全面覆盖。

数据读写

Pandas可以将指定格式的数据读取到DataFrame中,并将DataFrame输出为指定格式的文件。

../../_images/02_io_readwrite.svg

Pandas读写函数

image-20211223085518383

读写案例

泰坦尼克数据

CSV 格式存储的泰坦尼克号数据集。数据由以下数据列组成:

  • PassengerId:每位乘客的 ID。
  • Survived: 此功能的值为 0 和 1。0 表示未存活,1 表示存活。
  • Pclass: ...

Read more

Pandas入门(一)


Pandas入门

Pandas是Python数据分析的利器,也是各种数据建模的标准工具。

在Python语言应用生态中,数据科学领域近年来十分热门。作为数据科学中一个非常基础的库,Pandas受到了广泛关注。Pandas可以将现实中来源多样的数据进行灵活处理和分析。

安装pandas

pip install pandas

为什么学习pandas

  • numpy已经可以帮助我们进行数据的处理了,那么学习pandas的目的是什么呢?
    • numpy能够帮助我们处理的是数值型的数据,当然在数据分析中除...

Read more

Pandas数据清洗


pandas数据清洗

数据清洗的原因

在原始数据中存在:

  • 缺失值
  • 异常值
  • 重复值

处理空值

两种空值

  • None
    • 类型为None对象,不能参与运算
  • np.nan
    • 类型为float,可以参与运算

pandas处理空值的方法

  • isnull
  • notnull
  • any
  • all
  • dropna
  • fillna
import numpy as np
import pandas as pd
from pandas import DataFrame,Series

# 伪造一些数据(存在空值)
df =...

Read more

NumPy基础(二)


import numpy as np
import matplotlib.pyplot as plt 

将一个数组拆分成几个较小的数组

使用hsplit,您可以通过指定要返回的形状相同的数组的数量,或指定应在其后进行除法的列,沿其水平轴拆分数组

rg = np.random.default_rng(1)
a = np.floor(10 * rg.random((2,12)))
a
array([[5., 9., 1., 9., 3., 4., 8., 4., 5., 0., 7., 5.]...

Read more

NumPy基础(一)


简介

NumPy(Numerical Python)是Python的一种开源的数值计算扩展。这种工具可用来存储和处理大型矩阵,比Python自身的嵌套列表(nested list structure)结构要高效的多(该结构也可以用来表示矩阵(matrix)),支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。 -- 百度百科

NumPy 目前已经成为Python中用于科学计算的基础包。

NumPy提供了高性能的向量、矩阵以及多维数据结构及计算方法。

NumPy包的核心是...

Read more