Seaborn - 导入数据集和库

在本章中,我们将讨论如何导入数据集和库。 让我们首先了解如何导入库。


导入库

让我们从导入 Pandas 开始,这是一个用于管理关系(表格格式)数据集的出色库。 Seaborn 在处理 DataFrame 时非常方便,DataFrame 是数据分析中使用最广泛的数据结构。

以下命令将帮助您导入 Pandas −

# Pandas for managing datasets
import pandas as pd

现在,让我们导入 Matplotlib 库,它可以帮助我们自定义绘图。

# Matplotlib for additional customization
from matplotlib import pyplot as plt

我们将使用以下命令导入 Seaborn 库 −

# Seaborn for plotting and styling
import seaborn as sb

导入数据集

我们已经导入了所需的库。 在本节中,我们将了解如何导入所需的数据集。

Seaborn 在库中附带了一些重要的数据集。 安装 Seaborn 后,数据集会自动下载。

您可以使用这些数据集中的任何一个进行学习。 借助以下功能,您可以加载所需的数据集

load_dataset()

将数据导入为 Pandas DataFrame

在本节中,我们将导入一个数据集。 此数据集默认加载为 Pandas DataFrame。 如果 Pandas DataFrame 中有任何函数,则它会作用于此 DataFrame。

下面一行代码将帮助您导入数据集 −

# Seaborn for plotting and styling
import seaborn as sb
df = sb.load_dataset('tips')
print df.head()

上面这行代码会产生如下输出 −

   total_bill  tip   sex    smoker day  time   size
0    16.99    1.01   Female  No    Sun  Dinner  2
1    10.34    1.66   Male    No    Sun  Dinner  3
2    21.01    3.50   Male    No    Sun  Dinner  3
3    23.68    3.31   Male    No    Sun  Dinner  2
4    24.59    3.61   Female  No    Sun  Dinner  4

要查看 Seaborn 库中所有可用的数据集,您可以使用以下命令和 get_dataset_names() 函数,如下所示 −

import seaborn as sb
print sb.get_dataset_names()

上面的代码行将返回可用的数据集列表作为以下输出

[u'anscombe', u'attention', u'brain_networks', u'car_crashes', u'dots', 
u'exercise', u'flights', u'fmri', u'gammas', u'iris', u'planets', u'tips', 
u'titanic']

DataFrames 以矩形网格的形式存储数据,通过这些网格可以很容易地查看数据。 矩形网格的每一行都包含一个实例的值,网格的每一列都是一个向量,其中包含特定变量的数据。这意味着 DataFrame 的行不需要包含相同数据类型的值,它们可以是数字、字符、逻辑等。Python 的 DataFrame 带有 Pandas 库,它们被定义为二维标记数据结构 具有可能不同类型的列。

有关 DataFrames 的更多详细信息,请访问 pandas 教程