Python 中的逻辑回归 - 获取数据
本章详细讨论在 Python 中获取数据以执行逻辑回归的步骤。
下载数据集
如果您还没有下载前面提到的 UCI 数据集,请立即从 https://archive.ics.uci.edu/ml/datasets/bank+marketing 下载。 单击 Data 文件夹。 您将看到以下屏幕 −
单击给定链接下载 bank.zip 文件。 zip 文件包含以下文件 −
我们将使用 bank.csv 文件进行模型开发。 bank-names.txt 文件包含您稍后将需要的数据库的描述。 bank-full.csv 包含一个更大的数据集,您可以将其用于更高级的开发。
在这里,我们将 bank.csv 文件包含在可下载的源 zip 中。 此文件包含逗号分隔的字段。 我们还对该文件进行了一些修改。 建议您使用项目源 zip 中包含的文件进行学习。
加载数据
要从您刚才复制的 csv 文件加载数据,请键入以下语句并运行代码。
In [2]: df = pd.read_csv('bank.csv', header=0)
您还可以通过运行以下代码语句来检查加载的数据 −
IN [3]: df.head()
运行命令后,您将看到以下输出 −
它已经打印了加载数据的前五行。 检查现有的 21 列。 我们将仅使用其中的几列来进行模型开发。
接下来,我们需要清理数据。 数据可能包含一些带有 NaN 的行。 要消除此类行,请使用以下命令 −
IN [4]: df = df.dropna()
幸运的是,bank.csv 不包含任何带 NaN 的行,因此在我们的案例中并不真正需要此步骤。 然而,一般来说,在一个庞大的数据库中很可能发现这样的行。 所以运行上面的语句来清理数据总是比较安全的。
注意 − 您可以使用以下语句轻松检查任何时间点的数据大小 −
IN [5]: print (df.shape) (41188, 21)
行数和列数将打印在输出中,如上面第二行所示。
接下来要做的是检查每一列是否适合我们要构建的模型。