敏捷数据科学 - 构建回归模型
逻辑回归是指用于预测类别因变量概率的机器学习算法。 在逻辑回归中,因变量是二元变量,由编码为1(布尔值true和false)的数据组成。
在本章中,我们将重点关注使用连续变量在 Python 中开发回归模型。 线性回归模型的示例将重点关注 CSV 文件中的数据探索。
分类目标是预测客户是否会认购(1/0)定期存款。
import pandas as pd import numpy as np from sklearn import preprocessing import matplotlib.pyplot as plt plt.rc("font", size=14) from sklearn.linear_model import LogisticRegression from sklearn.cross_validation import train_test_split import seaborn as sns sns.set(style="white") sns.set(style="whitegrid", color_codes=True) data = pd.read_csv('bank.csv', header=0) data = data.dropna() print(data.shape) print(list(data.columns))
按照以下步骤使用"Jupyter Notebook"&minus 在 Anaconda Navigator 中实现上述代码;
步骤 1 − 使用 Anaconda Navigator 启动 Jupyter Notebook。
步骤 2 − 上传csv文件,系统地得到回归模型的输出。
步骤 3 − 创建一个新文件并执行上述代码行以获得所需的输出。