Python 数据科学 - 环境设置
要成功创建和运行本教程中的示例代码,我们需要设置一个环境,该环境将同时包含通用 Python 以及数据科学所需的特殊包。我们首先考虑安装通用 Python,可以是 Python 2 或 Python 3。但在本教程中,我们更喜欢使用 Python 2,主要是因为它的成熟度和对外部包的更广泛支持。
获取 Python
最新的源代码、二进制文件、文档、新闻等可在 Python 的官方网站 https://www.python.org/
上找到。您可以从 https://www.python.org/doc/ 下载 Python 文档。文档以 HTML、PDF 和 PostScript 格式提供。
安装 Python
Python 发行版适用于各种平台。您只需下载适用于您平台的二进制代码并安装 Python。
如果没有适用于您平台的二进制代码,您需要一个 C 编译器来手动编译源代码。编译源代码在选择安装所需的功能方面提供了更大的灵活性。
以下是在各种平台上安装 Python 的快速概述 −
Unix 和 Linux 安装
以下是在 Unix/Linux 机器上安装 Python 的简单步骤。
打开 Web 浏览器并转到 https://www.python.org/downloads/。
按照链接下载适用于 Unix/Linux 的压缩源代码。
下载并提取文件。
如果要自定义某些选项,请编辑 Modules/Setup 文件。
运行 ./configure脚本
制作
make install
这会将 Python 安装在标准位置 /usr/local/bin 上,并将其库安装在 /usr/local/lib/pythonXX 上,其中 XX 是 Python 的版本。
Windows 安装
以下是在 Windows 机器上安装 Python 的步骤。
打开 Web 浏览器并转到 https://www.python.org/downloads/。
按照链接找到 Windows 安装程序 python-XYZ.msi 文件,其中 XYZ 是您需要安装的版本。
要使用此安装程序 python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。将安装程序文件保存到本地计算机,然后运行它以查看您的计算机是否支持 MSI。
运行下载的文件。这将打开 Python 安装向导,它非常易于使用。只需接受默认设置,等到安装完成,您就大功告成了。
Macintosh 安装
最近的 Mac 已安装 Python,但它可能已经过时了好几年。请参阅 http://www.python.org/download/mac/,了解如何获取当前版本以及支持 Mac 开发的其他工具。对于 Mac OS X 10.3(2003 年发布)之前的旧 Mac OS,可以使用 MacPython。
Jack Jansen 维护它,您可以在他的网站上完全访问整个文档 − http://www.cwi.nl/~jack/macpython.html。您可以找到有关 Mac OS 安装的完整安装详细信息。
设置 PATH
程序和其他可执行文件可能位于许多目录中,因此操作系统提供了一个搜索路径,其中列出了操作系统搜索可执行文件的目录。
路径存储在环境变量中,该变量是操作系统维护的命名字符串。此变量包含命令 shell 和其他程序可用的信息。
path 变量在 Unix 中命名为 PATH,在 Windows 中命名为 Path(Unix 区分大小写;Windows 不区分大小写)。
在 Mac OS 中,安装程序会处理路径详细信息。要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的路径中。
在 Unix/Linux 上设置路径
要将 Python 目录添加到 Unix 中特定会话的路径中 −
在 csh shell − 中输入 setenv PATH "$PATH:/usr/local/bin/python" 并按 Enter 键。
在 bash shell (Linux) − 中输入 export ATH="$PATH:/usr/local/bin/python" 并按 Enter 键。
在 sh 或 ksh shell − 中输入 PATH="$PATH:/usr/local/bin/python" 并按 Enter 键。
注意 − /usr/local/bin/python 是 Python 目录的路径
在 Windows 上设置路径
要在 Windows 中将 Python 目录添加到特定会话的路径 −
在命令提示符下 −输入路径 %path%;C:\Python 并按 Enter。
注意 − C:\Python 是 Python 目录的路径
Python 环境变量
以下是重要的环境变量,Python 可以识别这些变量 −
Sr.No. | 变量和说明 |
---|---|
1 | PYTHONPATH 它的作用类似于 PATH。此变量告诉 Python 解释器将导入到程序中的模块文件定位到何处。它应包括 Python 源库目录和包含 Python 源代码的目录。PYTHONPATH 有时由 Python 安装程序预设。 |
2 | PYTHONSTARTUP 它包含包含 Python 源代码的初始化文件的路径。每次启动解释器时都会执行它。它在 Unix 中被命名为 .pythonrc.py,它 包含加载实用程序或修改 PYTHONPATH 的命令。 |
3 | PYTHONCASEOK 它在 Windows 中用于指示 Python 在导入语句中查找第一个不区分大小写的匹配项。将此变量设置为任意值即可激活它。 |
4 | PYTHONHOME 它是备用模块搜索路径。它通常嵌入在 PYTHONSTARTUP 或 PYTHONPATH 目录中,以便于切换模块库。 |
运行 Python
有三种不同的方法可以启动 Python −
交互式解释器
您可以从 Unix、DOS 或任何其他提供命令行解释器或 shell 窗口的系统启动 Python。
在命令行中输入 python。
立即在交互式解释器中开始编码。
$python # Unix/Linux 或 python% # Unix/Linux 或 C:> python # Windows/DOS
以下是所有可用命令行选项的列表 −
Sr.No. | 选项和说明 |
---|---|
1 | -d 提供调试输出。 |
2 | -O 生成优化的字节码(生成 .pyo 文件)。 |
3 | -S 启动时不要运行 import site 来查找 Python 路径。 |
4 | -v 详细输出(导入时的详细跟踪语句)。 |
5 | -X 禁用基于类的内置异常(仅使用字符串);从 1.6 版开始已过时。 |
6 | -c cmd 运行作为 cmd 字符串发送的 Python 脚本 |
7 | file 从给定文件运行 Python 脚本 |
从命令行运行脚本
可以通过调用应用程序上的解释器在命令行中执行 Python 脚本,如下所示 −
$python script.py # Unix/Linux or python% script.py # Unix/Linux or C: >python script.py # Windows/DOS
注意 − 确保文件权限模式允许执行。
集成开发环境
如果您的系统上有支持 Python 的 GUI 应用程序,您也可以从图形用户界面 (GUI) 环境运行 Python。
Unix − IDLE 是第一个适用于 Python 的 Unix IDE。
Windows − PythonWin 是第一个适用于 Python 的 Windows 界面,是一个带有 GUI 的 IDE。
Macintosh − Macintosh 版本的 Python 以及 IDLE IDE 可从主网站获取,可作为 MacBinary 或 BinHex 文件下载。
安装 SciPy Pack
启用所需包的最佳方法是使用特定于您的操作系统的可安装二进制包。这些二进制文件包含完整的 SciPy 堆栈(包括 NumPy、SciPy、matplotlib、IPython、SymPy 和 nose 包以及核心 Python)。
Windows
Anaconda(来自 www.continuum.io)是 SciPy 堆栈的免费 Python 发行版。它也适用于 Linux 和 Mac。
Canopy (www.enthought.com/products/canopy/) 可作为免费和商业发行版使用,其中包含适用于 Windows、Linux 和 Mac 的完整 SciPy 堆栈。
Python (x,y):它是一个免费的 Python 发行版,带有适用于 Windows 操作系统的 SciPy 堆栈和 Spyder IDE。(可从 www.python-xy.github.io/ 下载)
Linux
各个 Linux 发行版的包管理器用于在 SciPy 堆栈中安装一个或多个包。
适用于 Ubuntu
sudo apt-get install python-numpy python-scipy python-matplotlibipythonipythonnotebook python-pandas python-sympy python-nose
对于 Fedora
sudo yum install numpyscipy python-matplotlibipython python-pandas sympy python-nose atlas-devel
从源代码构建
必须使用 distutils 安装核心 Python(2.6.x、2.7.x 和 3.2.x 及以上版本),并且应启用 zlib 模块。
必须提供 GNU gcc(4.2 及以上版本)C 编译器。
要安装 NumPy,请运行以下命令。
Python setup.py install
让我们测试 NumPy 模块是否已正确安装,尝试从 Python 提示符导入它。
如果未安装,将显示以下错误消息。
Traceback (most recent call last): File "<pyshell#0>", line 1, in <module> import numpy ImportError: No module named 'numpy'
类似地,我们可以检查下一章中所示的所有必需的数据科学包的安装。