Python - 文本处理环境设置
要成功创建和运行本教程中的示例代码,我们需要设置一个环境,其中既有通用 Python 也有数据科学所需的特殊包。 我们将首先安装通用的 python,可以是 python 2 或 python 3。
官网下载 Python
最新的源代码、二进制文件、文档、新闻等,可在 Python https://www.python.org/ 的官方网站上获得
您可以从 https://www.python.org/doc/ 下载 Python 文档。 该文档以 HTML、PDF 和 PostScript 格式提供。
安装 Python
Python 发行版可用于多种平台。 您只需下载适用于您的平台的二进制代码并安装 Python。
如果您的平台二进制代码不可用,您需要一个 C 编译器来手动编译源代码。 编译源代码可以更灵活地选择安装所需的功能。
这是在各种平台上安装 Python 的快速概述 −
Unix 和 Linux 安装
以下是在 Unix/Linux 机器上安装 Python 的简单步骤。
打开 Web 浏览器并转到 https://www.python.org/downloads/。
点击链接下载适用于 Unix/Linux 的压缩源代码。
下载并提取文件。
如果您想自定义一些选项,请编辑 Modules/Setup 文件。
运行 ./configure 脚本
make
make install
这会将 Python 安装在标准位置 /usr/local/bin 并将其库安装在 /usr/local/lib/pythonXX ,其中 XX 是 Python 的版本。
Windows 安装
以下是在 Windows 机器上安装 Python 的步骤。
打开 Web 浏览器并转到 https://www.python.org/downloads/。
点击 Windows 安装程序 python-XYZ.msi 文件的链接,其中 XYZ 是您需要安装的版本。
要使用此安装程序 python-XYZ.msi,Windows 系统必须支持 Microsoft Installer 2.0。 将安装程序文件保存到您的本地计算机,然后运行它以查看您的计算机是否支持 MSI。
运行下载的文件。 这将打开 Python 安装向导,它非常易于使用。 只需接受默认设置,等待安装完成即可。
苹果机安装
最近的 Mac 都安装了 Python,但它可能已经过时几年了。 有关获取当前版本以及支持 Mac 开发的额外工具的说明,请参阅 http://www.python.org/download/mac/。 对于 Mac OS X 10.3(2003 年发布)之前的旧版 Mac OS,可以使用 MacPython。
设置 PATH
程序和其他可执行文件可以位于多个目录中,因此操作系统提供了一个搜索路径,其中列出了操作系统搜索可执行文件的目录。
路径存储在环境变量中,它是由操作系统维护的命名字符串。 此变量包含可用于命令 shell 和其他程序的信息。
path 变量在 Unix 中命名为 PATH,在 Windows 中命名为 Path(Unix 区分大小写;Windows 不区分大小写)。
在 Mac OS 中,安装程序会处理路径详细信息。 要从任何特定目录调用 Python 解释器,您必须将 Python 目录添加到您的路径中。
Unix/Linux下设置路径
将 Python 目录添加到 Unix 中特定会话的路径 −
在 csh shell 中 − type setenv PATH "$PATH:/usr/local/bin/python" and press Enter.
在 bash shell (Linux) 中 − type export ATH="$PATH:/usr/local/bin/python" and press Enter.
在 sh 或 ksh shell 中 − type PATH="$PATH:/usr/local/bin/python" and press Enter.
Note − /usr/local/bin/python is the path of the Python directory
在Windows下设置路径
将 Python 目录添加到 Windows 中特定会话的路径 −
在命令提示符下 − type path %path%;C:\Python and press Enter.
Note − C:\Python is the path of the Python directory
Python 环境变量
这里是重要的环境变量,Python可以识别 −
序号 | 变量 & 描述 |
---|---|
1 | PYTHONPATH 它的作用类似于PATH。 该变量告诉 Python 解释器将导入到程序中的模块文件放在何处。 它应该包括 Python 源库目录和包含 Python 源代码的目录。 PYTHONPATH 有时由 Python 安装程序预设。 |
2 | PYTHONSTARTUP 它包含包含 Python 源代码的初始化文件的路径。 每次启动解释器时都会执行它。 它在 Unix 中被命名为 .pythonrc.py,它包含加载实用程序或修改 PYTHONPATH 的命令。 |
3 | PYTHONCASEOK 它在 Windows 中用于指示 Python 在 import 语句中查找第一个不区分大小写的匹配项。 将此变量设置为任何值以激活它。 |
4 | PYTHONHOME 这是一个替代模块搜索路径。 它通常嵌入在 PYTHONSTARTUP 或 PYTHONPATH 目录中,以便于切换模块库。 |
运行 Python
Python有3种不同的启动方式 −
交互式解释器
您可以从 Unix、DOS 或任何其他为您提供命令行解释器或 shell 窗口的系统启动 Python。
在命令行输入python
立即在交互式解释器中开始编码。
$python # Unix/Linux or python% # Unix/Linux or C:> python # Windows/DOS
这是所有可用命令行选项的列表 −
序号 | 选项 & 描述 |
---|---|
1 | -d 它提供调试输出。 |
2 | -O 它生成优化的字节码(生成 .pyo 文件)。 |
3 | -S 不要在启动时运行 import site 来查找 Python 路径。 |
4 | -v 详细输出(导入语句的详细跟踪)。 |
5 | -X 禁用基于类的内置异常(只使用字符串); 从 1.6 版开始已过时。 |
6 | -c cmd 运行作为 cmd 字符串发送的 Python 脚本 |
7 | file 从给定的文件运行 Python 脚本 |
命令行脚本
可以通过在应用程序上调用解释器在命令行中执行 Python 脚本,如下所示 −
$python script.py # Unix/Linux or python% script.py # Unix/Linux or C: >python script.py # Windows/DOS
注意 − 确保文件权限模式允许执行。
集成开发环境
如果您的系统上有支持 Python 的 GUI 应用程序,您也可以从图形用户界面 (GUI) 环境运行 Python。
Unix − IDLE 是第一个用于 Python 的 Unix IDE。
Windows − PythonWin 是 Python 的第一个 Windows 界面,是一个带有 GUI 的 IDE。
Macintosh − Macintosh 版本的 Python 以及 IDLE IDE 可从主网站获得,可下载为 MacBinary 或 BinHex 文件。
安装 NLTK 包
NLTK 很容易集成到 python 环境中。 使用下面的命令将 NLTK 添加到环境。
sudo pip install -U nltk
当我们需要在 python 程序中使用它们时,将在每章中讨论添加其他库。