如何使用 Tensorflow 处理 Python 中的字符子字符串?
pythonserver side programmingprogrammingtensorflow
可以使用 Tensorflow 的 ‘strings’ 模块中的 ‘substr’ 方法将字符子字符串用于 Tensorflow。然后将其转换为 Numpy 数组并显示。
阅读更多: 什么是 TensorFlow,以及 Keras 如何与 TensorFlow 配合使用以创建神经网络?
我们将了解如何使用 Python 表示 Unicode 字符串,并使用 Unicode 等效项来操作这些字符串。首先,在标准字符串操作的 Unicode 等效项的帮助下,根据脚本检测将 Unicode 字符串分离为标记。
我们使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 有助于在浏览器上运行 Python 代码,并且无需配置,并且可以免费访问 GPU(图形处理单元)。 Colaboratory 是基于 Jupyter Notebook 构建的。
print("默认单位是字节") print("当 len 为 1 时,返回一个字节") tf.strings.substr(thanks, pos=7, len=1).numpy() print("单位指定为 UTF8_CHAR") print("占用 4 个字节") print(tf.strings.substr(thanks, pos=7, len=1, unit='UTF8_CHAR').numpy())
代码来源:https://www.tensorflow.org/tutorials/load_data/unicode
输出
默认单位是字节 当 len 为 1 时,返回单个字节 单位指定为 UTF8_CHAR 占用 4 个字节 b''
解释
- tf.strings.substr 操作采用 "unit" 参数。
- 然后使用它来确定 "pos" 和 "len" 参数将包含的偏移量类型。