如何使用 Tensorflow 处理 Python 中的字符子字符串?

pythonserver side programmingprogrammingtensorflow

可以使用 Tensorflow 的 ‘strings’ 模块中的 ‘substr’ 方法将字符子字符串用于 Tensorflow。然后将其转换为 Numpy 数组并显示。

阅读更多: 什么是 TensorFlow,以及 Keras 如何与 TensorFlow 配合使用以创建神经网络?

我们将了解如何使用 Python 表示 Unicode 字符串,并使用 Unicode 等效项来操作这些字符串。首先,在标准字符串操作的 Unicode 等效项的帮助下,根据脚本检测将 Unicode 字符串分离为标记。

我们使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 有助于在浏览器上运行 Python 代码,并且无需配置,并且可以免费访问 GPU(图形处理单元)。 Colaboratory 是基于 Jupyter Notebook 构建的。

print("默认单位是字节")
print("当 len 为 1 时,返回一个字节")
tf.strings.substr(thanks, pos=7, len=1).numpy()
print("单位指定为 UTF8_CHAR")
print("占用 4 个字节")
print(tf.strings.substr(thanks, pos=7, len=1, unit='UTF8_CHAR').numpy())

代码来源:https://www.tensorflow.org/tutorials/load_data/unicode

输出

默认单位是字节
当 len 为 1 时,返回单个字节
单位指定为 UTF8_CHAR
占用 4 个字节
b''

解释

  • tf.strings.substr 操作采用 "unit" 参数。
  • 然后使用它来确定 "pos" 和 "len" 参数将包含的偏移量类型。

相关文章