如何使用 Tensorflow 进行不同字符串表示之间的转换?

pythonserver side programmingprogrammingtensorflow

可以使用‘decode’方法将编码的字符串标量转换为代码点向量。可以使用‘encode’方法将代码点向量转换为编码的字符串标量。可以使用‘transcode’方法将编码的字符串标量转换为不同的编码。

阅读更多:什么是 TensorFlow,以及 Keras 如何与 TensorFlow 配合使用来创建神经网络?

让我们了解如何使用 Python 表示 Unicode 字符串,并使用 Unicode 等效项来操作这些字符串。首先,我们在标准字符串操作的 Unicode 等效项的帮助下,根据脚本检测将 Unicode 字符串分离为标记。

我们正在使用 Google Colaboratory 来运行以下代码。 Google Colab 或 Colaboratory 可帮助在浏览器上运行 Python 代码,无需配置,并可免费访问 GPU(图形处理单元)。Colaboratory 是在 Jupyter Notebook 之上构建的。

print("将编码字符串标量转换为代码点向量")
tf.strings.unicode_decode(text_utf8,input_encoding='UTF-8')
print("将代码点向量转换为编码字符串标量")
tf.strings.unicode_encode(text_chars, output_encoding='UTF-8')
print("将编码字符串标量转换为不同的编码")
tf.strings.unicode_transcode(text_utf8, input_encoding='UTF8', output_encoding='UTF-16-BE')

代码来源:https://www.tensorflow.org/tutorials/load_data/unicode

输出

将编码字符串标量转换为代码点向量
将代码点向量转换为编码字符串标量
将编码字符串标量转换为不同的编码
<tf.Tensor: shape=(), dtype=string, numpy=b'\x8b\xed\x8a\x00Y\x04t\x06'>

解释

  • 函数 'unicode_decode'用于将编码字符串标量转换为代码点向量。
  • 函数"unicode_encode"用于将代码点向量转换为编码字符串标量。
  • 函数"unicode_transcode"用于将编码字符串标量转换为不同的编码。

相关文章