对于 Tensorflow 和 Python,什么是 uncide 脚本?

pythonserver side programmingprogrammingtensorflow

每个 Unicode 代码点都属于一个代码点集合,称为脚本。字符的脚本决定了该字符所属的语言。TensorFlow 附带 ‘strings.unicode_script’ 方法,可帮助查找给定代码点将使用哪种脚本。脚本代码是 int32 值,可以映射到 Unicode 国际组件 (ICU) UScriptCode 值

阅读更多: 什么是 TensorFlow,以及 Keras 如何与 TensorFlow 配合使用来创建神经网络?

我们将了解如何使用 Python 表示 Unicode 字符串,并使用 Unicode 等效项来操作这些字符串。首先,在标准字符串操作的 Unicode 等效项的帮助下,根据脚本检测将 Unicode 字符串分离为标记。

我们正在使用 Google Colaboratory 来运行以下代码。 Google Colab 或 Colaboratory 可帮助在浏览器上运行 Python 代码,无需配置,并可免费访问 GPU(图形处理单元)。Colaboratory 是在 Jupyter Notebook 之上构建的。

print("以下分别代表 '芸' 和 'Б'")
uscript = tf.strings.unicode_script([33464, 1041])  
print(uscript.numpy())   # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC]
print("应用于多维字符串")
print(tf.strings.unicode_script(batch_chars_ragged))

代码来源:https://www.tensorflow.org/tutorials/load_data/unicode

输出

以下分别代表 '芸' 和 'Б'
[17   8]
应用于多维字符串
<tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25], [0]]>

解释

  • 每个 Unicode 代码点都属于一个代码点集合,称为脚本。
  • 字符的脚本有助于确定该字符可能属于哪种语言。
  • TensorFlow 提供 tf.strings.unicode_script 操作来找出给定代码点将使用哪种脚本。
  • 脚本代码是 int32 值,映射到 Unicode 国际组件 (ICU) UScriptCode 值。
  • tf.strings.unicode_script 操作也可以应用于多维 tf.Tensors 或 tf.RaggedTensors 代码点。

相关文章