对于 Tensorflow 和 Python,什么是 uncide 脚本?
pythonserver side programmingprogrammingtensorflow
每个 Unicode 代码点都属于一个代码点集合,称为脚本。字符的脚本决定了该字符所属的语言。TensorFlow 附带 ‘strings.unicode_script’ 方法,可帮助查找给定代码点将使用哪种脚本。脚本代码是 int32 值,可以映射到 Unicode 国际组件 (ICU) UScriptCode 值
阅读更多: 什么是 TensorFlow,以及 Keras 如何与 TensorFlow 配合使用来创建神经网络?
我们将了解如何使用 Python 表示 Unicode 字符串,并使用 Unicode 等效项来操作这些字符串。首先,在标准字符串操作的 Unicode 等效项的帮助下,根据脚本检测将 Unicode 字符串分离为标记。
我们正在使用 Google Colaboratory 来运行以下代码。 Google Colab 或 Colaboratory 可帮助在浏览器上运行 Python 代码,无需配置,并可免费访问 GPU(图形处理单元)。Colaboratory 是在 Jupyter Notebook 之上构建的。
print("以下分别代表 '芸' 和 'Б'") uscript = tf.strings.unicode_script([33464, 1041]) print(uscript.numpy()) # [17, 8] == [USCRIPT_HAN, USCRIPT_CYRILLIC] print("应用于多维字符串") print(tf.strings.unicode_script(batch_chars_ragged))
代码来源:https://www.tensorflow.org/tutorials/load_data/unicode
输出
以下分别代表 '芸' 和 'Б' [17 8] 应用于多维字符串 <tf.RaggedTensor [[25, 25, 25, 25, 25], [25, 25, 25, 25, 0, 25, 25, 0, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 0, 25, 25, 25, 25, 25, 25, 25, 25], [25, 25, 25, 25, 25, 25, 25, 25], [0]]>
解释
- 每个 Unicode 代码点都属于一个代码点集合,称为脚本。
- 字符的脚本有助于确定该字符可能属于哪种语言。
- TensorFlow 提供 tf.strings.unicode_script 操作来找出给定代码点将使用哪种脚本。
- 脚本代码是 int32 值,映射到 Unicode 国际组件 (ICU) UScriptCode 值。
- tf.strings.unicode_script 操作也可以应用于多维 tf.Tensors 或 tf.RaggedTensors 代码点。