如何使用 Tensorflow 准备使用 Python 的 stackoverflow 问题的数据集?
keraspythonserver side programmingprogramming
Tensorflow 是 Google 提供的机器学习框架。它是一个与 Python 结合使用的开源框架,用于实现算法、深度学习应用程序等。它用于研究和生产目的。
可以使用以下代码行在 Windows 上安装 ‘tensorflow’ 包 −
pip install tensorflow
Tensor 是 TensorFlow 中使用的数据结构。它有助于连接流程图中的边缘。此流程图称为"数据流图"。张量不过是多维数组或列表。我们正在使用 Google Colaboratory 来运行以下代码。Google Colab 或 Colaboratory 有助于在浏览器上运行 Python 代码,并且不需要任何配置,并且可以免费访问 GPU(图形处理单元)。 Colaboratory 是在 Jupyter Notebook 基础上构建的。以下是代码片段 −
示例
VOCAB_SIZE = 10000 print("文本预处理开始") binary_vectorize_layer = TextVectorization( max_tokens=VOCAB_SIZE, output_mode='binary') MAX_SEQUENCE_LENGTH = 250 int_vectorize_layer = TextVectorization( max_tokens=VOCAB_SIZE, output_mode='int', output_sequence_length=MAX_SEQUENCE_LENGTH)
代码来源− https://www.tensorflow.org/tutorials/load_data/text
输出
文本的预处理开始
解释
使用‘TextVectorization’对数据进行标准化、标记化和矢量化层。
标准化涉及预处理文本并删除标点符号和 HTML 元素。
标记化涉及通过拆分空格将句子拆分为单词。
矢量化涉及将标记转换为数字,以便神经网络在输入时可以理解它。
二元模型使用词袋模型来构建模型。