Gensim - 创建词袋 (BoW) 语料库
我们已经了解了如何从文档列表和文本文件(从一个或多个文件)创建词典。现在,在本节中,我们将创建一个词袋 (BoW) 语料库。为了使用 Gensim,它是我们需要熟悉的最重要的对象之一。基本上,它是包含单词 ID 及其在每个文档中的频率的语料库。
创建 BoW 语料库
如前所述,在 Gensim 中,语料库包含单词 ID 及其在每个文档中的频率。我们可以从一个简单的文档列表和文本文件创建 BoW 语料库。我们需要做的是将标记化的单词列表传递给名为 Dictionary.doc2bow() 的对象。首先,让我们使用一个简单的文档列表创建 BoW 语料库。
从一个简单的句子列表
在下面的例子中,我们将从包含三个句子的简单列表创建 BoW 语料库。
首先,我们需要导入所有必要的包,如下所示 −
import gensim import pprint from gensim import corpora from gensim.utils import simple_preprocess
现在提供包含句子的列表。我们的列表中有三个句子 −
doc_list = [ "Hello, how are you?", "How do you do?", "Hey what are you doing? yes you What are you doing?" ]
接下来,对句子进行标记化,如下所示 −
doc_tokenized = [simple_preprocess(doc) for doc in doc_list]
创建一个 corpora.Dictionary() 对象,如下所示 −
dictionary = corpora.Dictionary()
现在将这些标记化的句子传递给 dictionary.doc2bow() 对象,如下所示 −
BoW_corpus = [dictionary.doc2bow(doc, allow_update=True) for doc in doc_tokenized]
最后我们可以打印词袋语料库 −
print(BoW_corpus)
输出
[ [(0, 1), (1, 1), (2, 1), (3, 1)], [(2, 1), (3, 1), (4, 2)], [(0, 2), (3, 3), (5, 2), (6, 1), (7, 2), (8, 1)] ]
上面的输出显示 id=0 的单词在第一个文档中出现一次(因为我们在输出中得到了 (0,1)),依此类推。
上面的输出不知何故无法被人类阅读。我们也可以将这些 id 转换为单词,但为此我们需要我们的字典进行转换,如下所示 −
id_words = [[(dictionary[id], count) for id, count in line] for line in BoW_corpus] print(id_words)
输出
[ [('are', 1), ('hello', 1), ('how', 1), ('you', 1)], [('how', 1), ('you', 1), ('do', 2)], [('are', 2), ('you', 3), ('doing', 2), ('hey', 1), ('what', 2), ('yes', 1)] ]
Now the above output is somehow human readable.
完整实现示例
import gensim import pprint from gensim import corpora from gensim.utils import simple_preprocess doc_list = [ "Hello, how are you?", "How do you do?", "Hey what are you doing? yes you What are you doing?" ] doc_tokenized = [simple_preprocess(doc) for doc in doc_list] dictionary = corpora.Dictionary() BoW_corpus = [dictionary.doc2bow(doc, allow_update=True) for doc in doc_tokenized] print(BoW_corpus) id_words = [[(dictionary[id], count) for id, count in line] for line in BoW_corpus] print(id_words)
来自文本文件
在下面的示例中,我们将从文本文件创建 BoW 语料库。为此,我们将上例中使用的文档保存在名为 doc.txt. 的文本文件中。
Gensim 将逐行读取文件并使用 simple_preprocess 一次处理一行。这样就不需要一次性将整个文件加载到内存中了。
实现示例
首先,导入所需的和必要的包,如下所示 −
import gensim from gensim import corpora from pprint import pprint from gensim.utils import simple_preprocess from smart_open import smart_open import os
接下来,下面这行代码将从doc.txt中读取文档并将其标记化 −
doc_tokenized = [ simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’) ] dictionary = corpora.Dictionary()
现在我们需要将这些标记化的单词传递到 dictionary.doc2bow() 对象中(如上例所示)
BoW_corpus = [ dictionary.doc2bow(doc, allow_update=True) for doc in doc_tokenized ] print(BoW_corpus)
输出
[ [(9, 1), (10, 1), (11, 1), (12, 1), (13, 1), (14, 1), (15, 1)], [ (15, 1), (16, 1), (17, 1), (18, 1), (19, 1), (20, 1), (21, 1), (22, 1), (23, 1), (24, 1) ], [ (23, 2), (25, 1), (26, 1), (27, 1), (28, 1), (29, 1), (30, 1), (31, 1), (32, 1), (33, 1), (34, 1), (35, 1), (36, 1) ], [(3, 1), (18, 1), (37, 1), (38, 1), (39, 1), (40, 1), (41, 1), (42, 1), (43, 1)], [ (18, 1), (27, 1), (31, 2), (32, 1), (38, 1), (41, 1), (43, 1), (44, 1), (45, 1), (46, 1), (47, 1), (48, 1), (49, 1), (50, 1), (51, 1), (52, 1) ] ]
doc.txt 文件包含以下内容 −
CNTK 以前称为计算网络工具包,是一个免费的易于使用的开源商业级工具包,使我们能够训练深度学习算法,使其像人脑一样学习。
您可以在 tutorialspoint.com 上找到它的免费教程,还免费提供有关 AI 深度学习机器学习等技术的最佳技术教程。
完整实现示例
import gensim from gensim import corpora from pprint import pprint from gensim.utils import simple_preprocess from smart_open import smart_open import os doc_tokenized = [ simple_preprocess(line, deacc =True) for line in open(‘doc.txt’, encoding=’utf-8’) ] dictionary = corpora.Dictionary() BoW_corpus = [dictionary.doc2bow(doc, allow_update=True) for doc in doc_tokenized] print(BoW_corpus)
保存和加载 Gensim 语料库
我们可以借助以下脚本保存语料库 −
corpora.MmCorpus.serialize('/Users/Desktop/BoW_corpus.mm', bow_corpus)
#提供语料库的路径和名称。语料库的名称是 BoW_corpus,我们将其保存为 Matrix Market 格式。
同样,我们可以使用以下脚本加载已保存的语料库 −
corpus_load = corpora.MmCorpus(‘/Users/Desktop/BoW_corpus.mm’) for line in corpus_load: print(line)