gensim
ジェンシム(サードパーティライブラリ)
意味 話題の単語を分析
gensimとは?
Gensimは、トピックモデリングに特化したライブラリです。大量のテキストデータから、潜在的なトピックを抽出することができます。
gensimの具体的な使い方
LDAによるトピックモデリング
from gensim import corpora, models
# サンプルテキストデータ
texts = [
['経済', '株価', '投資'],
['政治', '選挙', '国会'],
['スポーツ', 'オリンピック', '選手'],
['株価', '投資', '金融'],
['選挙', '政策', '議員']
]
# 辞書とコーパスの作成
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
# LDAモデルの学習
lda_model = models.LdaModel(corpus, num_topics=3, id2word=dictionary, passes=15)
# トピックの表示
for idx, topic in lda_model.print_topics(-1):
print(f'トピック {idx}: {topic}')
👇出力結果
トピック 0: 0.339*"株価" + 0.339*"投資" + 0.168*"経済" + 0.168*"金融"
トピック 1: 0.376*"選挙" + 0.250*"政治" + 0.250*"国会" + 0.124*"政策" + 0.124*"議員"
トピック 2: 0.495*"スポーツ" + 0.495*"オリンピック" + 0.495*"選手"
このコードでは、gensimを使ってLDA(Latent Dirichlet Allocation)によるトピックモデリングを行います。サンプルのテキストデータから3つのトピックを抽出し、各トピックに関連する単語とその重みを表示します。
gensimに関するよくある質問
gensimが学べる書籍の紹介
「プログラミング単語帳」を使って、プログラミングの単語を英単語のように学習してみませんか?
プログラミング単語帳には、Pythonのgensimやopencv、setuptools、face_recognition、などのような実務でよく使われる単語が数百以上収録されています。
この書籍には、プログラミングの単語の意味や読み方、単語の使い方がわかる例文などが掲載されており、いつでもどこでもプログラミングの学習ができます。
よく使われる単語にだけ絞って学習することができるので、効率的にプログラミングが学習できます。
HTML編、CSS編、JavaScript編、PHP編、Ruby編、その他単語編の6シリーズ分が公式ストアにて販売中です。気になった方はぜひ購入してみてください。
Pythonを学べる「プログラミング単語帳」アプリ
プログラミング単語帳がアプリになりました!Pythonはもちろん、10種類のプログラミング言語の中から、よく使われる単語をスマホで学習できます。
収録単語は2,000単語以上!
現在は、HTML、CSS、JavaScirpt、PHP、Laravel、Ruby、Python、MySQL、Linux、など10カテゴリーの単語帳が1つのアプリに収録されています。
いつでも、どこでも、隙間時間を有効活用して、プログラミングを効率的に学べるので、ぜひダウンロードしてみてください。
2024年7月アップデート情報:「Laravel」カテゴリーが追加されましました!
2024年8月アップデート情報:「MySQL」「Linux」カテゴリーが追加されましました!