誰でも簡単に自然言語処理ができるfastTextとは？「Mac」-「Apple」+「Microsoft」= ？言葉の足し算できますか？

writer

丹波昌信

2018.10.16

2022.12.23

目次

fastTextとは
fastTextを実際に使ってみる
まとめ

「Mac」-「Apple」+「Microsoft」= ？

このような言葉の足し算をコンピューター上でできますか？私たち人間がこのような問題を考えるときは、なぞなぞを考える要領で考えれば解くことができます。

しかし、この問題をコンピューターに解かせようとした時、どのようにすればいいのか戸惑ってしまう方も多いのではないでしょうか。そんな人にオススメなのが「Facebook AI Research」というFacebookの人工知能研究所が開発した「fastText」です。

「fastText」を用いれば、誰でも簡単に自然言語処理ができるため、今回はこちらをご紹介します。

fastTextとは

「fastText」とは2016年にFacebookが公開した自然言語処理ライブラリです。自然言語処理とは、人間が日常的に使っている言葉をコンピューターに処理させる一連の技術のことを指します。

fastText

「fastText」はGoogleが開発した「Word2Vec」というライブラリを基に作られており、「Word2Vec」では単語をベクトル化（数値化）することによって単語間の距離を計算し、コンピューター上での言葉の処理を可能にしています。

「fastText」もこの単語のベクトル化のアイデアを用いており、100~300次元のベクトル（100~300個の数字を並べたもの）で表現されています。そして、「fastText」はこの単語のベクトル表現の生成が高速化され、さらにはテキストの分類も高速で行えるというのが特徴です。

fastTextを実際に使ってみる

必要な手順はたったの4つです。

GithubからfastTextをクローンする
学習させるテキストデータを準備
テキストデータを学習させてモデルを作成
作成したモデルを活用

このたった４つのステップで「fastText」を使うことができ、自然言語処理が行えるようになります。では、１つずつ見て行きましょう。

1：GitHubからfastTextをクローンする

「fastText」は全て下記のGithubにて公開されています。

GitHub：https://github.com/facebookresearch/fastText

「fastText」の導入に必要なコマンドは以下のたったの３行のみです。

$ git clone https://github.com/facebookresearch/fastText.git

$ cd fastText

$ make

$ git clone https://github.com/facebookresearch/fastText.git

$ cd fastText

$ make

こちらを「fastText」を使用したいディレクトリで実行すれば完了です。

2：学習させるテキストデータを準備

次に「fastText」でモデルを作成するために学習させるテキストデータを準備します。テキストデータは日報やメールなど自前で準備してもいいですし、それらの用意が難しい場合には手に入りやすいデータセットとして、Wikipedia、青空文庫、Twitterなどがあります。

このようなネット上で公開されているテキストデータをデータセットとして準備するのも良いでしょう。しかし、「fastText」のホームページにはWikipediaのテキストデータと学習済みのモデルが公開されています。したがって、これを使用することにより、最も時間のかかるテキストデータの準備とそのテキストデータの学習をすることなく、「fastText」を使用することができます。

Wiki word vectors

こちらのホームページから「Japanese: bin+text」を先ほど準備した「fastText」のディレクトリ内にダウンロードしましょう。今回は、こちらで公開されている日本語版Wikipediaの学習済みモデルを使用します。こちらの学習済みモデルを活用する場合は「作成したモデルを活用」までお進みください。

3：テキストデータを学習させてモデルを作成

それでは先ほど準備したテキストデータを「fastText」で学習させて、モデルを作成します。

$ ./fasttext skipgram -input テキストデータ名 -output 保存場所

1	$ ./fasttext skipgram -input テキストデータ名 -output 保存場所

これで準備したテキストデータを元にモデルを作成することができます。

プログラムが終了すると、保存場所で指定したディレクトリにfile.binとfile.vecの２種類のファイルができています。file.binはテキストデータを学習させて生成されたモデルになります。file.vecは学習させたテキスト内の単語をベクトル化した値が格納されています。

ここまでで自分でテキストデータを準備して、モデルを作成するまでが完了しました。後は実践するのみです。

4：作成したモデルを活用

「fastText」はさまざまな活用方法があります。

そこで、今回はベクトル表現された単語の確認、単語の足し算をご紹介します。まずはベクトル表現された単語を見てみましょう。単語のベクトル表現を見るにはprint-word-vectorsコマンドを使用します。

$ echo "単語名" | ./fasttext print-word-vectors file.bin

1	$ echo "単語名" \| ./fasttext print-word-vectors file.bin

例として“日本”という単語で実行してみましょう。

$ echo "日本" | ./fasttext print-word-vectors wiki.ja.bin

日本 -0.30148 0.40887 -0.25581 0.42612 0.12797 -0.28953 -0.27746 0.047177 -0.0034018 -0.05422 -0.22662 -0.050693 -0.050915 0.01757 0.17572 -0.1343 -0.070554 0.16551 0.0010308 0.30084 ・・・

$ echo "日本" | ./fasttext print-word-vectors wiki.ja.bin

日本 -0.30148 0.40887 -0.25581 0.42612 0.12797 -0.28953 -0.27746 0.047177 -0.0034018 -0.05422 -0.22662 -0.050693 -0.050915 0.01757 0.17572 -0.1343 -0.070554 0.16551 0.0010308 0.30084 ・・・

（20個の数値しか表示していませんが、実際はさらに数字が並びます。）

以上のように数字が並びました。これが「日本」という単語を数値化してベクトル表現されたものになります。このように言葉を数字に置き換えることでコンピューターが言葉を数値として扱えるようになり、単語同士の距離を計算することで言葉の足し算などが可能になります。

では、本題の言葉の足し算をやって見ます。言葉の足し算はanalogiesコマンドを使用します。analogiesコマンドは「A＋B―C」のような形で言葉の足し算を行ってくれます。

$ ./fasttext analogies file.bin

1	$ ./fasttext analogies file.bin

実際にタイトルにある「Mac」-「Apple」+「Microsoft」を計算してみましょう。

$ ./fasttext analogies wiki.ja.bin

Query triplet (A - B + C)? mac apple microsoft

windows 0.801531

windowsmac 0.788854

xpwindows 0.786413

wxwindows 0.78093

windowsos 0.779754

windowsnt 0.776466

openwindows 0.771209

vistawindows 0.771196

rosoft 0.762335

windowsce 0.760826

$ ./fasttext analogies wiki.ja.bin

Query triplet (A - B + C)? mac apple microsoft

windows 0.801531

windowsmac 0.788854

xpwindows 0.786413

wxwindows 0.78093

windowsos 0.779754

windowsnt 0.776466

openwindows 0.771209

vistawindows 0.771196

rosoft 0.762335

windowsce 0.760826

この計算の結果、最も答えの可能性が高い言葉として「windows」となりました。このようにして言葉を数値のベクトルとして扱うことにより数値同士の足し算引き算が可能になるため言葉同士の計算が可能となるのです。

まとめ

機械学習に注目が集まる昨今で、このような自然言語処理の技術はスパムメールや迷惑メールの分類などさまざまな所に用いられています。

人工知能や機械学習について詳しくないという方でも、簡単に自然言語処理が体験できるため、是非一度「fastText」で遊んで見てください。そして、身近に、社内にあるテキストデータを使って何かに応用してみてください。

WRITER

丹波昌信

株式会社PLAN-B システム開発部

同志社大学を卒業後、2018年に新卒としてPLAN-Bに入社。内定者インターンにてインターネット広告事業部で広告運用を経験。入社後はシステム開発部にてデータサイエンティストを目指し日々奮闘中。

サービスについて詳しく知る

DOWNLOAD

無料資料ダウンロードはこちら

CONTACT

お問い合わせはこちら

誰でも簡単に自然言語処理ができるfastTextとは？「Mac」-「Apple」+「Microsoft」= ？言葉の足し算できますか？

fastTextとは

fastTextを実際に使ってみる

1：GitHubからfastTextをクローンする

2：学習させるテキストデータを準備

3：テキストデータを学習させてモデルを作成

4：作成したモデルを活用

まとめ

丹波昌信

インスタグラムのQRコード（ネームタグ）の表示・加工方法から、スキャン・シェア方法まで解説します

【５分でわかる】GTM(Googleタグマネージャー)の設定方法

2024年3月のGoogleコアアップデートが開始！影響や対策について解説

2023年｜国内の検索エンジンシェア率ランキングTOP10！　Google以外に注目すべきは？

GA4でページビュー（PV数）を確認する方法！調べ方の手順と見方をスクショ付きで解説！

【2023年最新版】初心者でも簡単！Instagram広告の出し方完全ガイド

Webサイトで使用される定番フォント9選！　フォントの選び方や良いフォントの特徴も解説！

404 not found（404エラー）とは？原因と解決方法・効果的な404エラーページの作り方

誰でも簡単に自然言語処理ができるfastTextとは？「Mac」-「Apple」+「Microsoft」= ？言葉の足し算できますか？

fastTextとは

fastTextを実際に使ってみる

1：GitHubからfastTextをクローンする

2：学習させるテキストデータを準備

3：テキストデータを学習させてモデルを作成

4：作成したモデルを活用

まとめ

丹波 昌信

RELATED POSTS

インスタグラムのQRコード（ネームタグ）の表示・加工方法から、スキャン・シェア方法まで解説します

【５分でわかる】GTM(Googleタグマネージャー)の設定方法

2024年3月のGoogleコア アップデートが開始！影響や対策について解説

2023年｜国内の検索エンジンシェア率ランキングTOP10！ Google以外に注目すべきは？

GA4でページビュー（PV数）を確認する方法！調べ方の手順と見方をスクショ付きで解説！

【2023年最新版】初心者でも簡単！Instagram広告の出し方完全ガイド

Webサイトで使用される定番フォント9選！ フォントの選び方や良いフォントの特徴も解説！

404 not found（404エラー）とは？原因と解決方法・効果的な404エラーページの作り方

丹波昌信

2024年3月のGoogleコアアップデートが開始！影響や対策について解説

2023年｜国内の検索エンジンシェア率ランキングTOP10！　Google以外に注目すべきは？

Webサイトで使用される定番フォント9選！　フォントの選び方や良いフォントの特徴も解説！