AIの料金の秘密「トークン」を解説！初心者向け

1. トークンとは AIが言語を処理する単位

トークンとは、AIが文章を理解しやすくするために、テキストを細かく分割した単位のことです。人間が文章を単語や文節で認識するように、AIはテキストをトークンという単位で処理しています。

元の文大規模言語モデル→ 大規模言語モデル

Originaltokenization→ tokenization

多くのAIサービスでは、処理するテキストの量、すなわち合計トークン数に応じて料金が設定されています。そのため、トークン数はコストに直接関係します。

AIが一度に処理できる情報量（コンテキストウィンドウと呼ばれます）も、トークン数によって上限が定められています。この上限内で、より多くの情報を扱えます。

トークンを意識することは、AIを効率的に利用するための第一歩と言えるかもしれません。

テキストをトークンに分ける方法にはいくつか種類があります。かつては単語や文字単位での分割も試みられましたが、それぞれに課題がありました。現在では、単語の出現頻度に応じて柔軟に分割するサブワード方式が広く採用されています。

トークンの基本的な考え方は共通していますが、具体的な分割方法はAIサービスを提供する企業ごとに異なります。そのため、同じ文章でも利用するサービスによってトークン数が変わることがあります。

広く使われているTiktokenというライブラリを使用。英語の処理に最適化されていますが、多言語にも対応しています。

多言語対応に優れたSentencePieceという方式を採用。特に日本語の扱いで効率的な分割が期待されます。

独自のトークナイザーを使用しており、特に長い文脈の処理能力に定評があります。他のサービスとは異なる分割がなされます。

利用するAIに合わせて、文章の書き方を調整することも、最適化の一つの方法です。

同じ内容を表現する場合でも、日本語は英語などの言語に比べてトークン数が多くなる傾向が見られます。これは「日本語のトークン問題」などと呼ばれることもあります。

日本語→トークン多め

英語のように単語がスペースで区切られていないため、文のどこで区切るかの判断が複雑になり、結果として細かく分割されやすくなります。

「こんにちは」→ こんにちは (3トークン)

ひらがな、カタカナ、そして多くの情報を含む漢字が混在しているため、一つの漢字が複数のトークンとして扱われることがあります。

「憂鬱」→ 2文字で6トークン以上に分割される例も

この特性により、日本語のテキストは、他の言語に比べて料金がやや割高になったり、扱える情報量の上限に達しやすくなったりする場合があります。

トークンは、AIが言語を処理するための基本的な単位です。

AIの利用料金や一度に扱える情報量は、このトークン数に基づいています。

日本語は他の言語よりトークン数が多くなる傾向があるため、この点を考慮することが大切です。

計算方法はサービス毎に異なるため、利用するAIの特性を理解することも重要です。