ChatGPTのトークンはAPIコストや、入力制限の影響を与えるため、トークンを圧縮・解凍する方法があればその限界を克服できる可能性が高まります。APIのコスト削減にも役立つ可能性が高いです。
今回の検討では、どうやらできそうだといういくつかの検討を行いました。
着想はTwitterでトークンを圧縮できるというつぶやき
ChatGPTでトークン数圧縮の手法を使ってみたけど、確かに全力肯定彼氏くんみたいな、いかにユーザーとの体験を記憶できるか(いかに少ないトークン数の中に多くの情報を詰め込めるか)みたいなサービスを作る場合はすごい威力を発揮できるし追求のしがいがあるわ…
↓トークン数を6分の1にできた例 pic.twitter.com/vRyfswsz86
— 朱雀 (@Developer65537) April 9, 2023
検討する価値はありそうです
ChatGPTで実験
自分のブログ記事文章を使って試してみました。文章の意味を保ったまま圧縮をお願いしています。

ChatGPTの回答

できない?
指示をもう少し変えてみて、復元できる暗号で作ってみて下さいとしてみます

おー、暗号が作られました。どうやら結構良さそうな答えが返ってきましたね。

凄いですね。暗号化するとトークンが圧縮できるようです。いろいろ試したところ、このやり方が一番復元率が良かったです。
GPTにトークン数を聞いてみると
実に9倍もの圧縮に成功していますね。これは驚きです。
他の圧縮方法
絵文字を使って圧縮することもできるようです


復元率が悪いですね。
絵文字圧縮前のトークン数(おおよそ): 204 絵文字圧縮後のトークン数(おおよそ): 69
この復元は、圧縮文章から抽出できる情報に基づいていますが、元の文章と完全に一致しているわけではありません。
絵文字による圧縮では、情報の細かいニュアンスや文脈が失われる可能性があります。
検討結果
暗号化を利用することで、文字数(トークン)が減り、GPT-4で復元できることがわかりました。これは、さらなる応用が期待できます。
現状はChatGPTのトークン圧縮はできるということなのでAPIと組み合わせるとコストを大幅に減らすことができるかもしれません。


コメント