OpenAIがChatGPTの最新機能を発表しました。
音声会話機能と画像認識機能
ChatGPT can now see, hear, and speak
今後2週間以内に有料プラン「ChatGPT Plus」と「ChatGPT Enterprise」の加入者に対して新機能を提供予定とのこと。このうち、画像認識機能は全プラットフォームで利用可能になり、音声コミュニケーション機能はiOS版ChatGPTとAndroid版ChatGPTでのみ利用可能になる予定です。
ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms). https://t.co/uNZjgbR5Bm pic.twitter.com/paG0hMshXb
— OpenAI (@OpenAI) September 25, 2023
1. 音声会話機能
音声会話機能により、ユーザーは文字を入力することなく、ChatGPTと音声でコミュニケーションをとることが可能になります。これにはOpenAIのオープンソースの音声認識システム「Whisper」が使用され、ユーザーの音声をリアルタイムでテキストに変換します。また、返答としては新しいテキスト読み上げモデルを採用。数秒のサンプル音声から人間らしい音声が生成されることが特徴です。この機能はiOS版とAndroid版のChatGPTでのみ利用可能となります。
2. 画像認識機能
もう一つの注目の機能が、ChatGPTが画像の内容を認識する「画像認識機能」です。ユーザーはキャプチャした画像を選択し、それをChatGPTに送信することで、画像の内容に関する質問や説明を受け取ることができます。さらに、描画ツールを利用して画像上に補足的な説明や注釈を加えることも可能です。この機能は、マルチモーダルGPT-3.5およびGPT-4によって強化されており、これらのモデルは言語推論スキルを様々な画像にも適用することができるとされています。この機能はすべてのプラットフォームでの利用が可能です。
画像認識機能では、Webサービスのスクショからコードを書いてもらうことができるなどの話もあったので、かなり期待しています。
まとめ
OpenAIのChatGPTが、音声と画像機能を搭載してきました。会話も可能となり、AIとのコミュニケーションが可能となることから大変興味深く変化を期待しています。まもなく、新機能が利用可能になるので楽しみに待ちたいと思います。
コメント