【GPT-4V】ChatGPTが画像入力と音声入力に対応!使い方〜実践まで徹底解説

PT-4V

ChatGPTがついに、目と耳を手に入れました

9月25日、OpenAIがChatGPTに、画像解析機能と音声出力機能のGPT-4Vが追加され、マルチモーダルAIになったと発表しました。
とうとうChatGPTで画像入力と音声出力ができるようになりました!GPT-4V機能を使うと実際にこんなことができちゃうんです!

今回は話題沸騰中のGPT-4Vの概要や新機能について、特徴を踏まえながら紹介いたします。是非最後までご覧ください!

なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

目次

GPT 4Vの概要

GPT-4Vは、Open AI社が開発した従来のGPT-4に画像解析機能と音声出力機能を持たせたマルチモーダルAIです。

これは、つまりGPT-4を搭載したChatGPTに「目」と声」が実装されるということ!
テキストだけだった頃よりも、さらにハイレベルな会話ができます。

その開発段階ではプライバシー侵害や不適切な表現を出力するといった問題があったとのことで、その特徴を解説しつつ、多くの可能性を秘めた新機能について詳しく紹介していきます。

なお、GPT-4について詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPT-3.5とGPT-4の違いとは?料金や機能、使い方について徹底比較

GPT-4Vの料金体系

GPT-4VはChatGPTに追加された機能ですが、無料会員は利用することはできません。無料会員が利用できるのはChatGPT3.5になります。

月20$の利用料金がかかるChatGPT Plus ユーザーと、企業向けのエンタープライズユーザーが利用できるChatGPT4で、機能としてGPT-4Vを使用することができます。

GPT-4Vの特徴

ここでは、Open AI社が発表したGPT-4Vの特徴を論文に触れつつ説明いたします。

論文:GPT 4V-system-card

この論文では、GPT-4Vモデルとは何かについて述べられています。

その中でも、弱点と改善点弱点への対応策、モデルの安全性評価外部専門家による評価について深堀されています。

GPT-4Vの弱点・改善点

アーリーアクセスで視覚障害者のためのツールを開発する団体Be My Eyesを含む、多くのユーザーにGPT-4Vを使用してもらい、弱点や改善点を調査しました。

以下がその結果内容になります。

ユーザーのフィードバックの重要性:ユーザーのフィードバックにより、システムの問題点やユーザーの要望を具体的に知ることができた。

システムの限界:GPT-4Vが誤った情報を提供することがあるため、それに対する対応を常に行う必要があることがわかった。

安全性の向上:一部のユーザーから、不適切な内容を生成することがあるとのフィードバックがあったため、安全性の向上の必要があった。

多様性と公平性:システムが偏見を持っている可能性が指摘され、公平性を確保するための修正を行う必要があった。

透明性の確保:ユーザーからのフィードバックを通じて、システムの動作原理や決定ロジックについての透明性が必要であることが分かった。

これらの弱点・問題点の多くは、対応策を講じることにより改善されています。

システムの限界などは後述しますが、完全に改善することは難しいものもあり、今後も改善策を策を講じていくとのことです。

GPT-4Vの改善策

問題点も多くあることから、OpenAI社はリスクを緩和するためのいくつかの策を実施しました。

モデルの改善:モデルが不適切な出力を生成するリスクを減少させるために、モデルのトレーニングデータやトレーニング方法の改善などを継続的に行っています。

ユーザーのフィードバック:ユーザーからのフィードバックを収集し、それを使用してモデルの改善を行っています。ユーザーは、モデルの出力に関する問題点や懸念をいつでもOpenAIに報告できます。

システムカードの導入: モデルの能力や限界、使用方法に関する情報を提供するために、システムカードを導入したことにより、ユーザーはモデルをより安全に使用できます。

モデルの使用制限:特定のリクエストやトピックに対してモデルが応答しないようにするための使用制限が設けられているため、モデルが不適切な情報を提供するリスクを減少させることができます。

パートナーシップ:他の組織や研究者と協力し、モデルの安全性に関する研究や取り組みを共有し、モデルのリスクをより広範囲で緩和することに努めています。

このように、多角的な評価と改善を繰り返してきたGPT 4Vですが、それでもまだ完全に安全であるとはいえず、偏見をもった回答やプライバシーを侵害した回答を出力する可能性があるということには注意が必要です。

特徴・安全性評価

改善の結果を以下の要素について、拒否率やパフォーマンス評価などの安全性評価を行いました。

・有害なコンテンツ
・根拠のない推論
・性別、人種、年齢を認識するためのパフォーマンス精度
・プライバシー
・サイバーセキュリティ
・マルチモーダル脱獄

これらについて評価を行い、発見されたいくつかの問題点について対応されています。

モデルとシステムに関連する限界とリスク

社外の専門家と協力して、モデルとシステムに関連する限界とリスクを定性的に評価した結果が説明されています。

• 科学的熟練度
• 医療アドバイス
• ステレオタイプと根拠のない推測
• 偽情報のリスク
• 憎悪に満ちたコンテンツ
• 視覚的脆弱性

これらの項目について、確認された問題点とそれに対する解決策や、解決策がない場合は、モデルの信頼性が欠けているとして、その用途では使わないよう注意喚起されています

例えば、危険な化合物の識別や、医療現場で診断に使用すると誤った判断を下してしまうことにつながり、非常に危険なので使用すべきではないと書かれています。

問題点の発見と改善を繰り返してきたGPT-4Vですが、完全に誤った情報が提供されないわけではないので、その点を考慮しなければなりません。

GPT-4Vのできること

GPT-4Vの機能が追加され、できるようになったことは大きく分けて2つあります。

ChatGPTで画像入力ができる

GPT 4Vでは画像入力をし、それを用いた対話も可能です。

例えば、旅行中に観光地の写真を撮って、それについてChatGPTと対話したり、冷蔵庫の中を撮影して夕食のメニューを考えることもできます。
モバイルアプリには描画ツールがあるので、画像の特定の部分を強調させることも可能です。

こちらは、公式がアップロードしていた動画です。


自転車のサドルの下げ方を画像付きで質問しています。

サドルを下げるためのレバーの位置や、どの工具を使うと良いのかも全て画像を用いて会話できてますね。

画像を読み込めるGPT 4V、早く使いたい!!

ChatGPTに画像の説明させて、類似の画像生成を行う

上記の画像入力と「できる」という部分では同じですが、あえて別項目としています。

写真などの画像をChatGPTに説明してもらいましょう。そうした際に出てきた言葉がその写真のプロンプトとなります。

ここに2023年10月に追加された機能のDALL-E3による画像生成機能を利用することで、類似の画像生成が行えてしまいます。これの最大の長所は、類似画像となったことで著作権が問題にならなくなる点です。(似たような画像が欲しいなぁ)という際にはおすすめの使い方となります。

ChatGPTで音声入力ができる

まず、ChatGPTと音声で手軽に会話できるようになりました。

例えば、家族でのストーリータイムやディナーテーブルでの議論を楽しむなどです。

GPT 4Vはスマホアプリから利用でき、音声は5種類の中から選べます。

こちらは公式がアップロードしていた動画です。

読み上げるテキストと、音声サンプルは以下の2箇所を変更することで試せます。

日本語になるとどのようになるのか、リリースまで待ち遠しいですね!

なお、ChatGPTと音声会話する方法について詳しく知りたい方は、下記の記事を合わせてご確認ください。
ChatGPTと音声会話するには?スマホやPCブラウザでの設定方法を含め徹底解説

GPT 4Vの使い方

GPT 4VをPCから使う方法及びスマートフォンからの使い方を解説します。

PCからの使い方

画像認識機能については、ChatGPT4に機能として追加されているため、特別な操作は必要ありません。

矢印の所をクリックして画像を選択するだけで挿入可能です。

スマートフォンからの使い方

GPT 4Vをスマートフォンで利用するにはアプリを利用します。

画像認識と、音声入力それぞれの機能を見ていきましょう。
まずは、画像認識の機能からです。

画像認識

特に、難しいことをする必要はありません。ChatGPTのアプリで新しいチャットを開き、「+」ボタンをクリックします。

画像を選択し、メッセージボックスに入力します

テキストを入力して、会話をすると回答が返ってきます。

背景にある他のお酒について触れていたりと画像全体をしっかりみれてますね!

醸造元は、ヤッホーブルーイングさんなので間違えてますが…。

音声入力

GPT 4Vではスマートフォンから音声入力が使えるようになっていました。

まず、画面の右上の3つの点をタップします。

「Settings=設定」をタップ

「New Features=新機能」を押します。

すると、「Voice conversations=音声会話」のオンオフ設定ができる画面が出てきますので、それをオンにします。

これで、使えるようになっています。

使う際は、ホーム画面のヘッドフォンマークをタップ。

この画面が表示されたらChatgptでt音声入力ができます。

ちなみに、音声を変える際は「Settings=設定」の「Voice」から変更できます。

5つの音声を選べます。

GPT 4Vを使ってみた

画像入力機能

実際に、GPT 4Vを使って画像を入力してみます。

公式が出していた使い方に習って、自転車のサドルの下げ方を教えてもらおうと思います。

まずは、写真をとって、「サドルを下げる方法を教えてくれますか?」と聞いてみます。

以下のように手順を教えてくれました。

もちろん、お伝えします。自転車のサドルの高さを調整する手順は以下の通りです:

1. ツールの用意: まず、サドルの高さを調整するための適切なサイズのアレンキーを用意します。多くの自転車の場合、サドルを固定しているボルトはアレンボルトで、そのサイズは5mmまたは6mmが一般的です。

2. サドルの固定ボルトを緩める: 自転車のサドル下部にあるボルトを見つけ、アレンキーで緩めます。ボルトを完全に外す必要はありません。ある程度緩めるだけで十分です。

3. サドルの高さを調整: サドルのボルトを緩めたら、サドルの位置を上げたり下げたりして、希望の高さに調整します。

4. サドルの固定ボルトを締める: 希望の位置にサドルを調整したら、アレンキーを使ってサドルのボルトをしっかりと締めます。ボルトを締める際は、十分な強さで締めることが重要です。しかし、過度に強く締めすぎると、サドルポストやフレームが損傷する可能性がありますので注意が必要です。

5. 最終チェック: サドルの高さが調整されたら、自転車に乗ってみて、サドルの高さが適切かどうかを確認します。必要に応じて微調整を行ってください。

注意: サドルの高さを調整する際は、自分の体に合った高さに設定することが大切です。適切なサドルの高さは、ペダルを一番下に踏み込んだ状態で、膝がわずかに曲がっている状態が理想的です。

固定ボルトがどれかわからないので、写真をとって確認してみました。

すると以下のように出力され、どこを緩めると良いか出てきました!

テキストも載せておきます。

はい、おっしゃる通り、写真に白で囲まれている部分がサドルの高さを固定するためのボルトのようです。

このボルトを緩めれば、サドルの高さを調整することができます。

アレンキーまたは適切なツールを使用して、ボルトを緩めた後、サドルの高さを調整してください。調整が終わったら、ボルトを再びしっかりと締めることを忘れずに。

本当に、ChatGPTに目が実装されていて感動しました……!

画像認識を活用した類似の画像生成

ではもう一つ、画像認識と画像生成機能を活用した類似の画像生成をしてみましょう。

熊の画像を添付して説明してもらいます。

画像について説明してくれました。ここで注目するのは最初の部分で「森の中で草の上を歩く茶色い毛のクマ」が画像のプロンプトとしてそのまま使える文章ですね。

ではこれを使ってChatGPTに画像生成してもらいます。

なんとなく似た画像が生成されました。元々が写真なので少しイラスト感が出ているのが気にはなるところ・・・・・ですので写真のような画像を求めてみましょう。

少し写真のようになりましたが、あくまで生成画像の範囲内ですね。写真に似た画像というのは難しいようです。しかしながら、イラスト・画像から類似の画像生成というのは可能です。

これなら、(この画像は著作権もあるし似たものが欲しいなぁ)と思った際に活用できると思います。

なお、画像生成AIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
【無料あり】画像生成AI!超おすすめの神ツール比較まとめ5選

ChatGPTはGPT-4Vによってさらなる進化を遂げた

今回のアップデートを通して、ChatGPTはマルチモーダルAIとなりました。生成スピード、クオリティも高く、直感的に使いやすいデザインとなっています。

これまで、ChatGPTが画像を取得できなかったり、音声を取得できなかったことから、サードパーティが開発したプラグインやサービスが使われていました。

しかし、ChatGPTで音声入力と画像認識ができるようになった今、それらのサービスは価値を失うことになります。ChatGPTでほとんどのことができてしまい、それ以外のサービスを使う必要がなくなってしまっています。

10月に公開されたDALL-E3が発表された時は、そのあまりのクオリティとChatGPTとの掛け合わせで、Twitter上に「Bye bye Midjourney(さよならMidjourney)」というコメントが多くみられました。

ChatGPTのマルチモーダル化はそれほどインパクトを持つことなのです。

マルチモーダルといえば、GoogleのBardもマルチモーダルAIの一つです。
大型アップデートも行われ、既存の機能に加えてGoogle Workspaceとの連携ができるようになりました。Bardも強力なLLMの一つですが、ChatGPTには及びません。

今後、ChatGPTのような万能AIが単体で普及していくのか・・・、それとも複数のAIが乱立していくのか・・・、それはまだわかりません。
しかし、GPT-4Vの登場は今後のさらなる進化を期待させるものとなるでしょう。

サービス紹介資料

【無料】2023年2月版生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIの業務活用コンサルティング

・システム間API連携

サービス紹介資料

生成系AIの業務活用なら!

・生成系AIを活用したPoC開発

・生成系AIのコンサルティング

・システム間API連携

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • Hiromi Sai

    ChatGPTメディア運営 / テクニカルライター リベラルアーツ専攻。大学休学中は、Webマーケティング会社のマネージャーとしてライター、ディレクター100名のマネジメントをする。南米のチリとタイでの長期居住歴を持つ。

  • URLをコピーしました!
  • URLをコピーしました!
目次