【4M】Apple開発のマルチモーダルAI訓練用フレームワークの仕組みを徹底解説

4M Apple マルチモーダルAI フレームワーク 解説

WEELメディア事業部リサーチャーのいつきです。

今回みなさんにお伝えするのは、EPFL(スイス連邦工科大学ローザンヌ校)が発表した、マルチモーダルAIをトレーニングするためのフレームワーク「4M」について。

なんと、あのiPhoneで有名なApple社も開発に携わっており、マルチモーダルAIをトレーニングするためのフレームワークとして申し分ない機能を備えています。

以下が、4Mの紹介ビデオです。

テキスト・画像・バウンディングボックスなど、複数のモダリティに対応したAIモデルを開発できるため、今後さまざまなAIツールに実装されそうですね!

今回は、4Mの機能や仕組みを解説します。

最後まで読んでいただくと、AIモデル開発の最新技術を把握できるため、将来的に自社でAIツールを導入したり、開発したりする際に役立つのは間違いありません。

ぜひ最後までご覧ください。

なお弊社では、生成AIツール開発についての無料相談を承っています。こちらからお気軽にご相談ください。
→無料相談で話を聞いてみる

目次

4Mの概要

4Mは、Any-to-Anyの入出力を可能にする、マルチモーダルAIをトレーニングするためのフレームワークです。EPFL(スイス連邦工科大学ローザンヌ校)がApple社と共同で開発しました。

なお、4MはMassively Multimodal Masked Modelingの略称です。その名のとおり、テキスト・画像・ニュートラルネットワークなど、幅広い入出力モダリティをマスクしたモデルを使用しています。

また、4Mでトレーニングされたモデルは、ユーザーが求める結果を予測する機能が備わっているのもポイント。内容を少し入力するだけで欲しかった結果が得られるので、さまざまなビジョンをすぐに実行できます。

参考記事:Massively Multimodal Masked Modeling

なお、マルチモーダルAIについて詳しく知りたい方は、下記の記事を合わせてご確認ください。
マルチモーダルAIとは?特徴やできること、代表例を解説

4Mの機能

優秀な機能を多数備えている4Mですが、おもに以下4つの機能に分類されます。

  • マルチモーダルAIモデルのトレーニング
  • モダリティの予測生成
  • 1つのモダリティから多様なモダリティを生成
  • インペインティング機能による出力結果の修正

それぞれの機能を詳しく解説していくので、ぜひ参考にしてみてください。

マルチモーダルAIモデルのトレーニング

4Mは、テキスト・画像・マップなどの多様なモダリティに対応できる、単一の統一されたトランスフォーマーエンコーダーおよびデコーダーをトレーニングできます。上記画像の左側は、画像モダリティ (RGB、深度など) のトークン化されたバージョンを操作している様子です。

一方、右側の画像は、ランダムに選択されたデータを予測するために使用しているトランスフォーマーエンコーダーとデコーダーの関係性を示しています。

ランダムで抽出したトークンがトランスフォーマーエンコーダーとデコーダーを介すことで、コンテンツを生成できるというわけですね!

また、モデルと対話する新しい方法を可能にするモダリティや、 画像メタデータやカラーパレットなどの生成を制御することも可能です。

モダリティの予測生成

4Mでトレーニングされたモデルは、部分的な入力を実行するだけで、ユーザーが求める結果を予測して出力してくれます。上記画像にその一例が載っていますが、不完全な入力から完璧なRGB画像を出力したり、バウンディングボックスを出力できるのが特徴です。

なお、複数のモダリティを一貫した方法で予測しているものの、出力結果が毎回同じとは限りません。ただ、生成されたトークンは、デトークナイザーを使用して、画像・テキスト・その他のモダリティに戻せるようなので安心ですね!

1つのモダリティから多様なモダリティを生成

4Mを使用すれば、1つのモダリティから多様なモダリティを生成できます。上記画像はその一例ですが、これだけでもかなりの出力形式に対応していることがわかりますね!

また、以下の画像は、RGB入力から複数のモダリティを出力している様子です。

画像を見比べると、予測の一貫性はかなり高いことがわかりますね!

インペインティング機能による出力結果の修正

インペインティング機能とは、画像の一部をピンポイントで修正できる機能です。4Mはこの機能とAny-to-Anyの予測機能を組み合わせているので、出力結果を高精度で修正できます

以下の画像では、実際に画像の出力結果を修正している様子がわかります。

上記の画像では、寝室の写真とスタジオライトを出力するように指示しています。ここでバウンディングボックスに手を加えて、出力されたのが以下の画像です。

最初は、実物の自転車がベッドの前に置かれていましたが、バウンディングボックスの位置を変更することで、自転車が絵画となって壁にかかるようになりました。

このように、手軽に出力結果を修正できるのは、かなり便利ですね!

4Mの仕組み

4Mは、開発時点でさまざまな工夫を取り入れることで、優秀なフレームワークとして成長を遂げています。

とくに、4Mの機能を理解するうえで、以下3つの仕組みは押さえておきましょう。

  • 多様なモダリティに対して適切なトークン化スキームを採用
  • 多様なモダリティと大規模なテキストコーパスで共同トレーニング
  • アブレーション研究によって最適なモデル設計を構築

それぞれの仕組みを以下で解説していきます。

多様なモダリティに対して適切なトークン化スキームを採用

4Mは、モダリティの形式や性能に基づいて、それぞれのモダリティに適したトークン化スキームを採用しています。

ちなみに、トークン化は、機密性の高いデータを取り扱う際に採用される仕組みです。フォーマットは維持しながら、解読不能なランダムな数字又は文字列に置き換えて情報を保護しています。

以下の画像には、4Mに採用されているトークン化スキームの例が記載されています。

画像のようなモダリティや特徴マップに対しては、空間的なVQ-VAEを活用しています。一方、RGB画像などのモダリティに対しては、オプションで拡散デコーダーを使用しているようです。

また、非空間的なモダリティは、MLPエンコーダーとデコーダーを備えたVQ-VAEを用いてトークン化しているとのこと。すべてのシーケンスモダリティは、WordPieceトークナイザを使用してテキストとしてエンコードされています。

多様なモダリティと大規模なテキストコーパスで共同トレーニング

4Mは、多様なモダリティと大規模なテキストコーパスで共同トレーニングされているので、高度なテキスト理解力を備えています。ちなみに、テキストコーパスとは、「自然言語処理の研究に用いるために、自然言語の文章を構造化して大規模に集積したもの」のことです。

以下の画像では、今回ご紹介しているモデルを4M-21として、小規模なモダリティでトレーニングされた4M-7と比較した様子を示しています。

画像を見比べると、4M-21で生成した画像のほうが、プロンプトの条件により近いことがわかりますね!

アブレーション研究によって最適なモデル設計を構築

4Mの開発チームは、事前学習を行うモダリティの種類や入出力に使用するトークン数などの主要な設計を決めるために、広範囲なアブレーション研究を行っています。

トレーニング済みのモデルでさまざまなタスクを実行し、平均的な損失をレポートとしてまとめることで、複数の設計パターンで効果を測定したようです。

また、すべてのモダリティを入出力の対象としてトレーニングすることで、新しいタスクやモダリティに最も適した汎用性の高いモデルを完成させています。

なお、生成AIツールの開発コストを下げる方法を詳しく知りたい方は、下記の記事を合わせてご確認ください。
生成AIツールの開発費用が高い!コストを下げる2つの方法をご紹介

4Mはフレームワークとして高い可能性を秘めている

4Mのレポートを拝見して筆者が率直に感じたのは、「AIモデルはまだまだ発展する高い可能性を秘めている」ということです。最近では、大規模言語モデルのマルチモーダル化が進んでいますが、4Mが普及すれば言語モデル以外のAIモデルについてもマルチモーダル化が進んでいくと予想できます。

本記事で紹介した4Mの機能を再度まとめました。

  • マルチモーダルAIモデルのトレーニング
  • モダリティの予測生成
  • 1つのモダリティから多様なモダリティを生成
  • インペインティング機能による出力結果の修正

とくに、AIモデルの予測技術を組み込んだ「インペインティング機能」は、画像や動画編集の分野で重宝されていくのではないでしょうか。筆者もこの機能を実装したAIツールが登場するのを楽しみに待とうと思います。

ちなみに、4Mをここまでの性能にしているのは、以下3つの仕組みがあってこそです。

  • 多様なモダリティに対して適切なトークン化スキームを採用
  • 多様なモダリティと大規模なテキストコーパスで共同トレーニング
  • アブレーション研究によって最適なモデル設計を構築

さまざまな実験や工夫を積み重ねた結果が今に至っているというわけですね。

なお、4MはGitHubでコードが近日公開される予定なので、公開され次第使ってみてください。

最後に

いかがだったでしょうか?

弊社では

・マーケティングやエンジニアリングなどの専門知識を学習させたAI社員の開発
・要件定義・業務フロー作成を80%自動化できる自律型AIエージェントの開発
・生成AIとRPAを組み合わせた業務自動化ツールの開発
・社内人事業務を99%自動化できるAIツールの開発
ハルシネーション対策AIツールの開発
自社専用のAIチャットボットの開発

などの開発実績がございます。

まずは、「無料相談」にてご相談を承っておりますので、ご興味がある方はぜひご連絡ください。

➡︎生成AIを使った業務効率化、生成AIツールの開発について相談をしてみる。

生成AIを社内で活用していきたい方へ

「生成AIを社内で活用したい」「生成AIの事業をやっていきたい」という方に向けて、生成AI社内セミナー・勉強会をさせていただいております。

セミナー内容や料金については、ご相談ください。

また、弊社紹介資料もご用意しておりますので、併せてご確認ください。

投稿者

  • いつき

    高卒6年目にして独立開業した、フリーランスのWebライター。 ChatGPTをはじめ、多くのAIツールを使いこなした経験を基に、AIメディアの記事を執筆中。 複数のWebメディアに在籍し、ライター・ディレクター業務をマルチにこなす。

  • URLをコピーしました!
  • URLをコピーしました!
目次