Gemini (言語モデル)

Gemini（ジェミニ）は、Google DeepMindによって開発されたマルチモーダル大規模言語モデルのファミリーであり、LaMDAおよびPaLM2の後継として供する。（2023年12月6日に発表された）Gemini Ultra、Gemini Pro、Gemini Nanoからなり、OpenAIのGPT-4のライバルとして位置付けられた。

歴史

開発

Googleは、2023年5月10日のGoogle I/O基調講演の期間中（子会社のGoogle DeepMindによって開発された大規模言語モデル（LLM）である）Geminiを発表した。これは、GoogleのCEOサンダー・ピチャイによると「Geminiはまだ初期の開発段階にある」と述べるものの（同イベントでも、お披露目された）PaLM2のより強力な後継として位置付けられていた。他のLLMとは異なり、Geminiはテキスト・コーパスのみでトレーニングされておらず、テキスト、画像、音声、映像、そしてコンピュータ・コードを含む、異なる種類のデータを同時に処理できることを意味するマルチモーダルになるように設計されている点でユニークであると言われている。これはGoogle DeepMindとして先月統合されたGoogleの2部門であるDeepMindとGoogle Brainのコラボレーションとして開発された。Wired誌とのインタビューで、DeepMindのCEOデミス・ハサビスは、その人気ぶりがGoogleにLaMDAとBardを使ってアグレッシブに挑戦させてきたOpenAIのGPT-4で動くChatGPTを自社のアルゴリズムで打ち負かすことが可能であると彼が信じたGeminiの高度な能力を押し売りした。ハザビスいわくGeminiはAlphaGoとその他のGoogle＝DeepMind製LLMの力を組み合わせるだろうとし、（2016年に囲碁チャンピョンのイ・セドルを負かしたとき世界中の注目を得た）DeepMindのAlphaGoプログラムの強さを強調した。

2023年8月、The InformationはGeminiについてGoogleのロードマップを要約したレポートを発表し、同社が2023年後半のローンチを目標にしていることを明らかにした。レポートによると、Googleは現在大抵のLLMに備わっている会話型テキスト能力を人工知能を駆使した画像生成と組み合わせて、コンテキストに応じた画像作成を可能にし、より広範囲のユースケースに適応されることで、OpenAIやその他競合他社を凌駕したいと望んでいた。Bardと同様に、Googleの共同創設者であるセルゲイ・ブリンも、Google BrainとDeepMindのその他何百人ものエンジニアとともに、Geminiの開発を支援するためにセミリタイア生活から召喚された。GeminiはYouTubeの動画のトランスクリプト（文字起こし）でも訓練を受けていたため、如何なる潜在的に著作権保護されている素材を排除するために弁護士も連れてこられた。

Geminiのローンチが差し迫っているというニュースを受けて、OpenAIはGPT4をGeminiと同様のマルチモーダル機能と統合する作業を急かした。The Information が9月に報じたところによると、数社がGoogle CloudのVertex AIサービス経由でクライアントに利用可能にさせることをGoogleが企図していたLLMの「初期バージョン」への早期アクセスを承諾されていた。この報告は、GoogleがGPT4とマイクロソフトのGitHub Copilot両方諸共打ち負かすためにGeminiを武装させていることも同様に言及されていた。12月2日、同誌はGoogleは英語以外のプロンプトに問題があるため、Geminiのローンチを翌週から2024年1月に延期し、付け加えて3つのローンチ・イベントがニューヨーク市、ワシントンD.C.、そしてカリフォルニアで計画されていたと報告した。

ローンチ

2023年12月6日、ピチャイとハサビスはバーチャル記者会見で「Gemini 1.0」を発表した。「非常に複雑なタスク」向けに設計されたGemini Ultraと「幅広いタスク」向けに設計されたGemini Pro、そして「オン=デバイス・タスク」用に設計された、Gemini Nanoの3つのモデルが発表された。ローンチ時に、Gemini Proと(Gemini )NanoはBardとPixel 8 Proスマートフォンにそれぞれ統合されたが、一方Gemini Ultraは「Bard Advanced」を強化し、2024年初めにソフトウェア開発者が利用可能になる。GoogleがGeminiを組み込むことを企図していたその他製品には、検索、広告、Chrome、Google Workspace上のDuet AI、そしてAlphaCode2が含まれていた。それ(ら)は英語(版)のみ利用可能となった。Googleに「最大かつ最も有能なAIモデル」として押し売りされ、人間の行動をエミュレートするように設計された（それについて）同社は、Geminiには「広範囲にわたる安全性のテスト」の必要性により、翌年まで幅広く利用できるようにはならないだろうと述べた。GeminiはGoogleのテンソル・プロセッシング・ユニット（TPU）でトレーニングされ、そして駆動させており、その名前はDeepMindとGoogle Brainの合併およびNASAのジェミニ計画にちなんで付けられている（※ジェミニの意味は、ふたご座)。

Gemini Ultraは、さまざまな業界ベンチマークでGPT4、AnthropicのClaude2、Inflection AIのInflection2、MetaのLLaMA2、xAIのGrok1よりもアウトパフォームしたと言われる一方、Gemini ProはGPT-3.5よりアウトパフォームしたと言われていた。Gemini Ultraも同じく、57科目の大規模マルチタスク言語理解（MMLU）テストで人間の専門家を上回り、90%のスコアを獲得した最初の言語モデルでもあった。Gemini Proは12月13日にAI StudioとVertex AIでGoogle Cloudの顧客に利用できるようになり、一方でGemini NanoはAndroid開発者にも利用できるようになる。ハサビスはさらに、DeepMindがGeminiを「ロボット工学と組み合わせて世界と物理的に対話する」方法を模索していることを明らかにした。10月にジョー・バイデン大統領が署名した大統領令14110に従って、GoogleはGemini Ultraのテスト結果をアメリカ合衆国連邦政府と共有すると述べた。同様に、同社は11月にブレッチリー・パークで開催されたAI安全サミットで定められた原則を遵守するためにイギリス政府との協議に取り組んでいる。

レセプション

GeminiのローンチはMITテクノロジーレビュー が「AIの誇大広告」と揶揄した、数か月にわたる激しい憶測と期待によって予期されていた。2023年8月、調査会社セミアナリシス(SemiAnalysis)のディラン・パテル(Dylan Patel)氏とダニエル・ニッシュボール(Daniel Nishball)氏が、Geminiのリリースが「世界を食い尽くし」そしてGPT4を追い落とす(outclass)と宣言するブログ投稿を書き、OpenAIのCEOサム・アルトマンがX（旧Twitter）でこの二人を即座に嘲笑することになった。イーロン・マスク（OpenAIの共同創設者）も加勢し、「数字は間違っているのか?（"Are the numbers wrong?"）」と尋ねたうえ、Business Insider のヒュー・ラングレー（Hugh Langley）はGeminiがGoogleにとって運命を左右する瞬間になるだろうと述べ、次のように書いた:「もしGeminiが眩惑するなら(※原文: dazzles、星座に引っ掛けたダジャレ)、それはGoogleがMicrosoftとOpenAIによって盲点を突かれたという物語を変えるのに役立つだろう。逆にそれが期待外れだったら、Googleは遅れをとっているという批判家たちを勢い付かせることになるだろう。」

2023年12月のお披露目に際して、ワシントン大学のオーレン・エツィオーニ名誉教授は、GoogleとOpenAI間の「軍拡競争の応酬」を予測した。カリフォルニア大学バークレー校教授のアレクセイ・エフロスはGeminiのマルチモーダルなアプローチの可能性を賞賛し、一方サンタフェ研究所の科学者メラニー・ミッチェルはGeminiを「非常に洗練されている」と評した。ワシントン大学のチラグ・シャー（Chirag Shah）教授は、GeminiのローンチをAppleが毎年発表する新しいiPhoneに喩え、それほど感銘を受けなかった。同様に、スタンフォード大学のパーシー・リアン（Percy Liang）とワシントン大学のエミリー・ベンダーは、使用されたトレーニングデータについての洞察がなければベンチマークスコアを解釈するのは難しいと警告した。