【AI】Gemini - j-komatsu/myCheatSheet GitHub Wiki

Gemini 解説（Google製マルチモーダルAI）

Gemini（ジェミニ）

Geminiは、Google DeepMindが開発したマルチモーダル対応のAIモデル（LLM）です。
文章、画像、音声、動画などを同時に理解・処理する力を持ち、ChatGPTやClaudeのライバルとして登場しました。

Geminiは、旧Bardの後継として2023年末にリリースされ、最新は**Gemini 1.5（2024年～）**となっています。

👁️ ChatGPTが「言葉の先生」なら、Geminiは「五感で理解できるAIの秀才」！

「この画像に写っている動物は何？」（画像添付）

これはキツネです。特徴的な赤茶色の毛並みと耳の形が見られます。

「このコードのバグを見つけて」

変数xが未定義のまま使用されています。x = 10 などの初期化が必要です。

Geminiは、PaLM 2やGPT-4と並ぶ最先端モデルで、マルチモーダル・スパースアーキテクチャが特徴です。

flowchart TD
    A[テキスト入力] --> C[Gemini Model]
    B[画像・PDFなど] --> C
    C --> D[意味統合・推論処理]
    D --> E[自然な応答生成]

項目	内容
マルチモーダル能力	テキスト＋画像＋PDFなどを統合処理
長文対応	数十万トークンの処理が可能（Gemini 1.5）
推論・計算能力	数学や論理推論に強い
Google連携	Gmail、Docs、Driveとの連携機能あり（Google One加入者）

方法	内容
Gemini Web版	https://gemini.google.com にアクセス
モバイルアプリ	Android 端末ではアシスタントと統合済み（Pixelなど）
API提供	Gemini API（Vertex AI経由）で開発者も利用可能

ポイント	内容
Geminiとは？	Google DeepMindが開発したマルチモーダルLLM
特徴	画像・PDF・テキストを横断理解、長文処理、Gmail連携など
向いている用途	ビジネス文書の解析、教育支援、資料要約、画像解析
注意点	データ共有・権限設定に注意、Google依存性