BOS‐04: 生成 AI コワクナイヨ!AWS マネジメントコンソールで始める Amazon Bedrock - novel-suzukikeisuke/study GitHub Wiki

生成 AI (Generative AI) とは?

  • 画像、会話、文章、音楽など、新しいコンテンツやアイデアを創造
  • 一般に基盤モデル (Foundation Model) と呼ばれる、膨大なデータに基づいて事前にトレーニングされた大規模モデルを搭載

生成 AI は深層学習の一種

  • 人工知能 (Artificial Intelligence, AI)
    • 人間の知的判断をコンピュータ上で実現するための技術全般 (ロジック、if-then 文、機械学習)
  • 機械学習 (Machine Learning, ML)
    • AI の一種であり、知的モデルを構築するためにデータの中の傾向を学習する技術
  • 深層学習 (Deep Learning, DL)
    • ML の一種であり、音声・画像認識などのタスクを深い複数レイヤー構造のニュートラルネットワークで実現する技術
  • 生成 AI (Generative AI)
    • テラバイト規模のデータを学習することで、追加学習なしに人間に近しい生成を実現する技術

基盤モデルとは

  • 膨大なデータに基づいて事前にトレーニングされた大規模モデル
  • 大規模言語モデル(Large Language Model)
    • テキストデータを学習
    • テキスト生成、要約、翻訳、チャットボット
    • 与えられたテキストの次に来る単語の確率を算出する
      • 例 : 桃太郎がお供に連れていたのは、犬、猿、 (続くことばの確率を計算)キジ 99% ハト 0.1% ネズミ 0.1% 弟 0.1%
    • コードの続きも書けるし、質問の続き(答え)もわかる
      • 例 : 日本の首都はどこですか? => 東京です。
    • LLM に入力するテキスト = 「プロンプト」
  • 画像生成モデル
    • 画像データを学習
    • 写実的な画像,3D風画像, アニメ風画像

Amazon Bedrock

生成 AI 活用をはじめる上での難しさ

  • 生成 AI の進化への追従
    • それぞれのモデルが進化し、コストや性能を比べるのが大変
  • インフラストラクチャ
    • モデルの実行を支えるインフラの管理が大変
  • プライバシーとセキュリティ
    • データ漏洩の可能性がある

Amazon Bedrock

  • 基盤モデル(FM)を使用した生成AI アプリケー ションを構築・拡張する最も簡単な方法
    • 単一の API を介してさまざまな基盤モデルにアクセス、インフラ管理は不要
    • お客様の業務用途に適した基盤モデルを選択
    • データセキュリティやコンプライアンスを実現
    • エージェント機能、RAG 機能、非公開でのモデル のカスタマイズなど基盤モデルの効果を高める さまざまな機能を提供

覚えておきたい LLM 用語

  • トークン、token
    • テキストを LLM に入力するために変換 (tokenization) したあとの基本的な単位のこと
      • 単語単位でトークン化する例 : This is a pen. => This/is/a/pen/. = 5トークン
    • 入力したテキストがいくつのトークンに分割されるかは使用する LLM によって異なる
    • 英語テキストをベースに作成された LLM の場合、同じ内容のプロンプトでも、英語と比べて日本語の方がトークン数が多くなる傾向がある
    • LLM が扱えるテキストの⻑さは、LLM が対応する コンテキスト⻑ によって異なる

Amazon Bedrock の利用イメージ

  • 様々な基盤モデルをサーバレスに提供API によって呼び出すことができる ####データセキュリティ・コンプライアンス
  • データが 基盤モデルの学習や AWS およびサードパーティーの モデルプロバイダーに 共有されることは無い
  • 全ての転送・保管されるデータは常に暗号化
  • GDPR (一般データ保護規則) HIPPA コンプライアンス等標準規格に準拠している

デモ動画を視聴

  • 推論時のパラメーター (Claude の場合)
    • Temperature (温度)
      • 値が低いほど、次に続く可能性が高い単語(出現確率が高い単語)を採用しやすくなる
    • Top P
      • 出現確率が高い順に並べ、合計 P % になるまで採用する
    • Top K
      • 出現確率が高い上位 N 個から採用する
  • 堅実な回答をさせたい場合は Temperature, Top P, Top K の値を下げる
  • 創造性の高い(面白い)回答をさせたければ値を上げる