BOS‐04: 生成 AI コワクナイヨ！AWS マネジメントコンソールで始める Amazon Bedrock - novel-suzukikeisuke/study GitHub Wiki

生成 AI (Generative AI) とは?

画像、会話、文章、音楽など、新しいコンテンツやアイデアを創造
一般に基盤モデル (Foundation Model) と呼ばれる、膨大なデータに基づいて事前にトレーニングされた大規模モデルを搭載

生成 AI は深層学習の一種

人工知能 (Artificial Intelligence, AI)
- 人間の知的判断をコンピュータ上で実現するための技術全般 (ロジック、if-then 文、機械学習)
機械学習 (Machine Learning, ML)
- AI の一種であり、知的モデルを構築するためにデータの中の傾向を学習する技術
深層学習 (Deep Learning, DL)
- ML の一種であり、音声・画像認識などのタスクを深い複数レイヤー構造のニュートラルネットワークで実現する技術
生成 AI (Generative AI)
- テラバイト規模のデータを学習することで、追加学習なしに人間に近しい生成を実現する技術

基盤モデルとは

膨大なデータに基づいて事前にトレーニングされた大規模モデル
大規模言語モデル(Large Language Model)
- テキストデータを学習
- テキスト生成、要約、翻訳、チャットボット
- 与えられたテキストの次に来る単語の確率を算出する
  - 例 : 桃太郎がお供に連れていたのは、犬、猿、 (続くことばの確率を計算)キジ 99% ハト 0.1% ネズミ 0.1% 弟 0.1%
- コードの続きも書けるし、質問の続き(答え)もわかる
  - 例 : 日本の首都はどこですか? => 東京です。
- LLM に入力するテキスト = 「プロンプト」
画像生成モデル
- 画像データを学習
- 写実的な画像,3D風画像, アニメ風画像

Amazon Bedrock

生成 AI 活用をはじめる上での難しさ

生成 AI の進化への追従
- それぞれのモデルが進化し、コストや性能を比べるのが大変
インフラストラクチャ
- モデルの実行を支えるインフラの管理が大変
プライバシーとセキュリティ
- データ漏洩の可能性がある

Amazon Bedrock

基盤モデル(FM)を使用した生成AI アプリケーションを構築・拡張する最も簡単な方法
- 単一の API を介してさまざまな基盤モデルにアクセス、インフラ管理は不要
- お客様の業務用途に適した基盤モデルを選択
- データセキュリティやコンプライアンスを実現
- エージェント機能、RAG 機能、非公開でのモデルのカスタマイズなど基盤モデルの効果を高めるさまざまな機能を提供

覚えておきたい LLM 用語

トークン、token
- テキストを LLM に入力するために変換 (tokenization) したあとの基本的な単位のこと
  - 単語単位でトークン化する例 : This is a pen. => This/is/a/pen/. = 5トークン
- 入力したテキストがいくつのトークンに分割されるかは使用する LLM によって異なる
- 英語テキストをベースに作成された LLM の場合、同じ内容のプロンプトでも、英語と比べて日本語の方がトークン数が多くなる傾向がある
- LLM が扱えるテキストの⻑さは、LLM が対応するコンテキスト⻑によって異なる

Amazon Bedrock の利用イメージ

様々な基盤モデルをサーバレスに提供API によって呼び出すことができる ####データセキュリティ・コンプライアンス
データが基盤モデルの学習や AWS およびサードパーティーのモデルプロバイダーに共有されることは無い
全ての転送・保管されるデータは常に暗号化
GDPR (一般データ保護規則) HIPPA コンプライアンス等標準規格に準拠している

デモ動画を視聴

推論時のパラメーター (Claude の場合)
- Temperature (温度)
  - 値が低いほど、次に続く可能性が高い単語(出現確率が高い単語)を採用しやすくなる
- Top P
  - 出現確率が高い順に並べ、合計 P % になるまで採用する
- Top K
  - 出現確率が高い上位 N 個から採用する
堅実な回答をさせたい場合は Temperature, Top P, Top K の値を下げる
創造性の高い(面白い)回答をさせたければ値を上げる