『検索、探索、追求、Redisベクトルデータベース』
スピーカー:史磊(シ・レイ)、シニアRedisアーキテクト
特集インタビュー:ChatGPTとOpenAIも使用するRedisはどのようにしてベクトルデータベースに進化したのか?
インタビュー概要:各業界の企業は、データに基づいた意思決定を行うことが、現在および今後5年、20年、さらにはそれ以上の競争において必要不可欠であるとますます認識しています。データの増加(特に非構造化データの増加)は前例のないレベルに達しており、データ過多とAIの時代が到来しています。
この現実が示唆するのは、AIが膨大なデータを有意義に分類・処理できるということです。これは、膨大な研究開発部門とカスタムAIツールを持つAlphabet、Meta、Microsoftなどの大手テクノロジー企業だけでなく、一般企業や中小企業にとっても同様です。
人工知能に基づいた精巧に設計されたアプリケーションは、非常に大規模なデータセットを高速で処理し、新たな洞察を提供して新たな収益源を促進することで、企業に真の価値を創出します。しかし、新たに登場した「ベクトルデータベース」がなければ、どのようなデータの増加も本当の意味での実用性や民主化にはつながりません。
大規模言語モデルの爆発的な人気とともに、ベクトルデータベースも注目のトピックとなっています。数行の簡単なPythonコードで、ベクトルデータベースは大規模言語モデルの安価で効率的な「外部の脳」として機能することができます。しかし、私たちは本当に専用のベクトルデータベースが必要なのでしょうか?ベクトルデータベースは本当に必要な技術なのか、それともただの流行なのでしょうか?虹科クラウドテクノロジーの公式パートナーであるRedisの上級アーキテクト、史磊氏と一緒にRedisベクトルデータベース技術の実践について話してみましょう。
非構造化データの検索をAIで再構築する
ユーザーは、あらゆるアプリケーションやウェブサイトで検索機能が提供されることを期待しています。しかし、ビジネスデータの80%以上が非構造化データであり、テキスト、画像、音声、動画などの形式で保存されています。
組織は、あらゆる種類のデータをユーザーのニーズに応じて発見可能にする方法を再考する必要があります。強力な検索機能は、次世代アプリケーションを支える重要な役割を果たすでしょう。
「エンタープライズ向量データベースとは何ですか?」
ベクトルデータベースは、ベクトルやデータポイントの数学的表現形式でデータを格納するデータベースです。人工知能(AI)と機械学習(ML)の進歩により、自然言語処理(NLP)やコンピュータビジョンの進展を背景に、非構造化データが意味とコンテキストを捉える数値表現(ベクトル)に変換できるようになりました。
ベクトル類似性検索(VSS)は、ベクトルデータベースの重要な機能です。これは、ベクトルデータベース内で指定されたクエリベクトルと類似したデータポイントを検索するプロセスです。VSSの一般的な用途には、推薦システム、画像・動画検索、自然言語処理、異常検出などがあります。例えば、推薦システムを構築する場合、VSSを使用してユーザーが過去に興味を示した製品と類似した製品を検索し、提案することができます。
なぜVSSがベクトルデータベースの重要な構成要素であるのか?
従来のキーワードマッチングとフィルタリングはここまでの効果しかありません。通常の検索アルゴリズムは、テキストや文書のユースケースには有効ですが、検索結果に意味や文脈が含まれていない場合、限界があります。非構造化データの急増により、従来のキーワードマッチングとフィルタリングの有効性に大きなギャップが生じています。非テキストデータを保存するすべての組織(ほぼすべての組織)は、非構造化データの検索機能の向上から利益を得ることができます。しかし、最近まで、この能力を持っているのは、少数の大手クラウドネイティブテクノロジー企業に限られていました。
Redisベクトルデータベースの利点
1
リアルタイム検索
性能
検索および推奨システムは非常に高速で動作する必要があります。Redisエンタープライズ版のVSS機能は、データ収集が数万または数億のオブジェクトであっても、複数のデータベースノードに分散されていても、低い検索遅延を保証します。
2
内蔵のフォールトトレランスと弾力性
Redis エンタープライズ版は、共有なしクラスタアーキテクチャを使用しています。すべてのレベルでフォールトトレランスを備えており、プロセスレベル、単一ノード、そしてインフラストラクチャの可用性ゾーンを越えて自動フェイルオーバーを実行します。Redis エンタープライズ版には、調整可能な永続性と災害復旧メカニズムが含まれています。
3
アーキテクチャとアプリケーションの複雑性を低減する
最も可能性が高いのは、貴社がキャッシュのニーズを満たすために Redis Enterprise を活用しているということです。開発者は、Redis のハッシュや JSON オブジェクトに他のフィールドを保存するのと同じように、ベクトルを簡単に保存できます。
4
クラウド間および地理的な柔軟性
データベースの実行場所を選択できます。Redis Enterprise は、任意の場所、クラウドプラットフォーム、オンプレミス、またはマルチクラウドやハイブリッドクラウドアーキテクチャにデプロイできます。
適用シナリオ
1
検索強化(RAG)
Redis エンタープライズ版は、強力なハイブリッドセマンティクス機能を提供し、関連するコンテキストデータを LLM に送信する前にそれをプロンプトに注入し、外部分野に特有の知識を保存して結果の品質を向上させます。
2
セマンティックキャッシュ
Redis エンタープライズ版は、入力クエリとセマンティック的に非常に類似したキャッシュレスポンスを識別および取得できるため、レスポンスタイムを大幅に短縮し、LLM に送信するリクエスト数を削減します。
3
レコメンデーションシステム
Redis エンタープライズ版は、低遅延でユーザーに新鮮で関連性の高い提案を提供する推薦エンジンを支援します。これにより、ショッピング客が好む製品に類似した製品を見つけることができます。
4
ドキュメント検索
Redis エンタープライズ版は、自然言語およびセマンティック検索を活用することで、大規模な文書コーパスから情報をより簡単に発見し、検索することができます。
顧客事例
ベクトル類似性検索機能
ベクトルインデックスアルゴリズム
Redis エンタープライズ版は、インデックスデータ構造を使用してベクトルを管理し、インテリジェントな類似性検索を実現し、検索速度と検索品質のバランスを取ります。データとユースケースに応じて、2つの人気技術、FLAT(ブルートフォース法)と HNSW(より高速で近似的な方法)のいずれかを選択できます。
ベクトル検索距離指標
Redis エンタープライズ版は、距離尺度を使用して2つのベクトル間の類似性を測定します。2つのベクトルの「近さ」や「遠さ」を計算するために、3つの人気の指標(ユークリッド距離、内積、コサイン類似度)から選択できます。
強力なハイブリッドフィルタリング
Redis エンタープライズ版が提供する検索機能の全セットを活用してください。ベクトル類似性の強力な機能を、より従来の数値、テキスト、タグフィルターと組み合わせることで、ワークフローを強化します。クエリにより多くのビジネスロジックを統合し、クライアントアプリケーションコードを簡素化します。
リアルタイム更新
リアルタイム検索と推薦システムは、大量の絶えず変化するデータを生成します。新しい画像、テキスト、製品、またはメタデータが含まれます。データセットが時間とともに変化する中で、検索インデックスの更新、挿入、削除をシームレスに実行します。Redis エンタープライズ版は、データの停滞が引き起こす高コストな影響を削減します。
ベクトル範囲検索
従来のベクトル検索は、「前 K 個」の最も類似したベクトルを検索することで実行されます。Redis エンタープライズ版は、事前に定義された類似性範囲や閾値内で関連するコンテンツを発見することもサポートしており、より柔軟な検索体験を提供します。