2025年11月9日:ホームズ正典のみを情報ソースとするAIをMac上に構築してみた

シャーロッキアン日記

みなさんAIを活用していますでしょうか。

私もホームズに関する調べ物や、このサイトのデザイン、海外の文献の翻訳や要約などに活用しています。

しかし、AIの弱点としてハルシネーションというものがあります。もっともらしい口調で平気で嘘情報を提示というもの。原因にはいろいろありますが、ネット上の誤情報を学習しているケースもあると思います。

それなら正典だけを情報源にして答えてくれるAIがあったらいいのでは、と思い、GEMINI(GoogleのAI)に手伝ってもらい、ネットがなくても使えるように手元のMacBook上にホームズ専門AIを構築してみることにしました。

備忘録代わりにここで手順を紹介したいと思います。

 

ホームズ研究AI (RAG) を作る「狙い」

今回作った作ったホームズ研究AIは、「ホームズの正典だけを情報ソースにして質問に正確に答える」ことを目指しました。

 

一般のAIが持つ問題点の克服

普通のAI(例:ChatGPTなど)に「ワトソンが結婚した話は?」と聞くと、インターネット上の不確実な情報や、AIが学習したときの一般的な誤解に基づいて回答することがあります。また、正典以外の派生作品のネット情報と混ざってしまうこともあります。このシステムは、用意したホームズの正典60作品のデータだけを知識源として持たせることにしました。

質問には「原作に書いてあることだけ」を使って答えるようにして、不正確な情報や創作(ハルシネーション)を極力排除することを期待しています。

 

RAG(Retrieval-Augmented Generation)システムの「仕組み」

今回構築したRAGという仕組みは、「検索」と「生成」の二段階で動く仕組みです。使ったのは以下の技術です。

ベクターデータベース (ChromaDB)作成

60作品を約7000の小さな情報カードに分け、内容が似たカード同士を意味的な距離で整理して収納しました。

検索機能 (Retrieval)

質問すると、AIは正典すべてを探し回るのではなく、作成した情報カードから質問に最も関係が深い3枚〜5枚のカードだけを選び出します。

大規模言語モデル (Mistral LLM)

選ばれた数枚の情報カード(正典の引用)だけを読み、それを基に自然な文章で要約して回答を生成します。普通のAIがインターネット全体(雑多な情報源)を使って回答するのに対し、このRAGは、質問のたびに正典の「関連部分」だけを引用して回答するため、信頼性が高くなります。

 

構築の手順

このホームズ研究AIを作るために、以下のようなステップを踏みました。

環境設定(Macの準備)

Homebrew: Macで簡単にソフトウェアをインストールするためのツールを準備しました。

Python: AIプログラムを動かすための言語をインストールしました。

Ollama: Mac上でAI(LLM)を動かすためのエンジンをインストールしました。

知識の取り込み(データベース構築)

データ整理: 正典60編のテキストファイルをUTF-8という形式で準備します。

チャンキング: プログラムで、60作品を約7000個の意味の塊(チャンク)に分割しました。

ベクター化: これらのチャンクを、AIが理解できる「意味の数値」(ベクトル)に変換し、ChromaDBという専用のデータベースに保存しました。

頭脳の準備(LLMの導入)

Mistral: オープンソースで高性能なAIモデル(LLM)である「Mistral」をMacにダウンロードしました。これが回答を生成する「頭脳」ですね。

インターフェースの作成

Streamlit: ターミナルだととっつきにくいので、ブラウザで質問できるように、Streamlitというツールを使ってWebインターフェースを作成しました。これにより、ターミナル上ではなく、ブラウザ上で簡単に質問し、回答と*正典の参照元ファイル名」を確認できるようにしました。

 

構築してみて

他の作業もしながらでしたが、半日ほどの作業でなんとか完成させることができました。

しかし、簡単な質問をしてみるのですが、正典を参照とせずLLMが事前に学習していたデータから答えたりして、回答精度が低く使い物になりません。その都度、正典参照の度合いを強めたりとチューニングをしていますが、なかなかしっかりした答えにたどり着けません。これはちょっと時間をかけて調整していかないと信頼して使えるまでにはなかなかならないなと思います。

ローカルのLLMの限界なのか、文書のベクター化の問題なのか、暇を見てチューニングしながら使っていけたらと思います。

また、RAGではありませんが、GoogleのNotebook LMも似たようなコンセプトで運用できるようなので、そちらにも正典を読み込ませてどのように使えるか実験してみたいと思います。

 

冒頭画像がブラウザ上でのホームズAIの画面となります。ワードカウント機能も付けています。

コメント

タイトルとURLをコピーしました