Dify：ナレッジの作成（RAG）

2025年4月9日2025年4月15日

Difyでは、様々な文書をナレッジとして登録しておき、チャットフローなどから利用することができます。

データソースとして利用可能なものは、以下の通りです。

まずは、テキストファイルからインポートを試してみます。

txt以外の場合は、含まれているテキストを抽出した上で、データベースに登録することになります。

ここでのデータベースは、ベクトルデータベースというものです。文章を全てベクトルに変換して登録することで、LLMが類似文章を見つけやすくなっています。

対象となる文書がtxt以外の場合には、別途前処理を行うことで検索効率が上がる場合があります。

チャンクとは、一塊の文章のことです。入力されたテキストを、一定のサイズに分割します。

「チャンクをプレビュー」すると、どのように分割されるのかが確認できます。

以下の文書をQA形式で分割した場合の例です。

タイトル：令和5年京都観光総合調査結果【概要】

形式：PDF 5ページ

※グラフ、表、コメントなどが含まれています。

チャンクをベクトル化する時に使用するモデルです。次元数が大きいほど情報量が増えて、検索の精度が上がります。コストがかかりますが、精度を上げるためにはtext-embedding-3-largeを選択すると良いかと思います。コストが気になる場合には、voyageも選択肢になります。

検索方法の設定は、対象となる文書によって最適解が異なりますが、通常はハイブリッド検索がおすすめです。

ハイブリッド検索は、ベクトル検索と全文検索（キーワード）とを組み合わせた検索です。さらにRerankモデルを設定しておくことで、検索精度は上がります。

「保存して処理」を押すと、データベースの作成が始まります。

関連する文書が複数ある場合には、「ファイルを追加」して同様に登録作業をおこまいます。

全ての文書のステータスが「利用可能」になれば、ナレッジ化の完了です。

定型的なナレッジの登録はプログラムからも実行可能です。例えば、「月例報告」のようなものがあれば、所定のフォルダにおくことで、自動で登録することも可能です。

関連記事