aki_iic’s blog

己の欲せざる処人に施す事無かれ、狂人の真似するは即ち狂人なり

全文検索デスクトップDB

 10年ぐらい前にfessという全文検索型DBを使っていた頃がありまして、PDFのデータシートや各種資料からヒットワードを含む文献を抽出・表示してくれるDBでありました。その後ご無沙汰していたのだが、最近再導入したくなってfessを探して導入を試みたのだが全文検索エンジンが変更されていて(Elasticsearchベース?)でその導入がUbuntu20.04/22.04で上手くいかなかったので挫折していたのだが、Geminiさんに尋ねてみたら、

www.recoll.org

 というOSSがあるとの事で早速試してみた。以下はGeminiさんの返し:

1. Recoll

軽量で高速な全文検索エンジンです。
PDFファイルだけでなく、様々な種類のファイルに対応しています。
日本語を含む多言語に対応しているので、日本語のPDFファイルも検索できます。
https://www.recoll.org/
2. DocFetcher

PDFファイルだけでなく、様々な種類のファイルに対応しています。
検索結果をプレビューしたり、フィルタリングしたりすることができます。
ポータブル版があるので、USBメモリに入れて持ち運びできます。
https://docfetcher.sourceforge.io/
3. Xapian

C++で書かれた全文検索エンジンです。
PythonJavaなど、様々な言語から利用できます。
高度な検索機能が豊富なので、開発者向けです。
https://xapian.org/

 もう、Gemini(LLM)なしでは生きていけない体に・・・

 

1.導入(recoll本家サイトより引用)

Ubuntu

There are Personal Package Archives on launchpad.net for Recoll, kio-recoll and the recoll Unity Scope. These were built from the latest versions, for the current set of supported Ubuntu versions. Procedure:

sudo add-apt-repository ppa:recoll-backports/recoll-1.15-on
sudo apt-get update
sudo apt-get install recoll

 私はUbuntu22.04(金物はx1-tabletのCoreM3(笑)で普通に導入。

2.使い方

 GUIモードがある(別にCUIモードもあるらしい)のでインデクス生成後、ワードを入力すればヒットワードを表示してくれる。日本語PDFでも普通に抽出・ヒットワードを表示してくれる。まあ、典型的な全文検索DB(のデスクトップバージョン)ですな: 上記にGeminiさんが提示してくれた他の全文検索型DBも試してみようかとおもっているが、Recollで充分な気がしているので気が向けば(やらないの婉曲的表現:)。 ところでRecollはpythonで記述されており(最近よく聞くフレーズ、AI関連に限らず:)その割にそこそこ軽快(CoreM3であっても:)なのでDBにも依るが個人的には実用的かなと今の処は見做している(気がする)。

 Geminiさん、ありがとう。

 

20240317 2:53追記:オライリーPDF本(DRMフリーなPDFという太っ腹)をインデクスに追加する↓

Recoll オライリーDRMフリーなPDF本

 物覚え目出度くない(今でも人の顔と名前が一致しない、特に名前覚えられない:)身にとっては全文検索DBは救いの神でありました。宝の持ち腐れにならぬ様(PDF書籍の事ですよ:)