全文検索デスクトップDB

　１０年ぐらい前にfessという全文検索型DBを使っていた頃がありまして、PDFのデータシートや各種資料からヒットワードを含む文献を抽出・表示してくれるDBでありました。その後ご無沙汰していたのだが、最近再導入したくなってfessを探して導入を試みたのだが全文検索エンジンが変更されていて（Elasticsearchベース？）でその導入がUbuntu20.04/22.04で上手くいかなかったので挫折していたのだが、Geminiさんに尋ねてみたら、

www.recoll.org

　というOSSがあるとの事で早速試してみた。以下はGeminiさんの返し：

1. Recoll

軽量で高速な全文検索エンジンです。
PDFファイルだけでなく、様々な種類のファイルに対応しています。
日本語を含む多言語に対応しているので、日本語のPDFファイルも検索できます。
https://www.recoll.org/
2. DocFetcher

PDFファイルだけでなく、様々な種類のファイルに対応しています。
検索結果をプレビューしたり、フィルタリングしたりすることができます。
ポータブル版があるので、USBメモリに入れて持ち運びできます。
https://docfetcher.sourceforge.io/
3. Xapian

C++で書かれた全文検索エンジンです。
PythonやJavaなど、様々な言語から利用できます。
高度な検索機能が豊富なので、開発者向けです。
https://xapian.org/

　もう、Gemini(LLM)なしでは生きていけない体に・・・

１．導入（recoll本家サイトより引用）

Ubuntu

There are Personal Package Archives on launchpad.net for Recoll, kio-recoll and the recoll Unity Scope. These were built from the latest versions, for the current set of supported Ubuntu versions. Procedure:

sudo add-apt-repository ppa:recoll-backports/recoll-1.15-on
sudo apt-get update
sudo apt-get install recoll

　私はUbuntu22.04（金物はx1-tabletのCoreM3（笑）で普通に導入。

２．使い方

　GUIモードがある（別にCUIモードもあるらしい）のでインデクス生成後、ワードを入力すればヒットワードを表示してくれる。日本語PDFでも普通に抽出・ヒットワードを表示してくれる。まあ、典型的な全文検索DB（のデスクトップバージョン）ですな：　上記にGeminiさんが提示してくれた他の全文検索型DBも試してみようかとおもっているが、Recollで充分な気がしているので気が向けば（やらないの婉曲的表現：）。　ところでRecollはpythonで記述されており（最近よく聞くフレーズ、AI関連に限らず：）その割にそこそこ軽快（CoreM3であっても：）なのでDBにも依るが個人的には実用的かなと今の処は見做している（気がする）。

　Geminiさん、ありがとう。

20240317 2:53追記：オライリーPDF本（DRMフリーなPDFという太っ腹）をインデクスに追加する↓