10年ぐらい前にfessという全文検索型DBを使っていた頃がありまして、PDFのデータシートや各種資料からヒットワードを含む文献を抽出・表示してくれるDBでありました。その後ご無沙汰していたのだが、最近再導入したくなってfessを探して導入を試みたのだが全文検索エンジンが変更されていて(Elasticsearchベース?)でその導入がUbuntu20.04/22.04で上手くいかなかったので挫折していたのだが、Geminiさんに尋ねてみたら、
というOSSがあるとの事で早速試してみた。以下はGeminiさんの返し:
1. Recoll
軽量で高速な全文検索エンジンです。
PDFファイルだけでなく、様々な種類のファイルに対応しています。
日本語を含む多言語に対応しているので、日本語のPDFファイルも検索できます。
https://www.recoll.org/
2. DocFetcherPDFファイルだけでなく、様々な種類のファイルに対応しています。
検索結果をプレビューしたり、フィルタリングしたりすることができます。
ポータブル版があるので、USBメモリに入れて持ち運びできます。
https://docfetcher.sourceforge.io/
3. XapianC++で書かれた全文検索エンジンです。
PythonやJavaなど、様々な言語から利用できます。
高度な検索機能が豊富なので、開発者向けです。
https://xapian.org/
もう、Gemini(LLM)なしでは生きていけない体に・・・
1.導入(recoll本家サイトより引用)
Ubuntu
There are Personal Package Archives on launchpad.net for Recoll, kio-recoll and the recoll Unity Scope. These were built from the latest versions, for the current set of supported Ubuntu versions. Procedure:
sudo add-apt-repository ppa:recoll-backports/recoll-1.15-on sudo apt-get update sudo apt-get install recoll
私はUbuntu22.04(金物はx1-tabletのCoreM3(笑)で普通に導入。
2.使い方
GUIモードがある(別にCUIモードもあるらしい)のでインデクス生成後、ワードを入力すればヒットワードを表示してくれる。日本語PDFでも普通に抽出・ヒットワードを表示してくれる。まあ、典型的な全文検索DB(のデスクトップバージョン)ですな: 上記にGeminiさんが提示してくれた他の全文検索型DBも試してみようかとおもっているが、Recollで充分な気がしているので気が向けば(やらないの婉曲的表現:)。 ところでRecollはpythonで記述されており(最近よく聞くフレーズ、AI関連に限らず:)その割にそこそこ軽快(CoreM3であっても:)なのでDBにも依るが個人的には実用的かなと今の処は見做している(気がする)。
Geminiさん、ありがとう。
20240317 2:53追記:オライリーPDF本(DRMフリーなPDFという太っ腹)をインデクスに追加する↓
物覚え目出度くない(今でも人の顔と名前が一致しない、特に名前覚えられない:)身にとっては全文検索DBは救いの神でありました。宝の持ち腐れにならぬ様(PDF書籍の事ですよ:)