paperless-ngx

paperless-ngx

Paperless-ngxは、紙の書類をデジタル化して管理するドキュメント管理システムです。スキャンした文書にOCRでテキスト認識を適用し、自動分類・タグ付けして全文検索可能なデジタルアーカイブを構築します。

  • OCR処理 — Tesseractベースの文字認識で検索可能なPDFを生成
  • 自動分類 — 機械学習による文書の自動カテゴリ分類とタグ付け
  • 全文検索 — OCR処理済みの全文書を横断検索
  • メール取り込み — メール添付のPDFを自動的に取り込み
  • バーコード分割 — バーコード付き区切り紙で複数文書を自動分割
  • ワークフロー — 文書の割り当て、承認、消費のワークフロー管理
  • モバイル対応 — レスポンシブUIでスマートフォンからも文書を検索・閲覧

Python(Django)で構築。Dockerでセルフホスト可能。ペーパーレス化を推進し、紙の書類を検索可能なデジタルアーカイブに変換するための決定版ツールです。

Stars
37,918
Forks
2,413
言語
Python
ライセンス
GPL-3.0
angulararchivingdjangodmsdocument-managementdocument-management-systemmachine-learningocroptical-character-recognitionpdf