PDF nach Inhalte finden

Aktuelle Version: 12.18 (20.11.2019)
Alles zum Thema Directory Opus
Antworten
Maui
Beiträge: 63
Registriert: 7. Mär 2019 19:37
Betriebssystem: Windows 10 Pro
Produkt: Opus 12
Version DOpus: Pro

PDF nach Inhalte finden

Beitrag von Maui » 29. Jul 2019 15:35

Hallo,
aktuell muss ich mehrere tausend PDF Dateien vorsortieren und in Jahres-Verzeichnisse einordnen.
Ich würde gerne wissen, ob man PDF Dateien durch den OCR Inhalt durchsuchen lassen kann?

Derzeit sollte es schon reichen wenn ich nach einem echten Datum suchen kann.
Zum Beispiel möchte ich alle Dokumente innerhalb eines Jahres wie 01.01.2018 bis 31.12.2018 finden lassen?

Kann ich da mit Reguläre ausdrücke arbeiten um wirkliche Datumsangaben aus Textinhalte zu identifizieren?
Danke
M

Benutzeravatar
tbone
Berater
Beiträge: 572
Registriert: 22. Nov 2014 21:16
Betriebssystem: 7*64
Produkt: aktuelle Beta-Version
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von tbone » 29. Jul 2019 16:37

Dazu musst Du unter WIndows einen PDF Filter installieren, dann kannst Du mit der normalen Explorer-Suche oder der "Windows-Suche" in DO diese PDFs durchsuchen. Die Syntax ist eine Windows eigene, folgende Links geben Dir vll einen Start.

https://www.windowspro.de/wolfgang-somm ... urchsuchen
https://docs.microsoft.com/en-us/window ... sreference

Maui
Beiträge: 63
Registriert: 7. Mär 2019 19:37
Betriebssystem: Windows 10 Pro
Produkt: Opus 12
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von Maui » 29. Jul 2019 16:52

Ich hatte in DO unter "Dateien suchen" bei der Option erweitert einen Eintrag hinzugefügt
Enthält Regulären Ausdruck benutzen und den gesuchten Text eingegeben.
Aber scheint so nicht zu funktionieren.
Ich dachte, super ist drin, aber wie funktioniert es?

Benutzeravatar
Nobmen
Boardbetreuer
Beiträge: 2008
Registriert: 26. Jun 2004 08:48
Betriebssystem: Win 10 Home/Pro 32/64bit
Produkt: DOpus 12.x + Betas
Version DOpus: Pro
Kontaktdaten:

Re: PDF nach Inhalte finden

Beitrag von Nobmen » 29. Jul 2019 17:13

etwas installieren?
geht bei mir ohne nach suchwort 2018 in der einfachen suche
oder in der erweiterten mit "enthält +gleich+suchwort"

Maui
Beiträge: 63
Registriert: 7. Mär 2019 19:37
Betriebssystem: Windows 10 Pro
Produkt: Opus 12
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von Maui » 29. Jul 2019 18:43

ja so einfach ist es nicht, da im Dateinamen ein Datum automatisch beim Scannen definiert wurde.
Dieses ist ein späteres Datum und daher muss der Inhalt auf ein Datum geprüft werden.
Am besten ein Regulärere Ausdruck für ein Jahres Datum.
Einfach nur nach 2018 zu suchen erzielt kein wirklich gutes Ergebnis.

Benutzeravatar
Nobmen
Boardbetreuer
Beiträge: 2008
Registriert: 26. Jun 2004 08:48
Betriebssystem: Win 10 Home/Pro 32/64bit
Produkt: DOpus 12.x + Betas
Version DOpus: Pro
Kontaktdaten:

Re: PDF nach Inhalte finden

Beitrag von Nobmen » 29. Jul 2019 21:27

?, es werden doch nur die dateien (mit erweitert getestet) angezeigt die inhalte des datums mit 2018 aufweisen?
die zahl im dateinamen wird ignoriert.

Maui
Beiträge: 63
Registriert: 7. Mär 2019 19:37
Betriebssystem: Windows 10 Pro
Produkt: Opus 12
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von Maui » 30. Jul 2019 09:40

Ich habe eine PDF Datei im Verzeichnis mit OCR Text.
Habe geprüft ob das PDF die Jahreszahl 2006 findet, was er auch macht.
DO sucht lange, lange, lange und kommt nicht zum ende? Für eine Datei???
Ich muss dann das Programm durch den Taskmanager abbrechen.
sucheInhaltDatum.JPG
Ob ich jetzt "Muster" oder "ganze Wörter" verwende, ändert nichts daran das DO etwas findet?
ebenso mit regulären Ausdrücken, welches ich am liebsten verwenden würde funktioniert es auch nicht?

Muss man dabei etwas beachten?
Auf meinem System ist auch Adobe Acrobat X installiert und in DO wird ein PDF auch in der Vorschauansicht angezeigt
wenn die Datei selektiert ist.

Benutzeravatar
tbone
Berater
Beiträge: 572
Registriert: 22. Nov 2014 21:16
Betriebssystem: 7*64
Produkt: aktuelle Beta-Version
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von tbone » 30. Jul 2019 10:30

DO kann selbst keine PDFs durchsuchen, dazu braucht man auf dem System den angesprochenen Filter und muss die Windows-Suche in DO verwenden.
Bei Windows10 ist u.U. schon irgendwas an PDF-Filter/Indexer dabei, bei Windows7 nicht.
PDFs sind keine reinen Textdateien, der Inhalt ist u.U. komprimiert und anderweitig "schräg" abgelegt, daher findet DO mit seinen eigenen Routinen nichts.

Wenn man über den Explorer in PDFs etwas findet, dann hat das System den entsprechend nötigen PDF-Filter/Indexer bereits.
Die normale oder erweiterte Suche in DO, nutzt aber diese Systemfilter nicht, daher muss man, will man mit "DO" suchen und auf die Gefahr dass ich mich wiederhole o), in DO die Windows-Suche mit der bereits verlinkten speziellen Syntax verwenden (und die geht auch im Explorer).

Das alles bezieht sich natürlich nur auf PDF-Inhalte.
Datumsangaben in PDF-Dateinamen bspw., kann man natürlich wunderbar mit der DO-Suche, RegEx etc. suchen.

Benutzeravatar
Nobmen
Boardbetreuer
Beiträge: 2008
Registriert: 26. Jun 2004 08:48
Betriebssystem: Win 10 Home/Pro 32/64bit
Produkt: DOpus 12.x + Betas
Version DOpus: Pro
Kontaktdaten:

Re: PDF nach Inhalte finden

Beitrag von Nobmen » 30. Jul 2019 10:31

nachfragen:
alle pdf in einem verzeichnis (wie viele) oder über mehrere verstreut und haben diese eine gemischten inhalt mit anderen dateitypen.
wer hat (selbst/firmen/automatisch von kopiersystem/usw.) diese mit was (programmart) erstellt.
paar beispiele für mich vorhanden (als pn verschicken)

die erwähnte dauer ist jedenfalls zu lang und sollte nach paar sec. schon treffer zeigen.

Maui
Beiträge: 63
Registriert: 7. Mär 2019 19:37
Betriebssystem: Windows 10 Pro
Produkt: Opus 12
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von Maui » 30. Jul 2019 11:22

Vielen Dank für die Info.
Die Filter sollten laut Microsoft bei Windows 10 dabei sein. Ich nutze Windows 10 Pro stets aktuell gehalten.
Im Netz habe ich auch oft gelesen, das diese Filtergeschichte und auch der Index davon verloren geht.

Meine Daten liegen auf Netzlaufwerken und greife mit UNC darauf zu.
Netzlaufwerke als Buchstaben nutze ich auch, aber selten oder wenn eine Software UNC nicht unterstützt.
Mein System ist mit einer 1TB SSD ausgestattet und läuft sehr schnell.
Eine schnelle interne Festplatte mit 6TB benutze ich für Projekte mit größeren Datenmengen wie Animationen und Videoschnitt.

Da die Daten extern liegen gibt es auch keinen Index.
Aktuell sichte ich visuell da ich diese Woche fertig werden muss.
Dabei nutze ich jetzt eine Katalog-Software.
Ich kann dann zwar keine Dateien im Dateisystem verschieben oder Organisieren aber dafür kopieren.
Ist zwar alles etwas unbefriedigend aber zumal hilft es mir im Moment.

Ist schade das DO das nicht stand alone unterstützt obwohl es von den Funktionien so aussieht.

Ich denke das ich im September mit meiner eigenen Software soweit bin die Daten dann automatisch sortieren und in die Datenbank eintragen zu lassen. :D

Benutzeravatar
tbone
Berater
Beiträge: 572
Registriert: 22. Nov 2014 21:16
Betriebssystem: 7*64
Produkt: aktuelle Beta-Version
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von tbone » 30. Jul 2019 11:26

Chaos! o)..

Benutzeravatar
Nobmen
Boardbetreuer
Beiträge: 2008
Registriert: 26. Jun 2004 08:48
Betriebssystem: Win 10 Home/Pro 32/64bit
Produkt: DOpus 12.x + Betas
Version DOpus: Pro
Kontaktdaten:

Re: PDF nach Inhalte finden

Beitrag von Nobmen » 30. Jul 2019 11:59

öhm, gerade mal eine vm auf einen nas mit akuteller / frischer windows 10 (1903 + insider 19h2/20h1) angeworfen.
index ist in windows aus, auf nas ebenfalls.
kein pdf programm oder anderes installiert.
suche mit dopus erweitert auf usb stick extern und nas intern zeigt mir sofort die pdf mit den gewünschten inhalt nach kurzer zeit an.

Maui
Beiträge: 63
Registriert: 7. Mär 2019 19:37
Betriebssystem: Windows 10 Pro
Produkt: Opus 12
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von Maui » 30. Jul 2019 13:03

Das ist aber seltsam.
Falsch machen kann man da eigentlich nicht viel?
Habe das Gefühl, daß bei mir immer eine Regenwolke über dem Rechner schwebt? :D

Benutzeravatar
Nobmen
Boardbetreuer
Beiträge: 2008
Registriert: 26. Jun 2004 08:48
Betriebssystem: Win 10 Home/Pro 32/64bit
Produkt: DOpus 12.x + Betas
Version DOpus: Pro
Kontaktdaten:

Re: PDF nach Inhalte finden

Beitrag von Nobmen » 31. Jul 2019 10:24

pdf.jpg
versuche das mal.

1. der suchname wird im namen ignoriert
2. nur pdf, für andere endungen dies entfernen
3. inhaltssuche der datein

und immer nur die verzeichnis in die sucheliste aufnehmen wo gesucht werden soll, nie das rootverzeichnis komplett

Benutzeravatar
tbone
Berater
Beiträge: 572
Registriert: 22. Nov 2014 21:16
Betriebssystem: 7*64
Produkt: aktuelle Beta-Version
Version DOpus: Pro

Re: PDF nach Inhalte finden

Beitrag von tbone » 31. Jul 2019 10:50

Datumsangaben bzw. Jahresangaben lassen sich u.U. mit der DO-Suche in PDF-Dateien finden, aber Vorsicht.
Das ist eine Ausnahme, weil vor allem Datumsangaben in den Metadaten stehen, die u.U. "Plain-ASCII" abgelegt sind und die müssen dann auch nicht unbedingt etwas mit dem Inhalt zu tun haben (kann bspw. im Versions-String des PDF-Generators auftauchen, der da auch irgendwo drinsteckt).

Regulärer Text, also der Inhalt ansich, wird eher nicht gefunden, wenn man mit einer einfachen Suche draufgeht.
Ich lasse mich gerne eines Besseren belehren, aber ein "2018"-Suchstring-Test ist m.M. nicht aussagefähig.

Antworten