Gentoo Archives: gentoo-user-de

From: Hans-Werner Hilse <hilse@×××.de>
To: gentoo-user-de@l.g.o
Subject: Re: [gentoo-user-de] Durchsuchen von großen Datenmengen nach Schlüsselwörtern aus Datei
Date: Tue, 14 Mar 2006 01:09:58
Message-Id: 20060314010813.ce09fa1b.hilse@web.de
In Reply to: [gentoo-user-de] Durchsuchen von großen Datenmengen nach Schlüsselwörtern aus Datei by Werner Schalk
1 Moin,
2
3 On Tue, 14 Mar 2006 00:33:44 +0000
4 Werner Schalk <werner_schalk@×××.de> wrote:
5
6 > ich muss eine große Datenmenge (ca. 110 GB Logfiles reiner Text) nach
7 > bestimmten Schlüsselwörtern durchsuchen, die aus einer Textdatei kommen (ca.
8 > 5000 Schlüsselwörter). Wie kann ich dies am besten machen, hat jemand ne
9 > Idee?
10
11 Hm, das ist riesig. Da lohnt mit Sicherheit Optimierung. Ich habe
12 spaßeshalber gerade mal ein paar Experimente mit 5000 Suchpattern
13 gemacht. Mit am performantesten war u.a. awk:
14
15 $ cat suchworte.txt | while read such; do echo "/$such/ { print FNR, \$0 }" >> scan.awk; done
16 $ awk -f scan.awk /big/logfile
17
18 Die erste Zeile generiert das awk-Programm (scan.awk).
19 Aber auch das hat auf meinem P2 bei 6000 Pattern nur gut 100 Zeilen pro
20 Sekunde gemacht. Da lohnt sicher das Verteilen auf mehrere Rechner bzw.
21 awk-Files.
22
23 -hwh
24
25 --
26 gentoo-user-de@g.o mailing list