Gentoo Archives: gentoo-user-de

From:	Hans-Werner Hilse <hilse@×××.de>
To:	gentoo-user-de@l.g.o
Subject:	Re: [gentoo-user-de] Durchsuchen von groÃŸen Datenmengen nach SchlÃ¼sselwÃ¶rtern aus Datei
Date:	Tue, 14 Mar 2006 01:09:58
Message-Id:	`20060314010813.ce09fa1b.hilse@web.de`
In Reply to:	[gentoo-user-de] Durchsuchen von groÃŸen Datenmengen nach SchlÃ¼sselwÃ¶rtern aus Datei by Werner Schalk

1	Moin,
2
3	On Tue, 14 Mar 2006 00:33:44 +0000
4	Werner Schalk <werner_schalk@×××.de> wrote:
5
6	> ich muss eine große Datenmenge (ca. 110 GB Logfiles reiner Text) nach
7	> bestimmten Schlüsselwörtern durchsuchen, die aus einer Textdatei kommen (ca.
8	> 5000 Schlüsselwörter). Wie kann ich dies am besten machen, hat jemand ne
9	> Idee?
10
11	Hm, das ist riesig. Da lohnt mit Sicherheit Optimierung. Ich habe
12	spaßeshalber gerade mal ein paar Experimente mit 5000 Suchpattern
13	gemacht. Mit am performantesten war u.a. awk:
14
15	$ cat suchworte.txt \| while read such; do echo "/$such/ { print FNR, \$0 }" >> scan.awk; done
16	$ awk -f scan.awk /big/logfile
17
18	Die erste Zeile generiert das awk-Programm (scan.awk).
19	Aber auch das hat auf meinem P2 bei 6000 Pattern nur gut 100 Zeilen pro
20	Sekunde gemacht. Da lohnt sicher das Verteilen auf mehrere Rechner bzw.
21	awk-Files.
22
23	-hwh
24
25	--
26	gentoo-user-de@g.o mailing list