1 |
Moin, |
2 |
|
3 |
On Tue, 14 Mar 2006 00:33:44 +0000 |
4 |
Werner Schalk <werner_schalk@×××.de> wrote: |
5 |
|
6 |
> ich muss eine große Datenmenge (ca. 110 GB Logfiles reiner Text) nach |
7 |
> bestimmten Schlüsselwörtern durchsuchen, die aus einer Textdatei kommen (ca. |
8 |
> 5000 Schlüsselwörter). Wie kann ich dies am besten machen, hat jemand ne |
9 |
> Idee? |
10 |
|
11 |
Hm, das ist riesig. Da lohnt mit Sicherheit Optimierung. Ich habe |
12 |
spaßeshalber gerade mal ein paar Experimente mit 5000 Suchpattern |
13 |
gemacht. Mit am performantesten war u.a. awk: |
14 |
|
15 |
$ cat suchworte.txt | while read such; do echo "/$such/ { print FNR, \$0 }" >> scan.awk; done |
16 |
$ awk -f scan.awk /big/logfile |
17 |
|
18 |
Die erste Zeile generiert das awk-Programm (scan.awk). |
19 |
Aber auch das hat auf meinem P2 bei 6000 Pattern nur gut 100 Zeilen pro |
20 |
Sekunde gemacht. Da lohnt sicher das Verteilen auf mehrere Rechner bzw. |
21 |
awk-Files. |
22 |
|
23 |
-hwh |
24 |
|
25 |
-- |
26 |
gentoo-user-de@g.o mailing list |