1 |
legal a sua dica, mas acontece que o site dos arquivos tem os |
2 |
seguintes problemas |
3 |
|
4 |
esta cheio de tabelas, naum eh um xml aonde define explicitamente as |
5 |
datas e o usuarios, a pagina nao me passa todos os dados(um mes como |
6 |
fevereiro possui ja uma quantidade absurda de dados, imagine perto do |
7 |
fils ou quando ocorrer algum episodio de interesse num mes com 31 |
8 |
dias), |
9 |
|
10 |
com o script passado, teria ainda que visitar o site varias vezes para |
11 |
coletar os dados, copiar linhas e etc, e no script ainda teria |
12 |
problemas para determinar as datas que ele esta coletando, se for ter |
13 |
que modificar os dados dos xhtml, o ganho não existiria em relacao ao |
14 |
metodo que eu usei :-( |
15 |
|
16 |
mas valeu pelo script |
17 |
|
18 |
vou entrar em contato com os admins do site para a possibilidade de um |
19 |
xml (que realmente detalhe o conteudo, naum um xhtml) |
20 |
|
21 |
[]'s |
22 |
|
23 |
Hélder |
24 |
|
25 |
On 2/16/07, Mario Luiz Bernardinelli <mariolb@×××××××××××××××.br> wrote: |
26 |
> Bom dia. |
27 |
> |
28 |
> Talvez isto te ajude: não é muito elegante e nem eficiente, mas |
29 |
> funcionou no teste que fiz: |
30 |
> |
31 |
> #------ |
32 |
> #!/bin/bash |
33 |
> |
34 |
> cat archives.gentoo.org | |
35 |
> grep "<e>" | awk -F "<e>" '{ print $2 }' | |
36 |
> awk -F "</e>" '{ print $1}' | |
37 |
> sort | uniq | |
38 |
> while read name ; do |
39 |
> COUNT=`cat archives.gentoo.org | grep "<e>" | |
40 |
> awk -F "<e>" '{ print $2 }' | |
41 |
> awk -F "</e>" '{ print $1}' | grep "${name}" | wc -l` |
42 |
> echo "${name}: ${COUNT}" |
43 |
> done |
44 |
> #------ |
45 |
> |
46 |
> Se quizer algo eficiente, talvez algo em perl, python ou C... |
47 |
> |
48 |
> Até mais, |
49 |
> |
50 |
> Marião |
51 |
> |
52 |
> Thiago wrote: |
53 |
> > Tem certeza que tu ta pegando o xml? Nesse link |
54 |
> > (http://archives.gentoo.org/gentoo-user-br/?passthru=1) tu pode pegar |
55 |
> > o xml de verdade. Depois tu salva ele no computador e dalhe um grep |
56 |
> > "<e>" nele, assim só devem aparecer linhas que tenham nomes de |
57 |
> > pessoas. Agora alguém que manje de expressões regulares ou tenha |
58 |
> > alguma outra alternativa ninja aí por favor diga como contar quantas |
59 |
> > vezes cada nome aparece. |
60 |
> > |
61 |
> >> Em 09/02/07, Hélder Máximo Botter Ribas <helderribas@×××××.com> escreveu: |
62 |
> >> > fiz da maneira mais tosca |
63 |
> >> > |
64 |
> >> > fui no site dos arquivos, peguei os dados(c&p) coloquei no openoffice |
65 |
> >> > e fiz a ordenação |
66 |
> >> > |
67 |
> >> > vou ver se faço um script no final de semana, mas pelo o que vi, o xml |
68 |
> >> > do site é muito nojento, mas vou ver o que faço. |
69 |
> >> > |
70 |
> >> > []'s |
71 |
> >> > |
72 |
> >> > obs: quando acabar fevereiro eu mando uma listagem nova. |
73 |
> >> > |
74 |
> >> > Hélder |
75 |
> > |
76 |
> |
77 |
> -- |
78 |
> Mario Luiz Bernardinelli |
79 |
> LPIC-1 - Linux Professional Institute Certified - Level 1 |
80 |
> |
81 |
> "Talk is cheap. Show me the code." |
82 |
> Linus Torvalds |
83 |
> |
84 |
> "May the force be with you!" |
85 |
> Star Wars |
86 |
> |
87 |
> "May the Source be with you." |
88 |
> An unknown jedi programmer. |
89 |
> |
90 |
> -- |
91 |
> gentoo-user-br@g.o mailing list |
92 |
> |
93 |
> |
94 |
|
95 |
|
96 |
-- |
97 |
------------------------------------ |
98 |
Hélder Máximo Botter Ribas |
99 |
NCT/SGS |
100 |
------------------------------------ |
101 |
helder (dot) ribas (at) nct (dot) com (dot) br |
102 |
hmbr (at) gentoobr (dot) org |
103 |
msn/gtalk: helderribas (at) gmail (dot) com |
104 |
------------------------------------ |
105 |
www.gentoobr.org |
106 |
-- |
107 |
gentoo-user-br@g.o mailing list |