Sky
Vittorio vb Bertola
Affacciato sul Web dal 1995

Gio 21 - 13:59
Ciao, essere umano non identificato!
Italiano English Piemonteis
home
home
home
chi sono
chi sono
guida al sito
guida al sito
novità nel sito
novità nel sito
licenza
licenza
contattami
contattami
blog
near a tree [it]
near a tree [it]
vecchi blog
vecchi blog
personale
documenti
documenti
foto
foto
video
video
musica
musica
attività
net governance
net governance
cons. comunale
cons. comunale
software
software
aiuto
howto
howto
guida a internet
guida a internet
usenet e faq
usenet e faq
il resto
il piemontese
il piemontese
conan
conan
mononoke hime
mononoke hime
software antico
software antico
lavoro
consulenze
consulenze
conferenze
conferenze
job placement
job placement
business angel
business angel
siti e software
siti e software
admin
login
login
your vb
your vb
registrazione
registrazione

FAQ sul sistema


Come vengono generate queste statistiche?
Come fa il programma a decidere se due articoli sono stati scritti dalla stessa persona?
Le modifiche anti-spam degli indirizzi di E-mail falsano le statistiche?
Ma queste statistiche non violano la privacy dei frequentatori della gerarchia?
Ma le statistiche vengono davvero calcolate tutti i giorni?
Che cosa sono i "grossi gruppi" e perchè sono stati introdotti?
Lo spam è incluso in queste statistiche?


Come vengono generate queste statistiche?

Questo sito è mantenuto da uno script Perl che viene attivato a intervalli regolari sul calcolatore goemon.polito.it.
Le statistiche vengono generate esaminando una volta al giorno gli articoli conservati sul server news.polito.it. Lo script si collega al news server e preleva le intestazioni di tutti gli articoli pervenuti nelle ultime 24 ore, esaminandone i campi From: e Newsgroups: e generando un insieme di file di dati dai quali è possibile sapere quanti articoli sono stati postati nelle 24 ore precedenti su ciascun gruppo da ciascun mittente. Parallelamente a questa operazione, lo script compie alcune altre azioni secondarie, come controllare la lista dei gruppi italiani portati dal server, aggiungendo alla propria lista i nuovi gruppi ed eliminando quelli che sono stati chiusi.
Ogni primo del mese, lo script esamina tutti i file di dati scritti nell'ultimo mese, e ne estrae le statistiche per gruppo e poi le statistiche generali della gerarchia. Le statistiche vengono generate in tre formati: ASCII esteso, ad uso essenzialmente interno, che contiene l'elenco completo di tutti i dati disponibili per il mese (ad esempio, l'elenco di tutti i mittenti che hanno postato almeno una volta sul gruppo o nella gerarchia italiana nel mese); ASCII ridotto, che contiene un sommario dei dati precedenti (ad esempio, vengono indicati soltanto i 100 frequentatori più assidui del gruppo o della gerarchia); HTML, che viene immediatamente messo in linea in questo sito, aggiornando anche le varie pagine indice.

Come fa il programma a decidere se due articoli sono stati scritti dalla stessa persona?

La regola utilizzata è molto semplice: gli articoli vengono accorpati per indirizzo del mittente. Anche in presenza di un campo Reply-To:, l'indirizzo considerato è quello del campo From:, in quanto si presume che esso contenga l'identità con cui il mittente del messaggio vuole apparire. In questo modo, ad esempio, un frequentatore della gerarchia può modificare continuamente il nickname usato: se però mantiene costante l'indirizzo di E-mail, i suoi articoli saranno correttamente considerati come spediti da una sola persona. Nelle statistiche, egli comparirà con quell'indirizzo di E-mail e uno solo dei nickname usati, scelto sostanzialmente in modo casuale.
Naturalmente, questa regola non funziona se il mittente usa più di un indirizzo di E-mail per postare sui newsgroup, o se lo modifica durante il mese. Comunque, il programma dispone di una "tabella di unificazione", che viene caricata prima di calcolare le statistiche, e mediante la quale è possibile dire al programma di considerare come equivalenti, e corrispondenti alla stessa persona, due o più indirizzi di E-mail. L'autore ha provveduto a inserirvi i casi più evidenti, ossia quelli relativi ad alcuni dei maggiori frequentatori della gerarchia. (Ad esempio, il Gruppo Coordinamento News-It ha usato recentemente almeno tre diversi indirizzi per postare i propri messaggi: essi vengono automaticamente accorpati.) Se comparite nelle statistiche con due o più diversi indirizzi, e proprio non potete modificare i vostri news-reader per postare sempre con lo stesso, potete provare a scrivere all'autore segnalando i vostri indirizzi: se ci sarà tempo, essi saranno inseriti nella tabella di unificazione.
In generale, comunque, il numero dei mittenti calcolati dal programma è sempre da considerarsi sopravvalutato (cercheremo di capire di quanto...).

Le modifiche anti-spam degli indirizzi di E-mail falsano le statistiche?

Se la modifica è sempre la stessa, e non viene cambiata durante il mese, no. Gli unici dati che potranno risultare falsati sono quelli relativi al traffico generato dai vari domini, nel caso che alteriate la parte finale del vostro indirizzo. Se ci tenete, basta effettuare la modifica aggiungendo uno o più domini inesistenti alla fine (es. da me@pippo.it a me@pippo.it.spammer.crepa): in questo caso il programma se ne accorgerà e eliminerà il vostro anti-spam, a meno che non utilizziate come antispam qualcosa di plausibile come dominio (es. me@pippo.it.nospam.org).
Comunque, l'invito è: sceglietevi un indirizzo, metteteci l'antispam che più vi spiace, e poi postate sempre con quello...

Ma queste statistiche non violano la privacy dei frequentatori della gerarchia?

L'autore si è posto il problema, e ammette che esso è tuttora aperto. Peraltro, egli si è basato sull'opinione prevalente tra i gestori delle news italiane, ossia quella secondo cui i newsgroup e gli articoli in essi postati sono assolutamente pubblici, e pertanto lo è qualsiasi statistica, anche nominativa, da essi estratta. Comunque, se qualcuno ritiene offeso il proprio diritto alla privacy, non ha che da segnalarlo all'autore.

Ma le statistiche vengono davvero calcolate tutti i giorni?

Può talvolta succedere che il news server, per motivi vari, non funzioni. In questo caso, dopo qualche tentativo, il programma rinuncia ad accedere al server. Il giorno successivo, verrà generato un solo file di dati, che però si riferirà ai due giorni precedenti: il programma non sarà quindi in grado di distinguere tra gli articoli postati nei due giorni (visto che per il programma la "data" di un articolo è data dal momento in cui esso arriva al server). Per questo, spesso invece di "giorni" il programma parla di "file di dati": sono due numeri che, se tutto funzionasse perfettamente, coinciderebbero, ma che spesso differiscono. Sempre per questo, nelle statistiche - ad esempio - relative al numero di post comparsi su un dato gruppo nei vari giorni del mese, può succedere di trovare dei "buchi", compensati da un picco nel primo giorno successivo.

Che cosa sono i "grossi gruppi" e perchè sono stati introdotti?

Alcune statistiche sono significative soltanto su gruppi con un minimo di traffico e di partecipazione. Ad esempio, per calcolare la monopolizzazione di un gruppo si utilizza la percentuale di articoli appartenente al maggior postatore; tuttavia, esistono gruppi "di servizio", moderati, in cui per definizione una sola persona è ammessa a postare, e in questo caso questi gruppi "dominerebbero" le classifiche di questa percentuale nascondendo gruppi più grandi dove questo dato può essere meno scontato e più interessante.
Per questo motivo, nei report a livello di intera gerarchia alcune statistiche sono ristrette all'insieme dei grossi gruppi, ossia di quei gruppi che nel mese hanno raggiunto almeno 50 diversi mittenti e 100 articoli in conteggio completo. Questi valori rappresentano una ragionevole soglia per eliminare i gruppi con bassissimo traffico o con un numero intrinsecamente molto basso di postatori. (Al momento, per dare un valore, questa soglia è superata da 206 gruppi su 297.)

Lo spam è incluso in queste statistiche?

Dipende. Il programma considera soltanto gli articoli che trova nel momento in cui si collega al server. I messaggi di spam comparsi nelle ore precedenti e già cancellati da qualche cancellatore automatico, quindi, non compaiono. I messaggi di spam che non sono ancora stati cancellati, o che sfuggono ai cancellatori automatici, vengono conteggiati come tutti gli altri.

Torna all'indice


(C) 1998 Vittorio Bertola - Contatti
Creative Commons License
Questo sito è (C) 1995-2024 di Vittorio Bertola - Informativa privacy e cookie
Alcuni diritti riservati secondo la licenza Creative Commons Attribuzione - Non Commerciale - Condividi allo stesso modo
Attribution Noncommercial Sharealike