Sky
Vittorio vb Bertola
Wandering on the Web since 1995

Thu 18 - 3:07
Hello, unidentified human being!
Italiano English Piemonteis
home
home
home
about me
about me
site help
site help
site news
site news
license
license
contact me
contact me
blog
near a tree [it]
near a tree [it]
old blogs
old blogs
personal
documents
documents
photos
photos
videos
videos
music
music
activities
net governance
net governance
town council
town council
software
software
help
howto
howto
internet faq
internet faq
usenet & faqs
usenet & faqs
stuff
piemonteis
piemonteis
conan
conan
mononoke hime
mononoke hime
ancient software
ancient software
biz
consultancy
consultancy
talks
talks
job placement
job placement
business angel
business angel
sites & software
sites & software
admin
login
login
your vb
your vb
register
register

FAQ sul sistema


Come vengono generate queste statistiche?
Come fa il programma a decidere se due articoli sono stati scritti dalla stessa persona?
Le modifiche anti-spam degli indirizzi di E-mail falsano le statistiche?
Ma queste statistiche non violano la privacy dei frequentatori della gerarchia?
Ma le statistiche vengono davvero calcolate tutti i giorni?
Che cosa sono i "grossi gruppi" e perchè sono stati introdotti?
Lo spam è incluso in queste statistiche?


Come vengono generate queste statistiche?

Questo sito è mantenuto da uno script Perl che viene attivato a intervalli regolari sul calcolatore goemon.polito.it.
Le statistiche vengono generate esaminando una volta al giorno gli articoli conservati sul server news.polito.it. Lo script si collega al news server e preleva le intestazioni di tutti gli articoli pervenuti nelle ultime 24 ore, esaminandone i campi From: e Newsgroups: e generando un insieme di file di dati dai quali è possibile sapere quanti articoli sono stati postati nelle 24 ore precedenti su ciascun gruppo da ciascun mittente. Parallelamente a questa operazione, lo script compie alcune altre azioni secondarie, come controllare la lista dei gruppi italiani portati dal server, aggiungendo alla propria lista i nuovi gruppi ed eliminando quelli che sono stati chiusi.
Ogni primo del mese, lo script esamina tutti i file di dati scritti nell'ultimo mese, e ne estrae le statistiche per gruppo e poi le statistiche generali della gerarchia. Le statistiche vengono generate in tre formati: ASCII esteso, ad uso essenzialmente interno, che contiene l'elenco completo di tutti i dati disponibili per il mese (ad esempio, l'elenco di tutti i mittenti che hanno postato almeno una volta sul gruppo o nella gerarchia italiana nel mese); ASCII ridotto, che contiene un sommario dei dati precedenti (ad esempio, vengono indicati soltanto i 100 frequentatori più assidui del gruppo o della gerarchia); HTML, che viene immediatamente messo in linea in questo sito, aggiornando anche le varie pagine indice.

Come fa il programma a decidere se due articoli sono stati scritti dalla stessa persona?

La regola utilizzata è molto semplice: gli articoli vengono accorpati per indirizzo del mittente. Anche in presenza di un campo Reply-To:, l'indirizzo considerato è quello del campo From:, in quanto si presume che esso contenga l'identità con cui il mittente del messaggio vuole apparire. In questo modo, ad esempio, un frequentatore della gerarchia può modificare continuamente il nickname usato: se però mantiene costante l'indirizzo di E-mail, i suoi articoli saranno correttamente considerati come spediti da una sola persona. Nelle statistiche, egli comparirà con quell'indirizzo di E-mail e uno solo dei nickname usati, scelto sostanzialmente in modo casuale.
Naturalmente, questa regola non funziona se il mittente usa più di un indirizzo di E-mail per postare sui newsgroup, o se lo modifica durante il mese. Comunque, il programma dispone di una "tabella di unificazione", che viene caricata prima di calcolare le statistiche, e mediante la quale è possibile dire al programma di considerare come equivalenti, e corrispondenti alla stessa persona, due o più indirizzi di E-mail. L'autore ha provveduto a inserirvi i casi più evidenti, ossia quelli relativi ad alcuni dei maggiori frequentatori della gerarchia. (Ad esempio, il Gruppo Coordinamento News-It ha usato recentemente almeno tre diversi indirizzi per postare i propri messaggi: essi vengono automaticamente accorpati.) Se comparite nelle statistiche con due o più diversi indirizzi, e proprio non potete modificare i vostri news-reader per postare sempre con lo stesso, potete provare a scrivere all'autore segnalando i vostri indirizzi: se ci sarà tempo, essi saranno inseriti nella tabella di unificazione.
In generale, comunque, il numero dei mittenti calcolati dal programma è sempre da considerarsi sopravvalutato (cercheremo di capire di quanto...).

Le modifiche anti-spam degli indirizzi di E-mail falsano le statistiche?

Se la modifica è sempre la stessa, e non viene cambiata durante il mese, no. Gli unici dati che potranno risultare falsati sono quelli relativi al traffico generato dai vari domini, nel caso che alteriate la parte finale del vostro indirizzo. Se ci tenete, basta effettuare la modifica aggiungendo uno o più domini inesistenti alla fine (es. da me@pippo.it a me@pippo.it.spammer.crepa): in questo caso il programma se ne accorgerà e eliminerà il vostro anti-spam, a meno che non utilizziate come antispam qualcosa di plausibile come dominio (es. me@pippo.it.nospam.org).
Comunque, l'invito è: sceglietevi un indirizzo, metteteci l'antispam che più vi spiace, e poi postate sempre con quello...

Ma queste statistiche non violano la privacy dei frequentatori della gerarchia?

L'autore si è posto il problema, e ammette che esso è tuttora aperto. Peraltro, egli si è basato sull'opinione prevalente tra i gestori delle news italiane, ossia quella secondo cui i newsgroup e gli articoli in essi postati sono assolutamente pubblici, e pertanto lo è qualsiasi statistica, anche nominativa, da essi estratta. Comunque, se qualcuno ritiene offeso il proprio diritto alla privacy, non ha che da segnalarlo all'autore.

Ma le statistiche vengono davvero calcolate tutti i giorni?

Può talvolta succedere che il news server, per motivi vari, non funzioni. In questo caso, dopo qualche tentativo, il programma rinuncia ad accedere al server. Il giorno successivo, verrà generato un solo file di dati, che però si riferirà ai due giorni precedenti: il programma non sarà quindi in grado di distinguere tra gli articoli postati nei due giorni (visto che per il programma la "data" di un articolo è data dal momento in cui esso arriva al server). Per questo, spesso invece di "giorni" il programma parla di "file di dati": sono due numeri che, se tutto funzionasse perfettamente, coinciderebbero, ma che spesso differiscono. Sempre per questo, nelle statistiche - ad esempio - relative al numero di post comparsi su un dato gruppo nei vari giorni del mese, può succedere di trovare dei "buchi", compensati da un picco nel primo giorno successivo.

Che cosa sono i "grossi gruppi" e perchè sono stati introdotti?

Alcune statistiche sono significative soltanto su gruppi con un minimo di traffico e di partecipazione. Ad esempio, per calcolare la monopolizzazione di un gruppo si utilizza la percentuale di articoli appartenente al maggior postatore; tuttavia, esistono gruppi "di servizio", moderati, in cui per definizione una sola persona è ammessa a postare, e in questo caso questi gruppi "dominerebbero" le classifiche di questa percentuale nascondendo gruppi più grandi dove questo dato può essere meno scontato e più interessante.
Per questo motivo, nei report a livello di intera gerarchia alcune statistiche sono ristrette all'insieme dei grossi gruppi, ossia di quei gruppi che nel mese hanno raggiunto almeno 50 diversi mittenti e 100 articoli in conteggio completo. Questi valori rappresentano una ragionevole soglia per eliminare i gruppi con bassissimo traffico o con un numero intrinsecamente molto basso di postatori. (Al momento, per dare un valore, questa soglia è superata da 206 gruppi su 297.)

Lo spam è incluso in queste statistiche?

Dipende. Il programma considera soltanto gli articoli che trova nel momento in cui si collega al server. I messaggi di spam comparsi nelle ore precedenti e già cancellati da qualche cancellatore automatico, quindi, non compaiono. I messaggi di spam che non sono ancora stati cancellati, o che sfuggono ai cancellatori automatici, vengono conteggiati come tutti gli altri.

Torna all'indice


(C) 1998 Vittorio Bertola - Contatti
Creative Commons License
This site (C) 1995-2024 by Vittorio Bertola - Privacy and cookies information
Some rights reserved according to the Creative Commons Attribution - Non Commercial - Sharealike license
Attribution Noncommercial Sharealike