OTM -Osservatorio TuttiMedia "Convegno del 13 novembre 2001 su Beyond Internet" Introduzione. La storia del'informatica è stata spesso definita la storia delle soluzioni in cerca dei problemi da risolvere. Infatti in molti casi delle innovazioni geniali sono rimaste senza uso pratico per lunghi periodi fine a che qualcuno ha avuto la "visione" e ha sviluppato quella che gli americani chiamano l'applicazione "killer", come fu il caso del foglio elettronico (spreadsheet calculator) per l'avvento del personal computer all'inizio degli anni 80. Il Web. Per il WEB si è trattato di vari sviluppi di tecnologie separate ed indipendenti che hanno continuato per anni sostenuti dalle esigenze della ricerca e del mercato commerciale. Prima tra tutte la tecnologia delle reti di calcolatori, che dalle prime centinaia di grossi centri di calcolo degli anni 70 è arrivata con l'avvento di Internet negli anni 80 a connettere calcolatori via via sempre più piccoli ed accessibili creando una rete mondiale e capillare che conta oggi milioni di aderenti. Questo fenomeno è stato soprattutto promosso e spinto dall'accademia e dalla scienza piuttosto che dal commercio e l'industria. Confermando ancora un volta di più l'importanza di mantenere un adeguato livello d'investimenti pubblici nella ricerca informatica e nelle sue applicazioni sperimentali. Quando questo sviluppo è arrivato all'esplosione di Internet alla metà degli anni 80', alcuni visionari, tra loro Tim Berners-Lee, modesto programmatore di sistemi real-time al CERN di Ginevra, hanno cominciato a pensare che Internet poteva localizzare e trasmettere documenti di ogni tipo tra utenti di computer personali e non semplicemente posta elettronica o dati binari tra utenti di grossi sistemi di calcolo, cosiddetti time-sharing. Per questo naturalmente c'è anche stato bisogno dello sviluppo contemporaneo del PC, promosso, come citato pocanzi, dall'avvento del foglio elettronico. A questi due componenti mancava solo un'architettura generale per la gestione di documenti multimediali. Tim Berners-Lee si ricordò della tecnologia Hypertext appresa nei suoi studi universitari. L'Hypertext è infatti tecnologia originalmente sviluppata negli anni 60's e mai veramente utilizzata in pratica. Componendo tutte queste tecnologie in una visione globale, dove la popolazione mondiale degli utenti di Internet poteva facilmente accedere e scambiarsi documenti di natura varia, Tim creò il WEB. Per diventare il successo che tutti noi conosciamo mancavano ancora due elementi che si trovarono realizzati quando questa invenzione migrò in USA. Il primo elemento è il cosiddetto "browser" o "navigatore" che permette di accedere in maniera facile ed intuitiva a documenti ovunque essi siano in Internet, il secondo è l'abilità mercantile americana talmente diffusa anche nelle università e centri di ricerca, a differenza dell'Europa.. Arrivata infatti ad Urbana, Illinois, questa tecnologia trovò al NCSA, due giovani ricercatori che svilupparono Mosaic, l'antenato di Netscape e di tutti i browsers attuali. Ma qual è stata la motivazione di Tim Berners-Lee? In quanto programmatore di sistemi on-line al CERN il suo lavoro non consisteva in ricerca informatica ma nello sviluppo di applicativi per la comunità dei fisici internazionale. Il CERN di Ginevra è infatti un laboratorio finanziato si da 20 stati membri europei, ma in realtà messo a disposizione della comunità mondiale dei fisici delle particelle elementari. Questi fisici si sono da anni organizzati in grandi collaborazioni internazionali necessarie per la concezione e messa in opera di esperimenti sempre via via più complessi ed impegnativi in termine di investimenti finanziari e risorse umane. Quindi, ormai da tempo, costituiscono quello che si dice oggi una comunità virtuale ovvero VO (Virtual Organisation). Con il progredire dell'informatica personale e con l'aumentare della complessità di questi esperimenti, i fisici si sono trovati ad avere bisogno sempre più di scambiare dati ma anche documenti di varia natura. Da qui il problema che Tim pensò di risolvere con il WEB senza rendersi conto che stava rivoluzionando il modo di usare i computers per tutta l'umanità. The Grid. Oggi dopo più di dieci anni il CERN ha un altro grossissimo problema che forse richiede una scoperta altrettanto rivoluzionaria che quella del WEB. Quando nel 2006 il nuovo acceleratore di particelle LHC [ref. LHC] entrerà in funzione ci sarà bisogno di acquisire, trattare, immagazzinare e distribuire una massa di dati sperimentali enorme. Le attuali stime prevedono a cominciare dal 2006 qualcosa come 10'000'000 Gbyte per anno, ovvero 10 Peta Byte per anno (1 PetaByte =1000*Tera Byte, 1Tera Byte=1000 Giga Byte, 1 Giga Byte è la capacita del disco di un PC di qualche anno fa. Ora la maggior parte ha dei dischi di 10-20 Giga Byte. 1 Peta Byte si può anche visualizzare con la capacità di una pila di CD alta 1 miglio). Per far fronte a questa mole di dati e di corrispondenti bisogni di calcolo con metodi convenzionali ci sarebbe bisogno di ampliare il centro di calcolo del CERN di 100-1000 volte. Questo è tecnicamente, finanziariamente e politicamente molto difficile, se non semplicemente impossibile. Gli esperti del CERN in collaborazione con i fisici di tutto il mondo hanno quindi elaborato negli ultimi due-tre anni un modello di calcolo distribuito [ref. Monarc] che si è poi trovato a corrispondere perfettamente ad una nuova tecnologia informatica che alcuni ricercatori avevano indipendentemente sviluppato in USA [ref. The Grid, Carl Kesselman, Ian Foster ed.]. Questa tecnologia sia chiama in inglese "The Grid" in analogia alla rete di distribuzione elettrica, in inglese Power Grid. L'analogia è particolarmente indovinata per vari motivi: La "Computing Grid", come la rete elettrica, vuole rendere l'accesso ad un servizio, in questo caso la potenza di calcolo, praticamente illimitato, disponibile dovunque ci sia una connessione Internet (equivalente alle presa elettrica), di accesso facile ed immediato (come inserire una presa nel muro), che nasconda la complessità della gestione e produzione delle risorse corrispondenti all'utente finale (come un utente elettrico non vede la complessità del processo di produzione e distribuzione della corrente elettrica). In termini più pratici si tratta di cercare di connettere tutti i calcolatori che una specifica Organizzazione Virtuale, in questo caso la fisica, ha a disposizione e creare l'illusione di disporre di un unico centro di calcolo di potenza quasi illimitata e di accesso facile ed immediato. Dato che la Grid per i fisici dovrà fornire un servizio di alta qualità, al livello di un centro di calcolo attuale, i calcolatori saranno quelli che sono gestiti in maniera professionale (24/24 ore + 7/7 giorni) escludendo per lo più i calcolatori personali anche se in certi casi il modello potrebbe essere esteso anche a loro. Si veda a questo proposito lo sviluppo cosiddetto P2P (Peer to peer, traducibili "da pari a pari"). Per far questo c'è bisogno di una rete di comunicazione molto sicura, ad alte prestazioni e di costo accessibile. Si tratterà per lo più della tecnologia di Internet ma su reti dedicate, le cosiddette Intranet. Per usi meno critici si potrà anche fare uso della Internet commerciale che tutti noi usiamo quotidianamente. Il primo passo è la creazione di una serie di programmi intelligenti che siano capaci di verificare con grande sicurezza l'identità dell'utente, capire le risorse di calcolo di cui ha bisogno (tipo di computer e sistema operativo, librerie, versioni di compilatori, locazione dei dati in ingresso e destinazione dei dati in uscita etc.) ed infine valutarne il costo e verificare conseguentemente il credito dell'utente. Tutti questi controlli con la cosequente allocazione di risorse andranno fatti tenendo conto tutta una serie di criteri anche finanziari. Si potrà per esempio offrire differenti livelli di qualità di servizio a costi sempre più elevati. Si dovranno prendere decisioni non necessariamente ovvie. In alcuni casi sarà infatti preferibile accedere a risorse di calcole estremamente remote, per magari sfruttare la disponibilità di tempo macchina all'altro lato della terra, se il costo della comunicazione è comunque ridotto. Altrimenti si dovrà cercare di limitare l'accesso alla rete e cercare i dati o le risorse di calcolo più vicine all'utente. Ci sono già dei programmi che permettono una prima implementazione di Grid sperimentali. Primo fra tutti questi il sistema Globus (vedi www.globus.org), ma anche sistemi come Legion (vedi wwvv.legion.org ), Corba (vedi wwvv.corba.org). Questi sistemi offrono una serie di strumenti che si possono utilizzare per l'autentificazione degli utenti ed una prima allocazione delle risorse. Su questo si posso sviluppare dei sistemi più complessi che permettano la suddivisione del problema in molti parti indipendenti da distribuire in maniera capillare sulla Grid a disposizione. Chiaramente siamo sono agli inizi e molto resta da fare ma il potenziale di questa tecnologia è enorme, non solo per la scienza ma in futuro anche per applicazioni industriali e commerciali. La scienza ha sicuramente bisogno di questo per sopperire al bisogno sempre più pressante di potenza di calcolo ma ancora di più a capacità di gestione di dati. Si parla infatti ormai da qualche anno di scienze "Data Intensive" che hanno quindi bisogno di analizzare quantità di dati di dimensioni sempre più grandi. Si pensi non solo alla fisica delle particelle elementari, ma alla scienza della terra che fa uso di satelliti per osservazioni di varia natura, alla biologia, alla astronomia etc. Nell'industria e nel commercio la situazione sarà ben presto la stessa. Si dice sempre di più che il vero capitale di ogni impresa industriale e commerciale è l'informazione e le conoscenze che questa impresa possiede e che oggi non è in grado di sfruttare a pieno per mancanza di mezzi di calcolo e di trattamento dati adeguati. Per progredire su questa strada gli esperti informatici del CERN, in collaborazioni con i fisici responsabili della nuova generazione di esperimenti per 1'LHC, si sono associati con scienziati di altre discipline come lo spazio e l'osservazione della terra (European Space Agency), la biologia (CNRS in Francia e KNMI in Olanda), industrie informatiche interessate a questa nuova tecnologia (IBM, CS-SI, Datamat) ed hanno proposto un progetto alla Commissione Europea, chiamato DataGrid (www.eu-datagrid.org ). Questo progetto è stato accettato con entusiasmo dalla Commissione ed ha cominciato ad operare con un finanziamento di circa 10 milioni di euro per tre anni. Ora dopo solo nove mesi è già in grado di operare una prima Grid sperimentale tra il CERN di Ginevra e il laboratorio IN2P3 di Lione in Francia. Per la fine dell'anno ci si aspetta 40 siti geograficamente distribuiti in tutta Europa. A cominciare dal prossimo anno la rete di DataGrid comincerà ad estendersi al di la dell'Atlantico grazie ad un nuovo finanziamento della EU [ref. DataTAG] ed alla collaborazione con la rete della ricerca europea [ref. Geant]. Quando questo progetto sarà completato alla fine del 2003, sarà possibile avere a disposizione un modello in grandezza reale del sistema finale della Grid per l'LHC. In pratica un fisico potrà dal suo computer in ufficio o magari seduto in una sala di aspetto di un qualunque aereoporto del mondo connettersi alla Grid con il suo navigatore preferito, accedere ad un portale dedicato che gli fornirà tutte le istruzioni necessarie per descrivere il suo problema. A questo punto con un semplice click del suo "mouse" potrà inviare in esecuzione il programma corrispondente ed attendere i risultati che gli saranno inviati mentre magari sta volando alla sua destinazione d'arrivo. Una volta nel suo ufficio potrà accedere di nuovo alla Grid per esaminare i risultati ricevuti nel frattempo e risottomettere una richiesta di calcolo se necessario. In ogni momento potrà interrogare la Grid per sapere come sta procedendo la sua elaborazione ed avere una stima del costo finale. Questo perchè naturalmente la Grid non sarà gratuita nè significherà la scomparsa dei grandi centri di calcolo, ma semplicemente ne permetterà un uso integrato e più razionale permettendo di raggiungere potenze di calcolo inimmaginabili fino ad oggi. L'impatto sulla scienza è difficile da quantificare oggi ma è sicuro che si apriranno nuove strade nell'uso dell'informatica e problemi fino ad oggi considerati insolubili saranno affrontati e probabilmente risolti. Impatto sulla società. L'impatto potenziale sulla società sarà grande. Prima di tutto facendo progredire la scienza in generale e la ricerca fondamentale il ritorno per la società sarà comunque positivo ed importante, ma ci saranno anche degli effetti più immediati e diretti. Con la disponibilità di una potenza di calcolo praticamente infinità ed a costi molto accessibile, in quanto si pagherà il tempo effettivo usato senza dovere ogni volta investire in grossi centri anche come semplice utente, sarà possibile anche per settori della ricerca e dell'educazione tradizionalmente più poveri accedere alla potenza di calcolo tradizionalmente riservata solo ai centri di ricerca ed alle università dei paesi più sviluppati ed avanzati. Se i politici lo permetteranno, questa tecnologia potrà avere quindi un effetto livellante tra ricerca dei paesi ricchi e ricerca dei paesi poveri. Anche nei paesi più sviluppati scuole in zone meno favorite o semplicemente di livello inferiore potranno accedere alla Grid aumentando notevolmente il livello della loro istruzione. Globalmente si darà una possibilità agli studenti e ricercatori più intelligenti di qualunque paese essi siano di contribuire al progresso della società alla stessa misura dei ricercatori e studenti dei paesi più ricchi. Certo c'è un po' di utopia in questa visione in quanto il calcolo non è tutto e per una società più giusta bisognerà intervenire a tutti i livelli, ma come informatici con questa tecnologia pensiamo di fare la nostra parte ed offrire il nostro pur modesto contributo. (Ndr: ripreso dalla rivista MediaDuemila di novembre 2001) |