Milijardna zbirka podatkov genskih zapisov na Oracle 10g
Trace Archive, podatkovna zbirka DNA zaporedij, ki jo je vzpostavil inštitut Wellcome Trust Sanger, je dosegla eno milijardo zapisov. Trace Archive, ki temelji na tehnologiji Oraclovih podatkovnih zbirk, je skladišče vseh podatkov o zaporedjih, ki jih proizvede in objavi svetovna znanstvena skupnost, skupaj z inštitutom Sanger, vodilnim inštitutom na področju genetike.
Podatkovna zbirka, ki obvladuje 22 tetrabajtov velik arhiv, ki se podvoji vsakih deset mesecev, je Oracle Database 10g. Podatki so procesirani v podatkovno zbirko z uporabo skupine štirih strežnikov HP ES45. Vsak vnos v podatkovno bazo je del genskih informacij, dolg v povprečju 864 znakov. Znanstveniki lahko iščejo med temi sekvencami in jih sestavljajo za izgradnjo celotne genske informacije različnih organizmov – miši, rib, muh, bakterij in, seveda, človeka. Vsi podatki so prosto na voljo svetovni znanstveni skupnosti in dragocen vir genetikom po vsem svetu. Ko raziskovalec preučuje bolezen ali gen, lahko prenese vse genske informacije, ki so znane o področju, ki ga preučuje. Podatke aktivno uporabljajo biomedicinskih raziskovalci tako v akademskih in zasebnih organizacijah.
Po raziskavi podatkovnih zbirk za leto 2005, ki ga opravlja Winter Corporation, je arhiv Trace verjetno največja znanstvena podatkovna zbirka (britanska knjižnica ima 13 milijonov kosov gradiva, ameriška kongresna knjižnica pa 115 milijonov), postavlja na peto mesto za velikani kot so AT&T in Yahoo. Na tem seznamu so Oraclove podatkovne zbirke na vrhu v večini kategorij, npr. največja zasebna podatkovna zbirka, največja znanstvena podatkovna zbirka, največja podatkovna zbirka, ki temelji na Linuxu.
Kot zanimivost: izpis vseh podatkov arhiva Trace v eni vrstici besedila bi zemeljsko oblo obkrožil 250-krat, izpis vseh podatkov na strani A4 pa bi ustvarilo kup papirja, ki bi bil dva in pol krat višji kot Mount Everest.
Prijavi napako v članku