2/16/08

Metadata dan Bom Waktu

Sebagai pustakawan “zaman baheula”, saya masih sering cenderung menganggap metadata itu sama dengan data bibliografi. Yaitu data yang mengidentifikasi suatu dokumen, seperti judul, nama pengarang, keterangan edisi, dsb. Pendek kata data yang dicatat sesuai dengan standar ISBD/AACR. Tentu saja saya tahu bahwa metadata tidak terbatas pada data macam itu. Data macam itu cuma metadata untuk resource discovery, data yang membantu temu kembali. Tapi data macam itu bagi saya adalah data yang paling familiar karena selama lebih dari dua dasawarsa saya beberapa kali seminggu bercuap-cuap tentang data itu di hadapan mahasiswa yang bosan dan ngantuk! Jadi terus terang saja, kadang-kadang saya kurang memperhatikan atau kurang ingat metadata yang lebih “baru”, seperti metadata untuk pelestarian atau preservasi, untuk hak intelektual, dan sebagainya. Di era digital ini metadata macam itu tidak kalah pentingnya dengan metadata yang mirip data bibliografi tradisional.

Sebulan yang lalu saya membuka-buka majalah Forbes Asia, suatu majalah tentang bisnis, current events, teknologi, dan sebagainya. Suami saya tiba-tiba mendapat kiriman majalah ini, dan saya ikut-ikutan membaca. Biasanya kalau suami sudah bilang: “Ah, kamu nggak ngerti, ini bukan bidang kamu,” saya justru merasa harus buka-buka dan baca sana sini. Begitu juga dengan issue Forbes Asia itu, yang mungkin dikirim sebagai perkenalan. Dan, ... surprise!!! Ada artikel yang termasuk bidang saya!!! Judulnya: “Keeping our bits about us,” suatu tulisan tentang pentingnya digital preservation. Artikel itu, selain membahas secara umum pentingnya upaya pelestarian sumber-sumber digital, juga secara khusus menyinggung peran metadata dalam upaya ini. Bagian tentang metadata inilah yang mengingatkan saya akan preservation metadata, lalu menggelitik saya untuk melihat-lihat lagi koleksi saya tentang topik ini. Sudah lama box berisi koleksi ini tidak saya sentuh. Sesudah membaca-baca lagi fotokopi artikel, dan bahan yang di-download yang tersimpan di box itu, saya semakin sadar akan pentingnya jenis metadata ini. Dan timbul pertanyaan dalam benak saya: Sudahkah metadata untuk preservasi diperhatikan oleh perpustakaan digital di sini? Memang jumlah perpustakaan digital di sini masih kecil, koleksinya juga masih kecil, tapi jika metadata untuk preservasi ini tidak ditangani sejak awal, akibatnya fatal. Sebab setiap koleksi digital pada dasarnya menyimpan bom waktu.

Untuk post ini dan beberapa post berikut saya akan memilih beberapa tulisan yang (menurut saya) bermanfaat untuk disimak bersama, khususnya oleh pengelola perpustakaan digital. Apa bom waktu itu, dan apa yang dapat dilakukan oleh pustakawan? Khususnya, apa peran metadata? Sebagai pembuka, inilah artikel "Keeping our bits about us" oleh Stephen Manes dalam Forbes Asia, bulan Februari 2006. Karena dimuat dalam majalah yang bukan majalah profesional bidang ilmu perpustkaan dan informasi atau ilmu komputer, bacaannya ringan saja. Jadi cocok sebagai pembuka. Artikel ini dialihbahasakan dan diolah (di mana perlu diringkas, dikurangi, atau diperluas dengan tambahan penjelasan) tanpa menghilangkan esensinya. Paling bagus tentu saja baca aslinya. Kalau ingin mengutip, kutiplah aslinya, bukan olahan di bawah ini.

Anda baru saja menggunakan kamera digital anda yang canggih dan serba bisa untuk membuat foto indah dari anak-anak anda yang sedang bermain di kebun binatang. Jika anda hati-hati dan beruntung, mungkin cucu anda bisa melihatnya. Kata William LeFurgy, manajer proyek digital initiatives dari Library of Congress: “Orang terus menerus mengumpulkan foto dan musik, dan surat pajak dan korespondensi pribadi dalam bentuk digital. Kelak disk penyimpannya akan berhenti berfungsi. Jika anda belum bikin back-up, ya hilanglah semuanya.” Jika masalah ini dikalikan satu miljar atau lebih kali, maka anda akan memahami tantangan preservasi informasi yang lahir dalam bentuk digital – yaitu segala sesuatu yang mulai hidupnya sebagai 1 dan 0 elektronik. 
 
Suatu studi University of California tahun 2003 memperkirakan bahwa informasi baru dalam bentuk elektronik mencapai kira-kira 17.7 exabytes per tahun – 17.7 milyar gigabyte. Jumlah ini semakin meningkat sejak studi itu dilakukan. Sekarang, informasi – apapun macamnya, dokumen, foto, gambar arsitektur, desain high-def video atau pesawat terbang – berawal sebagai bits. Dan preservasi bits tersebut untuk anak cucu tidak semudah menyimpan selembar kertas dalam laci.

Bukan hal yang luar biasa bila orang dapat melihat dokumen tercetak yang sudah berusia 200 tahun,” kata Clifford Lynch, direktur eksekutif Coalition for Networked Information. “Di dunia tradisional banyak obyek akan survive lama sekali meski ditelantarkan. Obyek digital hanya akan survive bila orang membuat rencana dan dengan sistematis memikirkan kelangsungan hidup obyek tersebut secara berkelanjutan.” Masalah-masalah sekitar warisan digital kita sudah menjadi begitu kompleks sehingga sedang dilakukan berbagai upaya oleh kalangan perguruan tinggi, institusi, dan bisnis, untuk mengembangkan cara untuk melestarikan data yang diciptakan dalam bentuk digital. Tujuannya: agar data tersebut masih dapat dipahami puluhan dan ratusan tahun lagi.

Library of Congress tengah melaksanakan proyek National Digital Information Infrastrucure & Preservation Project yang bernilai $100 juta dan sepuluh tahun lamanya. Proyek ini diadakan untuk merancang strategi-strategi preservasi digital. September yang lalu Lockheed Martin mendapat kontrak sebesar $308 juta dari arsip nasional Amerika Serikat Tugas Lockheed Martin: mengembangkan cara-cara preservasi dokumen pemerintahan berbentuk digital. Satu setengah tahun lalu Iron Mountain, suatu perusahaan yang sudah berdiri 55 tahun dengan spesialisasi penyimpanan dokumen (dokumen yang konvensional, yang berwujud fisik seperti bahan tercetak) membeli perusahaan Connected dan LiveVault, yaitu dua perusahaan yang spesialisasinya adalah digital -archiving.

Di masa mendatang para digital archeologists minimal memerlukan metode-metode untuk mengekstraksi informasi dari media penyimpan yang sekarang sudah ada, dan yang kelak akan ada. Sarana macam ini pada suatu saat pasti tidak tersedia lagi atau tidak dapat dipakai lagi. Kapan misalnya, anda terakhir melihat suatu Commodore 64 floppy disk drive ? Organisasi yang sangat memperhatikan preservasi memindahkan informasi dari sistem lama ke yang lebih baru secara teratur. Perusahaan Corbis milik Bill Gates, misalnya, menyimpan 73 terabyte – 73.000 gigabyte – citra (image) di hard drives yang mereka upgrade berdasarkan suatu jadual tiga tahunan.

Menyimpan bits mungkin bagian termudah dari upaya preservasi. Lebih sulit adalah membuat bits itu masih bisa dipakai (dibaca, dilihat, didengar), karena untuk ini dibutuhkan perangkat keras dan lunak yang dulu digunakan untuk menciptakan bits tersebut. Domesday project dari BBC, suatu rekaman kehidupan di Inggris, memakan biaya $4.2 miljar saat dibuat tahun 1986. Lima belas tahun kemudian untuk restorasi rekaman ini harus dilakukan rekonstruksi komputer dan piranti pemutar laser-disk yang sudah usang (obsolete), rekayasa terbalik perangkat lunak dan penulisan program baru. Washington State Archives menyimpan suatu perpustakaan berisi benda peninggalan lama, dalam hal ini perangkat keras dan lunak kuno. Sekarang disana sedang dilakukan upaya mengumpulkan missing links yang sering terlupakan, yakni buku panduan dan buku how-to untuk perangkat lunak dan keras kuno itu. 
 
Kadang-kadang perangkat lunak bisa menjadi pengganti perangkat keras. Berkat software emulators ribuan game kuno dapat dimainkan pada komputer zaman ini. Namun anehnya, hal yang kelihatannya sederhana, seperti misalnya menerjemahkan format file, bisa gagal terus-terusan. Contohnya, belum ada program pengolah kata saingan yang bisa menampilkan setiap butir file Microsoft Word dengan sempurna. 
 
Strategi baru ialah preservasi dan ekstraksi rekaman elektronik “bebas dari ketergantungan pada perangkat keras atau lunak spesifik”. Demikian keterangan dari National Archives dari Amerika Serikat. Jika kita melihat banyaknya dan beragamnya sumber daya yang kini diciptakan dalam bentuk digital (sumber daya yang born digital), jelas ini tugas yang bukan main sulitnya. Kenneth Thibodeau, direktur program National Archives' Electronic Records Archives mengacu ke kapal-kapal angkatan laut Amerika Serikat yang punya masa hidup 50 tahun. Katanya: “Semua data yang diperlukan untuk membuat kapal-kapal itu operasional berbentuk digital,” termasuk computer-assisted manufacturing data yang dirancang untuk digunakan bersama dengan alat tertentu. Saat kapal bertambah tua, bagaimana mereka tahu bahwa data itu dapat digunakan untuk menggantikan suatu sistem jika sistem itu mengalami kerusakan? 
 
Satu kunci untuk memperkecil pentingnya perangkat keras dan lunak asli adalah metadata, yaitu data tambahan yang mendeskripsikan informasi digital tersebut, dan menjelaskan bagaimana menggunakannya. Seperti dikatakan Thibodeau, secara teoretis kita “membungkus rekaman dengan cukup banyak informasi sehingga kita dapat mengetahui apa rekaman itu dan apa yang harus dilakukan dengan rekaman itu.”
Sambil menunggu situasi yang ideal itu (= ada metadata lengkap dan rinci yang menjelaskan setiap rekaman informasi digital) metadata yang lebih sederhana dapat membantu pemakai mencari dan menemukan isi (content) yang lahir dalam bentuk digital. Informasi seperti tanggal dan waktu yang menyertai file data dan pengirim/penerima yang menyertai e-mail, sebetulnya merupakan informasi deskriptif yang ditambah otomatis – artinya pengguna tidak perlu melakukan upaya tambahan. Sedangkan isi dari file berupa teks, bisa berfungsi sebagai metadata internal yang siap untuk pengindeksan otomatis.

File berisi suara dan citra menuntut lebih banyak upaya dari manusia penggunanya. Dalam konteks metadata ini berarti: kita harus menciptakan metadata yang lebih lengkap, mendetil dan akurat, agar file ini tetap bisa dimanfaatkan (didengar, dilihat) dan ditelusuri. Ada standar untuk metadata macam ini: Wartawan foto misalnya, sering menggunakan standar yang bernama IPTC untuk captions, catatan lokasi dan catatan penanggungjawab. Closed captions merupakan sejenis metadata internal untuk show TV. Metadata komunal, seperti pemberian “tag” oleh pengguna situs seperti Flickr atau del.icio.us membantu mengelompokkan halaman web dalam kategori-kategori, dan berfungsi sebagai semacam jepretan atau foto kilat (snapshot) yang berguna untuk temu kembali.
Tapi, bagaimana pun juga, kebanyakan informasi hari ini -- seperti misalnya di Web -- tidak mau duduk diam untuk dibuat fotonya. Jika kita mengandalkan sesuatu yang terpampang di situs web milik pemerintah atau badan korporasi, bagaimana kita nanti bisa membuktikan apa yang saat itu ada di situs tersebut? Internet Archive menyimpan jepretan kilat dari Web yang bersifat publik, tetapi Brewster Kahle, direktur dan salah satu pendirinya, mengingatkan bahwa Internet Archive ini mirip kamera dengan shutter yang memerlukan dua bulan untuk mengambil gambar. Banyak sekali yang sudah berubah sementara itu.

Kemampuan untuk berubah-ubah inilah yang menimbulkan masalah kearsipan lain, yaitu ke-otentikan. Di Amerika Serikat misalnya, peraturan baru dari U.S. Securities & Exchange Commission menetapkan bahwa rekaman transaksi para pedagang saham dan surat berharga yang berbentuk elektronik harus dilengkapi nomor seri, punya cap waktu dan harus disimpan pada media yang tidak bisa dihapus, tidak bisa ditimpa rekaman baru (nonrewritable), dan disimpan di lebih dari satu lokasi. Peraturan yang ketat, tetapi tidak begitu spesifik berlaku untuk rekaman medik. Yang tambah bikin pusing industri kesehatan ialah tantangan preservasi lain, yakni digital privacy.

Salah satu peran tradisional arsiparis adalah memutuskan apa yang akan dibuang. Peran ini mulai mubazir. Media penyimpan sekarang begitu murah sehingga tidak menjadi masalah untuk menyimpan seterusnya segala sesuatu, asal saja kuantitasnya tidak terlalu besar. Ada proyek misalnya yang setiap hari menciptakan satu terabyte (seribu gigabyte) data setiap hari. Biaya menyimpan dan merawat koleksi sebesar itu masih tetap menjadi beban. Karena itu memutuskan apa yang perlu disimpan dan yang bisa dibuang, masih tetap menjadi masalah.
Automasi mungkin akan menyederhanakan beberapa aspek preservasi digital. Situs web PodZinger dari BBN Tecnologies menggunakan perangkat lunak yang bisa mengalihkan suara ke teks, dan kemudian mengindeks teks podcast tersebut, sehingga isi podcast bisa ditelusuri. Perangkat lunak yang bisa menganalisis citra kelak memungkinkan citra dikatalog dan ditemukan kembali dengan intervensi manusia yang sangat minimal. Kelebihan digital lain adalah gampangnya menyimpan kopi-kopi dokumen di tempat yang berbeda-beda. Dengan demikian preservasi menjadi suatu cara yang jitu untuk menghindari akibat bencana seperti bencana Katrina di New Orleans.
Kahle, tokoh Internet Archive, memandang akses yang mudah ke data digital sebagai alasan utama untuk preservasi. “Akses,” demikian katanya, “mendorong preservasi.” Setelah masalah-masalah dipilah-pilah dan satu persatu dicari solusinya, mungkin hasil paling berarti dari preservasi digital adalah berkolaborasi dengan World Wide Web dan dengan demikian membuka dunia-dunia yang selama ini tersembunyi, tapi penuh informasi bagi sejarawan, ahli genealogi, ilmuwan, pengarang, musikus dan videografer hari ini dan esok.

No comments:

Total Pageviews