Så sant man ikke ønsker å bruke datamaskinen à la forfatteren Isaac Asimov (han lagret ikke filer, men skrev ut boksidene fra tekstbehandlingsprogrammet etterhvert som de ble ferdig), bør brukere av datamaskiner ha ordentlige rutiner for hvordan eldre filer arkiveres. For noen vil det først og fremst handle om å dokumentere sitt eget liv (tenk på hvor mange private brev, stillbilder og filmer som bare finnes i digital form i dag), for forbløffende mange handler det om å ta vare på filer som er viktige i jobb- og skattesammenheng.
I disse dager får jeg stadige påminnelser om hvor vanskelig dette kan være. Jeg er i ferd med å bytte ut en datamaskin og skifte operativsystem på en annen, og det betyr at alt som finnes av egenprodusert innhold på harddiskene må gjennomgås for eventuell sletting og arkivering. De eldste filene på diskene er fra 1991, så her handler det om arkeologisk arbeide i stor skala.
For den som ikke lagrer digital video er plass ikke et problem. Hvor grundig man arkiverer må isteden veies opp mot tiden det tar å konvertere filer til et passelig format. Ja, for er det en ting som blir smertelig åpenbart når man går gjennom tolv år gamle filer, er det hvor kort levetid filformater har. Som forfatter har jeg produsert en god del tekst (flere hundre artikler bl.a.), og for å gjøre det lettvint har jeg ukritisk lagret i standardformatet til tekstbehandleren jeg brukte.
Gjennom årene er mine tekstfiler derfor blitt lagret med WordPerfect 4.2, 5.1 og 6.0 (DOS/Windows), Lotus WordPro 96 (Windows), Applix Word (Linux), KWord (Linux), AbiWord (Linux/Windows) og OpenOffice (Linux/Windows). Siden WordPerfect og WordPro fremdeles er i produksjon, er det mulig å lese de eldste filformatene. Men det blir stadig mer upraktisk (for ikke å si risikabelt) å ha et slikt formatmangfold.
Derfor fant jeg meg et standardformat basert på følgende hovedkrav:
1. Filformatet tar vare på et minimum av tekstformatering (ASCII og HTML faller ut)
2. Det kan åpnes av tekstbehandlere på flest mulig operativsystemer (WordPerfect, WordPro, Adobe PDF og KWord faller ut)
3. Det er ikke-proprietært og veldokumentert (MS Office faller ut)
4. Det er relativt uforanderlig over tid og kan forventes å være i bruk i mange år fremover (AbiWord og Openoffice faller ut)
Strengt tatt er det bare ett utbredt format som tilfredstiller kravene sånn noenlunde, og det er RTF (Rich Text Format). Joda, jeg ser ironien i at en som behendig har unngått Microsoft-produkter velger et tekstformat som ble utviklet av samme selskap. Men tretten års skribenterfaring har lært meg at RTF-filer gir færrest problemer for mottakeren når de sendes som vedlegg, og kan åpnes med tekstbehandlere på alt fra stormaskiner til PDAer. Og viktigst av alt: siden RTF er ASCII-basert og veldokumentert, vil det finnes RTF-importfiltre til tekstbehandlere i all overskuelig fremtid. (MS Word-brukere bør forøvrig lese om noen andre fordeler ved RTF.)
09/06/2003 at 13:32
På kva måte tar RTF betre vare på tekstformatering enn HTML? Eg vil tru det er omvendt.
Og RTF er ikkje so standardisert som ein vil ha det til. Ulik programvare brukar ulike, av og til inkompatible, utgåver av RTF. Omtrent ingen følgjer standarden som definert (inkludert MS Word).
09/06/2003 at 17:31
Selv om OpenOffices format nok ikke er uforanderlig, har det sine klare fordeler:
OpenOffices filer er XML-baserte. XML er en relativt uforanderlig standard vi vil kunne finne igjen om mange år. OpenOffice-filene er alle sammen pakket med .zip som er et annet, veldokumentert format som de fleste operativsystemer vil ha støtte for også om tjue år.
Dokumentasjonen på OpenOffices filformat er i tillegg åpen og offentlig, så selv om formatet om ti eller tjue år ikke nødvendigvis er likt, så kan du være rimelig sikker på at det vil finnes programvare som kan kan konvertere frem og tilbake.
Det er forøvrig også slik at HTML har forbausende stor evne til å ta vare på både visuell formatering og semantikk – forutsatt at ikke dokumentene du ønsker å ta vare på er altfor krydret med matematikk.
09/06/2003 at 23:52
Interessante kommentarer, dette. Hovedproblemet med HTML er at det ikke er ment som et oppmerkingsspråk for papirpublikasjon (jamfør den manglende støtten for tabulatorinnrykk, paginering og annet som er viktig for papirskribenter). For langtidslagring av lengre dokumenter med underkapitler, fotnoter, kryssreferanser osv. egner TeX/Latex seg langt bedre enn HTML, for øvrig. Det er åpent, godt dokumentert og har en svær, etablert brukerbase.
Det er riktig at det finnes flere versjoner av RTF, men jeg har ennå til gode å oppleve at et tekstbehandlingsprogram på en av mine maskiner (tre operativsystemer, ørten ulike editorer og tekstbehandlere) har laget store problemer med formateringen. Jeg har heller ikke opplevd negativ respons fra noen av mine mange oppdragsgivere, som stort sett mottar filer i RTF (HTML-filer leverer jeg i håndkodet form, og kun til oppdragsgivere som publiserer direkte til nett).
Hovedprinsippet for effektive arkiveringsrutiner for de av oss som ikke har ansatte til å ta oss av slikt, må være at arkiveringen lett kan integreres i det daglige arbeidet. Og da vinner RTF i mitt tilfelle, til tross for utvilsomme svakheter. At andre brukere tenker over de samme momentene og kommer til en annen konklusjon, tar jeg for gitt.
10/06/2003 at 00:18
Kan LyX (http://www.lyx.org/about/intro.php3) være et alternativ. Jeg har ikke personlig erfaring med editoren, men skal en dømme etter omtalen virker den både funksjonsrik og fleksibel. Ser ut til å gi alle fordelene ved LaTex, men i en mer brukervennlig innpakning.
10/06/2003 at 07:40
Jeg har prøvd Lyx, og var stort sett fornøyd med programmet. Er vel i grunnen bare ett problem med det i forhold til egen arkivering, og det er at det krever en del tilpasning for hånd av lengre dokumenter som er importert. Er litt for lat til å bruke det, mao. 🙂
10/06/2003 at 11:58
Jeg er aldeles ikke uenig i vurderingen av LaTeX som lagringsformat – jeg overså/glemte bare konteksten “forfatter av fagbøker”.
Hva gjelder programvare som funker er jeg dog litt mer usikker på hva som er bra. En bekjent av meg som holder på med dr.grads-avhandlingen sin vet jeg bruker, og er fornøyd med, Scientific WorkPlace, men den koster noen kroner ($750), og er, ut fra hva jeg klarte å se, kun tilgjengelig for Windows.
11/06/2003 at 22:54
Her følgjer svar på fleire av kommentarane:
Om ein snakkar om praksis og ikkje berre ideologi, er nok MS Words (noverande) filformat minst like lett å lesa om 20 år som OpenOffice sitt vil vera.
Når det gjeld matematikk i HTML, er MathML eit utmerka språk, og det finst DOCTYPE-deklarasjonar for XHTML + MathML.
Når det gjeld ting som paginering og liknande, har eg vanskar med å forstå at dette er viktig for eit dokumentformat. Det er sjølvsagt nødvendig for eit publiserings-/sluttformat (som PDF eller PostScript, som fungerer utmerka til dette), men ikkje for eit vanlig dokumentformat. Om du har publisert ein artikkel i A5-format, må det vera mykje betre å kunna bruka denne om igjen i for eksempel A4-format i eit anna tidsskrift, eller på Internett.
Elles er LaTeX langt frå so strukturorientert som folk gjerne vil ha det til, og er etter mi meining heller ikkje noko eigna til langtidslagring (dels grunna eit mylder av pakkar (og klassar) i ulike versjonar, og eit dokument er avhengig av akkurat dei pakkane som var tilgjengelig når det vart laga, og i akkurat dei versjonane dei var i då).
(For ordens skyld, eg er ikkje motstandar av TeX og LaTeX. Det er utmerka format, og eg skriv blant anna alle breva mine i TeX (med den norske «brev»-klassen, som har mange nyttige eigenskapar).)
Når det gjeld lengre dokument med underkapittel, fotnotar, kryssreferansar, med meir, er DocBook (enten SGML- eller heller XML-versjonen) eit utmerka format det finst mange verktøy til. Her kan du lett (veldig lett) konvertera DocBook-utgåva til for eksempel RTF, LaTeX eller XHTML.
12/06/2003 at 00:11
Selv har jeg ikke det største behovet for å bevare paginering, men jeg kjenner skribenter for hvem slikt vil være viktig (vi har alle ulike behov, noe som blir litt lett å glemme i ideologiske diskusjoner som denne). Tabulatorinnrykk, innrykk og avsnitt er derimot svært viktig for meg, og erfaringsmessig tar RTF godt vare på slikt med et minimum av innsats. Ergo.