(Fr) Formats de documents type Office en XML

Posted on July 25, 2011

xmlLundi dernier je publiais l’article “Osons le tout XML” dans lequel je présentais quelques éléments qu’il convenait de gérer dans un format XML. Parmi ces éléments je faisais la promotion de la gestion de documents au format XML en indiquant qu’il serait nettement plus intéressant si les documents que l’on gère au jour le jour étaient définis avec une structure XML simple à manipuler. J’avou sur le coup avoir été un peu vite dans ma critique implicite des systèmes actuels. En effet, sans le savoir pour la majorité d’entre nous, tous les jours nous travaillons déjà avec ces documents décris en XML grâce à Microsoft Word depuis l’utilisation de fichiers au format .docx. En lisant différents sites sur les combats de formats XML de documents, j’ai appris que le format .docx était en fait une archive.

Microsoft Office Document: Office Open XML

Alors je me suis empressé d’ouvrir un de ces fichiers d’abord avec Microsoft Word…

Docx_in_MsWord

… puis ensuite avec un outil de décompression d’archives et voilà le résultat:

Docx_RealContent

Tout le contenu du document est lisible dans le fichier xml “document.xml” que l’on retrouve dans le sous-dossier “word”:

XMLDocContent

Donc j’ai l’air un peu bête car cela fait pas mal d’années que ce format est sorti, vous pouvez d’ailleurs retrouver une page dédiée sur wikipedia : http://fr.wikipedia.org/wiki/Office_Open_XML . Mais cependant c’est une très bonne nouvelle car on peut alors entrevoir la disparition du fichier en lui même pour intégrer tout ce contenu dans une solution toute XML. Seul résidu non intégrable dans ce format, les images restent ici sous forme de fichier, contrairement au pur export excel que l’on peut faire depuis Microsoft Office.

Côté Open Source : OASIS et Open Document Format

La bataille sur les standards est souvent engagé avec OASIS et les standards d’OASIS sont en général poussés par le monde du logiciel libre dont la solution OpenOffice. Donc pour comparer rapidement les deux formats, j’ai ouvert mon fichier Ms Office avec Open Office. Je perds donc pas mal d’informations à l’ouverture (la faute à personne, juste des formats différents).

Word_OpenOffice

Je l’enregistre ensuite au format ODT (format texte d’ODF):

save_odt

Et comme pour office je l’ouvre avec un logiciel de gestion d’archives:

archive ODT

Je trouve le contenu un peu plus clair dans cet archive ODT plutôt que dans le docx avec toujours cependant la même problématique des images.

Tout le contenu est dans le fichier “content.xml” qui encore une fois me semble plus simple à lire que l’xml de Microsoft (en toute subjectivité mais aucunement conduite pas un coté Open Source).

xml_ odt

Tout XML?

La solution qu’il reste pour chacun des éditeurs est de sauvegarder le document en pure xml. Dans ce cas on perd plus d’informations du coté OpenOffice, et du coté Microsoft Word on permet la conservation des images codifiées dans le xml.

Yoann Maingon

Yoann Maingon

Yoann Maingon is an Entrepreneur and a PLM enthousiast. He is our main blogger at Minerva as he has been publishing articles about General PLM concepts and Aras Innovator for more than three years.

More Posts

Download Aras Innovator