Apache Tika atteint la version 1.0 : 1200 formats supportés par le Toolkit Java de détection, extraction et analyse de données

Posted on Developper.com See other posts from Developper.com
Published on Thu, 10 Nov 2011 16:00:00 +0100 Indexed on 2011/11/11 18:02 UTC
Read the original article Hit count: 266

Filed under:
Apache Tika disponible en version 1.0 Le Toolkit de détection, d'extraction et d'analyse de données supporte désormais 1200 formats de fichiers Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0. C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes). Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de com...

© Developper.com or respective owner