Apache Tika atteint la version 1.0 : 1200 formats supportés par le Toolkit Java de détection, extraction et analyse de données
Posted
on Developper.com
See other posts from Developper.com
Published on Thu, 10 Nov 2011 16:00:00 +0100
Indexed on
2011/11/11
18:02 UTC
Read the original article
Hit count: 266
Filed under:
Apache Tika disponible en version 1.0
Le Toolkit de détection, d'extraction et d'analyse de données supporte désormais 1200 formats de fichiers
Après cinq années de développement, le projet open source Tika arrive à maturité et arbore fièrement le numéro de version rond : 1.0.
C'est un toolkit Java léger et facilement intégrable, destiné à la détection, l'extraction et l'analyse de métadonnées et de données texte structurées à partir d'une très large variété de formats de fichiers (1200 à l'heure d'écriture de ces lignes).
Parmi ces formats, on retrouve : HTML, XML, Microsoft Office, OpenOffice/OpenDocument, PDF, images, ebooks/EPUB, Rich Text, divers formats de com...
© Developper.com or respective owner