Désinfectant HTML pour nettoyer la sortie exportée des programmes bureautiques
Désinfectant HTML pour nettoyer la sortie exportée des programmes bureautiques
J’essaie d’exporter un document Word au format HTML depuis LibreOffice sous Linux. Je voudrais prendre cette sortie et pouvoir la nettoyer:
- Supprimez toutes les balises qui ne figurent pas sur une liste blanche que je spécifie (je veux vraiment conserver les balises
p
,a
,ul
etli
, mais pas grand-chose d’autre). - Supprimez les attributs inutiles, en particulier le
style
, laclass
et l’id
. - Supprimer tous les commentaires
- Jolie impression du résultat
- J’aimerais pouvoir l’exécuter sur la ligne de commande sous Linux pour diriger un fichier à travers celui-ci, même si je suis ouvert à l’utilisation d’un programme GUI ou à la recherche d’un site Web qui offre cela en tant que service.
Réponses
htellez
Vous devriez essayer grogner, c’est un exécuteur de tâches javascript. Et ce type de tâches est généralement pris en charge dans des modules spécifiques et bien pris en charge. Par exemple, celui-ci (grunt-processhtml) est très personnalisable et je pense qu’il est parfait pour ce que vous essayez de faire, même s’il vous faudra coder un peu. Sa description est:
Traitez les fichiers html au moment de la construction pour les modifier en fonction de l’environnement de publication
Pour commencer avec grognement, vous aurez besoin de nodejs, mais pas de soucis, je vous assure que ce sera un temps bien investi et vous pourrez apprendre tout ce dont vous avez besoin assez rapidement.
- Téléchargez et installez nodejs.
- Installez le client grunt. Dans votre console (pas dans la console nodejs), tapez
npm install -g grunt-cli
(si vous utilisez linux, vous devez le faire avec des privilèges de super utilisateur). - Installez grunt dans votre répertoire actuel. Dans votre console, tapez
npm install grunt
. - Installez également vos composants grunt avec npm. par exemple
npm install grunt-processhtml
npm install grunt-htmlclean
. - Configurez vos tâches, c’est assez simple et vous pouvez apprendre à le faire avec les instructions données dans cette page .
#la, #pour, bureautiques, des, Désinfectant, exportée, HTML, nettoyer, Programmes, sortie