Désinfectant HTML pour nettoyer la sortie exportée des programmes bureautiques

Stephen Ostermiller

Désinfectant HTML pour nettoyer la sortie exportée des programmes bureautiques


J’essaie d’exporter un document Word au format HTML depuis LibreOffice sous Linux. Je voudrais prendre cette sortie et pouvoir la nettoyer:

  • Supprimez toutes les balises qui ne figurent pas sur une liste blanche que je spécifie (je veux vraiment conserver les balises p , a , ul et li , mais pas grand-chose d’autre).
  • Supprimez les attributs inutiles, en particulier le style , la class et l’ id .
  • Supprimer tous les commentaires
  • Jolie impression du résultat
  • J’aimerais pouvoir l’exécuter sur la ligne de commande sous Linux pour diriger un fichier à travers celui-ci, même si je suis ouvert à l’utilisation d’un programme GUI ou à la recherche d’un site Web qui offre cela en tant que service.

Réponses


 htellez

Vous devriez essayer grogner, c’est un exécuteur de tâches javascript. Et ce type de tâches est généralement pris en charge dans des modules spécifiques et bien pris en charge. Par exemple, celui-ci (grunt-processhtml) est très personnalisable et je pense qu’il est parfait pour ce que vous essayez de faire, même s’il vous faudra coder un peu. Sa description est:

Traitez les fichiers html au moment de la construction pour les modifier en fonction de l’environnement de publication

Pour commencer avec grognement, vous aurez besoin de nodejs, mais pas de soucis, je vous assure que ce sera un temps bien investi et vous pourrez apprendre tout ce dont vous avez besoin assez rapidement.

  1. Téléchargez et installez nodejs.
  2. Installez le client grunt. Dans votre console (pas dans la console nodejs), tapez npm install -g grunt-cli (si vous utilisez linux, vous devez le faire avec des privilèges de super utilisateur).
  3. Installez grunt dans votre répertoire actuel. Dans votre console, tapez npm install grunt .
  4. Installez également vos composants grunt avec npm. par exemple npm install grunt-processhtml npm install grunt-htmlclean .
  5. Configurez vos tâches, c’est assez simple et vous pouvez apprendre à le faire avec les instructions données dans cette page .

 

#la, #pour, bureautiques, des, Désinfectant, exportée, HTML, nettoyer, Programmes, sortie

 

elle.fr

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *