38 lines
1.1 KiB
Markdown
38 lines
1.1 KiB
Markdown
|
|
# trafilatura
|
||
|
|
|
||
|
|
> Un outil Python pour l'extraction et le crawling de contenu web.
|
||
|
|
> Extrait le texte principal, les métadonnées et les commentaires des pages web.
|
||
|
|
> Plus d'informations : <https://trafilatura.readthedocs.io/en/latest/usage-cli.html#further-information>.
|
||
|
|
|
||
|
|
- Extraire le texte d'une URL :
|
||
|
|
|
||
|
|
`trafilatura {{[-u|--URL]}} {{url}}`
|
||
|
|
|
||
|
|
- Extraire le texte et sauve le résultat dans un fichier :
|
||
|
|
|
||
|
|
`trafilatura {{[-u|--URL]}} {{url}} {{[-o|--output-dir]}} {{chemin/vers/fichier.txt}}`
|
||
|
|
|
||
|
|
- Extraire le texte au format JSON :
|
||
|
|
|
||
|
|
`trafilatura {{[-u|--URL]}} {{url}} --json`
|
||
|
|
|
||
|
|
- Extraire le texte de plusieurs URLs listées dans un fichier :
|
||
|
|
|
||
|
|
`trafilatura {{[-i|--input-file]}} {{chemin/vers/liste_urls.txt}}`
|
||
|
|
|
||
|
|
- Crawle un site web en utilisant son sitemap :
|
||
|
|
|
||
|
|
`trafilatura --sitemap {{url_vers_sitemap.xml}}`
|
||
|
|
|
||
|
|
- Extraire le texte en conservant le formatage HTML :
|
||
|
|
|
||
|
|
`trafilatura {{[-u|--URL]}} {{url}} --formatting`
|
||
|
|
|
||
|
|
- Extraire le texte avec les commentaires :
|
||
|
|
|
||
|
|
`trafilatura {{[-u|--URL]}} {{url}} --with-comments`
|
||
|
|
|
||
|
|
- Affiche l'aide pour plus d'options :
|
||
|
|
|
||
|
|
`trafilatura {{[-h|--help]}}`
|