Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
config		config
doc_to_speech		doc_to_speech
tests/images		tests/images
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
README.md		README.md
main.py		main.py
pyproject.toml		pyproject.toml
requirements-dev.txt		requirements-dev.txt
requirements.in		requirements.in
requirements.txt		requirements.txt

Repository files navigation

doc_to_speech

Book reader : From word / pdf to audio

Un dossier par fonctionnalité :

ocr : reconnaissance de caractères sur un pdf / une image
text_to_speech : TTS avec suno / bark

Text to speech

Sources :

Bark model : https://huggingface.co/docs/transformers/model_doc/bark
TTS model from facebook : https://huggingface.co/facebook/tts_transformer-fr-cv7_css10
Packaged espeak API : https://github.com/parente/espeakbox

Configure Accelerate

To optimize GPU usage : accelerate
Run accelerate config & check config : accelerate env
Config file at ./model/accelerate/default_config.yaml

Setup project

Create .env file with :

SUNO_USE_SMALL_MODELS=true
SUNO_ENABLE_MPS=true
HF_HOME=./model_cache

Install uv
Install dependencies : uv pip install -r requirements.txt
Run : python main.py

About

From word / pdf to audio

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%