Boas Práticas em Nomeação de Arquivos e Pastas

A organização de arquivos é frequentemente negligenciada, mas é fundamental para produtividade e colaboração em projetos de data science.

Convenções de Nomeação

Para Arquivos

Use snake_case para nomes de arquivo:

data_processing.py
model_training.ipynb
customer_segmentation_v2.py

Evite:

Espaços em branco — use underscore ou hífen
Nomes genéricos como script.py ou analysis.ipynb
Caracteres especiais ou acentuação

Seja descritivo: customer_segmentation_v2.py é melhor que script.py

Inclua versão se necessário: analysis_v1.0.py, report_final_v3.docx

Para Pastas

Use estrutura hierárquica clara:

Use lowercase com underscores
Mantenha nomes curtos mas significativos
Organize por tipo de conteúdo, não por data

Estrutura de Projeto Recomendada

Uma estrutura bem organizada facilita navegação e manutenção:

my_project/
├── data/
│   ├── raw/                 # Dados originais (nunca modificar)
│   ├── processed/           # Dados após limpeza
│   └── external/            # Dados de fontes externas
├── notebooks/               # Jupyter notebooks
├── src/
│   ├── data_processing.py
│   ├── feature_engineering.py
│   ├── model.py
│   └── utils.py
├── models/                  # Modelos treinados
├── results/                 # Outputs e visualizações
├── tests/                   # Testes unitários
├── README.md
├── requirements.txt
└── .gitignore

my_project/
├── data/
│   ├── raw/                 # Dados originais (nunca modificar)
│   ├── processed/           # Dados após limpeza
│   └── external/            # Dados de fontes externas
├── notebooks/               # Jupyter notebooks
├── src/
│   ├── data_processing.py
│   ├── feature_engineering.py
│   ├── model.py
│   └── utils.py
├── models/                  # Modelos treinados
├── results/                 # Outputs e visualizações
├── tests/                   # Testes unitários
├── README.md
├── requirements.txt
└── .gitignore

Benefícios de Boa Organização

Colaboração

Colegas entendem a estrutura rapidamente e podem contribuir efetivamente.

Reprodutibilidade

Fácil encontrar e reutilizar código. Experimentos podem ser repetidos.

Manutenção

Problemas são identificados rapidamente. Debugging é mais eficiente.

Profissionalismo

Projetos bem organizados impressionam empregadores e clientes.

Convenções de Nomeação por Tipo de Arquivo

Scripts Python

data_loader.py - Carrega dados
preprocessor.py - Processa dados
model_trainer.py - Treina modelo
evaluator.py - Avalia modelo

Notebooks Jupyter

01_exploratory_analysis.ipynb
02_feature_engineering.ipynb
03_model_training.ipynb
04_results_analysis.ipynb

Numere para indicar ordem de execução.

Dados

raw_data_2026_04_10.csv - Inclua data
processed_data_v2.parquet - Inclua versão
train_set.csv, test_set.csv - Seja claro sobre uso

Dicas Finais

Seja consistente: Escolha uma convenção e mantenha em todo o projeto
Documente: Adicione README explicando a estrutura
Use controle de versão: Git ajuda a rastrear mudanças
Revise regularmente: Reorganize conforme o projeto evolui

Investir tempo em organização no início economiza horas de frustração depois!