People DB - Data Processing Tools

A collection of Python scripts for processing, splitting, and importing contact data from Excel files into a PostgreSQL database.

Overview

This project provides tools to:

Split large Excel files into manageable chunks
Process and transform contact data
Import contacts and company information into a PostgreSQL database
Clean up data by removing empty records
Update and maintain database integrity

Requirements

Python 3.6+
PostgreSQL database
Required Python packages (see below)

Installation

Clone this repository:

git clone <repository-url>
cd people-db-py-data-dump

Set up a virtual environment:

python -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate

Install required packages:

pip install pandas psycopg2-binary python-dotenv openpyxl

Configure your database connection by creating a .env file:

DATABASE_URL=postgres://username:password@hostname:port/database_name

Usage

Splitting Large Excel Files

Use split.py to split large Excel files into smaller chunks:

python split.py

This will process files in the input_files directory and output chunks to the split_output directory.

Importing Data to Database

Use import_to_db.py to process and import data:

python import_to_db.py

This script:

Processes Excel files from the specified directory
Extracts contact and company information
Transforms the data into the required format
Imports the data into the PostgreSQL database

Data Cleanup

Use delete_empty_rows.py to remove empty or invalid records:

python delete_empty_rows.py

Updating Company IDs

Use update_company_ids.py to generate and update company UUIDs:

python update_company_ids.py

Data Structure

The scripts process Excel files with contact information and import them into two main database tables:

contacts: Individual contact information
companyProfilesData: Company information

File Structure

input_files/: Directory containing large Excel files to be processed
split_output/: Directory containing split Excel chunks
split.py: Script for splitting large Excel files
import_to_db.py: Script for processing and importing data
delete_empty_rows.py: Script for cleaning up empty records
update_company_ids.py: Script for updating company IDs

Notes

The scripts are designed to handle large datasets efficiently
Make sure your database connection is properly configured in the .env file
For very large files, adjust the chunk size in split.py as needed

License

[Specify your license here]

Contributors

[List contributors here]

Name	Name	Last commit message	Last commit date
Latest commit scriptscrypt Feat: readme Mar 10, 2025 2c7353b · Mar 10, 2025 History 1 Commit
.DS_Store	.DS_Store	Feat: readme	Mar 10, 2025
.gitignore	.gitignore	Feat: readme	Mar 10, 2025
README.md	README.md	Feat: readme	Mar 10, 2025
delete_empty_rows.py	delete_empty_rows.py	Feat: readme	Mar 10, 2025
import_to_db.py	import_to_db.py	Feat: readme	Mar 10, 2025
pyvenv.cfg	pyvenv.cfg	Feat: readme	Mar 10, 2025
split.py	split.py	Feat: readme	Mar 10, 2025
update_company_ids.py	update_company_ids.py	Feat: readme	Mar 10, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

People DB - Data Processing Tools

Overview

Requirements

Installation

Usage

Splitting Large Excel Files

Importing Data to Database

Data Cleanup

Updating Company IDs

Data Structure

File Structure

Notes

License

Contributors

About

Releases

Packages

Languages

scriptscrypt/db-dump-py

Folders and files

Latest commit

History

Repository files navigation

People DB - Data Processing Tools

Overview

Requirements

Installation

Usage

Splitting Large Excel Files

Importing Data to Database

Data Cleanup

Updating Company IDs

Data Structure

File Structure

Notes

License

Contributors

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages