DolbyUUU / DeepEnlighten Public

Pure RL without SFT to post-train base models for social reasoning capabilities. Lightweight replication of DeepSeek-R1-Zero with Social IQa dataset.

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
analysis		analysis
data		data
examples		examples
tests		tests
verl		verl
verl_miscellaneous		verl_miscellaneous
verl_others		verl_others
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
log.log		log.log
requirements.txt		requirements.txt
run_rl_trainer_llama_instruct.sh		run_rl_trainer_llama_instruct.sh
run_rl_trainer_qwen_base.sh		run_rl_trainer_qwen_base.sh
run_rl_trainer_qwen_instruct.sh		run_rl_trainer_qwen_instruct.sh