llamaguard

from Orchestra-Research/AI-research-SKILLs

Meta's 7-8B specialized moderation model for LLM input/output filtering. 6 safety categories - violence/hate, sexual content, weapons, substances, self-harm, criminal planning. 94-95% accuracy. Deploy

v1.0.0MIT

338

Lines

977

Words

Code Blocks

Languages

bashpython

View SKILL.md on GitHub All Skills in AI-research-SKILLs

07-safety-alignment/llamaguard/SKILL.md