LLM Safety

Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations

A systematic study showing that reasoning capabilities alone are insufficient for LLMs in multi-turn mental health conversations, isolating failure modes that demand additional safety and empathy-aware design.

Jul 1, 2026

MedHalu: Hallucinations in Responses to Healthcare Queries by Large Language Models

MedHalu is a fine-grained benchmark for studying hallucinations in LLM responses to consumer healthcare queries, analyzing hallucination patterns across models, query types, and medical specialties.

Jun 1, 2026

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

Sysformer learns adaptive, query-conditioned system prompts to safeguard frozen large language models, providing fine-grained safety control without modifying model weights.

Apr 23, 2026

Sysformer

Safeguards frozen large language models by learning adaptive, query-conditioned system prompts. Enables fine-grained safety control without modifying model weights. Accepted at ICLR 2026.

Apr 23, 2026

UniGuard: Towards Universal Safety Guardrails for Jailbreak Attacks on Multimodal Large Language Models

UniGuard is a universal safety guardrail for multimodal LLMs, defending against cross-modal jailbreak attacks across image and text channels with low utility cost.

Mar 3, 2025

PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners

PrivacyMind teaches LLMs to be contextual privacy protection learners that recognize sensitive content in context and adapt outputs accordingly, preserving utility while reducing leakage.

Nov 12, 2024