Safe Exploration via Policy Priors

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

arXiv:2601.21682v1 Announce Type: cross Abstract: Large language models (LLMs) demonstrate impressive capabilities across diverse tasks but raise concerns about privacy, copyright, and harmful materials. Existing

ICON: Intent-Context Coupling for Efficient Multi-Turn Jailbreak Attack

arXiv:2601.20903v1 Announce Type: cross Abstract: Multi-turn jailbreak attacks have emerged as a critical threat to Large Language Models (LLMs), bypassing safety mechanisms by progressively constructing

SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation

arXiv:2601.21452v1 Announce Type: cross Abstract: While works such as OneRec have validated the scaling laws of Large Language Models (LLMs) in recommender systems, they rely

Shaping capabilities with token-level data filtering

arXiv:2601.21571v1 Announce Type: cross Abstract: Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

arXiv:2601.21235v1 Announce Type: cross Abstract: Large language models (LLMs) are increasingly deployed in high-stakes domains, where rare but severe failures can result in irreversible harm.

FIT: Defying Catastrophic Forgetting in Continual LLM Unlearning

ICON: Intent-Context Coupling for Efficient Multi-Turn Jailbreak Attack

SAGE: Sequence-level Adaptive Gradient Evolution for Generative Recommendation

Shaping capabilities with token-level data filtering

SHARP: Social Harm Analysis via Risk Profiles for Measuring Inequities in Large Language Models

Subscribe for Updates