@article{
vaugrante2026compromising,
title={Compromising Honesty and Harmlessness in Language Models via Covert Deception Attacks},
author={Laur{\`e}ne Vaugrante and Francesca Carlon and Maluna Menke and Thilo Hagendorff},
journal={Transactions on Machine Learning Research},
issn={2835-8856},
year={2026},
url={https://openreview.net/forum?id=2KPIDIeLE2},
note={}
}