[1]

P. Lambert and M. Eriksen, “Reward Modeling from Human Feedback Improves Controllability in Large Generative Models”, IJAETR, vol. 2, no. 1, pp. 13–19, May 2026, doi: 10.54097/z5t42855.