Lambert, P., & Eriksen, M. (2026). Reward Modeling from Human Feedback Improves Controllability in Large Generative Models. International Journal of Advanced Engineering and Technology Research, 2(1), 13-19. https://doi.org/10.54097/z5t42855