Niranjan, P. S., Sehrawat, R., Katkar, A., Sharma, M., Sripada, P. N. and Patil, S. N. (2026) “MULTIMODAL EMOTION RECOGNITION USING AUDIO-TEXT FUSION AND TRANSFORMER-BASED CONTEXTUAL REPRESENTATION LEARNING”, ShodhKosh: Journal of Visual and Performing Arts, 7(1s), pp. 190–201. doi: 10.29121/shodhkosh.v7.i1s.2026.7045.