Goran Muric in Engineering — Research Repository

Engineering Preprint PDF DOI

Sensing-Assisted Channel Estimation for Flexible-Antenna Systems: A Unified Framework

Ruoxiao Cao, Wentao Yu, Zixin Wang, Shenghui Song, Jun Zhang, Yi Gong, Khaled B. Letaief · 2026

Flexible-antenna systems, which use a small number of radio frequency (RF) chains to dynamically access a large set of candidate antenna locations, have emerged as a hardware-efficient architecture fo…

Read Paper →

Engineering Preprint PDF DOI

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

Chunyu Qiang, Xiaopeng Wang, Kang Yin, Yuzhe Liang, Yuxin Guo, Teng Ma, Ziyu Zhang, Tianrui Wang, Cheng Gong, Yushen Chen, Ruibo Fu, Chen Zhang, Longbiao Wang, Jianwu Dang · 2026

Generative audio modeling has largely been fragmented into specialized tasks, text-to-speech (TTS), text-to-music (TTM), and text-to-audio (TTA), each operating under heterogeneous control paradigms. …

Read Paper →

Engineering Preprint PDF DOI

Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations

Paul A. Bereuter, Alois Sontacchi · 2026

Evaluation of musical source separation (MSS) has traditionally relied on Blind Source Separation Evaluation (BSS-Eval) metrics. However, recent work suggests that BSS-Eval metrics exhibit low correla…

Read Paper →

Engineering Preprint PDF DOI

Wildfires Quasi-Implicit Alternative-Direction Simulations using Isogeometric Finite Element Method

Juliusz Wasieleski, Tomasz S{l}uzalec, Maciej Wozniak, Marcin {L}os, Andres Medina, Paulina Sepulveda, Albert Oliver Serra, Eirik Valseth, Anna Paszynska, Maciej Paszynski · 2026

We develop a wildfire simulation model that evolves the temperature scalar field using an energy balance equation accounting for heat generation, transport, and loss. For these equations, we develop q…

Read Paper →

Engineering Preprint PDF DOI

SSB-Based Sensing-Assisted Robust Beamforming for High-Mobility UAV Communications in LAWN

Aimin Tang, Shuhan Wang, Yin Xu · 2026

High-mobility uncrewed aerial vehicle (UAV) communications in low-altitude wireless networks (LAWN) demand reliable beamforming, while conventional feedback-based schemes suffer from excessive overhea…

Read Paper →

Engineering Preprint PDF DOI

SongBench: A Fine-Grained Multi-Aspect Benchmark for Song Quality Assessment

Dapeng Wu, Shun Lei, Wei Tan, Guangzheng Li, Yunzhe Wang, Huaicheng Zhang, Lishi Zuo, Zhiyong Wu · 2026

Recent advancements in Text-to-Song generation have enabled realistic musical content production, yet existing evaluation benchmarks lack the professional granularity to capture multi-dimensional aest…

Read Paper →

Engineering Preprint PDF DOI

Hybrid Architecture Gets Fluid: A New Paradigm for Direction-of-arrival Estimation in 6G Networks

Ye Tian, Jiaji Ren, Tuo Wu, Wei Liu, Maged Elkashlan, Matthew C. Valenti, Naofal Al-Dhahir, Hing Cheung So · 2026

High-precision direction-of-arrival (DOA) estimation, as a key sensing capability for 6G-enabled applications such as autonomous driving and extended reality, is increasingly dependent on the effectiv…

Read Paper →

Engineering Preprint PDF DOI

Data Selection Effects on Self-Supervised Learning of Audio Representations for French Audiovisual Broadcasts

Valentin Pelloin, Lina Bekkali, Reda Dehak, David Doukhan · 2026

Audio and speech self-supervised encoder models are now widely used for a lot of different tasks. Many of these models are often trained on clean segmented speech content such as LibriSpeech. In this …

Read Paper →

Engineering Preprint PDF DOI

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

Pengbo Lyu, Xiangyu Zhao, Chengwei Liu, Haoyin Yan, Xiaotao Liang, Hongyu Wang, Shaofei Xue · 2026

We propose a generative framework for multi-track music source separation (MSS) that reformulates the task as conditional discrete token generation. Unlike conventional approaches that directly estima…

Read Paper →

Engineering Preprint PDF DOI

Precise Robot Command Understanding Using Grammar-Constrained Large Language Models

Xinyun Huo, Raghav Gnanasambandam, Xinyao Zhang · 2026

Human-robot collaboration in industrial settings requires precise and reliable communication to enhance operational efficiency. While Large Language Models (LLMs) understand general language, they oft…

Read Paper →

Engineering Preprint PDF DOI

Diff-VS: Efficient Audio-Aware Diffusion U-Net for Vocals Separation

Yun-Ning (Amy) Hung, Richard Vogl, Filip Korzeniowski, Igor Pereira · 2026

While diffusion models are best known for their performance in generative tasks, they have also been successfully applied to many other tasks, including audio source separation. However, current gener…

Read Paper →

Engineering Preprint PDF DOI

Fundamental Analysis of Scalable Fluid Antenna Systems: Identifiability Limits, Information Theory, and Joint Processing

Tuo Wu, Kai-Kit Wong, Jie Tang, Ye Tian, Baiyang Liu, Maged Elkashlan, Kin-Fai Tong, Hing Cheung So, Matthew C. Valenti, Fumiyuki Adachi, Kwai-Man Luk · 2026

Unlike fixed-position arrays with static observation entropy, the scalable fluid antenna system (S-FAS) can dynamically adjust its aperture to form different observation spaces with configuration-depe…

Read Paper →

Engineering Preprint PDF DOI

Wideband Near-Field Sensing in ISAC: Unified Algorithm Design and Decoupled Effect Analysis

Ruiyun Zhang, Zhaolin Wang, Zhiqing Wei, Yuanwei Liu, Zehui Xiong, Zhiyong Feng · 2026

To advance integrated sensing and communications (ISAC) in sixth-generation (6G) extremely large-scale multiple-input multiple-output (XL-MIMO) networks, a low-complexity compressed sensing (CS)-based…

Read Paper →

Engineering Preprint PDF DOI

ACAVCaps: Enabling large-scale training for fine-grained and diverse audio understanding

Yadong Niu, Tianzi Wang, Heinrich Dinkel, Xingwei Sun, Jiahao Zhou, Gang Li, Jizhong Liu, Junbo Zhang, Jian Luan · 2026

General audio understanding is a fundamental goal for large audio-language models, with audio captioning serving as a cornerstone task for their development. However, progress in this domain is hinder…

Read Paper →

Engineering Preprint PDF DOI

DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

Hung-Chieh Fang, Amber Xie, Jennifer Grannen, Kenneth Llontop, Dorsa Sadigh · 2026

Performing in-hand, contact-rich, and long-horizon dexterous manipulation remains an unsolved challenge in robotics. Prior hand dexterity works have considered each of these three challenges in isolat…

Read Paper →

Engineering Preprint PDF DOI

SqueezeComposer: Temporal Speed-up is A Simple Trick for Long-form Music Composing

Jianyi Chen, Rongxiu Zhong, Shilei Zhang, Kun Qian, Jinglei Liu, Yike Guo, Wei Xue · 2026

Composing coherent long-form music remains a significant challenge due to the complexity of modeling long-range dependencies and the prohibitive memory and computational requirements associated with l…

Read Paper →

Engineering Preprint PDF DOI

Enhanced Direction-Sensing Methods and Performance Analysis in Low-Altitude Wireless Network via a Rotation Antenna Array

Jinbing Jiang, Feng Shu, Minghao Chen, Jiatong Bai, Maolin Li, Yan Wang, Jiangzhou Wang · 2026

Due to the directive property of each antenna element, the received signal power can be severely attenuated when the emitter deviates from the array boresight, which will lead to a severe degradation …

Read Paper →

Engineering Preprint PDF DOI

OmniCodec: Low Frame Rate Universal Audio Codec with Semantic-Acoustic Disentanglement

Jingbin Hu, Haoyu Zhang, Dake Guo, Qirui Zhan, Wenhao Li, Huakang Chen, Guobin Ma, Hanke Xie, Chengyou Wang, Pengyuan Xie, Chuan Xie, Qiang Zhang, Lei Xie · 2026

Large Language Models (LLMs) have advanced audio generation through discrete representation learning. However, most existing neural codecs focus on speech and emphasize reconstruction fidelity, overlo…

Read Paper →

Engineering Preprint PDF DOI

Multi-Source Evidence Fusion for Audio Question Answering

Aivo Olev, Tanel Alumae · 2026

Large audio language models (LALMs) can answer questions about speech, music, and environmental sounds, yet their internal reasoning is largely opaque and difficult to validate. We describe TalTech's …

Read Paper →

Engineering Preprint PDF DOI

Near-Field NLOS Localization via Position-Unknown HRIS:From Self-Localization to Target Positioning

Hua Chen, Linke Yu, Tuo Wu, Maged Elkashlan, Naofal Al-Dhahir, Merouane Debbah, K. C. Ho · 2026

Current reconfigurable intelligent surface (RIS)-aided near-field (NF) localization methods assume the RIS position is known a priori, and it has limited their practical applicability. This paper appl…

Read Paper →

Browse Research Papers

Sensing-Assisted Channel Estimation for Flexible-Antenna Systems: A Unified Framework

UniSonate: A Unified Model for Speech, Music, and Sound Effect Generation with Text Instructions

Embedding-Based Intrusive Evaluation Metrics for Musical Source Separation Using MERT Representations

Wildfires Quasi-Implicit Alternative-Direction Simulations using Isogeometric Finite Element Method

SSB-Based Sensing-Assisted Robust Beamforming for High-Mobility UAV Communications in LAWN

SongBench: A Fine-Grained Multi-Aspect Benchmark for Song Quality Assessment

Hybrid Architecture Gets Fluid: A New Paradigm for Direction-of-arrival Estimation in 6G Networks

Data Selection Effects on Self-Supervised Learning of Audio Representations for French Audiovisual Broadcasts

Discrete Token Modeling for Multi-Stem Music Source Separation with Language Models

Precise Robot Command Understanding Using Grammar-Constrained Large Language Models

Diff-VS: Efficient Audio-Aware Diffusion U-Net for Vocals Separation

Fundamental Analysis of Scalable Fluid Antenna Systems: Identifiability Limits, Information Theory, and Joint Processing

Wideband Near-Field Sensing in ISAC: Unified Algorithm Design and Decoupled Effect Analysis

ACAVCaps: Enabling large-scale training for fine-grained and diverse audio understanding

DexDrummer: In-Hand, Contact-Rich, and Long-Horizon Dexterous Robot Drumming

SqueezeComposer: Temporal Speed-up is A Simple Trick for Long-form Music Composing

Enhanced Direction-Sensing Methods and Performance Analysis in Low-Altitude Wireless Network via a Rotation Antenna Array

OmniCodec: Low Frame Rate Universal Audio Codec with Semantic-Acoustic Disentanglement

Multi-Source Evidence Fusion for Audio Question Answering

Near-Field NLOS Localization via Position-Unknown HRIS:From Self-Localization to Target Positioning

Browse by Category

Research Type

Publish Your Research