Navigator Business & Entrepreneurs
InvestingNews

Alibaba ra mắt Qwen3.5-Omni cho trí tuệ nhân tạo đa phương thức thời gian thực

Qwen3.5-Omni có khả năng nhận dạng giọng nói đa ngôn ngữ với 113 ngôn ngữ và phương ngữ cũng như khả năng tạo giọng nói bằng 36 ngôn ngữ.

Nhóm Qwen của Alibaba đã phát hành Qwen3.5-Omni, một mô hình đa phương thức có thể nhận và tạo ra văn bản, hình ảnh, âm thanh và video, và công ty cho biết nó có sẵn thông qua API ngoại tuyến và API thời gian thực.

Mô hình này hỗ trợ cửa sổ ngữ cảnh 256K và có thể xử lý các đầu vào âm thanh và video dạng dài.

Alibaba cho biết mô hình này được huấn luyện trên dữ liệu đa phương thức, bao gồm hơn 100 triệu giờ âm thanh và video, và nó đã cải thiện khả năng nhận dạng giọng nói đa ngôn ngữ với 113 ngôn ngữ và phương ngữ cũng như khả năng tạo giọng nói bằng 36 ngôn ngữ.

Alibaba cũng tuyên bố có các tính năng thời gian thực mới như ngắt lời ngữ nghĩa, sao chép giọng nói và điều khiển bằng giọng nói, và kết quả kiểm tra hiệu năng cho thấy khả năng xử lý hình ảnh và âm thanh của thiết bị này ngang bằng với Google Gemini 3.1 Pro.

Tttcnca

Related posts

Link trực tiếp bóng đá Xoilacl.cc miễn phí

Xem tructiep https://socolivenn.cc/