В понеделник (27 януари) екипът на Alibaba, Qwen, пусна ново семейство модели изкуствен интелект (AI) – Qwen2.5-VL, които могат да изпълняват различни задачи, свързани с текстов и визуален анализ. Моделите могат да обработват файлове, да правят разбор на видеа и да броят обекти в изображения, както и да управляват компютър – подобно на модела, задвижващ наскоро стартиралия OpenAI’s Operator.
Според резултатите от тестовете на екипа най-добрият модел от серията Qwen2.5-VL превъзхожда GPT-4 на OpenAI, Claude 3.5 Sonnet на Anthropic и Gemini 2.0 Flash на Google в различни задачи, свързани с разбиране на видеа, математика, анализ на документи и въпроси и отговори. Qwen2.5-VL може да се тества в приложението Qwen Chat на Alibaba и да се изтегли от платформата за AI разработка Hugging Face.

Той може да анализира диаграми и графики, да извлича данни от сканирани фактури и формуляри и да „разбира“ видеа с продължителност от няколко часа. Според екипа на Qwen, моделът може също да разпознава „IP от филми и телевизионни сериали, както и широк спектър от продукти“ – което предполага, че обучението му може да е включвало защитени с авторски права материали.
Китайският интернет регулатор тества много от разработените в страната AI модели, за да гарантира, че отговорите им „въплъщават основните социалистически ценности“. Много китайски системи за изкуствен интелект отказват да отговарят на теми, които могат да предизвикат недоволството на регулаторите, като например автономията на Тайван.

Една от по-интересните функции на Qwen2.5-VL е способността му да взаимодейства със софтуер – както на компютри, така и на мобилни устройства. Видео, публикувано в социалната платформа X от Филип Шмид, технически ръководител в Hugging Face, показва как Qwen2.5-VL стартира приложението Booking.com за Android и резервира полет от Чунцин до Пекин. В друго видео моделът Qwen2.5-VL управлява приложения на Linux десктоп, но изглежда, че не успява да направи нещо повече от превключване между раздели. Любопитно е, че според тестовете на Qwen, Qwen2.5-VL се представя слабо в OSWorld – рамката за сравнителен анализ, която симулира реална компютърна среда.

Двата по-малки и по-малко сложни модела от серията Qwen2.5-VL – Qwen2.5-VL-3B и Qwen2.5-VL-7B – са достъпни под отворен лиценз. Флагманският модел Qwen2.5-VL-72B обаче е под персонализиран лиценз на Alibaba, който изисква от компании и разработчици с активни потребители над 100 милиона на месец да поискат разрешение от Qwen/Alibaba, преди да внедрят модела за масова употреба.
Четете още : 60-годишният съосновател на Alibaba Джоузеф Цай инвестира във френски лозя.