mastodon.world is one of the many independent Mastodon servers you can use to participate in the fediverse.
Generic Mastodon server for anyone to use.

Server stats:

8.8K
active users

#компьютерное_зрение

3 posts3 participants0 posts today

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим представили инструментарий «умного фотошопа». Достаточно прикрепить картинку, попросить что-нибудь на ней изменить — и желание будет исполнено! Или не будет? Проблема в том, что не каждый редактор изображений способен сохранять детали оригинала: изменяются люди, искажаются уникальные объекты, композиция, детали, ракурс и многое другое. Нередко хочется получить результат как от мастера фотошопа: чтобы менялись только требуемые участки, а остальное сохранялось неизменным. Например, удалить людей на заднем фоне фото из отпуска, оставив только безбрежное море за спиной. Вот бы можно было, валяясь на пляже, безо всяких сложностей отправить фотографию в удобный сервис на смартфоне, написать пару слов (что отредактировать), а результат просто репостнуть! Наша команда загорелась этой задачей довольно давно — и сегодня, пройдя долгий путь проб и ошибок, мы с гордостью представляем вам проект с рабочим названием MALVINA (Multimodal Artificial Language VIsion Neural Assistant). Malvina уже стал частью сервиса GigaChat и доступна всем желающим! Более того: и по метрикам, и по мнению пользователей, наша модель обходит в редактировании изображений даже GPT-4o, Gemini и Grok! Мы вас заинтриговали? Тогда приятного прочтения!

habr.com/ru/companies/sberbank

ХабрПравит картинки силой слов: редактор изображений от Сбера с попиксельной точностьюПример работы нашей модели. Только текстовые запросы — никаких масок! Эпоха умного редактирования изображений наступила: ChatGPT, Gemini и Grok — крупнейшие игроки мировой AI-арены — один за другим...

CV/ML-проект от идеи до продакшена: практическое руководство

Привет, меня зовут Вадим Медяник, я технический директор ИТ-компании BPA. Я регулярно участвую в реализации проектов, где используется машинное обучение и компьютерное зрение — от первых обсуждений с заказчиком до вывода решения в прод. Со временем накопилось достаточно практики, чтобы выделить повторяющиеся этапы, типичные ошибки и решения, которые реально работают. Это практическое руководство собрал для коллег и команд, кто работает с подобными проектами — или только планирует. Здесь нет задач про state-of-the-art или подбор идеальных архитектур. Скорее хочу пройтись по каждому этапу — с чего начать, о чём спросить бизнес, где обычно «сыпется» проект, и что помогает пройти до конца. Рассчитано на тех, кто хочет разобраться в базовой структуре CV/ML-проекта, будь то инженер, аналитик или управленец. Если понадобится — можно будет углубиться в технические детали отдельно. Для удобства разделил весь путь подготовки CV-проекта на несколько основных этапов.

habr.com/ru/articles/913604/

ХабрCV/ML-проект от идеи до продакшена: практическое руководствоПривет, меня зовут Вадим Медяник, я технический директор ИТ-компании BPA. Я регулярно участвую в реализации проектов, где используется машинное обучение и компьютерное зрение — от первых обсуждений с...

Обучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки Pillow

Привет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем архитектуру RISC-V и компьютерное зрение, чтобы внедрить результаты в учебный процесс. Предлагаем вместе с нами проверить, на что способен одноплатный компьютер Lichee Pi 4A в задачах обработки изображений, несмотря на его ограниченные ресурсы. А заодно — получить базовые навыки по разработке систем компьютерного зрения. Пройдем путь от настройки системы до отслеживания кликов по картинке и распознавания объектов с моделью YOLOX.

habr.com/ru/companies/yadro/ar

ХабрОбучаемся основам компьютерного зрения с помощью Lichee Pi 4A и Python-библиотеки PillowПривет, Хабр! На связи команда регионального научно-образовательного центра «Искусственный интеллект и анализ больших данных» при НГТУ им. Р. Е. Алексеева. При поддержке компании YADRO мы изучаем...

ML на «плюсах»: 5 материалов о необычном подходе к обучению моделей

Когда мы говорим о машинном обучении, то автоматически подразумеваем Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не менее, некоторые задачи можно решать с помощью С++. И не только ради эксперимента, а для увеличения производительности сервисов и упрощения работы с кодом. Кирилл Колодяжный, разработчик СХД в YADRO, несколько лет изучает машинное обучение на С++. Он уже написал программы для поиска лица на фото и для распознавания объектов в реальном времени. Под катом — пять материалов Кирилла, после которых инженерам захочется «пересесть» с Python на C++. Хотя бы на время.

habr.com/ru/companies/yadro/ar

#c++ #машинное_обучение #свертки #pytorch #yolo #компьютерное_зрение #face_detection

ХабрML на «плюсах»: 5 материалов о необычном подходе к обучению моделейКогда мы говорим о машинном обучении, то автоматически подразумеваем Python. Это справедливо: на Python есть множество удобных ML-инструментов, например, популярная библиотека PyTorch. Тем не...

CLIP или SigLIP. База по Computer vision собеседованиям. Middle/Senior

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании. Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки ( BLIP , SigLIP ) стали стандартом де-факто в задачах связи визуальных и текстовых данных. Почему? Потому что они позволяют решать задачи, которые ранее требовали значительных усилий

habr.com/ru/articles/908168/

#clip #SigLIP #компьютерное_зрение #computervision #ml #машинное+обучение #собеседование_вопросы #собеседование_в_it #comfyui

ХабрCLIP или SigLIP. База по Computer vision собеседованиям. Middle/SeniorВопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании. Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP...

Распознавание орхоно-енисейских рунических надписей методами машинного обучения

Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную Сибирь и часть Казахстана). Это были надгробные и памятные тексты, выбитые на камне. Они отражают политические, военные и культурные события тюркских племён. Их расшифровка началась во второй половине XIX века и остаётся предметом научных исследований и дискуссий. Исследование символов рунической письменности актуально, так как может помочь в понимании истории и культуры народов этой местности. Интерпретация енисейских надписей с памятников – очень сложная задача. Каменная поверхность разрушена временем, из-за чего символы могут быть плохо различимы. Многие памятники находятся в удаленных, диких местах, где долгий процесс исследования слишком трудозатратен. По этой причине надписи с памятников переносятся на бумажные или цифровые носители для последующей расшифровки. Как отмечал Кормушин И. В. – профессор филологии, тюрколог и алтаевед, перед чтением надписей, необходимо идентифицировать ее символы отдельным этапом. Эта ручная обработка надписей с памятников осложнена не только деформацией самих памятников, но и отсутствием строгой определенности с принадлежностью символов к тому или иному алфавиту. Достаточно распространенной оказалась проблема неточного определения состава рунических символов во многих изданиях XX века. Эти неточности приводят к ошибкам чтения и перевода древних текстов. Поэтому целесообразно автоматизировать этот процесс для повышения точности и скорости определения символов.

habr.com/ru/articles/907950/

ХабрРаспознавание орхоно-енисейских рунических надписей методами машинного обученияВведение Орхоно-енисейские руны — это древнейшая система письма тюркских народов, использовавшаяся с VI по X век на территории Центральной Азии (включая современную Монголию, южную...

Ян Лекун, создатель LeNet, формата DjVu и адвокат опенсорса

Ян Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих людей называются Сэм Альтман (OpenAI), Демис Хассабис (Google DeepMind) и Дарио Амодеи (Anthropic) Ян Лекун (Yann LeCun) — французский и американский учёный в области машинного обучения и компьютерного зрения. Известен как автор легендарной системы LeNet (1989 г.), где одним из первых начал применять методы биологических нейронных сетей для оптического распознавания символов (OCR). Сейчас занимает должность вице-президента и ведущего исследователя ИИ в корпорации Meta (руководит разработкой опенсорсной языковой модели LLaMA , в том числе). При этом остаётся ярым приверженцем опенсорса, свободной науки и научно-технического прогресса человечества.

habr.com/ru/companies/ruvds/ar

ХабрЯн Лекун, создатель LeNet, формата DjVu и адвокат опенсорсаЯн Лекун, один из крёстных отцов современного ИИ, в своём твиттере резко критикует корпоративных исследователей ИИ, которые ведут проприетарные разработки и занимаются «нагнетанием страха». Среди этих...

Яндекс vs Сбер: где быстрее поймешь смысл фразы «держись брат»? Глазами ML-разработчика

К сожалению или счастью, был я и там, и там:‑) Поэтому ловите внутрянку, как на самом деле выглядит работа линейного ML‑щика/Дата саентиста. Стоит ли оно того, что происходит внутри и почему я все‑таки ушел из обеих компаний. (кормили прост невкусно) Еще студентом я стремился в бигтех: именно там самые сильные специалисты, лучшие условия труда и перспективы. Ну, по большей части так и было — ничего не умеющего доходягу там редко встретишь (хотя в одной из двух этих компаний раз на раз проскакивает — не будем показывать пальцем🤫).

habr.com/ru/articles/906692/

ХабрЯндекс vs Сбер: где быстрее поймешь смысл фразы «держись брат»? Глазами ML-разработчикаК сожалению или счастью, был я и там, и там :-) Поэтому ловите внутрянку, как на самом деле выглядит работа линейного ML-щика/Дата саентиста. Стоит ли оно того, что происходит внутри и почему я...

Как сохранить здоровье при умственной работе за компьютером и не только

Сейчас компьютер - неотъемлемая часть жизни. Многие люди проводят по много часов за компьютером, смартфоном и др. в день. Поэтому встает вопрос: как поддержать здоровье при таком образе жизни? В данной статье я делюсь своим подходом к этому вопросу, также приводятся общие рекомендации по здоровью из разных источников.

habr.com/ru/articles/902948/

ХабрКак сохранить здоровье при умственной работе за компьютером и не толькоСейчас компьютер - неотъемлемая часть жизни. Многие люди проводят по много часов за компьютером, смартфоном и др. в день. Поэтому встает вопрос: как поддержать здоровье при таком образе жизни? В...

Как мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM Inversion

Что делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще уж фотошопу научиться. Как было бы здорово показать картинку нейросети и написать: «Пожалуйста, смени юбку на джинсы. И сзади ещё одну клумбу добавь… И погода пусть солнечной будет!» Увы, как бы ни ломали голову исследователи, задача произвольного нейросетевого редактирования изображений на сегодняшний день в целом не решена. Но пройден нелёгкий путь, и есть заметные достижения, о которых нельзя не рассказать. Мастера фотошопа, оцените!

habr.com/ru/companies/sberdevi

ХабрКак мы коня в пальто одевали. Neural Image Editing: Часть 1 — от инпейнтинга до DDIM InversionЧто делать, если хочешь отредактировать картинку? На фотошоп не хватает знаний, времени или сил. Inpaint-модели подводят. Конструкторы вроде ComfyUI требуют столько всего, что проще изучить...

Прототип для металлографа: анализ включений на Python с OpenCV и PyQt

В профессии инженера-металловеда мне ежедневно приходится анализировать микроструктуру материалов и неметаллические включения. До недавнего времени я, как и многие, делал это вручную: окуляр микроскопа, шкалы, подсчёты, Excel. Утомительно и долго. На фоне постоянного потока образцов нагрузка на глаза и внимание становится ощутимой. Коммерческие программы для металловедов решают эту проблему... почти. Они избыточны, дороги, и процентов на 90 включают функции, которыми обычный инженер не пользуется. Хотелось чего-то проще, точнее и, желательно, бесплатного. Так родился мой проект SenseOptics KANV.

habr.com/ru/articles/900454/

ХабрПрототип для металлографа: анализ включений на Python с OpenCV и PyQtВ профессии инженера-металловеда мне ежедневно приходится анализировать микроструктуру материалов и неметаллические включения. До недавнего времени я, как и многие, делал это вручную: окуляр...

Ведущий разработчик ChatGPT и его новый проект — Безопасный Сверхинтеллект

Многие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А когда того вернули, Суцкевер уволился по собственному желанию в новый стартап Safe Superintelligence («Безопасный Сверхинтеллект»). Илья Суцкевер действительно организовал OpenAI вместе с Маском, Брокманом, Альтманом и другими единомышленниками, причём был главным техническим гением в компании. Ведущий учёный OpenAI сыграл ключевую роль в разработке ChatGPT и других продуктов. Сейчас Илье всего 38 лет — совсем немного для звезды мировой величины.

habr.com/ru/companies/ruvds/ar

#Илья_Суцкевер #Ilya_Sutskever #OpenAI #10x_engineer #AlexNet #Safe_Superintelligence #ImageNet #неокогнитрон #GPU #GPGPU #CUDA #компьютерное_зрение #LeNet #Nvidia_GTX 580 #DNNResearch #Google_Brain #Алекс_Крижевски #Джеффри_Хинтон #Seq2seq #TensorFlow #AlphaGo #Томаш_Миколов #Word2vec #fewshot_learning #машина_Больцмана #сверхинтеллект #GPT #ChatGPT #ruvds_статьи

ХабрВедущий разработчик ChatGPT и его новый проект — Безопасный СверхинтеллектМногие знают об Илье Суцкевере только то, что он выдающийся учёный и программист, родился в СССР, соосновал OpenAI и входит в число тех, кто в 2023 году изгнал из компании менеджера Сэма Альтмана. А...

Часть 3. Робот Вертер в медицине

Часто бывает так, что делаешь ставку на одно, а получаешь неожиданные результаты в другом направлении. Мы постоянно делаем тесты гипотез и робот Вертер – это лишь один из наших больших гипотез-экспериментов. Окажется ли данный эксперимент удачным и как будут развиваться события, узнаем вместе с вами немногим позже. По просьбе читателя нашей предыдущей статьи, в этот раз добавим вводные данные о методиках реабилитации, а если говорить правильнее, то “абилитации”. Реабилитация направлена на восстановление утраченных физических, психических или социальных функций человека, тогда как абилитация ориентирована на развитие новых способностей, обучение навыкам и социальную адаптацию, особенно у лиц с ограниченными возможностями. Простой робот-абилитолог может помочь освоить протез, предлагая пошаговые инструкции, демонстрируя правильные движения, корректируя действия через обратную связь (например, голосовые подсказки или визуальные сигналы), а также мотивируя пользователя через поощрения и адаптивные тренировки, чтобы сделать процесс обучения интуитивным, безопасным и психологически комфортным. Робот-абилитолог может предложить постоянную доступность (работает 24/7 без усталости), точную повторяемость движений для тренировки, мгновенную обратную связь в реальном времени, персонализированные программы на основе данных о прогрессе, а также снижение нагрузки на медиков, позволяя им сосредоточиться на сложных случаях. Однако он не заменяет специалиста, а дополняет его, обеспечивая системность, безопасность и психологический комфорт за счет отсутствия субъективных оценок.

habr.com/ru/articles/896880/

ХабрЧасть 3. Робот Вертер в медицинеЧасто бывает так, что делаешь ставку на одно, а получаешь неожиданные результаты в другом направлении. Мы постоянно делаем тесты гипотез и робот Вертер – это лишь один из наших больших...

Делаем раскраску из ваших фото

Привет. Хотел подарить племянникам раскраски, но обычные уже не идут, хочется, чтобы раскраска была одновременно и с персонажами игры и мультиков и всего-всего. Нужно делать свои, нашел пару сервисов, которые делают эскизы из фото, но они либо клеят вотермарки на результат, либо делают не то, что нужно мне, поэтому засел за созданием своего решения. Создать раскраску

habr.com/ru/articles/893132/

ХабрДелаем раскраску из ваших фотоПривет. Хотел подарить племянникам раскраски, но обычные уже не идут, хочется, чтобы раскраска была одновременно и с персонажами игры и мультиков и всего-всего. Нужно делать свои, нашел пару сервисов,...

Технологии распознавания паспорта – 10 лет. Хабрология от Smart Engines

Десять лет назад, 17 марта 2015 года, мы опубликовали свой самый первый хабр . Тогда мы впервые представили городу и миру нашу технологию распознавания паспорта на мобильнике. Публика в комментах разделилась на два лагеря: одни сомневались в пользе решения, другие критиковали за недостаток возможностей и предлагали идеи по улучшению. Теперь, с высоты уже немалого времени докладываем: 1) идея себя оправдала и даже превзошла самые смелые ожидания; 2) работа по совершенствованию технологии была проделана; 3) работы было и будет очень много. Собрали для вас хайлайты этой увлекательной и яркой истории. Как это было?

habr.com/ru/companies/smarteng

ХабрТехнологии распознавания паспорта – 10 лет.  Хабрология от Smart EnginesДесять лет назад, 17 марта 2015 года, мы опубликовали свой самый первый хабр . Тогда мы впервые представили городу и миру нашу технологию распознавания паспорта на мобильнике. Публика в комментах...

Без операторов и водолазов: как дронопорты и подводные роботы меняют промышленность

Знаете, что общего между тепловизионными камерами, взрывозащищёнными дронами и 90-метровыми колоннами? Или как в промышленной компании из трёх дронов вырос целый парк из более чем 20 машин, а мониторинг трубопроводов перестал зависеть от человеческого фактора? В статье рассказываю — как ИИ с точностью 80% ищет утечки, дронопорты летают без операторов, а подводные роботы заменяют водолазов. Но обо всём по порядку.

habr.com/ru/companies/sibur_of

ХабрБез операторов и водолазов: как дронопорты и подводные роботы меняют промышленностьКогда-то дроны казались фантастикой, но сегодня они становятся незаменимыми помощниками на производстве. В СИБУРе это уже реальность: с 2021 года мы не просто тестировали технологии, а построили...

Камеры трясутся, шум зашкаливает, а сравнивать нужно: как справляются алгоритмы?

Каждый день миллионы изображений, видео и аудиофайлов загружаются в интернет. Мы смотрим фильмы, слушаем музыку, листаем соцсети, даже не задумываясь о том, какие алгоритмы стоят за тем, чтобы контент отображался корректно и не повторялся. Но что, если вам нужно сравнивать медиаконтент автоматически? Как понять, одинаковые ли две фотографии, если одна немного темнее? Как сравнить два видео, если они сняты под разными углами? А что делать, если вам нужно найти дубликат аудиофайла, но на одной записи есть шум? Если эти вопросы вам интересны – добро пожаловать в мир сравнения медиаконтента! Сегодня мы разберем, какие бывают методы, их плюсы и минусы, а главное – расскажем о наших экспериментах, где мы проверили, какие алгоритмы лучше справляются с реальными проблемами.

habr.com/ru/articles/891802/

ХабрКамеры трясутся, шум зашкаливает, а сравнивать нужно: как справляются алгоритмы?Зачем вообще сравнивать медиаконтент? Каждый день миллионы изображений, видео и аудиофайлов загружаются в интернет. Мы смотрим фильмы, слушаем музыку, листаем соцсети, даже не задумываясь о том, какие...

Virtual Ads или как прорекламировать Adidas в CS:GO

Всем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала ML Advertising . В данной статье мы поговорим об одном из способов повышения узнаваемости брендов в спорте, а точнее виртуальной рекламе. Разберем размещение рекламных баннеров на видео и напишем пример на Python и OpenCV, где разместим логотип Adidas с использованием алгоритма детектирования ключевых точек SIFT и гомографии для искажения баннера под перспективу.

habr.com/ru/articles/889386/

ХабрVirtual Ads или как прорекламировать Adidas в CS:GOВсем привет, меня зовут Евгений Мунин. Я Senior ML Engineer в Ad Tech в платформе ставок для рекламы и автор ТГ канала  ML Advertising . В данной статье мы поговорим об одном из...

Как ошибается ИИ, если за ним плохо следят

ИИ – это очень здорово и удобно. Он уже спасает жизни, штрафует за преступления, помогает делать весёлые картинки и видеоролики (посмотрите только на рекламу Сбера к 8 марта). Однако, за искусственным интеллектом нужен глаз да глаз, потому что он иногда выдаёт такие штуки, что становится стыдно или страшно. Предлагаю рассмотреть несколько примеров – про оштрафованного адвоката, запутанного Евгения Онегина, про робота, склоняющего пациента к роскомнадзору, сексизм при отборе кандидатов на работу и другие. А в комментарии присылайте самые яркие и бредовые случаи – чтобы мы собрали полный список.

habr.com/ru/articles/889318/

ХабрКак ошибается ИИ, если за ним плохо следятИИ – это очень здорово и удобно. Он уже спасает жизни, штрафует за преступления, помогает делать весёлые картинки и видеоролики (посмотрите только на рекламу Сбера к 8 марта). Однако, за искусственным...

От каскадных моделей до картинок в 4к: как эволюционировали диффузионки

На дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно отличить синтетическую картинку от реальной. Прогресс не стоит на месте, но какой ценой? Мир сильно усложнился со времён выхода первых моделей Stable Diffusion, подробные рассказы о которых описывали главную и до недавнего времени единственную доступную широкому кругу пользователей качественную открытую модель. В прошлом году мы с коллегами рассказывали про то, как мы открывали и улучшали технологию YandexART. В этом посте мы хотели бы рассказать о том, что нового произошло в мире диффузионных моделей за последние два года. Ниже мы обсудим борьбу каскадной и латентной парадигм, дилемму между свёрточными моделями и трансформерами, новые формулировки диффузии и дистилляцию как метод решения основной проблемы диффузионных моделей — низкой скорости генерации.

habr.com/ru/companies/yandex/a

ХабрОт каскадных моделей до картинок в 4к: как эволюционировали диффузионкиНа дворе 2025 год. Генерацией картинок и видео в интернете больше никого не удивишь. Генеративный контент повсюду, а его качество настолько высоко, что бывает трудно...