Больше данных богу данных
Результат, выдаваемый системой машинного обучения в ответ на запрос, для неспециалиста похож на какое-то волшебство: компьютер творит? Все нейросети работают вроде бы одинаково: создается алгоритм, обучающийся на массиве данных, — предположим, на наборе изображений кошек и собак, — где для каждого элемента массива указано, кто именно изображен на фотографии. После этапа обучения алгоритму предлагается проанализировать новую картинку и попробовать отличить кошку от собаки. От этого простейшего варианта разработчики подобных систем перешли к более сложному: когда алгоритм на основе большого количества фотографий кошек создает новое изображение домашнего животного, ранее вообще не существовавшее. Проводятся эксперименты не только с картинками, но и с текстом, видео и даже голосом: мы уже писали о проблеме дипфейков, когда на основе видеоролика с выступлением известного политика или артиста создается новое — в нем очень похожий на политика человек почти таким же голосом говорит вещи, которые реальный персонаж никогда не говорил.