Vài dòng về DeepFake

Why? Tại sao lại muốn nói về deepfake

Hôm trước đọc paper survey về DeepFake muốn tóm tắt đôi ba câu lại.

Khái niệm thuật ngữ? DeepFake là gì

Một người dùng nickname deepfakes sử dụng thuật toán để ghép ảnh người nổi tiếng vào phim pỏn => đây là nguồn gốc cái tên.

Trước deepfake, để ghép mặt ông X vào ảnh ông Y cần nhiều hơn là một chút tay nghề photoshop.

Nhờ deepfake, chỉ dăm ba click trên smartphone à ai cũng ghép dc linh tinh cả.

Nhờ deepfake thì mới có những cảnh như Paul Walker lái xe trên Furious 7, dù anh này tai nạn trước khi phim hoàn thành

Nhờ deepfake mới có mấy clip mấy ông tổng thống hát linh tinh trên bục phát biểu.

DeepFake được tạo nên từ học sâu (deep learning) với lượng dữ liệu công khai có sẵn trên internet. Hiện tại đa số các deepfake dùng GAN, GAN thì có 2 con AI, 1 con học các đặc trưng, ghép lại sinh ra ảnh, con thứ 2 thì đánh giá ảnh con 1 tốt hay chưa tốt để con 1 điều chỉnh.

Phân loại

  • Tạo ra mặt giả (không tồn tại)
  • Sửa đổi thuộc tính: vd thêm kính, tạo kiểu tóc
  • Đánh tráo danh tính: mọi thứ giữ nguyên trừ mặt người S bị biến đổi sang người D
  • Chỉnh sửa biểu cảm trên khuôn mặt: người S trạng thái s + người D trạng thái d => Người D trạng thái s (giả người D biểu lộ trạng thái s)
  • Khớp video/audio với mặt: tạo ra các clip chính trị gia phát biểu như thật
  • Giả mạo sinh trắc học
  • Khử nhận dạng: làm mở mặt trong video

Cơ sở dữ liệu

Để huấn luyện được deepfake, cần input cho nó một lượng dữ liệu lớn về hình ảnh, để bản thân deepfake (đúng hơn là GAN, GAN this GAN that) học được các tham số để sinh ra dữ liệu giả.

Dữ liệu gốc này có sẵn trên mạng, ảnh public dc crawl về học.

Quá trình học sẽ output ra bộ tham số đặc trưng, giờ input một ảnh bất kì, hoặc tổ hợp 1 tập các đặc trưng sẽ có 1 output mới – như thật

Dữ liệu sinh ra => gộp thành nhiều bộ dữ liệu deepfake, vd 100K Faces

Dữ liệu thật+giả => để huấn luyện các bộ detector phát hiện deepfake

Vì có detector, thì deepfake (đúng hơn là GAN) sẽ tìm cách đánh lừa detector => sinh ra cơ sở dữ liệu ảnh giả khó phát hiện hơn (xem GANprintR: Finger Print Remover)

Cách phát hiện DeepFake

Truyền thống thì dựa vào những dữ liệu camera, phần cứng và phần mềm chỉnh sửa để xác định, nhưng khi mà ảnh đến tay bị sửa qua nhiều lần thì ko còn những thông tin này nữa => không phát hiện được.

Qua bộ học, có những đặc trưng hình thành trong bộ tham số, khi GAN thực hiện generate ra ảnh, sẽ có những tham số đặc trưng sinh ra. Trong paper gọi đây là GAN fingerprint, nếu kiểm tra một ảnh có GAN fingerprint thì khả năng cao là fake.

….

DeepFake cũng giống như internet trong thế giới phẳng thôi, đem lại nhiều cái hay đưa xã hội đi lên thì cũng có những người lợi dung nó để phá hoại.

Xem thêm bài gốc https://arxiv.org/pdf/2001.00179.pdf

Bản dịch thô có trên KB.

Leave a Reply

Your email address will not be published. Required fields are marked *


The reCAPTCHA verification period has expired. Please reload the page.