Tạo hình ảnh AI bằng cách sử dụng DALL-E 2 có tương lai đầy hứa hẹn trong X quang

Đăng nhập/ Đăng ký

Một bài báo mới được xuất bản trongTạp chí Nghiên cứu Internet Y tế mô tả cách các mô hình tổng quát như DALL-E 2, một mô hình học sâu mới để tạo văn bản thành hình ảnh, có thể đại diện cho một công cụ đầy hứa hẹn trong tương lai để tạo, tăng cường và thao tác hình ảnh trong chăm sóc sức khỏe.

Các mô hình thế hệ có đủ kiến thức về lĩnh vực y tế để cung cấp kết quả chính xác và hữu ích không? Tiến sĩ Lisa C Adams và các đồng nghiệp khám phá chủ đề này theo quan điểm mới nhất của họ có tiêu đề “DALL-E 2 biết gì về X quang?”

Được OpenAI giới thiệu lần đầu vào tháng 4 năm 2022, DALL-E 2 là một công cụ trí tuệ nhân tạo (AI) đã trở nên phổ biến để tạo racuốn tiểu thuyết hình ảnh chân thực hoặc tác phẩm nghệ thuật dựa trên đầu vào văn bản. Khả năng tổng hợp của DALL-E 2 rất mạnh mẽ vì nó đã được đào tạo trên hàng tỷ cặp văn bản-hình ảnh hiện có trên internet.

Để hiểu liệu những khả năng này có thể được chuyển sang lĩnh vực y tế để tạo hoặc bổ sung dữ liệu hay không, các nhà nghiên cứu từ Đức và Hoa Kỳ đã kiểm tra kiến thức X quang của DALL-E 2 trong việc tạo và thao tác với tia X, chụp cắt lớp vi tính (CT), chụp cộng hưởng từ ( MRI), và hình ảnh siêu âm.

Các tác giả của nghiên cứu phát hiện ra rằng DALL-E 2 đã học được các biểu diễn có liên quan của hình ảnh tia X và cho thấy tiềm năng đầy hứa hẹn để tạo văn bản thành hình ảnh. Cụ thể, DALL-E 2 có thể tạo hình ảnh X-quang thực tế dựa trên lời nhắc văn bản ngắn, nhưng nó không hoạt động tốt khi đưa ra lời nhắc hình ảnh CT, MRI hoặc siêu âm cụ thể. Nó cũng có thể tái tạo hợp lý các khía cạnh còn thiếu trong một hình ảnh X quang.

Nó có thể làm được nhiều hơn thế—ví dụ, tạo ra một phim X-quang toàn thân, hoàn chỉnh bằng cách chỉ sử dụng một hình ảnh của đầu gối làm điểm bắt đầu. Tuy nhiên, DALL-E 2 bị hạn chế về khả năng tạo ra những hình ảnh có bất thường về bệnh lý.

Dữ liệu tổng hợp do DALL-E 2 tạo ra có thể đẩy nhanh đáng kể quá trình phát triển các công cụ học sâu mới cho X quang, cũng như giải quyết các mối lo ngại về quyền riêng tư liên quan đến chia sẻ dữ liệu giữa các tổ chức. Các tác giả của nghiên cứu lưu ý rằng các hình ảnh được tạo phải được các chuyên gia tên miền kiểm soát chất lượng để giảm nguy cơ thông tin không chính xác được đưa vào tập dữ liệu được tạo.

Họ cũng nhấn mạnh sự cần thiết phải nghiên cứu thêm để tinh chỉnh các mô hình này với dữ liệu y tế và kết hợp thuật ngữ y tế để tạo ra các mô hình mạnh mẽ để tạo và tăng cường dữ liệu trong nghiên cứu X quang. Mặc dù DALL-E 2 không có sẵn cho công chúng để tinh chỉnh, nhưng các mô hình tổng quát khác như Khuếch tán ổn định có thể được điều chỉnh để tạo ra nhiều hình ảnh y tế.

Nhìn chung, quan điểm này do JMIR Publications xuất bản cung cấp triển vọng đầy hứa hẹn cho tương lai của việc tạo hình ảnh AI trong X quang. Tiếp tục nghiên cứu và phát triển trong lĩnh vực này có thể dẫn đến các công cụ mới thú vị cho bác sĩ X quang và chuyên gia y tế.

Mặc dù có những hạn chế cần giải quyết, nhưng những lợi ích tiềm năng của việc sử dụng các công cụ như DALL-E 2 và ChatGPT trong nghiên cứu, đào tạo và giáo dục y tế là rất đáng kể. Để đạt được điều này,Giáo dục y tế JMIR hiện đang mời đệ trình cho một bộ sưu tập điện tử mới về việc sử dụng các mô hình ngôn ngữ tổng quát trong giáo dục y tế, như đã được công bố trong một bài xã luận gần đây của Tiến sĩ Gunther Eysenbach.

DALL-E 2 biết gì về X quang?
Các mô hình tổng hợp, chẳng hạn như DALL-E 2 (OpenAI), có thể đại diện cho các công cụ đầy hứa hẹn trong tương lai để tạo, tăng cường và thao tác hình ảnh cho nghiên cứu trí tuệ nhân tạo trong X quang, miễn là các mô hình này có đủ kiến thức về lĩnh vực y tế.

Ở đây, chúng tôi chỉ ra rằng DALL-E 2 đã học được các biểu diễn có liên quan của hình ảnh tia X, với các khả năng đầy hứa hẹn về mặt tạo hình ảnh mới từ văn bản thành hình ảnh không ảnh, sự tiếp nối của hình ảnh vượt ra ngoài ranh giới ban đầu của nó và loại bỏ các yếu tố; tuy nhiên, khả năng tạo ra các hình ảnh bất thường về bệnh lý (ví dụ: khối u, gãy xương và viêm) hoặc chụp cắt lớp vi tính, chụp cộng hưởng từ hoặc hình ảnh siêu âm của nó vẫn còn hạn chế.

Do đó, việc sử dụng các mô hình tổng quát để tăng cường và tạo dữ liệu phóng xạ có vẻ khả thi, ngay cả khi trước tiên cần phải tinh chỉnh và điều chỉnh thêm các mô hình này cho các miền tương ứng của chúng.

Mục lục