Tối ưu các mạng nơ-ron tích chập trên phần cứng có tài nguyên giới hạn

Chỉ số đề mục

Lĩnh vực nghiên cứu

Khoa học máy tính

Dạng tài liệu

Tác giả

Phạm Văn Khoa⁽¹⁾, Trần Nhật Quang, Nguyễn Ngô Lâm

Nhan đề

Tối ưu các mạng nơ-ron tích chập trên phần cứng có tài nguyên giới hạn

Nhan đề tiếng anh

Optimizing the convolutional neural networks for resource-constraint hardwares

Nguồn trích

Phát triển Khoa học và Công nghệ: Kỹ thuật và Công nghệ (ĐHQG TP. Hồ Chí Minh)

Năm xuất bản

2022

Số

1

Trang

1332-1341

ISSN

2615-9872

Từ khóa

Mạng nơ-ron tích chập, Phép nhân, hoạt động nhân chập, XNOR-popcount, CIFAR-10, ảnh trên giây, PYNQ-Z2

Từ khóa tiếng anh

Convolution neural network, Multiplication, Convolution operation, XNOR-popcount, CIFAR-10, Frame per second, PYNQ-Z2

Tóm tắt

Các mạng nơ-ron tích chập (CNN) đóng vai trò rất quan trọng trong nhiều ứng dụng thị giác máy tính như phân loại, nhận dạng đối tượng. Để đạt được hiệu quả nhận dạng cao, thông thường các mạng nơ-ron này cần được thực thi trên các nền tảng tính toán có hiệu năng cao với tốc độ xử lý nhanh và không gian bộ nhớ lớn. Điều này là một trở ngại rất lớn đối với ứng dụng chạy trên các thiết bị tính toán có tài nguyên phần cứng bị giới hạn như các máy tính nhúng. Ở các lớp tích chập, để có thể trích xuất được đặc trưng của đối tượng ngõ vào cần thiết phải thực thi một lượng lớn các phép nhân và cộng dồn. Bên cạnh đó, hoạt động nhân trên các số có dấu chấm động yêu cầu thời gian tính toán lớn cũng như phần cứng phức tạp. Nghiên cứu này phân tích và chỉ rõ những nguyên nhân làm giới hạn hiệu năng tính toán của mạng CNN. Từ đó, trình bày phương pháp để thực thi các mạng tích chập trên phần cứng có tài nguyên giới hạn. Việc đánh giá hiệu năng về mặt công suất, thời gian thực thi cũng như tỉ lệ nhận dạng được trình bày chi tiết thông qua mô phỏng và thực thi trên phần cứng. Các kết quả thực nghiệm trên cả hai nền tảng FPGA và bộ xử lý nhúng ARM Cortex-A chỉ ra rằng mạng CNN sử dụng phương pháp XNOR-popcount có thể được tối ưu để đạt hiệu năng tính toán tăng 1000 lần và công suất tiêu thụ giảm xấp xỉ 24 lần khi so sánh với mạng CNN thông thường trên các bộ xử lý nhúng.

Tóm tắt tiếng anh

Convolutional neural networks (CNNs) play an important role in many computer vision applications such as object classification and recognition. To achieve high recognition rate, these neural networks are usually implemented on high-performance computing platforms with high processing speed and large memory. This is a big obstacle for deploying these models on devices with limited hardware resources such as embedded computers. For convolution layers, it requires a lot of multiply-accumulation operations to extract useful features from input images. Furthermore, multiplication of floating-point numbers has long latency and demands a big hardware overhead. In this paper, we analyze and identify the causes that limit the performance of CNNs. Then a method for implementing convolutional networks on hardware with limited resources is presented. Performance evaluation in terms of power, execution time as well as recognition rate is presented in detail. Experimental results on both the FPGA hardware platform and the ARM Cortex-A embedded processor indicate that CNNs using the XNOR-popcount approach can be optimized to achieve a 1000-fold increase in computational performance and approximately a 24-fold reduction in power consumption compared to the tranditional implementation of CNNs on common embedded computer systems.

Kí hiệu kho

TTKHCNQG, CTv 149

File toàn văn

Xem toàn văn