NeurIPS (Neural Information Processing Systems)
NeurIPS는 올해로 36주년을 맞았으며 2022년에 총 2905편의 논문을 accept 하고 약 10,000여명의 사람이 학회장으로 모이는 국제 최대 AI 학회이다.
내가 지금껏 다녔던 Machine Vision 혹은 HW IC Chip 학회와는 규모가 족히 2배이상 차이난다. 특히나 구글, 애플, 아마존, Meta 등 자원이 빵빵한 기업들도 함께 paper를 쓰고 따로 기업 부스를 열어 그들의 AI 기술과 관련 인턴쉽 홍보도 하기에 분위기는 더 달아오른다.
여담으로 paper author를 대상으로 기업별 social dining도 있다. 나는 이번 학회에 논문을 따로 내지 않았기에 그 내막을 자세히 알진 못하지만 과거 출장때 했던 social dining을 떠올려보면 글로벌 기업에 인턴을 해볼 수 있는 기회를 충분히 쌓을 수 있을 것이라 본다. 그곳에서 편하게 대화를 나누어 서로 안면을 트고 나면 다음에 만났을 때 더 깊은 대화를 나눌 수 있다. 학회 내내 자주 마주칠 것이고 점점 친해질 기회가 많다. 혹여나 본사에서 일하는 한국인이라도 만나면 추천서 써주고 다이렉트로 job interview를 볼 수 있는 기회가 훨씬 높아지지 않을까 싶다.
어찌되었건 실제로 가본 NeurIPS는 상상했던 것보다 더 어마어마했다.
지나다니며 보이는 명찰엔 MIT, Stanford, UC berkeley, Google research, Apple 들이 가득했고 적어도 연봉 1억인 사람들이 노트북이 담긴 큰 백팩을 메고 옆엔 텀블러를 다른 팔엔 paper 발표를 위한 포스터가 담긴 화통을 들고 new olreans 혹은 학회 등지를 거닐었다.
또한 여기 모인 사람들은 하나 같이 자유롭게 먼저 말을 걸고 열정적으로 그들의 생각을 얘기하고 있었다. 워낙 이 분야에 뛰어드는 혹은 관심이 있는 사람들이 많고 빠른 템포로 시시각각 진화하는 기술로 인해 자연스럽게 생기는 문화이지 않을까 싶다. (나도 연구실 사람들 혹은 발표자와 같이 discussion하면서 Poster session을 보면 훨씬 더 깊은 이해도를 가질 수 있었듯이)
NeurIPS 2022 Accepted Papers
총 5일 동안 2시간씩 진행되는 Poster session을 가장 열심히 들었고 이를 통해 많은 논문들을 훑으며 AI 논문들의 경향을 한눈에 살필 수 있었다.
내가 관심 있는 분야는 딥러닝 경량화이므로 이 위주로만 보았고 확실히 CNN/RNN에서 Transformers롤 대세가 기울었다. 거의 95% 논문들이 다 Transformers를 가지고 진행했고 그중에서도 약 80%는 ViT를 진행했다.
NeurIPS 2022 Accepted Papers List ▼
https://nips.cc/Conferences/2022/Schedule?type=Poster
Traditional Pruning and Quantization
Wood fisher
- Wood fisher pruning
- A Fast Post-Training pruning framework for Transformers
Recall Distortion in Neural Network Pruning and the Undecayed Pruning Algorithm
- Normalized recall balance
- Intensification ratio
Deep compression of Pre-trained Transformer models
-> Weight quantizer, activation quantizer, Fine-grained structure pruning (2:4 sparsity-Nvidia cuSparse에 최적화)
-> 50% Pruning 과 INT4 Quantization을 모두 진행.
Beyond neural scaling laws: beating power-law scaling via dataset pruning
Lottery ticket 논문에 대한 개선
Transformer 경량화
- Tempo
- Block-recurrent transformers
- Ecoformer: energy-saving attention with linear complexity(hashing)
Efficient fine-tuning
- AdaptFormer: Adapting Vision Transformers for scalable visual recognition
-> tuning이 불필요한 일부 영역을 frozen 시킴 - Scaling & Shifting your features: A new baselines for Efficient Model Tuning
-> Layer 중간 중간에 scale down된 layer를 넣어주고 그것만 tuning 시킴
Memory efficient quant
Interpolative decompositions(ID) or Low-rank training
-> mxn matrix를 mx2(n보다 작은 특정 숫자), 2xn의 2개의 block을 쪼개어 파라미터수를 줄임. 대신 기존의 mxn matrix를 만들기 위해 두 block을 matmul 해야 하므로 연산 complexity는 증가함.
: Model preserving compression for neural networks
: Low-rank lottery tickets: finding efficient low-rank neural networks via matrix differential equations
Transformer의 본질에 대하여
: What can Transformers learn In-context?
: Large Language Models are Zero-Shot reasoners (Let’s think step by step 넣으면 accuracy 증가함)
: Understanding and improving robustness of Vision Transformers through Patch-based Negative Augumentation (negative augumentation은 그림이 갈기갈기 찢겨져 형태를 알아볼 수 없는데 이걸로 labeling을 하고 학습시키는 것이 맞는 것인가?)
아직 작성 중.
To be continued...
댓글