주의
ARR(ACL Rolling Review) 라우팅·커밋 규칙, 페이지/부록/체크리스트·윤리 문항은 해마다 다를 수 있음. 최신 CFP/Author Kit 필수 확인!
💡
주의
ARR(ACL Rolling Review) 라우팅·커밋 규칙, 페이지/부록/체크리스트·윤리 문항은 해마다 다를 수 있음. 최신 CFP/Author Kit 필수 확인!
항목 | ACL | EMNLP | NAACL | COLING |
---|---|---|---|---|
티어 | 1 | 1 | 1 | 2 |
성격/브랜드 | ACL 계열의 플래그십 | “Empirical” 색채(경험적 방법·대규모 실험) | ACL 지역 플래그십(북미 중심) | 전통있는 Computational Linguistics 대회 |
스코프 | 전 범위(이론~응용) | 대규모 실험·벤치마크·모델링 | ACL과 유사(지역 커뮤니티) | 언어학 기반 분석·자원·전통 NLP 주제까지 폭넓음 |
리뷰 문화 | 이중 블라인드, ARR 연계 빈번 | 이중 블라인드, ARR 연계 활발 | 이중 블라인드, ARR 연계 | 이중 블라인드(자체 CFP), ARR 미연계인 해도 존재 |
강조 포인트 | 책임있는 NLP·윤리·재현성 | 실증적 증거·어블레이션·대규모 평가 | 지역 커뮤니티·사회적 임팩트 | 언어학적 깊이·에러분석·저자원/다언어 |
ACL
가장 폭넓은 스펙트럼. 이론(학습/일반화/해석), 모델(LLM·프롬프팅·지식주입), 응용(NLU/NLG/대화·추론·멀티모달), 사회적 영향·공정성·프라이버시까지. “책임 있는 NLP” 섹션이 탄탄할수록 유리.
EMNLP
이름 그대로 경험적(실증) 관점이 강함. 대규모 실험, 견고한 어블레이션, 리더보드·벤치마크 설계/분석, 에러타이핑이 핵심. 새로운 데이터셋/평가 프로토콜·모델링 개선의 정량적 증거가 설득력.
NAACL
ACL과 스코프가 유사하지만 지역 커뮤니티(북미) 연결성이 높고, 교육/사회적 영향/저자원·다언어·사용자 연구 등 현장 맥락을 강조하는 경향. 협업·실사용 사례가 가산점.
COLING
전통 있는 Computational Linguistics 학회. 형태론·구문론·담화/대화 분석, 언어자원 구축, 언어학적 근거/분석의 깊이를 중시. 저자원·다언어·언어학적 편향/오류 유형분석 논문이 강함.
이중 블라인드: 공통적으로 저자/소속 비식별.
ARR(ACL Rolling Review): ACL 패밀리(ACL·NAACL·EMNLP 등)에서 광범위하게 사용. 제출→리뷰→커밋(특정 학회로 라우팅) 방식이 많지만 디테일은 해마다 다름.
평가 포인트(공통)
재현성: 데이터 출처·면허, 전처리, 분할/시드, 하이퍼파라미터, 학습/추론 비용, 코드/모델 공개 계획
윤리: 편향/공정성, 프라이버시, 안전/오남용, 환경 비용(컴퓨팅), 인간 피험자·어노테이터 보호(동의/보상/지침)
분석: 에러 유형·경계 조건, 통계 검정(유의성/효과크기), 반례·한계 서술
💡
제출 팁
Data Card/Model Card, “Responsible NLP” 섹션을 정량+정성으로 채우면 설득력이 크게 오른다.
아이디어/상황 | 추천 학회 | 이유/전략 |
---|---|---|
대규모 실증으로 SOTA 개선·벤치마크 분석 | EMNLP/ACL | 정량적 증거와 어블레이션·리더보드 해석 문화 |
윤리/공정성/프라이버시/안전성 중심 연구 | ACL/NAACL | 책임있는 NLP 섹션·사회적 영향 서술에 우호 |
저자원·다언어·현장적용(교육/헬스/공공) | NAACL/COLING | 지역·사회 맥락, 언어다양성 강조 |
언어학 기반 분석/자원 구축/오류 유형화 | COLING | 언어학적 깊이·분석형 논문 전통 |
새 태스크·평가 프로토콜 제안 | EMNLP/ACL | 벤치마크·프로토콜 혁신에 관심 높음 |
이론/해석 가능성/로버스트니스 | ACL | 원리·일반화 논의 수용 폭 넓음 |
워크숍: 메인 제출 전 문제정의·평가 설계·에러분석을 빠르게 검증하는 최적 무대. 저자원/공정성/멀티모달/에이전트 등 주제 특화 워크숍 적극 활용.
튜토리얼: 새 태스크/평가 프로토콜 확산, 데이터 거버넌스·윤리 모범사례 공유에 효과적.
데모/시스템 트랙: 실제 사용 흐름, 안전장치, 실패 사례를 투명하게 공개(접근통제·로깅·가드레일 명시).
연구질문·가설 고정(16–12주 전)
1문장 문제정의 + 핵심 기여 2–3개, 관련연구 강·약점 맵 작성.
잠재적 사회적 리스크(편향/오남용)와 완화 전략 초안.
파일럿·데이터 거버넌스(12–10주)
소규모 실험으로 효과 존재 확인.
Data Card 초안: 출처·면허·전처리·분할·프롬프트 템플릿·어노테이션 지침/보상.
평가 프로토콜 고정(10–7주)
베이스라인, 하이퍼파라미터, 시드, 복수 평가셋(도메인 쉬프트/다언어), 인간 평가(필요시) 설계.
윤리/IRB 확인(어노테이션·사용자 연구가 있다면).
본실험·어블레이션·에러분석(7–4주)
메인 테이블 완성 → 오류 유형화(Hallucination/명시성/편향 등)와 반례 제시.
자원 비용(학습/추론/탄소발자국) 보고.
집필 스프린트(4–2주)
그림 1(핵심 파이프라인/아이디어) → 본문(문제–아이디어–증거–한계) → 부록(추가표/세부설정).
Responsible NLP·Data/Model Card 동시 완성.
리뷰·리버틀 대비(2–0주)
예상 질문 Q&A, 추가 실험 슬롯 준비.
코드/모델 공개 레포(README, env.yml, run 스크립트, 체크포인트, 라이선스).
올해 CFP/Author Kit/ARR 규정 확인(페이지·부록·체크리스트·윤리/데이터 정책).
재현성: 데이터 출처/면허, 전처리, 분할/시드, 하이퍼, 하드웨어/시간/비용, 코드 공개.
윤리: 편향·프라이버시·안전성·오남용, 어노테이터/사용자 보호(동의/보상/지침), 환경 비용.
Data/Model Card: 의도·제약·한계·적합/부적합 사용 사례.
평가 프로토콜: 공정 비교(동일 자원·시드), 통계 검정(유의성·효과크기), 에러 유형화·반례.
문서 품질: 그림1의 설명력, 요약/키워드, 부록의 상세 설정·추가 표.
💡
네 학회는 모두 치열하지만 미세한 초점이 다릅니다. 아이디어의 성격(실증·언어학적 분석·윤리/책임성·저자원/다언어)과 성숙도, 그리고 재현성·윤리 문서화의 완성도를 기준으로 무대를 고르세요. 그러면 채택 가능성과 임팩트를 함께 끌어올릴 수 있습니다.
Murfy 공식 블로그