데이콘에서 자연어처리(NLP) 관련 아주 흥미로운 경진대회가 열렸다.
총 상금은 300만 원으로, 6~10등 에게까지 10만 원 씩 주는 아주 혜자 스럽고 군침 돌게 만드는 대회다.
1.대회 주제/데이터셋/목표 소개
- 대회 주제 및 목표
- 네트워크 장비 로그 분석으로 침해 위험도 예측
- 데이터
- input : 로그 데이터 string
- output : 위험 등급 label (0~7, 등급이 숫자 이므로 회귀 이용하는 것이 맞지 않을까?.....과연 그럴까??)
2.1일차 살펴보기
- 데이터 특징 :
- 로그 찍힌 날짜 시간,
- 로깅 라이브러리( or툴 ex) kibana, logstash, suricata ),
- 로그 저장 파일 위치,
- 로그 메시지
등으로 이뤄져 있다. 그 외 특징은 위험등급 레벨 별로 데이터를 분석해 봐야 겠다.
3.전체 프로세스 계획하기