코딩테스트/취업&코테 정보

OpenInfra Community Days Korea 2023 후기

SK_MOUSE 2023. 7. 7. 17:29
반응형

OpenInfra Community Days Korea 2023를 다녀온 내용이다.

 

일시 : 2023.07.03-04(2일간)

경품 추첨 : 암서버, 소니헤드폰 등

입장료 : 6만원(?)

 

 

Multi Player 유저를 안정적이고 빠르게 운영하기

ex) 디아블로, 배틀그라운드

게임처럼 유저가 빠르게 늘어나거나 줄어드는 서비스가 흔치않다 → 감당 가능한 아키텍처 설계 필요

  • 왜 쿠버네티스?
    • 벤더에 락인이 없는 Vendor-neutral
    • Secure By Design
    • Workload Optimized
    • Proven Reliability
  • Agones : 기존에는 가장 지연시간이 적은 dedicate 서버를 찾아서 유저와 직접 연결해줌(매치 메이커 시스템)

Kolla-ansible

Kolla-ansible은 OpenStack 클라우드 운영을 위한 Docker 컨테이너 및 ansible 플레이북을 제공해준다. 기본적으로 매우 독립적이며 사용자의 요구에 따라 커스터 마이징이 가능하다


삼성전자 채팅+메시지 플랫폼에서 로깅시스템 구축

  • 환경구축
    • 검색엔진의 높은비용+데이터복원의 어려움+실시간서비스제공 어려움
    ⇒ Data Stream, ETL, Stroage, terraform
  • Stability, Scalability, Real-time, Cost-effective

Deep Dive(구조적 디테일에 대한 고민)

Kublet → 원본 log파일을 가리키는 symbolic link를 만들어줌.

  • 가장 최근에 생성된 로그파일을 가리킨다
  • fluent D는 마지막 로그를 가리키게된다

로그 로테이션 발생 직후, sym link를 생성하지않는 현상 발생 ⇒ k8s 1.21버전에서 해결된것

로그 Input-Filter-Output 섹션으로 구분됨

메시지큐를 활용해서 리커버링 : 각 이벤트에 대한 검증만하면됨. but 비용증가….로그 누락되지 않는 선택!

예상치못한 누락?

→ 정합성 검증 by 모든데이터x(너무 많음)

⇒ 따라서 모니터링시스템이 필요함.

혹은 여유가되는 시간대에 검증하는것.


Opentelementry기반 금융 플랫폼 모니터링 체계 구축

Opentelementry 소개

  • CNCF 인큐베이팅 플젝
  • Observability는 시스템 밖에서 내부의 상황을 이해할수 있도록 하는기능
  • Telemetry : 시스템 활동으로부터 나오는 시그널. Trace, Metris, Logs로 분류함

메뉴얼대로 : java gralde, code

Automatic : java→java agent

Auto-Instrumentation Injection : Opentelemetry k8s operator활용(Java자동으로 주입 됨)

Collector

  • pattern 여러가지…
  • Management : OpAmp
  • Exemplars라는 기능은 metrics 정보에 trace_id를 링크해주어 trace와 연계가 가능하도록 해준다.

프로메테우스, 그라파나, 그라파나로키(로그를 fluentD를 쓰는게 일반적인데, 로그를 단순히보는데 비용이 많이들어서 Grafana Loki가 적절, 프론트는 Grafana에서 제공)

Add trace_id in lo

springboot의 경우 property로 추가 가능→ logback.xml이 설정된 경우 무시

github.com/hellices/2023openinfradays_otel


What is NVME? Why is collaboration important?

-삼성전자 이한주

  • North Bridge는 빠른 디바이스가 붙어있고, South Bridge는 상대적으로 느린 디바이스가 붙어있음
  • CPU 트렌드 → 10년간 8배 성장(코어는 10배)
  • D RAM은 성장이 더뎌, 효율적으로 써야함
  • 퍼포먼스 늘어난다=파워증가

⇒ 10년후에는 제타바이트 단위 수준으로 서버를 돌릴건데, 이러면 핵발전소 한개가 필요함..

AHCI vs NVMe

: NVMe 스펙 좋다?

2.0 부터 transport layer등 분리

데이터 센터에서 왜 운영?

유니크하게 갖고가고싶은 각 feature를 뽑아서 시스템 내에서 문제가 없게끔 스펙화(커스텀?)

OCP Telemetry Debug → human readable하게 latency 정의, 시스템이 나에게 알려줘야도는것 정의

Latency 모니터링을 통해 너무 빠르거나 느리지않게.

  • 미디어 분야에서의 용어, WAF(Write Amplification Factor) = 1 이 가까울수록 host가 쓰고싶은 양과 실제 랜드에서 쓰는양이 비슷하므로 수명 오래 쓸게 사용 : FDP 라는 기술 사용

-미래에 할 일

각 layer별로 cross optimize을 통해 Full stack Optimization

→ 이런 용도로 소통하기 위해 필요한 문서…는 OCP

: 업체에서 3년 주기로 SSD개발 기간 소요…

SATA를 요즘 사용안하는데 NVMe 사용

반응형