드림위즈의 이메일 서비스가 지난 18일 부터 발생하여 27일인 어제까지 부분적인 장애가 지속되었으며, 회사는 내일 29일 최종 마무리가 될것으로 공지를 올렸다.

사용자 삽입 이미지
(드림위즈의 메일서비스 장애와 과련된 사과공지)

드림위즈측의 해명으로는 메일서버의 디스크에 장애가 있었고 이로 인하여 저장중이었던 메일을 읽지 못하거나 일부는 메일 송수신에 장애가 발생하였으며, 28일 현재까지 일부 사용자의 메일데이터가 완전히 복구가 완료된 것은 아니라고 한다.

나는 불과 몇년전까지 드림위즈 메일서비스처럼 웹메일 서비스를 제공하던 회사에 근무했었다. 무료로 제공하는 메일서비스 뿐만 아니라 유료메일서비스를 운영해본 경험이 있기 때문에 드림위즈의 이번 메일서비스 장애가 안타깝게 느껴지고, 또 지금 드림위즈 엔지니어와 회사측이 얼마나 고생할 것인지 예상할 수 있다.

장애에 대한 이유를 설명하는 부분을 보니 대략 어떤 부분의 문제인지를 알 수 있을 것 같다.

사용자 삽입 이미지
(데이터센터의 각종 서버들, 출처 : Flickr wirenine)

일부 메일서버의 기계적인 오류라 함은 사용자의 메일데이터나 프로그램을 저장하고 있는 하드디스크의 장애를 말하는 것으로 보인다. 이로 인해 사용자들의 메일데이터가 저장된 하드디스크로의 접속이 불가능하여 메일함이 보이지 않거나 메일을 수신 송신할 수 없는 상태가 되었을 것이다.

일반적으로 메일서비스를 제공하면, 사용자 정보나 설정 등을 저장하는 데이터베이스서버와 메일어플리케이션이 돌아가는 송수신서버, 사용자가 접속하는 웹메일서버, 메일데이터를 저장하는 스토리지서버 등으로 구성되어 있다.

데이터베이스를 담고있는 서버는 보통 포털에서는 가장 중요하게 생각하기 때문에 이중화와 백업에 대해 철저한 편이다. 또한 메일어플리케이션이 돌아가는 메일 송수신 서버는 장애시 바로 다른 서버로 대체할 수 있으며, 중요한 데이터를 가지지 않기 때문에 사용자가 장애에 대해 잘 느끼지 못할 수준으로 빠른 대처가 가능하다. 또한 UI를 담당하는 웹메일서버(웹으로 메일 기능을 관리하는 서버, 사용자가 접속하는 서버) 역시 송수신서버와 비슷한 성격을 가지기 때문에 대응에는 별문제가 없다.

문제는 사용자의 메일을 저장하는 스토리지서버이다. 스토리지서버는 다른 데이터 스토리지와 달리 메일의 특성상 쓰고 지우기가 활발하게 일어나는 특징을 가지고 있다. 하루에 몇 만통에서 몇 백만통의 메일을 받아서 스토리지에 저장하고 지우고 하는 일을 무수하게 반복한다.

이렇기때문에 메일서비스에서 가장 중요한 부분인 메일데이터 저장장애가 자주 발생하는 편이다. 스토리지도 수명이 있고, 우리가 알고 있는 자기장치인 하드디스크(HDD)를 사용하기 때문에 내구성이나 수명이 한계가 있고, 때로는 일찍 그 수명을 다하기도 한다.

사용자 삽입 이미지
(스토리지 클러스터, 출처 : Flickr NoSpareTime)

메일서비스를 제공하는 기업은 메일스토리지때문에 많은 고민을 한다.

장애를 최소화하려면 이중 삼중의 백업 및 안전장치를 해야하는데, 결국 그것은 고스란히 투자비용으로 나타나기 때문이다.

일반적으로는 RAID(레이드) 시스템을 통해 미러링 또는 패리티를 이용한 복구 방법을 사용하지만, 고가용성일수록 비용과 관련되고, 더 많은 여분의 디스크를 구입해 두어야 한다는 문제점이 발생한다.

다시 드림위즈 메일서비스 장애로 돌아가서 보면, 내가 추측컨데 이번 장애의 원인은 메일 스토리지에서 발생했으며, 아마도 스토리지의 장애가 심각했을 것으로 예측된다. 저장중인 하드디스크와 RAID 시스템 자체에 문제가 발생하면 일은 많이 꼬이게 된다.

사용자군(群)별로 스토리지가 분산되어 있었을 것이며, 그 중에 일부 스토리지군(群)에서 장애가 심각했으며 이로 인해 전체 메일시스템에 영향을 주었을 것이다.

장애 발생 3일째인 20일 송수신이 가능한 상태로 복구가 되었다는 말은 문제가 된 일부 스토리지를 분리하고 대체 서버를 투입한 시간으로 예측된다. 그리고 일부 사용자의 예전 메일이 복구가 되지 않았다는 것은 해당 장애 하드디스크가 완전히 수명을 다했다는 것으로 보이며, 이를 데이터복구업체에 복구 의뢰하면 보통 데이터량에 따라 다르지만 일주일까지도 걸릴 수 있을 정도이다.

메일시스템의 데이터는 특성상 아주 작은 파일들이 많이 나누어지는 형태로 제공된다. 메일 한개에 파일 한개의 형태로 만드는 경우가 일반적이다. 따라서 사용자 한명에게도 많은 메일을 가지고 있을 때는 몇 백개, 몇 천개도 저장이 될 수 있다.

이런 사용자가 몇 만명이라고 생각하면 파일 갯수는 상상을 넘어갈 정도로 많다. 따라서 이들을 복구하는 시간도 파일의 갯수가 결정적인 영향을 미치게 되어 있다.

연합뉴스 : 드림위즈 이메일 열흘간 '먹통'

메일시스템의 완전한 복구가 열흘 가까이 걸린다는 비난을 받는 이유가 여기에 있는 것이다. 메일 송수신은 금방 해결 가능하지만, 메일데이터는 스토리지의 완벽한 정상동작 전까지는 저장 등이 불가능하다.

따라서 공지사항에도 나와 있지만, 장애가 발생한 이후의 메일데이터는 새로운 스토리지에 저장하고 나중에 장애가 발생한 스토리지의 데이터를 복구하여 새로운 스토리지에 병합하는 작업을 하는 것이다.

아직 복구가 완료되지 않은 나머지 데이터는 하드디스크 복구에 시간이 오래 걸리거나 하드디스크의 심각한 오류가 난 지점(불량섹터)에 있는 데이터로 예상된다.

사용자 삽입 이미지

기술적인 긴 얘기를 했지만, 결론은 다음과 같다.

포털과 같은 대용량 사용자를 가진 메일시스템의 스토리지 시스템의 장애는 서비스 전체 신뢰도에 결정타를 날리는 중요한 이슈이다.

따라서, 스토리지에 각별한 신경을 써야하고, 만일의 사태에 대비하기 위한 여러가지 비상상황에 대비한 대응 장비 및 서비스 매뉴얼들이 만들어져 있어야 한다.

결국 이런 것들은 비용의 이슈이므로 메일서비스는 돈드는 서비스이다. 투자비용이 기술적인 결함을 커버할 수 있다. 돈이 없다면 기술적인 여러 방편으로 막아야 한다. 결국 사람(관리자, 엔지니어 등)이 고생한다는 얘기다.

다음이나 네이버 같은 포털에서 메일시스템이 서비스에서 차지하는 중요도는 상당히 높은 편이다. 일전에 KTH 파란도 메일사용자를 유치하기 위해 무던히 노력하고 있다고 포스팅한 바가 있지만, 포털에서 메일시스템은 사용자의 재방문을 유도하는데 결정적인 역할을 하고 있다.

2008/07/29 - [기술 & 트렌드] - 파란닷컴 SMS로 메일 사용자 늘이기에 안간힘

물론 구글같은 기업은 사용자 방문 유도보다는 사용자 데이터(메일 데이터)를 기반으로 검색 광고를 위한 방법으로 사용하기도 한다. 결국 그 역시 집객(集客)행위로 봐도 무방하겠다.

포털이나 대용량 메일서비스 제공사들이 메일시스템을 어떻게 운용하느냐를 봐도 기술적인 수준을 가늠할 수 있을만큼 메일시스템은 중요한 IT 기술들의 집합체이다.

커뮤니케이션이 끊어지지 않도록 만든다는 것은 대단히 중요한 기술이다. 특히나 이메일시스템에서는 기본적으로 사용자의 중요한 메일데이터를 다루고 있기 때문에 더 많은 관심을 가져야 한다.

서비스제공사에 신뢰를 바탕으로 메일서비스를 받는 사용자들에게 어느날 갑자기 자신의 메일이 사라졌다는 통보를 한다면 정말 최악의 상황이 될 것이다.

얼마전에 일어났던 다음의 한메일 사고 역시 추측컨데 메일스토리지와 데이터베이스 에러였을 가능성이 높다. 자칫 더 크게 문제가 발생했더라면 메일을 통한 사생활 유출과 같은 끔찍한 일이 벌어졌을 것이다.

그만큼 포털이나 메일서비스 제공사의 메일담당 엔지니어나 부서는 정말 24시간 가슴 조리며 서비스에 임하고 있다.

메일서비스를 만만하게 봐서도 안되지만, 메일서비스가 제공되는 이면에 해당 기업의 기술과 보이지 않는 노력들이 숨어 있다는 사실을 이해할 필요는 있다.

메일데이터도 블로그 서비스의 백업서비스처럼 개인이 백업할 수 있는 환경을 만들어주면 좋을 것이다. 결국 개인의 데이터보호는 기업에 맡기기보다는 직접 해결하는 것이 속편하다. 특히 포털메일이라면 말이다. 백업이 가능하도록 만들어주고 주기적으로 백업을 권장하면 좋을 것이다.

드림위즈메일을 사용하다가 데이터에 이상이 발생한 유저들에게 빠른 복구가 가능하길 기원한다. 또한 메일서비스 뒤에서 묵묵하게 사용자의 메일데이터를 지키기 위해 노력하는 엔지니어들에게도 감사의 말을 전하고 싶다.

Posted by 까칠한 킬크

댓글을 달아 주세요

  1. Favicon of http://www.purengom.com BlogIcon 푸른곰 2008.08.28 22:04  댓글주소  수정/삭제  댓글쓰기

    일전에(2000년인가) 한메일도 새 스토리지 서버를 선마이크로시스템즈에서 사서 돌렸다 탈이 나서 날려먹고, 결국은 선택받은(?) 수백만 가입자 중 1000명의 데이터가 완전히 증발해버렸습니다. 해서, 소송도 걸리고 다음은 썬의 장비 탓, 썬은 다음의 메인테넌스 탓 하면서 니탓네탓 했었는데 ㅡㅡ; 이런 초보적인 미스가 또 발생하네요. 관련한 글 트랙백합니다.

    • Favicon of https://cusee.net BlogIcon 까칠한 킬크 2008.08.29 08:10 신고  댓글주소  수정/삭제

      그런 일이 있었죠. 기억합니다. 다음뿐만 아니라 다른 메일서비스들도 장애 관련되어서는 알려지지않은 수많은 사고들이 있습니다. 대부분 저장장치 장애들이었죠.

  2. Longhorn 2008.08.28 22:31  댓글주소  수정/삭제  댓글쓰기

    정말 몰랐던 사실이네요... 덕분에 잼있게 본 IT세상이었습니다.
    자~ 여기에 방문하시는 모든 네티즌들이여~!! 박수를!!! *^^*

  3. Favicon of http://blog.kangjang.net BlogIcon 건더기 2008.08.30 09:04  댓글주소  수정/삭제  댓글쓰기

    저도 IDC에서 서버를 돌리고 있고, 블로그도 그 서버에서 운영중이라 남 얘기같지 않습니다....
    업글하다가 10시간씩 접속장애 내본 경험이 있는지라..... ㅠㅠ

  4. Monica 2008.09.01 11:15  댓글주소  수정/삭제  댓글쓰기

    아,, 이래서 저희 엔지니어 분이 항상 가격 산출표에 스토리지 한대 비용을 추가해야 한다고 펄펄 뛰시는군요.. ^^;;

  5. Favicon of http://www.lesmin.com/blog BlogIcon lesmin 2008.09.01 11:40  댓글주소  수정/삭제  댓글쓰기

    좀 다른 얘기지만, Google에서는 검색Indexing등에 사용하던 HDD에 배드섹터가 발생하면 검색Cache 용으로 전환해서 좀더 사용한다고 하더군요. 늘어만가는 IT폐기물을 줄이기 위한 다양한 노력도 필요할 것 같습니다.