킬크로그  
   첫 페이지로 이동
블로그에 관하여 | 태그 | 지역로그 | 방명록 | 관리자   
 
드림위즈 이메일 서비스 장애를 보면서...
[2008/08/28 16:58]    


드림위즈의 이메일 서비스가 지난 18일 부터 발생하여 27일인 어제까지 부분적인 장애가 지속되었으며, 회사는 내일 29일 최종 마무리가 될것으로 공지를 올렸다.

사용자 삽입 이미지
(드림위즈의 메일서비스 장애와 과련된 사과공지)

드림위즈측의 해명으로는 메일서버의 디스크에 장애가 있었고 이로 인하여 저장중이었던 메일을 읽지 못하거나 일부는 메일 송수신에 장애가 발생하였으며, 28일 현재까지 일부 사용자의 메일데이터가 완전히 복구가 완료된 것은 아니라고 한다.

나는 불과 몇년전까지 드림위즈 메일서비스처럼 웹메일 서비스를 제공하던 회사에 근무했었다. 무료로 제공하는 메일서비스 뿐만 아니라 유료메일서비스를 운영해본 경험이 있기 때문에 드림위즈의 이번 메일서비스 장애가 안타깝게 느껴지고, 또 지금 드림위즈 엔지니어와 회사측이 얼마나 고생할 것인지 예상할 수 있다.

장애에 대한 이유를 설명하는 부분을 보니 대략 어떤 부분의 문제인지를 알 수 있을 것 같다.

사용자 삽입 이미지
(데이터센터의 각종 서버들, 출처 : Flickr wirenine)

일부 메일서버의 기계적인 오류라 함은 사용자의 메일데이터나 프로그램을 저장하고 있는 하드디스크의 장애를 말하는 것으로 보인다. 이로 인해 사용자들의 메일데이터가 저장된 하드디스크로의 접속이 불가능하여 메일함이 보이지 않거나 메일을 수신 송신할 수 없는 상태가 되었을 것이다.

일반적으로 메일서비스를 제공하면, 사용자 정보나 설정 등을 저장하는 데이터베이스서버와 메일어플리케이션이 돌아가는 송수신서버, 사용자가 접속하는 웹메일서버, 메일데이터를 저장하는 스토리지서버 등으로 구성되어 있다.

데이터베이스를 담고있는 서버는 보통 포털에서는 가장 중요하게 생각하기 때문에 이중화와 백업에 대해 철저한 편이다. 또한 메일어플리케이션이 돌아가는 메일 송수신 서버는 장애시 바로 다른 서버로 대체할 수 있으며, 중요한 데이터를 가지지 않기 때문에 사용자가 장애에 대해 잘 느끼지 못할 수준으로 빠른 대처가 가능하다. 또한 UI를 담당하는 웹메일서버(웹으로 메일 기능을 관리하는 서버, 사용자가 접속하는 서버) 역시 송수신서버와 비슷한 성격을 가지기 때문에 대응에는 별문제가 없다.

문제는 사용자의 메일을 저장하는 스토리지서버이다. 스토리지서버는 다른 데이터 스토리지와 달리 메일의 특성상 쓰고 지우기가 활발하게 일어나는 특징을 가지고 있다. 하루에 몇 만통에서 몇 백만통의 메일을 받아서 스토리지에 저장하고 지우고 하는 일을 무수하게 반복한다.

이렇기때문에 메일서비스에서 가장 중요한 부분인 메일데이터 저장장애가 자주 발생하는 편이다. 스토리지도 수명이 있고, 우리가 알고 있는 자기장치인 하드디스크(HDD)를 사용하기 때문에 내구성이나 수명이 한계가 있고, 때로는 일찍 그 수명을 다하기도 한다.

사용자 삽입 이미지
(스토리지 클러스터, 출처 : Flickr NoSpareTime)

메일서비스를 제공하는 기업은 메일스토리지때문에 많은 고민을 한다.

장애를 최소화하려면 이중 삼중의 백업 및 안전장치를 해야하는데, 결국 그것은 고스란히 투자비용으로 나타나기 때문이다.

일반적으로는 RAID(레이드) 시스템을 통해 미러링 또는 패리티를 이용한 복구 방법을 사용하지만, 고가용성일수록 비용과 관련되고, 더 많은 여분의 디스크를 구입해 두어야 한다는 문제점이 발생한다.

다시 드림위즈 메일서비스 장애로 돌아가서 보면, 내가 추측컨데 이번 장애의 원인은 메일 스토리지에서 발생했으며, 아마도 스토리지의 장애가 심각했을 것으로 예측된다. 저장중인 하드디스크와 RAID 시스템 자체에 문제가 발생하면 일은 많이 꼬이게 된다.

사용자군(群)별로 스토리지가 분산되어 있었을 것이며, 그 중에 일부 스토리지군(群)에서 장애가 심각했으며 이로 인해 전체 메일시스템에 영향을 주었을 것이다.

장애 발생 3일째인 20일 송수신이 가능한 상태로 복구가 되었다는 말은 문제가 된 일부 스토리지를 분리하고 대체 서버를 투입한 시간으로 예측된다. 그리고 일부 사용자의 예전 메일이 복구가 되지 않았다는 것은 해당 장애 하드디스크가 완전히 수명을 다했다는 것으로 보이며, 이를 데이터복구업체에 복구 의뢰하면 보통 데이터량에 따라 다르지만 일주일까지도 걸릴 수 있을 정도이다.

메일시스템의 데이터는 특성상 아주 작은 파일들이 많이 나누어지는 형태로 제공된다. 메일 한개에 파일 한개의 형태로 만드는 경우가 일반적이다. 따라서 사용자 한명에게도 많은 메일을 가지고 있을 때는 몇 백개, 몇 천개도 저장이 될 수 있다.

이런 사용자가 몇 만명이라고 생각하면 파일 갯수는 상상을 넘어갈 정도로 많다. 따라서 이들을 복구하는 시간도 파일의 갯수가 결정적인 영향을 미치게 되어 있다.

연합뉴스 : 드림위즈 이메일 열흘간 '먹통'

메일시스템의 완전한 복구가 열흘 가까이 걸린다는 비난을 받는 이유가 여기에 있는 것이다. 메일 송수신은 금방 해결 가능하지만, 메일데이터는 스토리지의 완벽한 정상동작 전까지는 저장 등이 불가능하다.

따라서 공지사항에도 나와 있지만, 장애가 발생한 이후의 메일데이터는 새로운 스토리지에 저장하고 나중에 장애가 발생한 스토리지의 데이터를 복구하여 새로운 스토리지에 병합하는 작업을 하는 것이다.

아직 복구가 완료되지 않은 나머지 데이터는 하드디스크 복구에 시간이 오래 걸리거나 하드디스크의 심각한 오류가 난 지점(불량섹터)에 있는 데이터로 예상된다.

사용자 삽입 이미지

기술적인 긴 얘기를 했지만, 결론은 다음과 같다.

포털과 같은 대용량 사용자를 가진 메일시스템의 스토리지 시스템의 장애는 서비스 전체 신뢰도에 결정타를 날리는 중요한 이슈이다.

따라서, 스토리지에 각별한 신경을 써야하고, 만일의 사태에 대비하기 위한 여러가지 비상상황에 대비한 대응 장비 및 서비스 매뉴얼들이 만들어져 있어야 한다.

결국 이런 것들은 비용의 이슈이므로 메일서비스는 돈드는 서비스이다. 투자비용이 기술적인 결함을 커버할 수 있다. 돈이 없다면 기술적인 여러 방편으로 막아야 한다. 결국 사람(관리자, 엔지니어 등)이 고생한다는 얘기다.

다음이나 네이버 같은 포털에서 메일시스템이 서비스에서 차지하는 중요도는 상당히 높은 편이다. 일전에 KTH 파란도 메일사용자를 유치하기 위해 무던히 노력하고 있다고 포스팅한 바가 있지만, 포털에서 메일시스템은 사용자의 재방문을 유도하는데 결정적인 역할을 하고 있다.

2008/07/29 - [기술 & 트렌드] - 파란닷컴 SMS로 메일 사용자 늘이기에 안간힘

물론 구글같은 기업은 사용자 방문 유도보다는 사용자 데이터(메일 데이터)를 기반으로 검색 광고를 위한 방법으로 사용하기도 한다. 결국 그 역시 집객(集客)행위로 봐도 무방하겠다.

포털이나 대용량 메일서비스 제공사들이 메일시스템을 어떻게 운용하느냐를 봐도 기술적인 수준을 가늠할 수 있을만큼 메일시스템은 중요한 IT 기술들의 집합체이다.

커뮤니케이션이 끊어지지 않도록 만든다는 것은 대단히 중요한 기술이다. 특히나 이메일시스템에서는 기본적으로 사용자의 중요한 메일데이터를 다루고 있기 때문에 더 많은 관심을 가져야 한다.

서비스제공사에 신뢰를 바탕으로 메일서비스를 받는 사용자들에게 어느날 갑자기 자신의 메일이 사라졌다는 통보를 한다면 정말 최악의 상황이 될 것이다.

얼마전에 일어났던 다음의 한메일 사고 역시 추측컨데 메일스토리지와 데이터베이스 에러였을 가능성이 높다. 자칫 더 크게 문제가 발생했더라면 메일을 통한 사생활 유출과 같은 끔찍한 일이 벌어졌을 것이다.

그만큼 포털이나 메일서비스 제공사의 메일담당 엔지니어나 부서는 정말 24시간 가슴 조리며 서비스에 임하고 있다.

메일서비스를 만만하게 봐서도 안되지만, 메일서비스가 제공되는 이면에 해당 기업의 기술과 보이지 않는 노력들이 숨어 있다는 사실을 이해할 필요는 있다.

메일데이터도 블로그 서비스의 백업서비스처럼 개인이 백업할 수 있는 환경을 만들어주면 좋을 것이다. 결국 개인의 데이터보호는 기업에 맡기기보다는 직접 해결하는 것이 속편하다. 특히 포털메일이라면 말이다. 백업이 가능하도록 만들어주고 주기적으로 백업을 권장하면 좋을 것이다.

드림위즈메일을 사용하다가 데이터에 이상이 발생한 유저들에게 빠른 복구가 가능하길 기원한다. 또한 메일서비스 뒤에서 묵묵하게 사용자의 메일데이터를 지키기 위해 노력하는 엔지니어들에게도 감사의 말을 전하고 싶다.

Tag : , , , , , ,
Track this back : http://cusee.net/trackback/2461611 관련글 쓰기
Tracked from Purengom's Monologue 2008/08/28 22:02 x
제목 : 전례가 될까 싶어: 다음 한메일넷 메일 증발 사건(2000년 5월)
다음의 한메일넷 메일 노출 사건으로 난리입니다. 개인정보관리에 있어서 다음은 한번 전과가 있습니다. 이른바 '한메일넷 메일 증발 사건' 인데 정말 어처구니 없는 사건이었죠. 제가 겪은 바로 이 케이스가 재미있는 전례가 되지 않나 싶어 회고합니다. 저는 이 사건이 있은 이후에는 다른 메일을 전전하다가 지금은 Gmail을 쓰고 있습니다. 2000년의 일입니다. 기록삼아두려고 당시 메일을 버리지 않았는데 하도 다음에는 스팸이 많아서 그걸 지우다가 없어졌......more
Commented by BlogIcon 푸른곰 at 2008/08/28 22:04  r x
일전에(2000년인가) 한메일도 새 스토리지 서버를 선마이크로시스템즈에서 사서 돌렸다 탈이 나서 날려먹고, 결국은 선택받은(?) 수백만 가입자 중 1000명의 데이터가 완전히 증발해버렸습니다. 해서, 소송도 걸리고 다음은 썬의 장비 탓, 썬은 다음의 메인테넌스 탓 하면서 니탓네탓 했었는데 ㅡㅡ; 이런 초보적인 미스가 또 발생하네요. 관련한 글 트랙백합니다.
Replied by BlogIcon 킬크 at 2008/08/29 08:10 x
그런 일이 있었죠. 기억합니다. 다음뿐만 아니라 다른 메일서비스들도 장애 관련되어서는 알려지지않은 수많은 사고들이 있습니다. 대부분 저장장치 장애들이었죠.
Commented by Longhorn at 2008/08/28 22:31  r x
정말 몰랐던 사실이네요... 덕분에 잼있게 본 IT세상이었습니다.
자~ 여기에 방문하시는 모든 네티즌들이여~!! 박수를!!! *^^*
Replied by BlogIcon 킬크 at 2008/08/29 08:11 x
감사합니다. :)
Commented by BlogIcon 건더기 at 2008/08/30 09:04  r x
저도 IDC에서 서버를 돌리고 있고, 블로그도 그 서버에서 운영중이라 남 얘기같지 않습니다....
업글하다가 10시간씩 접속장애 내본 경험이 있는지라..... ㅠㅠ
Replied by BlogIcon 킬크 at 2008/08/31 09:14 x
끊기지 않는 서비스 뒤엔 많은 노력이 숨어 있죠. :)
Commented by Monica at 2008/09/01 11:15  r x
아,, 이래서 저희 엔지니어 분이 항상 가격 산출표에 스토리지 한대 비용을 추가해야 한다고 펄펄 뛰시는군요.. ^^;;
Commented by BlogIcon lesmin at 2008/09/01 11:40  r x
좀 다른 얘기지만, Google에서는 검색Indexing등에 사용하던 HDD에 배드섹터가 발생하면 검색Cache 용으로 전환해서 좀더 사용한다고 하더군요. 늘어만가는 IT폐기물을 줄이기 위한 다양한 노력도 필요할 것 같습니다.

name    password    homepage
 hidden


BLOG main image
세상엔 알고 싶은 것이 너무 많다
killk's Twitter and me2day

 블로그 자체검색
 카테고리
모든 글보기 (2193)
기술 & 트렌드 (1485)
킬크로그 (399)
여행 이야기 (101)
맛집 이야기 (36)
우리집 이야기 (35)
노래 이야기 (16)
iPhone & iPod touch (64)
Review (57)
 관심있는 주제들
iPhone Apple Google VoIP 블로그 ipod touch 콘텐츠유통 스마트폰 콘텐츠 삼성전자

다이시스 배너
모바일/임베디드 솔루션 기업
 최근 포스팅
미국 스마트폰 시장, Android..
국내 스마트폰 시장 판도 변화.. (5)
SNS나 LBS를 통해 표현되는 소..
또 다른 모바일 킬러 콘텐츠,..
iPhone 및 Android App 개발이..
iPad Wi-Fi 버전 매장판매 4월..
Google Sync 장애, 주소록, 캘.. (3)
Apple의 HTC에 대한 특허 공세.. (1)
디지털과 스마트폰으로 물들고.. (7)
소셜 네트워크 서비스(SNS)는..
T옴니아2 Windows Mobile 6.5.. (4)
SK텔레콤 초단위 과금제 실시,.. (1)
iPod Touch 주사용자는 청소년..
또 다시 위기감이 높아지고 있.. (2)
7년만에 iTunes Store 통해 10..
 최근 댓글들
수정했습니다. 감사합니다.
킬크 - 11:41
Froyo는 after 2.1 버전 이름..
Ted - 11:18
소음은 거의 느껴지지 않습니다.
킬크 - 08:33
스마트폰은 역시 운영체제가..
홍컴 - 01:32
실례하지만...혹시 소음은 어..
김성민 - 03/10
쿼티자판에 안드로이드 탑재라..
Laz - 03/10
서서히 물결이 일어나고 있군..
제너두 - 03/10
용어에 대한 정확한 구분이나..
킬크 - 03/09
좁은의미로 보자면 옴니아2 라..
tornus - 03/09
말씀하신 '옴니아팝' 시리즈는..
킬크 - 03/09
 최근 받은 트랙백들
혁신 이미지 속에서 성장한 애..
학주니닷컴
음주의 생각
drunken_j's me2DAY
숲속얘기의 생각
fstory's me2DAY
윈도 모바일 6.5로 업그레이드..
칫솔_초이의 IT 휴게실
스마트폰 OS 업그레이드, 이제..
늑돌이네 디지털 동굴 라지온..
고성과 사천의 관광지로.
여울세상
인텔과 노키아가 함께 만드는..
칫솔_초이의 IT 휴게실
tkhwang의 생각
tkhwang's me2DAY
 방문자 통계(Since 2006.2.14)
전체 : 2,526,224
오늘 : 2,403
어제 : 2,531
 추천 링크
Iguacu Blog
iPhone 되고픈 超 iPod touch
서버 컨설팅 전문 테라텍
소프트웨어 스토리
전자파 이야기
 사랑합니다, 여러분 :)
티스토리 배너
DNS Powered by DNSEver.com
스마트 쇼핑저널 버즈

 블로그 구독(RSS Feed)
rss

Giganews Newsgroups
 공지사항
킬크로그 History
About 킬크로그 & 킬크