정의

빅데이터란 거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터입니다. 이를 3V라고도 합니다.

간단히 말해, 빅 데이터는 특히 새로운 데이터 소스에서 나온 더 크고 더 복잡한 데이터 세트입니다. 이러한 데이터 세트는 너무 방대하여 기존의 데이터 처리 소프트웨어로는 관리할 수 없습니다. 그러나 이러한 방대한 양의 데이터는 이전에 해결할 수 없었던 비즈니스 문제를 해결하는 데 사용될 수 있습니다.

 

빅 데이터의 3대 요소(3V)

양(volume) 데이터의 양이 중요합니다. 빅 데이터를 사용하면 저밀도 비정형 데이터를 대량으로 처리해야 합니다. Twitter 데이터 피드, 웹 페이지나 모바일 앱의 클릭 스트림, 센서 지원 장비와 같이 알려지지 않은 값의 데이터가 여기에 해당될 수 있습니다. 일부 조직의 경우, 데이터 양이 수십 테라바이트가 될 수 있습니다. 아니면 수백 페타바이트가 될 수 있습니다.
속도(velocity) 속도는 데이터가 얼마나 빨리 수신 및 처리되는가를 나타냅니다. 일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍할 때 속도가 가장 빠릅니다. 일부 인터넷 지원 스마트 제품은 실시간 또는 거의 실시간으로 작동하기 때문에 실시간 평가 및 조치가 필요합니다.
종류(variety) 종류란 사용 가능한 데이터의 유형 수를 나타냅니다. 기존 데이터 유형은 구조화되어 관계형 데이터베이스에 적합했습니다. 빅 데이터의 등장으로 새로운 비정형 유형의 데이터가 나타났습니다. 텍스트, 오디오 및 비디오 같은 비정형 및 반정형 데이터 유형은 의미를 도출하고 메타 데이터를 지원하기 위해 추가로 전처리가 필요합니다.

빅 데이터의 가치와 진실

지난 몇 년간 value와 veracity라는 두 가지 V가 더 등장했습니다. 데이터는 내재적 가치를 가집니다. 그러나 가치는 발견이 되기 전까지는 무용지물입니다. 중요성: 데이터가 얼마나 진실하고 신뢰할 수 있습니까?

오늘날에는 빅 데이터가 자본이 되었습니다. 세계에서 가장 큰 기술 회사를 생각해 보십시오. 이들이 제공하는 가치의 대부분은 데이터에서 나오고 있으며, 효율성을 높이고 신제품을 개발하기 위해 데이터를 지속적으로 분석하고 있습니다.

최근의 기술 혁신으로 데이터 스토리지 및 컴퓨팅 비용이 대폭 감소하면서 이전보다 더 많은 데이터를 보다 쉽고 저렴하게 저장할 수 있게 되었습니다. 더 많은 양의 빅 데이터를 보다 저렴하고 손쉽게 액세스할 수 있게 되면서 보다 정확하고 정밀하게 비즈니스 결정을 내릴 수 있게 되었습니다.

빅 데이터에서 가치를 찾는 것은 단순히 데이터를 분석하는 일이 아닙니다(분석은 완전히 다른 이점을 제공). 통찰력 있는 분석가, 비즈니스 사용자 및 경영진이 올바른 질문을 던지고, 패턴을 인식하고, 정보에 입각한 가정을 세우고, 행동을 예측해야 하는 전체적인 발견 프로세스입니다.

그렇다면 어떻게 여기까지 올 수 있었을까요?

빅 데이터의 역사

빅 데이터 자체의 개념은 비교적 새로운 것이지만, 대규모 데이터 세트의 기원은 최초의 데이터 센터가 등장하고 관계형 데이터베이스가 개발되는 등 데이터 세상이 막 시작되었던 1960년대와 70년대로 거슬러 올라갑니다.

2005년 무렵 사람들은 Facebook, YouTube 및 기타 온라인 서비스를 통해 사용자가 얼마나 많은 양의 데이터를 생성하고 있는지 깨닫기 시작했습니다. 같은 해에 Hadoop(빅 데이터 세트를 저장하고 분석하기 위해 특별히 개발된 오픈 소스 프레임워크)이 개발되었습니다. NoSQL도 이 기간 동안 인기를 얻기 시작했습니다.

Hadoop(그리고 최근에는 Spark) 같은 오픈 소스 프레임워크의 개발은 빅 데이터를 보다 손쉽게 사용하고 저렴하게 저장할 수 있게 해준다는 점에서 빅 데이터의 성장에 필수적이었습니다. 그 이후로 빅 데이터의 양이 급증했습니다. 사용자는 여전히 방대한 양의 데이터를 생성하고 있지만, 데이터를 생성하는 것은 인간만이 아닙니다.

Internet of Things(IoT)의 출현으로 더 많은 객체와 장치가 인터넷에 연결되어 고객 사용 패턴 및 제품 성능에 대한 데이터를 수집하고 있습니다. 머신러닝의 등장으로 더 많은 데이터가 생성되었습니다.

빅 데이터의 역사는 오래되었지만, 활용은 이제 시작 단계입니다. 클라우드 컴퓨팅으로 빅 데이터 가능성이 더욱 확장되었습니다. 클라우드는 개발자가 임시 클러스터를 손쉽게 가동하여 데이터 하위 집합을 테스트할 수 있도록 진정한 의미에서 탄력적인 확장성을 제공합니다. 또한 그래프 데이터베이스는 분석 속도를 높이고 포괄적인 방식으로 대량의 데이터를 표시할 수 있으므로 점점 더 중요해지고 있습니다.

 

빅데이터의 이점:

  • 빅 데이터를 사용하면 더 많은 정보를 확보할 수 있기 때문에 보다 완벽한 답을 얻을 수 있습니다.
  • 답이 완벽하다는 것은 데이터의 신뢰성이 높아진다는 의미입니다. 따라서 문제 해결에 대한 완전히 다른 접근 방식이 가능합니다.

빅 데이터 사용 사례

빅 데이터는 고객 경험에서 분석에 이르기까지 다양한 비즈니스 활동을 처리하는 데 도움이 될 수 있습니다. 다음은 몇 가지 예일 뿐이고,

제품 개발 Netflix 및 Procter & Gamble 같은 회사는 빅데이터를 사용하여 고객 수요를 예측합니다. 그리고 과거 및 현재의 제품/서비스의 주요 속성을 분류하고 이러한 속성과 옵션의 상업적 성공 간의 관계를 모델링하여 새로운 제품 및 서비스에 대한 예측 모델을 구축하고 있습니다. 또한 P&G는 포커스 그룹, 소셜 미디어, 테스트 시장, 초기 매장 출시의 데이터 및 분석자료를 사용하여 신규 제품을 계획, 생산, 출시합니다.
예측적 유지 보수 장비 고장을 예측할 수 있는 요소는 장비 생산연도, 제조사, 장비 모델과 같은 정형 데이터는 물론, 수백만 개의 로그 항목, 센서 데이터, 오류 메시지, 엔진 온도 등 비정형 데이터 안에도 깊숙이 숨겨져 있을 수 있습니다. 조직들은 문제가 발생하기 전에 잠재적 문제에 대한 이러한 징후들을 분석함으로써 유지 보수를 보다 비용 효율적으로 배치하고 부품 및 장비 가동 시간을 최대화할 수 있습니다.
고객 경험 고객 유치 경쟁이 시작되었습니다. 고객 경험을 명확하게 파악하는 것이 그 어느 때보다 가능해졌습니다. 빅 데이터를 사용하면 소셜 미디어, 웹 방문, 통화 기록 및 기타 소스에서 데이터를 수집하여 상호 작용 경험을 개선하고 제공되는 가치를 극대화할 수 있습니다. 맞춤형 옵션 제공을 시작하고 고객 이탈을 줄이며 문제를 사전에 처리할 수 있습니다.
사기 및 규정 준수 보안은 단순히 소수의 악질 해커가 아닌, 전문 해커들로 이루어진 집단 전체에 맞서는 것입니다. 보안 환경 및 규정 준수 요구사항은 계속해서 진화하고 있습니다. 빅 데이터를 사용하면 데이터에서 사기를 나타내는 패턴을 식별하고 대량의 정보를 집계하여 규제 보고를 훨씬 빠르게 할 수 있습니다.
머신러닝 머신러닝은 현재 가장 주목 받는 주제입니다. 데이터, 특히 빅 데이터는 그 이유 중 하나입니다. 이제는 프로그래밍을 하는 대신에 머신을 훈련시킬 수 있게 되었습니다. 빅 데이터를 사용해 머신러닝 모델을 훈련한 덕분에 다음과 같은 것들이 가능해졌습니다.
운영 효율성 운영 효율성이 항상 중요한 요소라고는 할 수 없지만, 빅데이터가 가장 큰 영향력을 미치는 분야임은 분명합니다. 빅 데이터를 사용하면 생산, 고객 피드백 및 반품, 기타 요인을 분석하고 평가하여 중단을 줄이고 향후 수요를 예측할 수 있습니다. 빅 데이터는 현재 시장 수요에 따라 의사 결정을 개선하는 데 사용할 수도 있습니다.
혁신 주도 빅 데이터를 이용하면 혁신을 실현할 수 있습니다. 인간, 기관, 기업, 그리고 프로세스 사이의 상호 의존성을 연구하고 이러한 인사이트를 활용할 새로운 방법을 결정할 수 있기 때문입니다. 데이터 통찰력을 사용하여 재무 및 계획 고려 사항에 대한 결정을 개선할 수 있습니다. 트렌드와 고객이 원하는 새로운 제품 및 서비스를 조사할 수 있습니다. 동적인 가격 모델을 구현할 수 있습니다. 가능성은 무궁무진합니다.

빅 데이터 과제

빅 데이터는 많은 것을 약속하고 있지만, 해결해야 할 과제가 없지는 않습니다.

먼저 빅 데이터는 크기가 큽니다. 데이터 스토리지를 위한 신기술이 개발되기는 했지만, 약 2년마다 데이터 양의 2배 증가하고 있습니다. 따라서 조직들은 데이터 증가를 따라잡고 데이터를 효과적으로 저장하는 방법을 찾느라 고군분투하고 있습니다.

그러나 데이터를 저장하는 것만으로는 충분하지 않습니다. 데이터는 가치 있게 사용되어야 하고, 이는 큐레이션에 따라 결정됩니다. 클라이언트와 관련이 있고 의미 있는 분석이 가능한 방식으로 구성된 정제 데이터를 확보하려면 많은 작업이 필요합니다. 데이터 과학자는 작업 시간의 50~80%를 실제 사용하기 전에 데이터를 큐레이션하고 준비하는 데 할애하고 있습니다.

마지막으로 빅 데이터 기술은 빠른 속도로 변화하고 있습니다. 몇 년 전만 해도 Apache Hadoop는 빅 데이터 처리에 사용되는 인기 기술이었습니다. Apache Spark는 2014년에 도입되었습니다. 오늘날 두 가지 프레임워크를 조합하는 것이 가장 좋은 접근 방식인 것으로 보입니다. 빅 데이터 기술을 따라 잡는 것은 지속적인 도전입니다.

빅 데이터의 작동 원리

빅 데이터는 새로운 기회와 비즈니스 모델을 열어주는 새로운 통찰력을 제공합니다. 시작을 위해 세 가지 주요 작업이 수행됩니다.

1.  통합
빅 데이터는 서로 다른 종류의 소스와 어플리케이션으로부터 데이터를 수집해 종합합니다. 추출, 변환 및 로드(ETL)와 같은 기존의 데이터 통합 메커니즘은 일반적으로 이러한 작업에 적합하지 않습니다. 테라바이트 또는 페타바이트 규모로 빅 데이터 세트를 분석하려면 새로운 전략과 기술이 필요합니다.

통합하는 동안 데이터를 가져와서 처리하고, 비즈니스 분석가가 분석을 시작할 수 있는 형식으로 포맷팅되었는지 확인해야 합니다.

2.
빅 데이터를 관리하려면 스토리지가 필요합니다. 스토리지 솔루션은 클라우드, 온프레미스 또는 둘 다에서 사용할 수 있습니다. 데이터를 원하는 형식으로 저장하고, 원하는 처리 요구사항과 필요한 프로세스 엔진을 온디맨드 모델을 기반으로 해당 데이터 세트에 적용할 수 있습니다. 많은 사람들이 현재 데이터가 상주하는 위치에 따라 스토리지 솔루션을 선택하고 있습니다. 클라우드는 현재 컴퓨팅 요구사항을 지원하고 필요에 따라 리소스를 가동할 수 있다는 점에서 점차 인기를 얻고 있습니다.

3.  분석
빅데이터에 대한 투자는 데이터를 분석 및 처리할 때 그 가치를 발휘합니다. 다양한 데이터 세트의 시각적 분석을 통해 새로운 명확성을 확보할 수 있습니다. 새로운 발견을 위해 데이터를 추가로 탐색할 수 있습니다. 또한 발견한 내용을 다른 사람들과 공유할 수 있습니다. 머신러닝 및 인공 지능으로 데이터 모델을 구축할 수 있습니다. 데이터를 업무에 활용할 수 있습니다.

빅 데이터 모범 사례

빅 데이터 여정에 도움을 드리기 위해 반드시 기억해야 할 몇 가지 주요 모범 사례를 모아봤습니다. 다음은 성공적인 빅 데이터 토대를 구축하기 위한 지침입니다.

구체적인 비즈니스 목표에 맞춰 빅 데이터 조정 보다 광범위한 데이터 세트를 사용하면 새로운 발견을 할 수 있습니다. 이를 위해서는 지속적인 프로젝트 투자 및 자금 조달을 보장하는 강력한 비즈니스 중심의 맥락을 고려하여 기술, 조직 또는 인프라에 대한 새로운 투자를 결정하는 것이 중요합니다. 올바른 방향으로 가고 있는지 확인하려면 빅 데이터가 우선 순위가 가장 높은 비즈니스 및 IT를 어떻게 지원하고 활성화하는지 알아야 합니다. 전자상거래 기능을 이해하기 위해 웹 로그 필터링 방법을 파악하고 소셜 미디어 및 고객 지원 상호작용에서 감정을 도출하며 통계적 상관 관계를 분석하여 고객, 제품, 제조, 엔지니어링 데이터와의 관련성을 이해하는 것 등을 그 예로 들 수 있습니다.
표준 및 거버넌스로 기술 부족 문제 완화 빅 데이터에 대한 투자 혜택을 받는 데 가장 큰 장애물 중 하나는 기술 부족입니다. 빅 데이터 기술, 고려 사항 및 결정이 IT 거버넌스 프로그램에 추가되도록 하여 이러한 위험을 완화할 수 있습니다. 접근 방식을 표준화하면 비용을 관리하고 리소스를 활용할 수 있습니다. 빅 데이터 솔루션 및 전략을 구현 중인 조직은 기술 요구사항을 조기에 자주 평가하고 잠재적인 기술 격차를 사전에 식별해야 합니다. 기존 리소스를 교육/교차 교육하고, 새로운 인력을 고용하고, 컨설팅 회사를 활용하여 이러한 문제를 해결할 수 있습니다.
CoE(Center of Excellence)를 통해 지식 이전 최적화 CoE 접근 방식을 사용하여 지식을 공유하고 감독을 제어하며 프로젝트 커뮤니케이션을 관리할 수 있습니다. 빅 데이터가 신규 투자이든 확장 투자이든 관계 없이 소프트 및 하드 비용을 기업 전체에서 공유할 수 있습니다. 이 접근 방식을 활용하면 보다 정형화되고 체계적인 방식으로 빅 데이터 기능과 전체적인 정보 아키텍처의 성숙도를 높일 수 있습니다.
가장 큰 이점은 비정형 데이터를 정형 데이터에 따라 조정할 수 있다는 점입니다. 빅 데이터를 자체를 분석하는 것은 확실히 가치가 있습니다. 한편 저밀도 빅 데이터를 현재 이미 사용하고 있는 정형 데이터와 연결하고 통합하면 더 큰 비즈니스 통찰력을 얻을 수 있습니다.
고객, 제품, 장비, 환경 빅 데이터 중 어떤 것을 캡처하든 관계없이 목표는 핵심 마스터 및 분석 요약에 더 많은 관련 데이터 포인트를 추가하여 더 나은 결론을 이끌어내는 것입니다. 예를 들어, 모든 고객의 감정을 최고 고객의 감정과 구별하는 데 차이가 있습니다. 많은 사람들이 빅 데이터를 기존 비즈니스 인텔리전스 기능, 데이터웨어 하우징 플랫폼 및 정보 아키텍처의 완전한 확장으로 보는 이유가 여기에 있습니다.
빅 데이터 분석 프로세스 및 모델은 인간 기반과 머신 기반이 모두 가능하다는 점을 기억하십시오. 빅 데이터 분석 기능에는 통계, 공간 분석, 의미론, 대화형 검색 및 시각화가 포함되어 있습니다. 분석 모델을 사용하면 유형과 소스가 다양한 데이터의 상관 관계를 분석하여 연관성을 밝히고 의미 있는 발견을 할 수 있습니다.
성능을 위한 발견 랩 계획 데이터에서 의미를 발견하는 것은 그렇게 간단한 문제가 아닙니다. 때때로 우리는 우리가 무엇을 찾고 있는지조차 모릅니다. 당연히 예상했겠지만 말입니다. 경영진과 IT는 이러한 "방향 부족" 또는 "명확한 요구사항 부족" 문제를 해결해야 합니다.
이와 동시에 분석가와 데이터 과학자는 주요 비즈니스 지식 격차 및 요구사항을 이해하기 위해 기업과 긴밀하게 협력해야 합니다. 대화식 데이터 탐색과 통계 알고리즘 실험을 수용하려면 고성능 작업 영역이 필요합니다. 샌드박스 환경이 필요한 지원을 받고 적절하게 관리되는지 확인하십시오.
클라우드 운영 모델에 맞게 조정 빅 데이터 프로세스 및 사용자는 반복적인 실험과 실행 중인 프로덕션 작업 모두에 있어 광범위한 리소스에 액세스해야 합니다. 빅 데이터 솔루션에는 트랜잭션, 마스터 데이터, 참조 데이터 및 요약 데이터를 비롯한 모든 데이터 영역이 포함됩니다. 분석 샌드박스는 요청 시 생성이 되어야 합니다. 사전 및 사후 처리, 통합, 데이터베이스 내 요약, 분석 모델링 같은 전체 데이터 흐름을 제어하는 데 있어 리소스 관리가 중요합니다. 잘 계획된 프라이빗 및 퍼블릭 클라우드 프로비저닝 및 보안 전략은 이렇게 변화하는 요구사항을 지원하는 데 핵심적인 역할을 합니다.

 

+ Recent posts