Great Architect & Artist

'오픈소스'에 해당되는 글 65건

2015/04/21 용비 03. Installation
2015/04/21 용비 02. Basic Concepts
2015/04/21 용비 01. Getting Started
2015/04/20 용비 04. Serving Static Content
2015/01/28 용비 00. Start

03. Installation

Elastic Search/01. Getting Started 2015/04/21 16:17 용비

Elasticsearch는 java 7을 필요로 한다. 특히 이글을 쓰는 시점에서, Oracle J아 1.8.0_25 버전을 사용할 것을 추천한다. Java 설치는 platform에 따라 다르다. 따라서 여기서 Java 설치에 대해서 깊이 들어가지는 않을 것이다.

여러분이 elasticsearch를 설치하기 전에 java version을 체크하라는 것을 말하는 것으로 충분하다. (필요하다면 java를 설치하거나 업그레이드 하라)

java -version

echo $JAVA_HOME

Java를 셋업하고 나서, elasticsearch를 다운로드하고 실행한다. www.elasticsearch.org/download 에서 과거에 릴리즈된 모든 버전의 바이너리를 이용할 수 있다. 각 릴리즈별로 zip/tar 압축 파일을 선택하거나 DEB/RPM package를 선택할 수 있다. 간단하게 말하자면, 그냥 tar 파일을 사용하자.

Elasticsearch 1.5.1 tar 파일을 다음과 같이 다운로드 하자. (윈도우 사용자는 zip package를 다운로드 해야 한다.)

curl -L -O https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.5.1.tar.gz

그리고 다음과 같이 압축을 푼다. (윈도우 사용자는 zip package를 unzip 해야 한다.)

tar -xvf elasticsearch-1.5.1.tar.gz

현재 directory에 한 뭉텡이의 file/folder들을 생성할 것이다. 다음과 같이 bin directory로 이동하자.

cd elasticsearch-1.5.1/bin

이제 여러분은 지금 node에서 단일 cluster로 실행할 준비가 되었다. (윈도우 사용자는 elasticsearch.bat 파일을 실행하라)

./elasticsearch

모든 것이 제대로 되었다면, 아래와 같은 메시지들을 확인할 수 있을 것이다.

./elasticsearch
[2014-03-13 13:42:17,218][INFO ][node ] [New Goblin] version[1.5.1], pid[2085], build[5c03844/2014-02-25T15:52:53Z]
[2014-03-13 13:42:17,219][INFO ][node ] [New Goblin] initializing ...
[2014-03-13 13:42:17,223][INFO ][plugins    ] [New Goblin] loaded [], sites []
[2014-03-13 13:42:19,831][INFO ][node ] [New Goblin] initialized
[2014-03-13 13:42:19,832][INFO ][node ] [New Goblin] starting ...
[2014-03-13 13:42:19,958][INFO ][transport    ] [New Goblin] bound_address {inet[/0:0:0:0:0:0:0:0:9300]}, publish_address {inet[/192.168.8.112:9300]}
[2014-03-13 13:42:23,030][INFO ][cluster.service] [New Goblin] new_master [New Goblin][rWMtGj3dQouz2r6ZFL9v4g][mwubuntu1][inet[/192.168.8.112:9300]], reason: zen-disco-join (elected_as_master)
[2014-03-13 13:42:23,100][INFO ][discovery    ] [New Goblin] elasticsearch/rWMtGj3dQouz2r6ZFL9v4g
[2014-03-13 13:42:23,125][INFO ][http ] [New Goblin] bound_address {inet[/0:0:0:0:0:0:0:0:9200]}, publish_address {inet[/192.168.8.112:9200]}
[2014-03-13 13:42:23,629][INFO ][gateway    ] [New Goblin] recovered [1] indices into cluster_state
[2014-03-13 13:42:23,630][INFO ][node ] [New Goblin] started

너무 상세히 들어가지 말고, "New Goblin"이라고 이름 붙여진 node name을 볼 수 있을 것이다. 단일 cluster에서 master로서 선출되고 실행된 node이다. 지금 순간에 master가 무엇을 의미하는지에 대해서 걱정하지 말라. 여기서 중요한 것은 하나의 cluster에서 하나의 node를 실행했다는 것이다.

이전에 언급한 것처럼, cluster나 node name을 override (재정의) 할 수 있다. Command line에서 elasticsearch를 실행할 때 다음과 같이 할 수 있다.

./elasticsearch --cluster.name my_cluster_name --node.name my_node_name

또한 HTTP 주소와 포트에 대한 정보를 가진 http로 mark된 라인이 접속 가능한 주소임을 주목하라. 기본적으로 elasticsearch는 9200 포트 번호를 사용하여 REST API로 접근할 수 있다. 필요할 때, 이 포트 번호는 설정할 수 있다.

TAG Analysis, Big Data, Elasticsearch, 오픈소스

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/687

02. Basic Concepts

Elastic Search/01. Getting Started 2015/04/21 15:46 용비

Elasticsearch의 핵심적인 몇가지 concept(개념)가 있다. 처음부터 이러한 concept을 이해하는 것이 elasticsearch에 대해서 배우는 과정 중에서 굉장히 도움이 될 것이다.

[Near Realtime (NRT)]

Elasticsearch는 near realtime 검색 플랫폼이다. 이것이 의미하는 바는 여러분이 document를 index하는 시점으로부터 검색 결과를 얻기까지 약간의 지연 현상(일반적으로 약 1초)이 있음을 의미한다.

[Cluster]

Cluster는 여러분의 전체 데이터를 담고 있는 하나 이상의 node(server)의 모음을 말한다. 그리고 Cluster는 모든 node에 있는 federated indexing (각 node에 개별적으로 존재하는 index들의 연합)과 검색 기능을 제공한다. Cluster는 기본적으로 "elasticsearch"라는 유일한 이름으로 구분된다. 하나의 node는 한번 cluster에 join하도록 셋팅되면 다른 곳에 참여할 수 없기 때문에 cluster 이름이 중요하다. Prodoction에서는 명시적으로 cluster name을 설정하는 것이 좋다. 하지만, testing/development 목적으로는 default name을 사용하는 것이 유용하다.

하나의 node만으로 cluster를 구성하는 것도 유효하고 완벽하게 동작한다는 것에 유념하라. 더욱이, 유일한 cluster name을 가지는 독립적인 여러 cluster를 구성하는 것도 가능하다.

[Node]

Node는 cluster의 일부분이고, 데이터를 저장하고, cluster의 index와 검색 기능에 참여하는 하나의 서버이다. Cluster와 같이 node는 유일한 이름을 갖는다. 기본적으로는 시작 시점에 node에 할당되는 임의의 Marvel character명을 갖는다. 기본적으로 부여되는 node명을 원하지 않으면 여러분이 원하는 어떤 이름으로도 node명을 정할 수 있다. 이 이름은 네트워크에 있는 어느 서버가 여러분의 elasticsearch cluster에 있는 node인지 구분하기 위한 관리하는데 사용되므로 중요하다.

Node는 cluster name으로 특정 cluser에 join하도록 설정할 수 있다. 기본적으로 각 개별 node는 elasticsearch라는 이름의 cluster에 join하도록 셋팅한다. 이것은 여러분이 네트워크 상에 많은 node를 실행한다면 - 서로 discover 가능하다고 가정하면 - 자동으로 elasticsearch라고 이름 붙여진 cluster에 join하여 cluster를 구성함을 의미한다.

여러분은 많은 node로 하나의 cluster를 구성할 수 있다. 더 나아가, 네트워크 상에 현재 구동되어 있는 Elasticsearch ndoe가 없다면, 하나의 node를 실행하여 elasticsearch로 이름붙여진 새로운 단일 node cluster를 기본적으로 구성할 수도 있다.

[Index]

Index는 유사한 특징들을 가진 document들의 집합이다. 예를 들어, customer data에 대한 index, 제품 카탈로그에 대한 또 다른 index, order(주문)에 대한 또 다른 index를 가질 수 있다. Index는 name (소문자여야만 한다.)으로 구분되고, 이 이름은 document에 대한 indexing, search, update, delete 작업을 수행하기 위해 index를 참조하는데 사용한다.

하나의 cluster에서 여러분이 원하는 대로 여러 개의 index를 정의할 수 있다.

[Type]

Index내에서 하나 이상의 type을 정의할 수 있다. Type은 논리적인 index의 category/partition이다. 일반적으로, type은 common field를 가진 document에 대해 정의되어 있다. 예를 들어, 여러분이 blogging platform을 운영하고 여러분의 모든 data를 하나의 index에 저장한다고 가정해 보자. 이 index에는 user data, blog data, comments data 등에 대한 type이 정의되어 있을 것이다.

[Document]

Document는 index되는 정보의 기본 단위이다. 예를 들어, 단일 고객에 대한 document, 단일 상품에 대한 document, 단일 주문에 대한 document등을 가질 수 있다. 이러한 document는 인터넷상에서 데이터 형식으로 폭넓게 사용되는 JSON으로 표시된다. (Javascript Object Notation)

여러분은 Index/type내에 여러분이 저장하고자 하는 많은 document를 저장할 수 있다. Document가 물리적으로는 index내에 있다고 할지라도, document는 실제로 index내에서 Type으로 index되고 지정되어야만 한다는 것에 유의하라.

[Shards & Replicas]

Index는 잠재적으로 하나의 node에서 하드웨어 limit을 넘어서는 대용량의 데이터를 저장할 수 있다. 예를 들어서 1TB disk space를 차지하는 10억개의 document에 대한 하나의 index는 하나의 node에 있는 disk에는 맞지 않거나 single node만으로 검색 요청을 수용하기에는 너무 느릴 것이다.

이 문제를 해결하기 위해서, elasticsearch는 여러분의 index를 shard라고 부르는 여러 개의 조각으로 세분화할 수 있도록 한다. 여러분이 index를 생성할 때, 여러분이 원하는 shard 수를 간단히 지정할 수 있다. 각 shard는 cluster에 있는 어떤 node에서도 host될 수 있는 fully-functional and independent한 "index" 그 자체이다.

Sharding은 2가지 주요 이유 때문에 중요하다.

Content Volume을 수평적 확장 가능

성능과 Throughput 향상을 위해 (여러 node에 분산되어 있는) shard별 분산/병렬 처리 가능

Shard가 어떻게 분산되어 있는지, document들이 search request로부터 어떻게 수집되는지에 대한 메커니즘은 elasticsearch에 의해 완벽하게 관리된다. 그리고 여러분은 user로서 알기 쉽다.

언제라도 실패할 수 있는 네트워크나 클라우드 환경에서, 무슨 이유에서건 shard나 node가 offline이 되거나 사라지는 경우에 대한 failover 메커니즘을 가지는 것이 강력하게 추천되는 유용한 기능이다. 이러한 목적으로 elasticsearch는 (replica shard 혹은 짧게 replicas라고 부르는) index shard에 대한 하나 이상의 복사본을 가질 수 있다.

Replication은 2가지 이유 때문에 중요하다.

Shard/node fail시, high availability를 제공한다. 이런 이유로, replica shard는 절대로 원본 (original/primary) shard와 동일한 node에 할당되면 안 된다.

Search volume에 대한 scale out을 제공하고, 모든 replica에서 병렬적으로 검색을 실행할 수 있기 때문에 throughput이 향상된다.

요약하자면, 각 index는 여러 개의 shard로 나누어질 수 있다. Index는 0번(replicas가 없는 경우) 이상 복제될 수 있다. 한번 복제되면, 각 index는 primary shard(원본)와 replica shards를 갖는다. Shards와 replicas의 개수는 index가 생성될 때, index별로 정의될 수 있다. Index가 생성된 이후에는 어느 때라도 동적으로 replicas의 수를 변경할 수 있지만, 사후에 shard의 숫자를 변경할 수는 없다. (동적으로 replicas의 수를 변경할 수는 있지만 shard의 숫자는 변경할 수 없다.)

기본적으로, elasticsearch내의 각 index는 5개의 primary shard와 1개의 replica를 할당한다. 이것은 여러분이 cluster내에 최소한 2개의 node를 가지고 있다면, 여러분의 index는 5개의 primary shard와 5개의 replica shard (1개의 replica set)을 가진다는 의미이다. 인덱스당 총 10개의 shard를 갖는다.

{Note}

각 elasticsearch의 shard는 Lucene index이다. 하나의 Lucene Index에 저장할 수 있는 Max Document 수가 있다. Limit은 Integer.MAX_VALUE -128에 해당하는 2,147,483,519개이다. _cat/shards API를 통해서 shard size를 모니터링할 수 있다.

TAG Big Data, Elasticsearch, Log Analysis, 오픈소스

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/686

01. Getting Started

Elastic Search/01. Getting Started 2015/04/21 14:06 용비

[여기에 번역된 내용은 http://www.elastic.co/guide/en/elasticsearch/reference/current/index.html 에 있는 Elastic Search Documentation을 번역한 것이다. 원문 내용을 살펴보려면 위의 홈페이지를 방문하기 바란다.]

Elasticsearch는 full-text 검색과 분석을 위한 엔진으로써, 확장성이 뛰어난 오픈 소스이다. Elasticsearch를 이용해 거대한 데이터를 빠르게, 거의 준 실시간으로 저장(store), 검색(search), 분석(analyze)할 수 있다. 일반적으로 elasticsearch는 복잡한 검색 기능이나 요구사항을 가진 application에서 핵심 엔진이나 기술로 사용된다.

Elasticsearch를 사용하는 몇가지 use-case 예제가 있다.

여러분은 여러분이 팔고자 하는 상품에 대해서 고객들이 검색할 수 있는 기능을 가진 online web store를 운영 중이다. 이 경우에, 전체 제품 카탈로그를 저장하는데 elasticsearch를 사용하여 고객들에게 검색과 자동완성 기능을 제공할 수 있다.
로그나 트랜잭션 데이터를 수집하거나 데이터를 분석하고, 트렌트, 통계, 요약, 변칙성을 살펴보기 위해 정리하고자 할 때가 있다. 이 경우, 데이터 수집, 취합, 파싱하는데 logstash를 사용할 수 있다. (ELK Stack의 일부분이다.) logstash는 데이터를 elasticsearch로 밀어 넣는다. 일단 elasticsearch에 있는 데이터는 관심 있는 어떤 분야의 정보라도 검색하고 정리하여 취합할 수 있다.
여러분은 싼 가격에 물건을 사고자 하는 고객이 "나는 특정 전자 장치를 사고 싶어. 다음 달 안에 X달러 아래로 값이 떨어지면 어떤 회사의 제품이라도 나에게 알려줬으면 좋겠어"라는 룰을 등록한 가격 알림 플랫폼 (price alerting platform) 을 운영 중이다. 이러한 겨우에 여러분은 vendor의 가격을 스크랩하여 elasticsearch로 넣고, 고객이 쿼리하는 것과는 반대로 가격의 이동에 매치되는 reverse-search (Percolator) 기능을 사용할 수 있다. 매칭 결과가 발견되면 고객에게 alert를 push할 수 있다.
여러분은 analytics/business-intelligence 요구 사항이 있어서 많은 데이터(수백만 ~ 수십억 건의 레코드)를 빠르게 검사하고, 분석하여, 보여주고, 즉시 의문 사항을 질의하고 싶어할 수도 있다. 이런 경우에, 데이터를 저장하기 위해서 elasticsearch를 사용할 수 있다. 그리고 Kibana(ELK Stack의 일부분)를 사용하여 custom dashboard를 생성하고 데이터를 여러분에게 중요한 측면에서 보여줄 수 있다. 추가적으로, 데이터에 대한 복잡한 business intelligence query를 수행하기 위해 elasticsearch aggregation 기능을 이용할 수도 있다.

이 tutorial의 나머지 부분에서 elasticsearch의 시작, 실행 과정을 통해 elasticsearch의 내부를 엿보고 데이터 indexing, searching, modifying과 같은 기본적인 operation을 수행하는 것을 가이드할 것이다. 이 tutorial의 마지막 부분에서는 elasticsearch가 무엇인지, 어떻게 동작하는지에 대한 훌륭한 아이디어를 가질 수 있을 것이다. 그리고 바라건데, 어떻게 elasticsearch를 사용하여 검색 application을 만들거나 intelligence 요건에 맞도록 데이터를 정리할 수 있는지에 대한 영감을 얻기를 바란다.

TAG Elasticsearch, 오픈소스

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/685

04. Serving Static Content

Nginx/02. Begninner's Guide 2015/04/20 20:17 용비

웹 서버의 주요한 기능은 이미지나 HTML 파일과 같은 파일들을 제공하는 것이다. 여러분은 서로 다른 디렉토리(HTML 파일들이 있는 /data/www 디렉토리와 이미지를 포함하고 있는 /data/images 디렉토리)에 있는 파일들을 서로 다른 요청에 의해서 제공하는 예제를 구현할 수 있다. 그렇게 하기 위해서는 configuration 파일을 수정하여 http block내에 있는 server block에 2개의 location block을 설정하면 된다.

먼저, /data/www 디렉토리를 생성하고 임의의 텍스트를 가진 index.html 파일을 저장하자. 그리고 /data/images 디렉토리를 생성하고, 임의의 이미지 파일을 위치시킨다.

다음으로 nginx의 configuration file을 open하면 이미 기본적으로 server block의 여러 예제들이 포함되어 있다. (대부분 코멘트로 막혀 있다.) 이제 모두 코멘트로 막고, 새로운 server block을 추가해 보자.

http {

server {

}

일반적으로, configuration file은 요청을 받을 서로 다른 port와 server name으로 구분된 여러 server block을 가질 수 있다. Nginx에서 request를 처리할 server를 결정하고, server block내에 정의된 location 지시어(directive)의 파라미터와는 반대로 Request의 header에 특화된 URI를 테스트한다.

Server block내에 다음 location block을 추가한다.

location / {

root /data/www;

}

이 location block은 prefix "/"로 시작하는 request URI에 특화되어 있다. URI는 root directive에 특화된 path에 추가될 것이다. 따라서, 로컬 파일 시스템상의 요청된 파일은 /data/www에 있다. 만약 여러 개의 매칭되는 location block이 있다면, nginx는 가장 긴 prefix를 선택한다. 위에서 제공된 location block은 가장 짧은 prefix이다. 따라서, 모든 request에는 이 location block이 사용된다.

다음으로, 두번째 location block을 추가해 보자.

location /images/ {

root /data;

}

이것은 /images/로 시작하는 request와 매칭될 것이다. (location / 역시 매칭되기는 하지만, 더 짧은 prefix이다.)

결과적으로 server block의 configuration은 다음과 같다.

http {

server {

location / {

root /data/www;

}

location /images/ {

root /data;

}

이것은 이미 표준 포트 80으로 요청을 받는 동작하고 있는 server 설정이다. 따라서, localhost로 접속할 수 있다. /images/로 시작하는 URI 요청에 대한 응답에서 server는 /data/images 디렉토리에 있는 이미지 파일을 보낼 것이다. 예를 들어, http://localhost/images/example.png 를 요청하면 nginx는 /data/images/example.png 파일을 리턴할 것이다. 만약 그런 파일이 없다면, nginx는 404 error를 리턴할 것이다. /images/로 시작하지 않는 request URI에 대해서는 /data/www directory와 맵핑된다. 예를 들어, http://localhost/some/example.html 요청에 대해서 nginx는 /data/www/some/example.html 파일을 리턴할 것이다.

새로운 configuration을 적용하기 위해서는 아직 nginx가 시작되지 않았으면 nginx를 start하고, 이미 nginx를 시작했다면, master process에 reload signal을 보낸다. 실행 command는 다음과 같다.

nginx -s reload

기대한 대로 동작을 하지 않는 경우에는 access.log나 error.log에서 그 이유를 찾아볼 수 있다. 로그 파일들은 /usr/local/nginx/logs나 /var/log/nginx에서 찾아볼 수 있다.

TAG IT Tech, nginx, 오픈소스, 웹서버

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/684

00. Start

Spark 2015/01/28 14:43 용비

오늘날은 빅데이터가 대세다.

빅데이터에서 가장 필요한 기능은 많은 데이터가 아니라 데이터를 분석할 수 있는 기술이다.

그리고 분석된 내용을 이용하여 미래를 예측하고, 분석된 내용간의 상관관계를 규명하고,

의미있는 새로운 데이터를 뽑아내는 것이다.

누군가는 데이터 마이닝 영역이 아닌가 하는 이야기를 할지도 모른다.

하지만, 지금부터 정리하고자 하는 내용은 데이터에 대한 이야기가 아니다.

데이터를 분석하는 오픈소스에 대해서 정리하고자 한다.

세상의 트렌드가 빅데이터로 흐르고 있는 만큼, 빅데이터를 분석하고자 하는 요구에 발맞추고자

수많은 오픈소스들이 생겨났다.

기존 오픈소스의 단점을 메우기 위하여 시작된 오픈소스도 있고,

시장의 요구사항에 따라 새롭게 시작된 오픈소스도 있다.

앞으로는 이러한 오픈소스들 중에 몇가지를 간추려서

해당 오픈소스에 대해 정리한 책 내용을 발췌, 압축하여 정리하고자 한다.

그 첫번째가 아파치 오픈소스 프로젝트 중에 하나인 Spark이다.

자, 이제 Spark에 대해서 초보자를 위한 가이드로 나온 책인 Learning Spark를 시작해보자.

TAG IT Book, Spark, 오픈소스

받은 트랙백이 없고, 댓글이 없습니다.

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/646

◀ 이전페이지 1 ... 9 10 11 12 13 다음페이지 ▶

블로거

지혜 있는 자는 궁창의 빛과 같이 빛날 것이요 많은 사람을 옳은 데로 돌아오게 한 자는 별과 같이 영원토록 빛나리라 (단 12:3) 용비

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

Chapter 2. Organizing D....

Chapter 1. Layering.

06. Javadoc.

05. Practice.

04. Naming.

달력

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Total : 5900518
Today : 1160
Yesterday : 1211

'오픈소스'에 해당되는 글 65건

03. Installation

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/687

트랙백 주소 :: http://www.yongbi.net/trackback/687

트랙백 RSS :: http://www.yongbi.net/rss/trackback/687

댓글을 달아 주세요

02. Basic Concepts

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/686

트랙백 주소 :: http://www.yongbi.net/trackback/686

트랙백 RSS :: http://www.yongbi.net/rss/trackback/686

댓글을 달아 주세요

01. Getting Started

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/685

트랙백 주소 :: http://www.yongbi.net/trackback/685

트랙백 RSS :: http://www.yongbi.net/rss/trackback/685

댓글을 달아 주세요

04. Serving Static Content

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/684

트랙백 주소 :: http://www.yongbi.net/trackback/684

트랙백 RSS :: http://www.yongbi.net/rss/trackback/684

댓글을 달아 주세요

00. Start

댓글+트랙백 RSS :: http://www.yongbi.net/rss/response/646

트랙백 주소 :: http://www.yongbi.net/trackback/646

트랙백 RSS :: http://www.yongbi.net/rss/trackback/646

댓글을 달아 주세요

블로거

카테고리

태그목록

최근에 올라온 글

Great Architect & Artist - 최근 글

달력