Apache Kafka 叢集

Apache Kafka 是一個分散式的訊息佇列框架,是由 LinkedIn 公司使用 Scala 語言開發的系統,被廣泛用來處理高吞吐量與容易水平擴展,目前許多巨量資料運算框架以都有整合 Kafka,諸如:Spark、Cloudera、Apache Storm等,

Kafka 是基於Publish/Subscribe的訊息系統,主要設計由以下特點:

  • 在 TB 級以上資料也能確保常數時間複雜度的存取效能,且時間複雜度為O(1)的訊息持久化。
  • 高吞吐量,在低階的商業電腦上也能提供單機100k/sec條以上的訊息傳輸。
  • 支援 Kafka Server 之間的訊息分區(Partition)以及分散式發送,並保證每個分區內的訊息循序傳輸。
  • 同時支援離線資料處理與即時資料處理
  • 容易的服務不中斷水平擴展。

Read More

Share Comments

Spark on Mesos 多節點部署

Spark + Mesos 叢集是由多個主節點與工作節點組合而成,它實作了兩層的排程(Scheduler)來提供粗/細粒度的排程。在 Mesos 中主節點(Master)主要負責資料的分配與排程,然而從節點(Slave)則是主要執行任務負載的角色。Mesos 也提供了高可靠的部署模式,可利用多個主節點的 ZooKeeper 來做服務發現。

Read More

Share Comments

Ubuntu PXE 安裝與設定

預啟動執行環境(Preboot eXecution Environment,PXE,也被稱為預執行環境)提供了一種使用網路介面(Network Interface)啟動電腦的機制。這種機制讓電腦的啟動可以不依賴本地資料儲存裝置(如硬碟)或本地已安裝的作業系統。

PXE

Read More

Share Comments

CentOS 6.5 PXE 安裝與設定

預啟動執行環境(Preboot eXecution Environment,PXE,也被稱為預執行環境)提供了一種使用網路介面(Network Interface)啟動電腦的機制。這種機制讓電腦的啟動可以不依賴本地資料儲存裝置(如硬碟)或本地已安裝的作業系統。

Read More

Share Comments

Spark on Hadoop YARN 單機安裝

本教學為安裝 Spark on Hadoop YARN 的 all-in-one 版本,將 Spark 應用程式執行於 YARN 上,來讓應用程式執行於不同的工作節點上。

Read More

Share Comments

Spark Standalone 模擬分散式運算

本教學為安裝 Spark Standalone 的叢集版本,將 Spark 應用程式執行於自己的分散式機制與各台機器連結上,來讓應用程式執行於不同的工作節點上。

Read More

Share Comments

基本物件導向概念

物件導向程式設計(英語:Object-oriented programming,縮寫:OOP)

物件導向程式設計推廣了程式的靈活性可維護性,在大型的專案被廣泛的應用。此外,支持者聲稱物件導向程式設計要比以往的做法更加便於學習,因為它能夠讓人們更簡單地設計並維護程式,使得程式更加便於分析、設計、理解。學習物件導向須了解幾點與幾個特性:

  • Object 是 Class 的 Instance。
  • Class 是 Object 的定義。描述 Object 的組成與功能。
  • Object 使用前必須建立 Class 的 Object(Instance) (使用New)。
  • 真正被用來處理問題的是 Object,而 Class 決定了 Object 的行為。

Read More

Share Comments

NYTime Objective-C 程式規範

Objective-C 程式規範,參考於紐約時報所規範之程式風格。

Read More

Share Comments