深圳大數(shù)據(jù)培訓(xùn)哪家好?到千鋒錯(cuò)不了!大數(shù)據(jù)技術(shù)的核心是什么?Hadoop生態(tài)體系! Hadoop 是一個(gè)由 Apache 基金會(huì)所開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu), 主要解決海量數(shù)據(jù)的存儲和海量數(shù)據(jù)的分析計(jì)算問題。 廣義上來說,Hadoop通常是指一個(gè)更廣泛的概念——Hadoop 生態(tài)圈。
通過這段時(shí)間在千鋒的學(xué)習(xí),總結(jié)了這一個(gè)月來學(xué)到的一些經(jīng)典技術(shù)知識,記錄一下!
1. Sqoop:sqoop 是一款開源的工具,主要用于在Hadoop(Hive)與傳統(tǒng)的數(shù)據(jù)庫(mysql)間進(jìn)行數(shù)據(jù)的傳遞,可以將一個(gè)關(guān)系型數(shù)據(jù)庫(例如 : MySQL ,Oracle 等)中的數(shù)據(jù)導(dǎo)進(jìn)到Hadoop 的 HDFS 中,也可以將 HDFS的數(shù)據(jù)導(dǎo)進(jìn)到關(guān)系型數(shù)據(jù)庫中。
2.Flume:Flume 是 Cloudera 提供的一個(gè)高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸?shù)南到y(tǒng),Flume 支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);同時(shí),Flume提供對數(shù)據(jù)進(jìn)行簡單處理,并寫到各種數(shù)據(jù)接受方(可定制)的能力。
3.Kafka:它 是一種高吞吐量的分布式發(fā)布訂閱消息系統(tǒng),它的特性在于:
(1)通過磁盤數(shù)據(jù)結(jié)構(gòu)提供消息的持久化,這種結(jié)構(gòu)對于即使數(shù)以 TB 的消息存儲也能夠保持長時(shí)間的穩(wěn)定性能。
(2)高吞吐量,即使是非常普通的硬件 Kafka 也可以支持每秒數(shù)百萬的消息。
(3)支持通過 Kafka 服務(wù)器和消費(fèi)機(jī)集群來分區(qū)消息。支持Hadoop 并行數(shù)據(jù)加載。
(4)Storm 為分布式實(shí)時(shí)計(jì)算提供了一組通用原語,可被用于“流處理”之中,實(shí)時(shí)處理消息并更新數(shù)據(jù)庫。這是管理隊(duì)列及工作者集群的另一種方式。 Storm 也可被用于“連續(xù)計(jì)算”(continuous computation),對數(shù)據(jù)流做連續(xù)查詢,在計(jì)算時(shí)就將結(jié)果以流的形式輸出給用戶。
(5)Spark 是當(dāng)前流行的開源大數(shù)據(jù)內(nèi)存計(jì)算框架?梢曰Hadoop 上存儲的大數(shù)據(jù)進(jìn)行計(jì)算。
(6)Oozie 是一個(gè)管理Hdoop 作業(yè)(job)的工作流程調(diào)度管理系統(tǒng)。Oozie 協(xié)調(diào)作業(yè)就是通過時(shí)間(頻率)和有效數(shù)據(jù)觸發(fā)當(dāng)前的Oozie 工作流程。
(7)Hbase 是一個(gè)分布式的、面向列的開源數(shù)據(jù)庫。Hbase 不同于一般的關(guān)系數(shù)據(jù)庫,它是一個(gè)適合于非結(jié)構(gòu)化數(shù)據(jù)存儲的數(shù)據(jù)庫。
(8)Hive 是基于 Hadoop 的一個(gè)數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供簡單的 sql 查詢功能,可以將 sql 語句轉(zhuǎn)換為 MapReduce 任務(wù)進(jìn)行運(yùn)行。其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過類SQL 語句快速實(shí)現(xiàn)簡單的 MapReduce 統(tǒng)計(jì),不必開發(fā)專門的 MapReduce 應(yīng)用,十分適合數(shù)據(jù)倉庫的統(tǒng)計(jì)分析。
(9)R 語言:R 是用于統(tǒng)計(jì)分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的軟件,它是一個(gè)用于統(tǒng)計(jì)計(jì)算和統(tǒng)計(jì)制圖的優(yōu)秀工具。
(10)Apache Mahout 是個(gè)可擴(kuò)展的機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘庫,當(dāng)前Mahout 支持主要的4 個(gè)用例:
推薦挖掘:搜集用戶動(dòng)作并以此給用戶推薦可能喜歡的事物。
聚集:收集文件并進(jìn)行相關(guān)文件分組。
分類:從現(xiàn)有的分類文檔中學(xué)習(xí),尋找文檔中的相似特征,并為無標(biāo)簽的文檔進(jìn)行正確的歸類。
頻繁項(xiàng)集挖掘:將一組項(xiàng)分組,并識別哪些個(gè)別項(xiàng)會(huì)經(jīng)常一起出現(xiàn)。
(11)Zookeeper 是 Google 的 Chubby 一個(gè)開源的實(shí)現(xiàn)。它是一個(gè)針對大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、 分布式同步、組服務(wù)等。
ZooKeeper 的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。
學(xué)習(xí)永不止步,日積月累才是技術(shù)學(xué)習(xí)的正確打開方式!
聯(lián)系千鋒
座機(jī):0755-23015275-801 小千老師
硅谷校區(qū)地址:深圳市寶安區(qū)寶安大道5010號深圳西部硅谷B座A區(qū)605
大學(xué)城校區(qū)地址:深圳市南山區(qū)留仙大道1201號大學(xué)城創(chuàng)客小鎮(zhèn)16棟3樓