久久久久久久视色,久久电影免费精品,中文亚洲欧美乱码在线观看,在线免费播放AV片

<center id="vfaef"><input id="vfaef"><table id="vfaef"></table></input></center>

<p id="vfaef"><kbd id="vfaef"></kbd></p>

<pre id="vfaef"><u id="vfaef"></u></pre>

<thead id="vfaef"><input id="vfaef"></input></thead>

<mark id="pcf52"><dl id="pcf52"></dl></mark>

當前位置：站長資訊網(wǎng) > 編程知識 > 正文

MySQL 如何利用分片來解決 500 億數(shù)據(jù)的存儲問題

2020-05-22 分類：編程知識閱讀(1318) 評論(0)

MySQL 如何利用分片來解決 500 億數(shù)據(jù)的存儲問題

這是一個關(guān)于我們在多個 MySQL 服務(wù)器上分割數(shù)據(jù)的技術(shù)研究。我們在 2012 年年初完成了這個分片方法，它仍是我們今天用來存儲核心數(shù)據(jù)的系統(tǒng)。

在我們討論如何分割數(shù)據(jù)之前，讓我們先了解一下我們的數(shù)據(jù)。心情照明，巧克力草莓，星際迷航語錄……

Pinteres 是你感興趣的所有東西的發(fā)現(xiàn)引擎。從數(shù)據(jù)的角度來說，Pinterest 是世界上最大的人類興趣圖集。有超過 500 億的 Pin 被 Pin 友們保存在 10 億塊圖板上。用戶再次 Pin，喜歡其他人的 Pin（粗略地說是一個淺顯的復(fù)制品），關(guān)注其他 Pin 友，畫板和興趣，然后查看主頁上所訂閱 Pin 友的所有資訊。太好了！現(xiàn)在讓它擴大規(guī)模！

成長的痛

在 2011 年我們?nèi)〉昧顺晒Α?在一些評估報告里，我們的發(fā)展比其他的初創(chuàng)公司要快得多。在 2011 年 9 月，我們每一項基礎(chǔ)設(shè)備都超出了負載。我們應(yīng)用了一些 NoSQL 技術(shù)，所有這些技術(shù)都導(dǎo)致了災(zāi)難性的后果。同時，大量用于讀的 MySQL 從服務(wù)器產(chǎn)生了大量令人惱火的 bugs，特別是緩存。我們重構(gòu)了整個數(shù)據(jù)存儲模式。為了使之有效，我們仔細制定了我們的要求。

業(yè)務(wù)要求

我們的全部系統(tǒng)需要非常穩(wěn)定，易于操作和易于擴展。我們希望支持數(shù)據(jù)庫能從開始的小存儲量，能隨著業(yè)務(wù)發(fā)展而擴展。

所有 Pin 友生成的內(nèi)容在網(wǎng)站上必須隨時可以訪問。

支持以確定的順序請求訪問 N 個 Pin 在畫板中展示（像按照創(chuàng)建的時間，或者按照用戶特定的順序）。對于喜歡的 Pin 友和 Pin 友的 Pin 列表等也能按照特定的順序展示。

為了簡單起見，更新一般要保證最好的效果。為了獲取最終一致性，你需要一些額外的東西，如分布式事務(wù)日志。這是一件有趣并（不）簡單的事情。

解決思路及要點備注

解決方案由于需要將海量的數(shù)據(jù)切片分布到多個數(shù)據(jù)庫實例上，不能使用關(guān)系數(shù)據(jù)庫的連接、外鍵或索引等方法整合整個數(shù)據(jù)。想想就知道，關(guān)聯(lián)的子查詢不能跨越不同的數(shù)據(jù)庫實例。

我們的方案需要負載平衡數(shù)據(jù)訪問。我們憎恨數(shù)據(jù)遷移，尤其是逐個記錄進行遷移，因關(guān)系的復(fù)雜性，這樣非常容易發(fā)生錯誤且加重系統(tǒng)不必要的復(fù)雜性。如果必須要遷移數(shù)據(jù)，最好是邏輯節(jié)點集的整體遷移。

為了達到方案實施的可靠迅速，我們需要在我們的分布式數(shù)據(jù)平臺上使用最易于實現(xiàn)、最健壯的技術(shù)方案。

每個實例上的所有的數(shù)據(jù)將被完全復(fù)制到一個從實例上，作為數(shù)據(jù)備份。我們使用的是高可用性的 MapReduce (分布式計算環(huán)境) 的 S3 。我們前端的業(yè)務(wù)邏輯訪問后臺數(shù)據(jù)，只訪問數(shù)據(jù)庫的主實例。永遠不要讓您的前端業(yè)務(wù)去讀寫訪問從實例。因為它與主實例數(shù)據(jù)同步存在延遲，會造成莫名其妙的錯誤，一旦將數(shù)據(jù)切片并分布，沒有一絲理由讓你前端業(yè)務(wù)從從實例上讀寫數(shù)據(jù)。

最后，我們需要精心設(shè)計一個優(yōu)秀的方案生成和解析我們所有數(shù)據(jù)對象的全局唯一標識（ UUID ）。

我們的切片方案

不管怎樣，我們需要設(shè)計符合我們需求的，健壯的，性能優(yōu)良和可維護的數(shù)據(jù)分布解決方案。換句話說，它不能稚嫩（未經(jīng)廣泛驗證）。因此，我們的基礎(chǔ)設(shè)計建立在 MySQL 之上，參見 we chose a mature technology（選擇成熟技術(shù)）。設(shè)計之初，我們自然會跳開不用那些號稱具有自動分布（auto-scaling）新技術(shù)能力的數(shù)據(jù)庫產(chǎn)品，諸如 MongoDB，Cassandra 和 Membase 之類的產(chǎn)品，因為它們似乎實施簡單卻適用性太差（常常發(fā)生莫名其妙的錯誤導(dǎo)致崩潰）。

旁白：強烈建議從底層基礎(chǔ)入手，避免時髦新鮮的東東 — 扎扎實實把 MySQL 學(xué)好用好。相信我，字字都是淚。

MySQL 是成熟、穩(wěn)定并且就是好使的關(guān)系型數(shù)據(jù)庫產(chǎn)品。不僅我們用它，包括許多知名大公司也使用它作為后臺數(shù)據(jù)支撐，存儲著海量的數(shù)據(jù)。（譯注：大概幾年前，由于 MySQL 隨著 SUN 被 Oracle 的收購，歸到 Oracle 名下。許多公司，如 google，facebook 等由于擔心 MySQL 的開源問題，紛紛轉(zhuǎn)到由 MySQL 原作者開發(fā)的另一個開源數(shù)據(jù)庫 MariaDB 下）MySQL 支持我們對數(shù)據(jù)庫要求按序數(shù)據(jù)請求，查詢指定范圍數(shù)據(jù)及行（記錄）級上的事務(wù)處理的技術(shù)要求。MySQL 有一堆功能特性，但我們不需要那些。由于 MySQL 本身是個單體解決方案，可我們卻要把我們的數(shù)據(jù)切片。（譯注：此處的意思是，一個單實例管理海量的數(shù)據(jù)，勢必造成性能問題。現(xiàn)在把一個海量整體數(shù)據(jù)切片成一個個單體數(shù)據(jù)集，需要一個強有力的技術(shù)解決方案，把一個個的單體整合成一個整體，提高性能還不出錯）下面是我們的設(shè)計方案：

我們起始使用 8 臺 EC2 服務(wù)器，每臺服務(wù)器都運行一個 MySQL 實例：

MySQL 如何利用分片來解決 500 億數(shù)據(jù)的存儲問題

每個 MySQL 服務(wù)器各自以主 – 主備份（ master-master replicated ）到 1 臺冗余主機作為災(zāi)難恢復(fù)。我們前臺業(yè)務(wù)只從主服務(wù)實例讀 / 寫數(shù)據(jù) 。我建議你也這么做，它簡化許多事情，避免延遲故障。（譯注：主 – 主備份（ master-master replicated ）是 MySQL 數(shù)據(jù)庫本身提供的功能，指兩臺機器互做備份的一種模式，相對其它模式，如主 – 從備份，兩臺機器數(shù)據(jù)完全一致，后臺同步，每臺機器有自己單獨 IP 都可訪問，可并發(fā)讀 / 寫訪問。但原文作者一再強調(diào)的是雖然這兩臺互為冗余使用主 – 主備份，都可訪問。但你邏輯上區(qū)分主 – 從，永遠只從其中一個進行讀 / 寫。例如，圖中所示， MySQL001A 和 MySQL001B 間主 – 主備份，但你只從 MySQL001A 進行讀 / 寫訪問。另：他們使用了 16 臺機器，另 8 臺做從機的可能不是 EC2 也未必）

每個 MySQL 實例可以有多個數(shù)據(jù)庫：

MySQL 如何利用分片來解決 500 億數(shù)據(jù)的存儲問題

注意每個數(shù)據(jù)庫是如何唯一地命名為 db00000，db00001，直到 dbNNNN。每個數(shù)據(jù)庫都是我們數(shù)據(jù)庫的分片。我們做了一個設(shè)計，一旦一塊數(shù)據(jù)被分配到一個分片中，它就不會移出那個分片。但是，你可以通過將分片移動到其他機器來獲得更大的容量（我們將在后面討論這一點）。

我們維護著一個配置數(shù)據(jù)庫表，此表中記錄這切片數(shù)據(jù)庫在哪臺機器上：

[ {“range”: (0,511), “master”: “MySQL001A”, “slave”: “MySQL001B”}, {“range”: (512, 1023), “master”: “MySQL002A”, “slave”: “MySQL002B”},  ... {“range”: (3584, 4095), “master”: “MySQL008A”, “slave”: “MySQL008B”} ]

這個配置表僅當遷移切片數(shù)據(jù)庫或替換主機時修改。例如，一個主實例主機宕掉了，我們會提升它的從實例主機為主實例，然后盡快頂替一個新機器當從實例主機。配置腳本保留在 ZooKeeper 上，當出現(xiàn)上述修改時，通過腳本發(fā)送到維護切片服務(wù)的機器上進行配置改變。（譯注：可發(fā)現(xiàn)原作者一直強調(diào)的，前端業(yè)務(wù)僅從邏輯主實例讀寫數(shù)據(jù)的好處）。

每個切片數(shù)據(jù)庫保持相同的數(shù)據(jù)庫表及表結(jié)構(gòu)，諸如，有 pins ，boards ，users_has_pins ，users_likes_pins ，pin_liked_by_user 等數(shù)據(jù)庫表。在布署時同步構(gòu)建。

分布數(shù)據(jù)到切片服務(wù)器設(shè)計方案

我們組合切片 ID（shard ID）、數(shù)據(jù)類型標識和局部 ID（local ID）形成 64 位的全局唯一標識（ID）。切片 ID（shard ID）占 16 個位（bit），數(shù)據(jù)類型標識占 10 個位（bit），局部 ID（local ID）占 36 個位 (bit)。明眼人馬上會發(fā)現(xiàn)，這才 62 位。我過去的分布及整合數(shù)據(jù)經(jīng)驗告訴我，保留幾位留做擴展是無價寶。因此，我保留了 2 位（設(shè)為 0）。（譯注：這里解釋一下，根據(jù)后面的運算和說明，任何對象的唯一標識 ID 是 64 位，最高 2 位始終為 0，之后是 36 位的局部標識，之后是 10 位類型標識，最后是 16 位的切片標識。局部標識可表示 2^36 達 600 多億個 ID 。數(shù)據(jù)類型可表示 2^10 達 1024 個對象類型，切片標識可細分成 2^16 達 65536 個切片數(shù)據(jù)庫。前面說的方案切了 4096 個切片數(shù)據(jù)庫）

ID = (shard ID << 46) | (type ID << 36) | (local ID<<0) 以 Pin: https://www.pinterest.com/pin/241294492511... 為例，讓我們解構(gòu)這個 Pin 對象的 全局 ID 標識 241294492511762325 ： Shard ID = (241294492511762325 >> 46) & 0xFFFF = 3429 Type ID  = (241294492511762325 >> 36) & 0x3FF = 1 Local ID = (241294492511762325 >>  0) & 0xFFFFFFFFF = 7075733

可知這個 Pin 對象在 3429 切片數(shù)據(jù)庫里。假設(shè) Pin 對象數(shù)據(jù)類型標識為 1，它的記錄在 3429 切片數(shù)據(jù)庫里的 pin 數(shù)據(jù)表中的 7075733 記錄行中。舉例，假設(shè)切片 3429 數(shù)據(jù)庫在 MySQL012A 中，我們可利用下面語句得到其數(shù)據(jù)記錄：（譯注：這里原作者泛泛舉例，若按其前面方案例子來說，3429 應(yīng)在 MySQL007A 上）

conn = MySQLdb.connect(host=”MySQL012A”) conn.execute(“SELECT data FROM db03429.pins where local_id=7075733”)

有兩種類型的數(shù)據(jù)：對象或關(guān)系。對象包含對象本身細節(jié)。如 Pin 。

存儲對象的數(shù)據(jù)庫表

對象庫表中的每個記錄，表示我們前端業(yè)務(wù)中的一個對象，諸如：Pins（釘便簽）, users（用戶），boards（白板）和 comments（注釋），每個這樣的記錄在數(shù)據(jù)庫表中設(shè)計一個標識 ID 字段（這個字段在表中作為記錄的自增主鍵「auto-incrementing primary key」，也就是我們前面提到的局部 ID「 local ID」），和一個 blob 數(shù)據(jù)字段 — 使用 JSON 保存對象的具體數(shù)據(jù) –。

CREATE TABLE pins (   local_id INT PRIMARY KEY AUTO_INCREMENT,   data TEXT,   ts TIMESTAMP DEFAULT CURRENT_TIMESTAMP ) ENGINE=InnoDB;

舉例，一個 Pin 對象形狀如下：

{“details”: “New Star Wars character”, “l(fā)ink”: “http://webpage.com/asdf”, “user_id”: 241294629943640797, “board_id”: 241294561224164665, …}

創(chuàng)建一個 Pin 對象，收集所有的數(shù)據(jù)構(gòu)成 JSON blob 數(shù)據(jù)。然后，確定它的切片 ID「 shard ID」 (我們更樂意把 Pin 對象的切片數(shù)據(jù)放到跟其所在白板「 board」對象相同的切片數(shù)據(jù)庫里，這不是強制設(shè)計規(guī)則）。Pin 對象的數(shù)據(jù)類型標識為 1。連接到切片 ID 指示的切片數(shù)據(jù)庫，插入（insert）Pin 對象的 JOSON 數(shù)據(jù)到 Pin 對象數(shù)據(jù)庫表中，MySQL 操作成功后將會返回自增主鍵「auto-incrementing primary key」給你，這個作為此 Pin 對象的局部 ID「 local ID」。現(xiàn)在，我們有了 shard 、類型值、local ID 這些必要信息，就可以構(gòu)建出此 Pin 對象的 64 位 ID 。（譯注：原作者提到的，他們的前端業(yè)務(wù)所用到的每種對象都保存在一個對象數(shù)據(jù)庫表里，每個對象記錄都通過一個全局唯一 ID 去找到它，但這個全局唯一 ID 并不是數(shù)據(jù)庫表中的局部 ID，由于切片的緣故。原作者一直在講這個設(shè)計及其原理。這樣設(shè)計的目的為了海量數(shù)據(jù)切片提高性能，還要易用，可維護，可擴展。后面，作者會依次講解到）

編輯一個 Pin 對象，使用 MySQL 事務(wù)「transaction」在 Pin 對象的數(shù)據(jù)記錄上讀出 — 修改 — 寫回「read-modify-write」 Pin 對象的 JOSON 數(shù)據(jù)字段：

> BEGIN > SELECT blob FROM db03429.pins WHERE local_id=7075733 FOR UPDATE [修改 json blob] > UPDATE db03429.pins SET blob=’<修改后的 blob>’ WHERE local_id=7075733 > COMMIT

編輯一個 Pin 對象，您當然可以直接刪除這個對象在 MySQL 數(shù)據(jù)庫表中的數(shù)據(jù)記錄。但是，請仔細想一下，是否在對象的 JSON 數(shù)據(jù)上加個叫做「 active」的域，把剔除工作交由前端中間業(yè)務(wù)邏輯去處理或許會更好呢。

（譯注：學(xué)過關(guān)系數(shù)據(jù)庫的應(yīng)知道，自增主鍵在記錄表中是固實，在里面刪除記錄，會造成孔洞。當多了，勢必造成數(shù)據(jù)庫性能下降。數(shù)據(jù)庫只負責保存數(shù)據(jù)和高性能地查詢、讀寫數(shù)據(jù)，其數(shù)據(jù)間的關(guān)系完全靠設(shè)計精良的對象全局 ID 通過中間件邏輯去維護這樣的設(shè)計理念一直貫穿在作者的行文中。只有理解了這點您才能抓住這篇文章的核心）

關(guān)系映射數(shù)據(jù)庫表

關(guān)系映射表表示的是前端業(yè)務(wù)對象間的關(guān)系。諸如：一個白板（board）上有哪些釘便簽（Pin），一個釘便簽（Pin）在哪些白板（board）上等等。表示這種關(guān)系的 MySQL 數(shù)據(jù)庫表包括 3 個字段：一個 64 位的「from」ID，一個 64 位的「to」ID 和一個順序號。每個字段上都做索引方便快速查詢。其記錄保存在根據(jù)「from」字段 ID 解構(gòu)出來的切片 ID 指示出的切片數(shù)據(jù)庫上。

CREATE TABLE board_has_pins (   board_id INT,   pin_id INT,   sequence INT,   INDEX(board_id, pin_id, sequence) ) ENGINE=InnoDB;

（譯注：這里的關(guān)系映射指前端業(yè)務(wù)對象間的關(guān)系用數(shù)據(jù)庫表來運維，并不指我上節(jié)注釋中說到的關(guān)系數(shù)據(jù)庫的關(guān)系映射。作者開篇就講到，由于切片，不能做關(guān)系數(shù)據(jù)庫表間的關(guān)系映射的，如一對一，一對多，多對多等關(guān)系關(guān)聯(lián)）

關(guān)系映射表是單向的，如 board_has_pins（板含便簽）表方便根據(jù) board （白板）ID 查詢其上有多少 Pin（釘便簽）。若您需要根據(jù) Pin（釘便簽）ID 查詢其都在哪些 board（白板）上，您可另建個表 pin_owned_by_board（便簽屬于哪些白板）表，其中 sequence 字段表示 Pin 在 board 上的順序號。（由于數(shù)據(jù)分布在切片數(shù)據(jù)庫上，我們的 ID 本身無法表示其順序）我們通常將一個新的 Pin 對象加到 board 上時，將其 sequence 設(shè)為當時的系統(tǒng)時間。sequence 可被設(shè)為任意整數(shù)，設(shè)為當時的系統(tǒng)時間，保證新建的對象的 sequence 總是大于舊對象的。這是個方便易行的方法。您可通過下面的語句從關(guān)系映射表中查詢對象數(shù)據(jù)集：

SELECT pin_id FROM board_has_pins  WHERE board_id=241294561224164665 ORDER BY sequence  LIMIT 50 OFFSET 150

語句會查出 50 個 pin_ids（便簽 ID ）, 隨后可用這些對象 ID 查詢其具體信息。

我們只在業(yè)務(wù)應(yīng)用層進行這些關(guān)系的映射，如 board_id -> pin_ids -> pin objects （從白板 ID -> 便簽 IDs -> 便簽對象）。這種設(shè)計一個非常棒的特性是，您可以分開緩存這些關(guān)系映射對。例如，我們緩存 pin_id -> pin object （便簽 ID -> 便簽對象）關(guān)系映射在 memcache（內(nèi)存緩存）集群服務(wù)器上，board_id -> pin_ids （白板 ID -> 便簽 IDs）關(guān)系映射緩存在 redis 集群服務(wù)器上。這樣，可以非常適合我們優(yōu)化緩存技術(shù)策略。

增大服務(wù)能力

在我們的系統(tǒng)中，提升服務(wù)處理能力主要三個途徑。最容易的是升級機器（更大的空間，更快的硬盤速度，

贊(0)

標簽：AI bug css exec Facebook inter mariaDB master mongo NEC php set 內(nèi)存數(shù)據(jù)庫服務(wù)器硬盤系統(tǒng)時間谷歌

相關(guān)推薦

網(wǎng)站地圖滬ICP備18035694號-2

滬公網(wǎng)安備31011702889846號