• <ul id="mayc0"></ul>
    <ul id="mayc0"><center id="mayc0"></center></ul>
    <strike id="mayc0"><input id="mayc0"></input></strike>
    <ul id="mayc0"></ul>
  • 億恩科技有限公司旗下門戶資訊平臺!
    服務器租用 4元建網站

    數據遷移其實是很難的

    在過去的十年中,我已經經歷過了無數次的數據修改任務(一個真正的技術術語)。無論是將一個老的數據庫遷移到一處現代化的數據庫;還是通過新的加工工具拖動龐大的數據集;又或是無數其他的將數據由一種形式轉化成另一種新的形式的任務。
          在過去的十年中,我已經經歷過了無數次的數據修改任務(一個真正的技術術語)。無論是將一個老的數據庫遷移到一處現代化的數據庫;還是通過新的加工工具拖動龐大的數據集;又或是無數其他的將數據由一種形式轉化成另一種新的形式的任務。類似這樣的工作處理頻率很高,幾乎是每天都有這樣的工作內容,而這對于絕大多數人而言都不能不說是相當神奇的,甚至包括相當一部分的IT人員。

    讓我來花一點點的時間來為大家解釋一下這一工作原理吧。

    讓我們選擇一個最恐怖也最為常見的情況:可怕的Excel電子表格制作。曾經有一段時間一家公司決定他們要收集有關的業務流程數據資料,包括庫存、銷售、客戶資料等一系列的數據。由于缺乏適當的工具,相關負責的工作人員只能做了一個Excel電子表格,結果差點瘋了:隨著時間的推移,成千上萬的記錄需要進行收集,而Excel電子表格的功能越來越無法滿足其需求。最終,該企業決定把這些數據信息放入真實的數據庫。他們聘請了一家咨詢集團,將這些任務交給專業的人員來處理。

    首先要做的第一件事是檢查數據本身。在一個完美的世界中,電子表格就像一個數據庫,每一格都屬于其所在列的分類中——如姓氏、名字、街道、城市,等等。然而,這一方法并不總是奏效的。有時候,我們可能在單獨的一行或一列涵蓋所有的聯系信息,如一列里面需要包含全部的聯系信息,如姓名、公司、地址、電話號碼,等等。而在下一列則可能是關于最后訂單或2012年的銷售數據或其他數據。這就提出了一個更具挑戰性的問題了。

    讓我們先來看看這第一種情況,因為它是最簡單的。在這第一種情況下,數據是相對干凈并經過了良好的組織,它可以導出為CSV文件并通過自定義解析器運行,將其轉換成一個數據庫。一個好的CSV解析器將把所有這些記錄導入到一個數組,可以通過記錄插入到新數據庫分開記錄。在這一過程中,可以對數據進行檢查,同時數據可以被修改,以便能夠更好地適應新的數據庫格式。

    例如,我們可能會運行一個電話號碼字段的正則表達式,以便將各種不同的電話號碼格式轉換成一種標準的格式。這需要把所有的特殊字符和格式化的字符在被插入到新的數據庫之前串起來。該操作將把諸如(212)555-1212、212-555-1212、2125551212、2125551212、212.555.1212這樣的每條記錄統一變成(212)555-1212,這樣的標準化格式,這將有利于方便數據的讀取和搜索。

    這樣,我們現在可以以我們喜歡的方式重新格式化的電話號碼。這就幫助我們擺脫了那種可能遇到的多一位數,或者少一位數的不可能是電話號碼的困境。

    鑒于我們可以采用更加自由的格式,處理起來也就變得更為方便了。地址的處理是特別挑剔的,因為他們可以用各種不同的方式格式化。我們還需要處理街頭各種變幻莫測的街道和城市名稱。我們需要確保我們能夠正確的處理“Washington,DC,”、“Washington,DC,”和“WashingtonDC”,以及各種古怪的拼寫方式,如“Winston-Salem,NC,”、“KingofPrussia,PA,”、“Scranton,Penn.,”、“N.ProvidenceRI,”、“Houston,tx,”、以及“O'Fallon,IL.”。

    如果我們不加以特殊的考慮,上述這些各種各樣的奇怪的拼寫字符都可以訪問分析解析器,因為我們不能去除特殊字符。此外,我們不能指望國家或州名的縮寫都正好符合某一字段長度。因此,我們需要構造條件表達式,以盡最大努力的明確表達城市和國家實際的名稱,甚至包括對美國每一座城市和州數據庫的核對。基于這些結果,如果沒有明確的標志,我們可能仍然需要手動檢查有問題的記錄來擺脫困境。

    上面所介紹的內容,其實我們剛開始觸及表面。我們還需要投入大量的工作來搞清楚每個記錄中的城市、州和電話號碼信息。我們需要根據不同的內容處理和重復的電子表格中的所有其他領域。

    這種混亂是由允許數據項不受約束的自由格式所直接導致的。其對于每家公司所造成的困擾無處不在。當然,其不必是Excel格式的電子表格。其可以是企業自主開發的,能夠被訪問的數據庫,或是任何其他應用程序。除非有相關的排查以保證輸入數據的有效性和格式化,這些數據將可能一直是混亂狀態。當然,問題的關鍵是建立一個合適的數據庫前端來處理數據的輸入:我們可以清理數據,并交給員工們導入數據的正確方式,這無疑將在一個持續的基礎上大大增強數據的準確性和可用性。這是使用數據庫最為重要的好處之一。

    當然,我們不能低估在處理這些類型的數據集方面所做出的努力。目前已開發出來各類工具來簡化這一過程,但這些工具并非適合所有情況。雖然他們可能僅僅對于一部分輸入的數據是奏效的,但錯過的部分,如果處理不當會造成更加麻煩的問題。

    這種性質的工作是乏味的,需要格外注重細節。它需要大量的人工數據檢驗、測試、調試和對部分項目的開發工作的前瞻性的思維。當上述所強調的一切都滿足之后,其結果幾乎可以保證是值得我們努力的。

    使用干凈的數據,可以使一切變得更簡單。但是不要低估在清理數據這一過程中可能具到的挑戰。

    河南億恩科技股份有限公司(www.vbseamall.com)始創于2000年,專注服務器托管租用,是國家工信部認定的綜合電信服務運營商。億恩為近五十萬的用戶提供服務器托管、服務器租用、機柜租用、云服務器、網站建設、網站托管等網絡基礎服務,另有網總管、名片俠網絡推廣服務,使得客戶不斷的獲得更大的收益。
    服務器/云主機 24小時售后服務電話:0371-60135900
    虛擬主機/智能建站 24小時售后服務電話:0371-55621053
    網絡版權侵權舉報電話:0371-60135995
    服務熱線:0371-60135900

    2
    1
    分享到:責任編輯:阿云

    相關推介

    共有:3條評論網友評論:

    驗證碼 看不清換一張 換一張

    親,還沒評論呢!速度搶沙發吧!