點擊「閱讀原文」查看良許原創(chuàng)精品視頻。
來源：twt社區(qū)
整理：大數(shù)據(jù)肌肉猿

1.背景

工作中使用MapReduce任務(wù)導出一批含有路徑的文件，共計行數(shù)300W+，需要檢測文件是否在對應(yīng)的服務(wù)器中存在，而文件所在的服務(wù)器并非hadoop集群的服務(wù)器，因此打算采用bash腳本進行。具體的方法如下(可直接看方法2,方法1效率較低)：

2. 采用的方法

a. 方法1

原本打算使用如下腳本，進行簡單驗證：

!/bin/bashcount=0cat oriTest.txt | while read datadocount=$(( $count+1 ))echo $countdir=echo "$data" | awk -F "\t" '{print $5}'if [ -e $dir ];thenecho "$data" >> exist.txtelseecho "$data" >> noexist.txtfidone

原始數(shù)據(jù)格式如下：

name mark id dir

運行時發(fā)現(xiàn)處理5000行需要將近4、5分鐘的時間(機器為8核)，果斷不行啊，隨后打算采用多進程的方法來執(zhí)行，見方法2

b. 方法2

主要是通過將大文件分為小文件，然后對小文件進行后臺遍歷讀取，腳本如下：

!/bin/bashsource ~/.bashrc

判斷路徑是否存在

readdata(){cat $1 | while read datadodir=echo "$data" | awk -F "\t" '{print $5}'if [ -e $dir ];thenecho "$data" >> "exist_$1.txt"elseecho "$data" >> "noexist_$1.txt"fidone}

大文件切分為小文件，生成文件名為xaa,axb等(可以自己命名文件)

split -l 10000 oriTest.txt

declare -a files # 聲明數(shù)組

files=($(ls x*)) # 分割后的小文件名保存數(shù)組

遍歷，并后臺執(zhí)行

for i in ${files[@]};doecho $ireaddata $i &done

良許個人微信

添加良許個人微信即送3套程序員必讀資料

→ 精選技術(shù)資料共享
→ 高手如云交流社群

本公眾號全部博文已整理成一個目錄，請在公眾號里回復「m」獲?。?/span>
推薦閱讀：
牛逼的Linux性能剖析—perf
2.5 億！華為成立新公司！
這能忍？阿里、騰訊、京東、百度聯(lián)合出手了！！

5T技術(shù)資源大放送！包括但不限于：C/C++，Linux，Python，Java，PHP，人工智能，單片機，樹莓派，等等。在公眾號內(nèi)回復「1024」，即可免費獲?。?！

大數(shù)據(jù)場景下，如何快速將Linux 大文件處理小

點擊「閱讀原文」查看良許原創(chuàng)精品視頻。來源：twt社區(qū)整理：大數(shù)據(jù)肌肉猿

整理：大數(shù)據(jù)肌肉猿

判斷路徑是否存在

大文件切分為小文件，生成文件名為xaa,axb等(可以自己命名文件)

遍歷，并后臺執(zhí)行

大數(shù)據(jù)場景下，如何快速將Linux 大文件處理小

點擊「閱讀原文」查看良許原創(chuàng)精品視頻。
來源：twt社區(qū)
整理：大數(shù)據(jù)肌肉猿

遍歷，并后臺執(zhí)行