中國軟件杯本科組問答集錦-課工場解析!
劉剛 | 2019-04-30 10:33:45  1241 瀏覽

課工場致力于打造更可靠的IT就業教育,一直以來專注于企業IT崗位專業人才培養業。此次課工場將作為IT培訓領域的代表企業參與大賽命題工作。本次大賽課工場有本科生和高職兩道賽題入選題庫,同時課工場特派專家也將全程參與大賽作品的評審工作。

在過去的一段時間里,有不少本科組同學向課工場老師咨詢問題。今天呢,課工場為了解決各位同學的問題,特整理如下:

u=3544398371,880832186&fm=11&gp=0.jpg

"問題33:定位銀行卡卡號是什么意思?

回答:就是將銀行卡卡號框起來"

"問題34:比賽用什么模型算法合適

回答:用到深度學習算法體系,具體用哪些神經網絡架構,則有同學們自己考量,"

"問題35:數據集是不是只能用官方提供的?

回答:不是,咱們提供的數據集是給沒有數據集的同學使用的,你也可以用自己的數據集

問題36:數據集增強之后的圖片命名有要求嗎?

回答:沒要求,這個主意可讀性就可以,跟實現功能沒什么關系

問題37:卡號定位需要做神經網絡模型來用么?

回答:需要"

"問題38:_001a_0.png,這個中間的字母a代表什么意思?后面的數字0代表什么意思?

回答:a代表不同類別,后面的0代表該類中的第一張圖

問題39:類別是指?

回答:相同的卡號,不同的樣式

問題40:老師推薦使用Tensorflow框架,那我使用這個庫的一些方法,會影響評分的嗎?

回答:使用tf的函數沒問題,我們沒必要從模型搭建訓練部分就用原生實現,避免重復造輪子的同時,原則上不去使用別人構建好的、現成的一句代碼實現識別功能,一句代碼實現文本定位功能。"

"問題41:請問如何使用Python,最后需要提交.exe程序嗎

回答:編程語言不限,建議使用pyhton及深度學習框架進行模型訓練,最后的系統需要封裝GUI,形式不限,可以是手機app,web,桌面程序,最后模型可以部署到服務器,最終需要提供源碼,文檔。

問題42:訓練是必須通過四個字一組的形式還是可以自己切開單個字

回答:這點沒有強制的限制,只要最后識別率高。但是分類器肯定要用到神經網絡。因為我們的賽題是基于深度學習的。具體識別細節,同是高準確率的情況下,端到端的算法肯定優于切分后單字符識別的算法。

問題43:數據增強模塊是運行在識別模型訓練過程中對讀取的數據集進行預處理階段嗎?需要單獨做一個可視化界面嗎?

回答:不需要單獨做可視化,是訓練前的數據預處理階段"

"問題44:可以直接用別人的文本定位分類器嗎

回答:自己實現不了,可以做遷移學習,都做不了再用現成的,分數依次降低

問題45:銀行卡識別可以用opencv嗎?

回答:可以用這個庫,但是不要用集成好的檢測識別功能,要用深度學習,不要用傳統ocr的方法

"問題46:官方提供的數據集只有識別文本的部分,請問關于定位的數據集怎么辦?是否需要自己去尋找其他的定位的數據集?

回答:文本定位部分不提供銀行卡全圖數據集,實現方法可參考字符識別模型。"

"問題47:軟件杯關于深度學習識別銀行卡的數據集中并沒有標注數據。是沒發還是發漏了?

回答:數據集中,圖像文件名為標簽,前四位為銀行卡的卡號,后面字母為相同卡號不同卡片樣式的分類,再后面為該樣式的第n張(因為要用數據增強)

問題48:根據本賽題提供的數據集(共1084張卡號截圖及標簽)實現數據增強模塊,將數據集中的每一張圖片使用數據增強方式拓展為80張圖片,為之后的圖像識別訓練提供充足的數據樣本,并且該模塊程序能夠繼續處理新加入的數據樣本。拓展為80張圖片 是什么意思?是否可以切割成四張?

回答49:拓展數據集的手段,使用數據增強技術,將一個樣本拓展為更多的樣本;切割算一種,可以切分生成一些,其余的手段可以去查數據增強這個技術。"

"問題50:關于功能性需求2(程序定位銀行卡卡號), 是否必須使用深度學習方法, 我們是否可以使用傳統的OCR方法進行定位, 如果可以, 這兩種方法得分有沒有差別.

回答:可以使用傳統ocr方式進行定位,但是得分沒有深度學習算法得分高,本賽題有一個很重要的目的就是讓參賽選手學習DL

問題51:每個功能模塊的給分細則是怎樣的? 例如, 賽題中提到: 程序實現銀行卡號字符識別15分, 那么我們只要將準確率達到90%即可得到滿分嗎? 還是說有更詳細的評分細則, 其他功能模塊的給分標準又是什么?

回答:分數評判標準出題方提供的評分參照,具體的評分細節要根據評委團與參賽選手的表現,90%acc肯定不是滿分,這一點可以確定。

問題52:賽題中提到了對程序運行速度的要求, 具體是指程序哪一部分的運行速度? 考慮到不同的硬件環境對程序運行速度的影響很大, 比賽將如何衡量不同程序的運行速度? 大賽組委會是否會提供統一的服務器環境來比較程序的運行速度?

回答:因為每個賽題都會涉及到程序運行速度問題,我們主要關注點在將一批圖片輸入進去,圖像識別完成所需要的時間,關于組委會是否提供統一服務器環境,這一點還請咨詢組委會,出題方沒有權限確定這個問題。

"問題53:大賽提供的數據集只有四位一組的銀行卡號, 沒有整張銀行卡的圖片數據集讓我們來訓練卡號定位模型, 大賽組委會是否可以向我們提供其他數據集? 我們是否需要自己收集數據集?

回答:定位銀行卡號不一定需要帶標簽的銀行卡數據集,本身銀行卡涉及到一些隱私問題,還請開拓思路,我們要做的是字符定位。組委會不會提供更多的數據集,同樣自己可以收集數據集做訓練。

問題54:在比賽最終提交作品后, 我們是否有必要自己搭建服務器來讓評委老師親自使用我們的程序進行檢測, 自己搭建的服務器是否必須有GPU環境?

回答:出題方建議,保險起見,自己可以搭建服務器,最好使用GPU環境"

"問題55:題目要求中說操作系統可選Windows和Linux,請問是不是要做出來在Windows或者Linux上運行的程序?還是只是使用Windows或者Linux開發,最后做出來在手機上運行的程序?是否可以選擇最后做成一個微信小程序實現銀行卡識別的功能。

回答: 操作系統沒有明確固定系統的選擇,你最終可以做成手機上運行的程序,但是識別檢測過程的性能你需要考慮,當然你也可以配置到服務端,展示用手機上的小程序,然后去調服務端的結果。"

"問題56:在“其他要求”項目“3.模型在數據集中的準確率要求達到90%”,這項要求是否是對提供的1000張卡號截圖的部分數據進行測試?

回答:這個準確率是你在訓練過程中的準確率,就是模型收斂之后在驗證集上準確率可以達到90%以上,具體訓練集驗證集的劃分看你自己。

問題57:數據集中卡號截圖都是4位銀行卡號(含空格),是否訓練時不用分割成單個字符,而是按照4位進行訓練,定位的實際銀行卡號也截取4位進行識別?

回答:卡號訓練是否要切分,這是同學需要考慮的,也是本賽題的一個難點,基于切分單字符的識別,還是端到端的識別由你們自己來定。

問題58:近期仔細閱讀了近幾年這方面的碩士論文,都提到對卡號分割成單個字符進行識別,是否分割成單個字符訓練效果更好?這方面有要求嗎?

回答:深度學習更提倡端到端的模式,目前以我所知,存在算法可以將不定長度的序列進行端到端的識別"

"問題59:數據集里下標都是什么意思?例如:0000x_0.png每個字符都代表什么意思?

回答:前四位代表卡號,其中前四位里的下劃線代表空格。后面的字符代表對卡不同樣式,類型,卡號的區分,沒有別的意義。"

"問題60:我看訓練集圖片的標簽,對于空格,使用下劃線表示的,是否意味著空格的標簽就是下劃線?那最終測試集的圖片,一整串銀行卡號中出現空格的時候,識別出來的結果也要用下劃線表示,還是不顯示空格,只顯示一整串數字?

回答:訓練集前四位中的下劃線代表空格,后面的字符只是為區分卡號的不同樣式與種類,最終識別的時候,出現空格能識別出空格最好,用空格表示就行,識別不了空格那就輸出一串數字,評分具體按照評委意見,可以預見的是能識別空格的分數肯定不會比識別不了空格的分數低。"

備注:如想查看以往本科組問答,請看《【本科組】第八屆“中國軟件杯”大學生軟件設計大賽,課工場問答集錦!》


標簽: 課工場動態
推薦文章
京ICP備15057271號 京公網安備11010802017390號 客服郵箱:[email protected]
四肖中特正版资料大全期期准免费