MNIST數據庫
MNIST數據庫(源自「National Institute of Standards and Technology database」[1] )是一個通常用於訓練各種數位影像處理系統的大型數據庫[2][3]。該數據庫通過對來自NIST原始數據庫的樣本進行修改創建,涵蓋手寫數字的圖像,共包含60,000張訓練圖像和10,000張測試圖像,尺寸為28×28像素。該數據庫廣泛運用於機器學習領域的訓練與測試當中[4][5]。MNIST在其發布時使用支持向量機的錯誤率為0.8%,但一些研究後來通過使用深度學習技術顯著改進了這一成績。
歷史
MNIST數據庫通過「重混」(re-mixing)的來自NIST原始數據庫的樣本創建[6]。創建者認為,由於NIST的訓練數據來自美國人口普查局的員工,而測試數據取自美國高中學生,這樣的數據集不適合用來進行研究[7]。此外,NIST的黑白圖像被歸一化處理,以適應28×28像素的邊界框,並進行了抗鋸齒處理,從而引入了灰度級別[7]。
MNIST數據庫包含有60,000張訓練圖像與10,000張測試圖像[8]。訓練集的一半和測試集的一半來自NIST的訓練數據集,而訓練集的另一半和測試集的另一半則來自NIST的測試數據集[9]。數據庫的原始創建者保留了一些在其上測試的算法方法的列表[7]。在他們的原始論文中,他們使用支持向量機獲得了0.8%的錯誤率[10]。然而,原始的MNIST數據庫含有至少4個錯誤標籤[11]。
擴展MNIST(EMNIST)是由NIST開發和發布的一個更新的數據集,作為MNIST的(最終)繼任者[12][13]。MNIST僅包含手寫數字的圖像,而EMNIST包括NIST特別數據庫19中的所有圖像,該數據庫包含大量的手寫大寫和小寫字母以及數字的圖像[14][15]。
表現
一些研究通過使用人工神經網絡在MNIST數據庫中取得了「接近人類的表現」[16]。原始數據庫官方網站上列出的最高錯誤率為12%,這是使用簡單線性分類器且沒有預處理時的成績[10][7]。
在2004年,研究人員使用一種名為「LIRA」的基於羅森布拉特感知器原理的三層神經分類器,在數據庫上實現了0.42%的最佳錯誤率[17]。
一些研究者使用隨機失真的MNIST數據庫對人工智能系統進行測試。這些系統通常是人工神經網絡系統,所使用的失真方式可能是仿射失真或彈性失真[7]。在某些情況下,這些系統可以非常成功;其中一個系統在數據庫上實現了0.39%的錯誤率[18]。
2011年,研究人員報告使用類似的神經網絡系統,實現了0.27%的錯誤率,提升了之前的最佳成績[19]。2013年,一種基於DropConnect正則化神經網絡的方法聲稱實現了0.21%的錯誤率[20]。2016年,單個卷積神經網絡在MNIST上的最佳性能為0.25%的錯誤率[21]。截至2018年8月,使用MNIST訓練數據、沒有數據增強的單個卷積神經網絡的最佳性能為0.25%的錯誤率[21][22]。此外,烏克蘭赫梅爾尼茨基的並行計算中心(Parallel Computing Center)使用了僅5個卷積神經網絡的集成,在MNIST數據庫上表現為0.21%的錯誤率[23][24]。
參見
參考來源
- ^ THE MNIST DATABASE of handwritten digits. Yann LeCun, Courant Institute, NYU Corinna Cortes, Google Labs, New York Christopher J.C. Burges, Microsoft Research, Redmond. [2024-08-06]. (原始內容存檔於2021-04-07).
- ^ Support vector machines speed pattern recognition - Vision Systems Design. Vision Systems Design. [2013-08-17]. (原始內容存檔於2013-09-21).
- ^ Gangaputra, Sachin. Handwritten digit database. [2013-08-17]. (原始內容存檔於2013-09-21).
- ^ Qiao, Yu. THE MNIST DATABASE of handwritten digits. 2007 [2013-08-18]. (原始內容存檔於2018年2月11號).
- ^ Platt, John C. Using analytic QP and sparseness to speed training of support vector machines (PDF). Advances in Neural Information Processing Systems. 1999: 557–563 [2013-08-18]. (原始內容 (PDF)存檔於2016-03-04).
- ^ Grother, Patrick J. NIST Special Database 19 - Handprinted Forms and Characters Database (PDF). National Institute of Standards and Technology. [2024-08-06]. (原始內容存檔 (PDF)於2024-05-20).
- ^ 7.0 7.1 7.2 7.3 7.4 LeCun, Yann; Cortez, Corinna; Burges, Christopher C.J. The MNIST Handwritten Digit Database. Yann LeCun's Website yann.lecun.com. [2020-04-30]. (原始內容存檔於2021-04-07).
- ^ Kussul, Ernst; Baidyk, Tatiana. Improved method of handwritten digit recognition tested on MNIST database. Image and Vision Computing. 2004, 22 (12): 971–981. doi:10.1016/j.imavis.2004.03.008.
- ^ Zhang, Bin; Srihari, Sargur N. Fast k-Nearest Neighbor Classification Using Cluster-Based Trees (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 2004, 26 (4): 525–528 [2020-04-20]. PMID 15382657. doi:10.1109/TPAMI.2004.1265868. (原始內容 (PDF)存檔於2021年7月25號).
- ^ 10.0 10.1 LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner. Gradient-Based Learning Applied to Document Recognition (PDF). Proceedings of the IEEE. 1998, 86 (11): 2278–2324 [2013-08-18]. doi:10.1109/5.726791. (原始內容存檔 (PDF)於2021-10-07).
- ^ Muller, Nicolas M.; Markert, Karla. Identifying Mislabeled Instances in Classification Datasets. 2019 International Joint Conference on Neural Networks (IJCNN). IEEE: 1–8. July 2019. ISBN 978-1-7281-1985-4. arXiv:1912.05283 . doi:10.1109/IJCNN.2019.8851920.
- ^ NIST. The EMNIST Dataset. NIST. 2017-04-04 [2022-04-11].
- ^ NIST. NIST Special Database 19. NIST. 2010-08-27 [2022-04-11].
- ^ Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. EMNIST: an extension of MNIST to handwritten letters.. 2017. arXiv:1702.05373 [cs.CV].
- ^ Cohen, G.; Afshar, S.; Tapson, J.; van Schaik, A. EMNIST: an extension of MNIST to handwritten letters.. 2017. arXiv:1702.05373v1 [cs.CV].
- ^ Cires¸an, Dan; Ueli Meier; Jürgen Schmidhuber. Multi-column deep neural networks for image classification (PDF). 2012 IEEE Conference on Computer Vision and Pattern Recognition. 2012: 3642–3649 [2024-08-06]. CiteSeerX 10.1.1.300.3283 . ISBN 978-1-4673-1228-8. S2CID 2161592. arXiv:1202.2745 . doi:10.1109/CVPR.2012.6248110. (原始內容存檔 (PDF)於2016-10-17).
- ^ Kussul, Ernst; Tatiana Baidyk. Improved method of handwritten digit recognition tested on MNIST database (PDF). Image and Vision Computing. 2004, 22 (12): 971–981 [2013-09-20]. doi:10.1016/j.imavis.2004.03.008. (原始內容 (PDF)存檔於2013-09-21).
- ^ Ranzato, Marc'Aurelio; Christopher Poultney; Sumit Chopra; Yann LeCun. Efficient Learning of Sparse Representations with an Energy-Based Model (PDF). Advances in Neural Information Processing Systems. 2006, 19: 1137–1144 [2013-09-20]. (原始內容存檔 (PDF)於2016-03-22).
- ^ Ciresan, Dan Claudiu; Ueli Meier; Luca Maria Gambardella; Jürgen Schmidhuber. Convolutional neural network committees for handwritten character classification (PDF). 2011 International Conference on Document Analysis and Recognition (ICDAR). 2011: 1135–1139 [2013-09-20]. CiteSeerX 10.1.1.465.2138 . ISBN 978-1-4577-1350-7. S2CID 10122297. doi:10.1109/ICDAR.2011.229. (原始內容 (PDF)存檔於2016-02-22).
- ^ Wan, Li; Matthew Zeiler; Sixin Zhang; Yann LeCun; Rob Fergus. Regularization of Neural Network using DropConnect. International Conference on Machine Learning(ICML). 2013.
- ^ 21.0 21.1 SimpleNet. Lets Keep it simple, Using simple architectures to outperform deeper and more complex architectures. 2016 [2020-12-03]. arXiv:1608.06037 . (原始內容存檔於2023-06-04).
- ^ SimpNet. Towards Principled Design of Deep Convolutional Networks: Introducing SimpNet. Github. 2018 [2020-12-03]. arXiv:1802.06205 . (原始內容存檔於2024-04-18).
- ^ Romanuke, Vadim. Parallel Computing Center (Khmelnytskyi, Ukraine) represents an ensemble of 5 convolutional neural networks which performs on MNIST at 0.21 percent error rate.. [2016-11-24]. (原始內容存檔於2016-11-24).
- ^ Romanuke, Vadim. Training data expansion and boosting of convolutional neural networks for reducing the MNIST dataset error rate. Research Bulletin of NTUU "Kyiv Polytechnic Institute". 2016, 6 (6): 29–34. doi:10.20535/1810-0546.2016.6.84115 .
延伸閱讀
- Ciresan, Dan; Meier, Ueli; Schmidhuber, Jürgen. Multi-column deep neural networks for image classification (PDF). 2012 IEEE Conference on Computer Vision and Pattern Recognition. New York, NY: Institute of Electrical and Electronics Engineers. June 2012: 3642–3649 [2013-12-09]. CiteSeerX 10.1.1.300.3283 . ISBN 9781467312264. OCLC 812295155. S2CID 2161592. arXiv:1202.2745 . doi:10.1109/CVPR.2012.6248110.