麻省理工學(xué)院 | 數(shù)據(jù)科學(xué)家什么時候應(yīng)該嘗試一種新技術(shù)?
指南者留學(xué)
2023-02-02 20:29:39
閱讀量:1187
<p>如果一名科學(xué)家想要預(yù)測洋流,以了解石油泄漏后污染是如何傳播的,她可以使用一種常見的方法,即觀察10到200公里之間的洋流?;蛘撸部梢赃x擇一種電流更短的新型號。這可能更準(zhǔn)確,但也可能需要學(xué)習(xí)新的軟件或進(jìn)行新的計算實驗。如何知道使用新方法是否值得花費(fèi)時間、成本和精力呢?</p>
<p> </p>
<p>麻省理工學(xué)院研究人員開發(fā)的一種新方法可以幫助數(shù)據(jù)科學(xué)家回答這個問題,無論他們是在研究洋流、暴力犯罪、兒童閱讀能力還是任何其他類型的數(shù)據(jù)集。</p>
<p> </p>
<p>該團(tuán)隊創(chuàng)建了一種新的測量方法,稱為“c值”,可以幫助用戶根據(jù)新方法對特定數(shù)據(jù)集更準(zhǔn)確的幾率在技術(shù)之間進(jìn)行選擇。這一測量方法回答了一個問題:“對于這些數(shù)據(jù),新方法是否可能比常規(guī)方法更準(zhǔn)確?”</p>
<p> </p>
<p>傳統(tǒng)上,統(tǒng)計學(xué)家通過在所有可能的數(shù)據(jù)集上平均一種方法的準(zhǔn)確性來比較方法。但是,僅僅因為一種新方法對所有數(shù)據(jù)集的平均效果更好,并不意味著它實際上會對一個特定的數(shù)據(jù)集提供更好的估計。平均值不是特定于應(yīng)用程序的。</p>
<p> </p>
<p>因此,來自麻省理工學(xué)院和其他地方的研究人員創(chuàng)建了c值,這是一個特定于數(shù)據(jù)集的工具。高c值意味著在特定數(shù)據(jù)問題上,新方法不太可能比原始方法更準(zhǔn)確。</p>
<p> </p>
<p>在他們的概念證明論文中,研究人員使用現(xiàn)實世界的數(shù)據(jù)分析問題描述和評估c值:模擬洋流,估計社區(qū)的暴力犯罪,以及近似學(xué)校學(xué)生的閱讀能力。他們展示了c值如何幫助統(tǒng)計學(xué)家和數(shù)據(jù)分析師通過指示何時使用他們可能會忽略的替代估計方法來獲得更準(zhǔn)確的結(jié)果。</p>
<p> </p>
<p>“我們在這項特殊工作中試圖做的是提出一些特定于數(shù)據(jù)的東西。對于開發(fā)新方法的人來說,經(jīng)典的風(fēng)險概念是很自然的。這個人希望他們的方法平均對所有用戶都有效。但是一個方法的使用者想要的是能夠解決他們個人問題的方法。我們已經(jīng)證明了c值是這個方向上非常實用的概念證明。”資深作者Tamara Broderick說,他是電氣工程和計算機(jī)科學(xué)系(EECS)的副教授,也是信息與決策系統(tǒng)實驗室和數(shù)據(jù)、系統(tǒng)與社會研究所的成員。</p>
<p> </p>
<p>她的論文由布萊恩·特里普博士22號加入,他曾是布羅德里克小組的研究生,現(xiàn)在是哥倫比亞大學(xué)的博士后;以及13歲的薩米爾·德什潘德(Sameer Deshpande),他是布羅德里克團(tuán)隊的前博士后,現(xiàn)在是威斯康星大學(xué)麥迪遜分校的助理教授。該論文的一個被接受的版本發(fā)表在《美國統(tǒng)計協(xié)會雜志》的網(wǎng)絡(luò)版上。</p>
<p> </p>
<p><span class="h1"><strong>評價估計量</strong></span></p>
<p> </p>
<p>c值旨在幫助解決數(shù)據(jù)問題,研究人員試圖使用數(shù)據(jù)集估計未知參數(shù),例如從評估結(jié)果和學(xué)生調(diào)查反饋的數(shù)據(jù)集估計學(xué)生的平均閱讀能力。研究人員有兩種估計方法,必須決定使用哪種方法來解決這個特定的問題。</p>
<p> </p>
<p>更好的估計方法是產(chǎn)生更少“損失”的方法,這意味著估計將更接近實際情況。再考慮一下洋流的預(yù)測:也許每小時誤差幾米并沒有那么糟糕,但每小時誤差很多公里就會使預(yù)測變得毫無用處。然而,根本的真相是未知的;科學(xué)家正試圖估計它。因此,對于他們的特定數(shù)據(jù),人們永遠(yuǎn)無法實際計算出估計的損失。這就是比較估算具有挑戰(zhàn)性的地方。c值幫助科學(xué)家應(yīng)對這一挑戰(zhàn)。</p>
<p> </p>
<p>c值方程使用特定的數(shù)據(jù)集來計算每種方法的估計值,然后再一次計算方法之間的c值。如果c值很大,則替代方法不太可能比原始方法更差,產(chǎn)生的估計不太可能比原始方法更準(zhǔn)確。</p>
<p> </p>
<p>“在我們的案例中,我們假設(shè)您保守地想要使用默認(rèn)的估計器,并且只有當(dāng)您對它非常有信心時才想使用新的估計器。由于c值較高,新的估計可能更準(zhǔn)確。如果你得到一個低c值,你不能說任何結(jié)論性的東西。你可能實際上做得更好,但你不知道。”Broderick解釋道。</p>
<p> </p>
<p><span class="h1"><strong>探索理論</strong></span></p>
<p> </p>
<p>研究人員通過評估三個真實世界的數(shù)據(jù)分析問題來驗證這一理論。</p>
<p> </p>
<p>首先,他們使用c值來幫助確定哪種方法最適合模擬洋流,這是特里普一直在解決的問題。準(zhǔn)確的模型對于預(yù)測污染物的擴(kuò)散很重要,比如石油泄漏的污染。研究小組發(fā)現(xiàn),使用多個尺度(一個大尺度和一個小尺度)估算洋流,可能比僅使用大尺度測量產(chǎn)生更高的精度。</p>
<p> </p>
<p>布羅德里克說:“海洋研究人員正在研究這一點(diǎn),c值可以提供一些統(tǒng)計學(xué)上的‘魅力’,以支持更小尺度的建模。”</p>
<p> </p>
<p>在另一個例子中,研究人員試圖預(yù)測費(fèi)城人口普查區(qū)的暴力犯罪,這是Deshpande一直在研究的應(yīng)用。他們發(fā)現(xiàn),使用c值,通過將人口普查區(qū)級別的非暴力犯罪信息納入分析,可以更好地估計暴力犯罪率。他們還使用c值來表明,在分析中額外利用鄰近人口普查區(qū)的暴力犯罪數(shù)據(jù)不太可能提供進(jìn)一步的準(zhǔn)確性提高。</p>
<p> </p>
<p>“這并不意味著沒有改善,這只是意味著我們沒有信心說你會得到它。”她說。</p>
<p> </p>
<p>現(xiàn)在,他們已經(jīng)從理論上證明了c值,并展示了如何將其用于解決現(xiàn)實世界的數(shù)據(jù)問題,研究人員希望將測量擴(kuò)展到更多類型的數(shù)據(jù)和更廣泛的模型類集。</p>
<p> </p>
<p>最終目標(biāo)是創(chuàng)建一個足夠通用的測量方法來解決更多的數(shù)據(jù)分析問題,盡管要實現(xiàn)這一目標(biāo)還有很多工作要做,但Broderick說這是朝著正確方向邁出的重要而令人興奮的第一步。</p>
<p> </p>
<p>這項研究部分得到了高級研究計劃局能源撥款、國家科學(xué)基金會職業(yè)獎、海軍研究辦公室和威斯康星校友研究基金會的支持。</p>
<p> </p>
<blockquote>
<p>注:本文由院校官方新聞直譯,僅供參考,不代表指南者留學(xué)態(tài)度觀點(diǎn)。</p>
</blockquote>