將口語轉成知之為知之,清楚比正確重要

Before After
到目前為止,我們考慮的問題,他的input其實都是一個vector,output都是另外一個vector。不管我們是在作SVM,還是在作Deep Learning的時後。我們的input或output都只是vector而已。但實際上我們要面對的問題往往比這個更困難。我們可能需要input或是output事一個sequence,我們可能需要output事一個list。Output 事一個tree。Output 事一個bounding box等等。像你在representation 的final裡面。你可能希望你的output就直接室一個list,而不是一個一個element SVM、Deep Learning NN模型的input和output都是vector。實際上應用情境的input 與output型式可能比vector更複雜。例如,output可能一個sequence,可能一個list。可能是一個tree,可能是一個bounding box,…等等。
那structure learning怎麼做呢?雖然這個structure learning呢聽起來好像很困難。但實際上呢。他有一個unified的framework。怎麼做呢。在training的時候。我們就是找一個function。這個function 我們這邊寫作大寫的F,這個大寫的F他的input根output。他的input是X根Y。我們之前是找一個小寫的function f他的input是x。現在不一樣我們找一個大寫的F 他的input就是X根Y。他的output就是一個real number 。這個大寫F他做的事情。就是衡量說當我的input是X根Y的時候。Structure的Object(這個X根Y)。這個X根Y他們有多匹配。OK 越匹配的話,大寫F他output的值就越大。那testing的時候呢。Testing的時候我們要怎麼做呢。給一個新的X,我們去窮舉所有的可能的Y,窮舉所有可能的Y一一代進大寫的F這個function看看哪一個Y他可以讓F的值最大。那假設可以讓F的值最大,可以讓F的值的那個Y教作Y delta。就是你最後辨識的結果。就是你model的output。那你會說原來小寫的f呢原來想要做的事情。是找一個小寫的f input x output y 那這個小寫的f input x output y就可以把他想成這個小寫的f 其實就是。Arg max 窮舉所有的y F(x,y)這個東西就是小寫的f。 structured learning有一個unified的framework:在training的時候,找一個function,F,其作用為衡量X與Y有多匹配。越匹配的話,F的output的值越大。在testing的時候。給定一個X,再窮舉所有的可能的Y,其中,所求的y是使F最大值的y,output出來的y,表示為y~\tilde{y}
舉個例子,如果我們要建一個基於語音辨識的售票系統(ticket booking system),它可以輸入一段語音,它可以從裡面挑出抵達日期(time of arrival)跟目的地(Destination)。

results matching ""

    No results matching ""