Powered by GitBook

將口語轉成知之為知之，清楚比正確重要

Before	After
到目前為止，我們考慮的問題，他的input其實都是一個vector，output都是另外一個vector。不管我們是在作SVM，還是在作Deep Learning的時後。我們的input或output都只是vector而已。但實際上我們要面對的問題往往比這個更困難。我們可能需要input或是output事一個sequence，我們可能需要output事一個list。Output 事一個tree。Output 事一個bounding box等等。像你在representation 的final裡面。你可能希望你的output就直接室一個list，而不是一個一個element	SVM、Deep Learning NN模型的input和output都是vector。實際上應用情境的input 與output型式可能比vector更複雜。例如，output可能一個sequence，可能一個list。可能是一個tree，可能是一個bounding box，…等等。
那structure learning怎麼做呢?雖然這個structure learning呢聽起來好像很困難。但實際上呢。他有一個unified的framework。怎麼做呢。在training的時候。我們就是找一個function。這個function 我們這邊寫作大寫的F，這個大寫的F他的input根output。他的input是X根Y。我們之前是找一個小寫的function f他的input是x。現在不一樣我們找一個大寫的F 他的input就是X根Y。他的output就是一個real number 。這個大寫F他做的事情。就是衡量說當我的input是X根Y的時候。Structure的Object(這個X根Y)。這個X根Y他們有多匹配。OK 越匹配的話，大寫F他output的值就越大。那testing的時候呢。Testing的時候我們要怎麼做呢。給一個新的X，我們去窮舉所有的可能的Y，窮舉所有可能的Y一一代進大寫的F這個function看看哪一個Y他可以讓F的值最大。那假設可以讓F的值最大，可以讓F的值的那個Y教作Y delta。就是你最後辨識的結果。就是你model的output。那你會說原來小寫的f呢原來想要做的事情。是找一個小寫的f input x output y 那這個小寫的f input x output y就可以把他想成這個小寫的f 其實就是。Arg max 窮舉所有的y F(x,y)這個東西就是小寫的f。	structured learning有一個unified的framework：在training的時候，找一個function，F，其作用為衡量X與Y有多匹配。越匹配的話，F的output的值越大。在testing的時候。給定一個X，再窮舉所有的可能的Y，其中，所求的y是使F最大值的y，output出來的y，表示為 $\tilde{y}$ 。
舉個例子，如果我們要建一個基於語音辨識的售票系統(ticket booking system)，它可以輸入一段語音，它可以從裡面挑出抵達日期(time of arrival)跟目的地(Destination)。

results matching ""

No results matching ""